- vừa được xem lúc

Các kiểu dữ liệu - Types of Data - [Data Analyst Series]

0 0 29

Người đăng: Hoàng Đinh

Theo Viblo Asia

Dữ liệu là thông tin không có tổ chức được xử lý để làm cho nó có ý nghĩa. Dữ liệu bao gồm các sự kiện, quan sát, nhận thức, số, ký tự, biểu tượng và hình ảnh có thể được giải thích để có được ý nghĩa. Một trong những cách mà dữ liệu có thể được phân loại là theo cấu trúc của nó. Dữ liệu có thể là: Structured (có cấu trúc); Semi-structured (Bán cấu trúc), Unstructured (phi cấu trúc).

1. Structured data

Dữ liệu có cấu trúc là dữ liệu tuân thủ rõ ràng với mô hình dữ liệu được chỉ định, có thể được lưu trữ trong các lược đồ được xác định rõ như cơ sở dữ liệu và trong nhiều trường hợp có thể được biểu diễn theo các bảng gồm các hàng và cột. Dữ liệu có cấu trúc có thể được thu thập, xuất, lưu trữ và tổ chức trong cơ sở dữ liệu. Một số nguồn dữ liệu có cấu trúc có thể bao gồm:

  • Cơ sở dữ liệu SQL
  • Các hệ thống xử lý giao dịch trực tuyến (như OLTP) tập trung vào các giao dịch kinh doanh
  • Bảng tính như Excel và bảng tính Google
  • Biểu mẫu trực tuyến
  • Các cảm biến như hệ thống định vị toàn cầu (GPS và RFID)
  • Dữ liệu mạng và web. Bạn có thể lưu trữ dữ liệu có cấu trúc trong cơ sở dữ liệu quan hệ hoặc SQL. Bạn cũng có thể dễ dàng kiểm tra dữ liệu có cấu trúc với các phương pháp và công cụ phân tích dữ liệu tiêu chuẩn

2. Semi-structured data

Dữ liệu bán cấu trúc là dữ liệu có một số thuộc tính tổ chức nhưng thiếu lược đồ cố định hoặc ràng buộc. Dữ liệu bán cấu trúc không thể được lưu trữ dưới dạng các hàng và cột như trong cơ sở dữ liệu. Nó chứa các thẻ và phần tử, hoặc siêu dữ liệu, được sử dụng để nhóm dữ liệu và sắp xếp nó theo hệ thống phân cấp. Một số nguồn dữ liệu bán cấu trúc có thể bao gồm:

  • E-mail, XML và các ngôn ngữ đánh dấu khác
  • TCP/IP Package
  • Tệp bị nén
  • Dữ liệu tích hợp. XML và JSON cho phép người dùng xác định các thẻ và thuộc tính để lưu trữ dữ liệu ở dạng phân cấp và được sử dụng rộng rãi để lưu trữ và trao đổi dữ liệu bán cấu trúc.

3. Unstructured data

Dữ liệu phi cấu trúc là dữ liệu không có cấu trúc dễ nhận dạng và do đó, không thể được tổ chức trong cơ sở dữ liệu quan hệ chính thống dưới dạng các hàng và cột. Nó không tuân theo bất kỳ định dạng, trình tự, ngữ nghĩa hoặc quy tắc cụ thể nào. Dữ liệu phi cấu trúc có thể sử dụng khi có sự không đồng nhất của các nguồn và có nhiều ứng dụng phân tích kinh doanh. Một số nguồn dữ liệu phi cấu trúc có thể bao gồm:

  • Các website
  • Dữ liệu truyền thông xã hội
  • Hình ảnh ở các định dạng tệp khác nhau (JPEG, GIF và PNG,..)
  • Tệp video và âm thanh
  • Tài liệu và tệp PDF
  • PowerPoint
  • Media logs và khảo sát. Dữ liệu phi cấu trúc có thể được lưu trữ trong các tệp và tài liệu (chẳng hạn như tài liệu Word) để phân tích thủ công hoặc trong cơ sở dữ liệu NoQuery có các công cụ phân tích riêng để kiểm tra loại dữ liệu này.

Tổng kết

Tổng kết lại:

  • Dữ liệu có cấu trúc là dữ liệu được tổ chức tốt trong các định dạng có thể được lưu trữ trong cơ sở dữ liệu và có thể sử dụng phương thức và công cụ phân tích dữ liệu tiêu chuẩn;
  • Dữ liệu bán cấu trúc là dữ liệu được tổ chức và dựa vào các thẻ meta để nhóm và phân cấp;
  • Dữ liệu phi cấu trúc là dữ liệu không được tổ chức theo quy ước dưới dạng các hàng và cột ở một định dạng cụ thể

Tham khảo từ khoá học Data Analyst của IBM

Bình luận

Bài viết tương tự

- vừa được xem lúc

Data bias trong phân tích dữ liệu

Hi các bạn, để tiếp tục chuỗi bài chia sẻ về nghiệp vụ của BA, hôm nay mình sẽ chia sẻ một chút về Data analysis (phân tích dữ liệu) - một kỹ thuật khá là rộng và cũng rất quan trọng với BA trong thời

1 0 113

- vừa được xem lúc

Data Mining - Khai phá dữ liệu - [Data Science Series]

I. Data Mining là gì. Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán. 1.

0 0 40

- vừa được xem lúc

Data Science, công việc hấp dẫn nhất thế kỷ 21 - [Data Science Series]

I. Data Science, công việc hấp dẫn nhất thế kỷ 21.

0 0 37

- vừa được xem lúc

Thao tác cơ bản với khung dữ liệu trong R (phần 1)

Giới thiệu. R là một ngôn ngữ lập trình bậc cao, nó được tạo ra với mục đích dành cho các công việc liên quan đến phân tích dữ liệu, thống kê và học máy.

0 0 32

- vừa được xem lúc

Thao tác cơ bản với khung dữ liệu trong R (phần 2)

Giới thiệu. R là một ngôn ngữ lập trình bậc cao, nó được tạo ra với mục đích dành cho các công việc phân tích dữ liệu, thống kê và học máy.

0 0 23

- vừa được xem lúc

Ngôn ngữ lập trình sử dụng trong Data Science - [Data Science Series]

Có một số lượng lớn các lựa chọn khi nói đến ngôn ngữ lập trình nói riêng và ngôn ngữ lập trình trong Data Science . Mỗi người đều có điểm mạnh và điểm yếu của riêng và sẽ không có ai trả lời đúng cho

0 0 28