- vừa được xem lúc

Dataset, sức mạnh của Data Science - [Data Science Series]

0 0 31

Người đăng: Hoàng Đinh

Theo Viblo Asia

Trong bài viết này, mình sẽ giới thiệu về Dataset: chúng là gì, tại sao chúng lại quan trọng trong khoa học dữ liệu và tìm Dataset ở đâu.

1. Dataset

Một Dataset là một bộ sưu tập data có cấu trúc. Data thể hiện thông tin có thể được biểu diễn dưới dạng văn bản, số hoặc phương tiện như hình ảnh, âm thanh hoặc tệp video.

  • Một Dataset được cấu trúc dưới dạng dữ liệu bảng bao gồm một tập hợp các hàng, từ đó bao gồm các cột lưu trữ thông tin. Một định dạng dữ liệu dạng bảng phổ biến là "comma separated values" hay còn gọi là CSV. Tệp CSV là một tệp văn bản được phân định trong đó mỗi dòng đại diện cho một hàng và giá trị dữ liệu được phân tách bằng dấu phẩy. Ví dụ, hãy tưởng tượng một bộ Dataset quan sát từ một trạm thời tiết. Mỗi hàng đại diện cho một quan sát tại một thời điểm nhất định, trong khi mỗi cột chứa thông tin về quan sát cụ thể đó, chẳng hạn như nhiệt độ, độ ẩm và các điều kiện thời tiết khác.
  • Các cấu trúc dữ liệu phân cấp hoặc dữ liệu network thường được sử dụng để biểu thị mối quan hệ giữa dữ liệu. Dữ liệu phân cấp được tổ chức theo cấu trúc giống như cây, trong khi dữ liệu network có thể được lưu trữ dưới dạng đồ thị. Ví dụ, các kết nối giữa những người trên một trang web mạng xã hội thường được thể hiện dưới dạng biểu đồ.
  • Một bộ Dataset cũng có thể bao gồm các tệp dữ liệu thô, chẳng hạn như hình ảnh hoặc âm thanh. Bộ dữ liệu MNIST khá là phổ biến cho khoa học dữ liệu, nó chứa hình ảnh các chữ số viết tay và thường được sử dụng để đào tạo các hệ thống xử lý hình ảnh.

2. Quyền sở hữu Data

Private data

Hầu hết các bộ dữ liệu được coi là riêng tư vì chúng chứa thông tin độc quyền hoặc bí mật như:

  • Dữ liệu khách hàng
  • Dữ liệu giá cả
  • Thông tin thương mại nhạy cảm khác. Các bộ Dataset này thường không được chia sẻ công khai.

Open data

Theo thời gian, ngày càng có nhiều tổ chức công và tư nhân bắt đầu cung cấp các bộ dataset cho công chúng là "Open data", cung cấp nhiều thông tin miễn phí:

  • Các tổ chức khoa học
  • Chính phủ và thậm chí
  • Các tổ chức, doanh nghiệp Ví dụ, Liên Hợp Quốc, Chính phủ Liên bang, Thành phố trên thế giới đã công bố nhiều bộ dữ liệu trên trang web của họ, bao gồm về kinh tế, xã hội, chăm sóc sức khỏe, giao thông, môi trường, .... Truy cập vào các Open data cho phép các nhà khoa học dữ liệu, nhà nghiên cứu, nhà phân tích và những người khác phát hiện ra những insight chưa biết và có khả năng hữu ích. Họ có thể tạo ra các ứng dụng mới cho cả mục đích thương mại và lợi ích công cộng. Họ cũng có thể thực hiện nghiên cứu mới. Open data đã đóng một vai trò quan trọng trong sự phát triển của khoa học dữ liệu, học máy và trí tuệ nhân tạo và đã cung cấp một cách để chúng ta trau dồi kỹ năng trên nhiều bộ data khác nhau.

3. Tìm dataset ở đâu

Có nhiều nguồn dữ liệu mở trên Internet: Bạn có thể tìm thấy một danh sách toàn diện các cổng dữ liệu mở từ khắp nơi trên thế giới trên trang web Datacatalogs.org của Liên Hợp Quốc, Liên minh châu Âu và nhiều tổ chức chính phủ và liên chính phủ khác duy trì kho dữ liệu cung cấp quyền truy cập vào một loạt thông tin. Trên Kaggle, một cộng đồng khoa học trực tuyến, bạn có thể tìm thấy và đóng góp các bộ dữ liệu có thể được mọi nguiuwf quan tâm. Cuối cùng nhưng không kém phần quan trọng, Google cung cấp một công cụ tìm kiếm cho các bộ dữ liệu có thể giúp bạn tìm thấy các công cụ có giá trị đặc biệt cho bạn. Điều quan trọng là phải nhận ra rằng phân phối và sử dụng dữ liệu mở có thể bị hạn chế.

Tham khảo từ quyển Getting Started with Data Science của IBM

Bình luận

Bài viết tương tự

- vừa được xem lúc

Nhập môn lý thuyết cơ sở dữ liệu - Phần 1 : Tổng quan

# Trong bài viết này mình sẽ tập trung vào chủ đề tổng quan về Cơ sở dữ liệu. Phần 1 lý thuyết nên hơi chán các bạn cố gắng đọc nhé, chắc lý thuyết mới làm bài tập được, kiến thức còn nhiều các bạn cứ

0 0 112

- vừa được xem lúc

Nhập môn lý thuyết cơ sở dữ liệu - Phần 2: Mô hình thực thể liên kết

**Chào các bạn, hôm nay mình tiếp tục viết tiếp phần 2 cho series Nhập môn lý thuyết cơ sở dữ liệu. Chắc hẳn qua bài trước các bạn tìm được lý do vì sao mình phải học môn này rồi chứ.

0 0 68

- vừa được xem lúc

[Python Library Series] Pandas Tutorial for Beginners Part 2

Ở Part 1 chúng ta đã đi qua các bước hướng dẫn cách cài đặt Pandas, cách tạo và xem thông tin của một Dataframe. Như đã đề cập ở phần trước thì nội dung trong Part 2 này giúp chúng ta làm quen các tha

0 0 41

- vừa được xem lúc

Data Resource - A core component in Data Science

Dữ liệu ở đâu! Nên lấy dữ liệu từ nguồn nào để giải quyết vấn đề đặt ra? . Đó là câu hỏi của nhiều bạn khi bắt tay vào một dự án khoa học dữ liệu.

0 0 36

- vừa được xem lúc

Data Mining - Khai phá dữ liệu - [Data Science Series]

I. Data Mining là gì. Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán. 1.

0 0 40

- vừa được xem lúc

Data Science, công việc hấp dẫn nhất thế kỷ 21 - [Data Science Series]

I. Data Science, công việc hấp dẫn nhất thế kỷ 21.

0 0 37