- vừa được xem lúc

Data Resource - A core component in Data Science

0 0 27

Người đăng: Tinh Nguyen

Theo Viblo Asia

Dữ liệu ở đâu! Nên lấy dữ liệu từ nguồn nào để giải quyết vấn đề đặt ra? ??

Đó là câu hỏi của nhiều bạn khi bắt tay vào một dự án khoa học dữ liệu. Thật vậy, việc tìm ra một bộ dữ liệu chính là bước đầu tiên và quan trọng nhất đối với dự án. Câu hỏi trên chắc hẳn tiêu tốn thời gian của bạn rất nhiều, thậm chí có thể mất vài tháng chỉ để sưu tầm được bộ dữ liệu phù hợp với bài toán ban đầu. Bài viết này hướng đến mục tiêu hỗ trợ các bạn tìm thấy các nguồn dữ liệu hữu ích mà lại hoàn toàn FREE.

1. Kaggle

Kaggle được xem là một nền tảng được tin dùng rất nhiều trong cộng đồng khoa học dữ liệu bởi vì nguồn dữ liệu mở ở đây rất phong phú. Các chủ đề phổ biến như tài chính, ngân hàng, giáo dục, y khoa; đủ mọi lĩnh vực máy học, thị giác máy tính, xử lý ngôn ngữ tự nhiên, …; đa dạng về loại dữ liệu csv, json, SQLite, …

2. Awesome Public Datasets

Repo này mình vô tình thấy được vì nó được rất nhiều người quan tâm (46.6K stars và 8.3K lượt fork). Điều mình ấn tượng ở đây chính là cách bố cục dataset theo từng chủ đề giúp mình thuận tiện hơn trong việc tìm kiếm. Hy vọng trang này sẽ giúp bạn tối ưu hóa thời gian tìm nguồn dữ liệu.

3. UCI Machine Learning Repository

UCI Machine Learning Repository là nơi lưu trữ các bộ dữ liệu phục vụ cho việc phân tích đánh giá các thuật toán máy học. Trang này được sử dụng rộng rãi bởi những sinh viên, giảng viên và nhà nghiên cứu trên toàn thế giới như một nguồn chính của bộ dữ liệu về máy học. Bên cạnh đó, nó còn được trích dẫn hơn 1000 lần và trở thành một trong 100 "papers" được trích dẫn nhiều nhất trong tất cả các ngành khoa học máy tính.

4. Data.gov

Website này chứa rất nhiều bộ dữ liệu trong nhiều lĩnh vực khác nhau và được duy trì bởi chính phủ Mỹ. Nếu bạn đang có vấn đề về dữ liệu thì đây chính là một nguồn đáng tham khảo.

5. Web Scraping

Ngoài việc “ngồi mát ăn bát vàng”, thì bạn có thể tự mình tạo ra bộ dữ liệu của riêng mình bằng cách sử dụng kĩ thuật web scraping. Hiện tại có rất nhiều tutorial hướng dẫn chi tiết nên việc này rất đơn giản. Tuy nhiên cần lưu ý về các chính sách bảo mật hiện hành của website mà bạn dự định thu thập để trách bất cập về sau này. Nếu các bạn cảm thấy cần thiết thì mình sẽ làm một bài hướng dẫn để scape từ a đến á luôn nhé ?

Bình luận

Bài viết tương tự

- vừa được xem lúc

Bạn cần gì để có thể trở thành một hacker mũ trắng?

Tổng quan. Trong quá trình làm việc cũng như tham gia giảng dạy các khóa học, mình thưỡng xuyên nhận được những câu hỏi của các bạn như: Làm sao bắt đầu học bảo mật vậy anh? Hay làm hacker thì cần bắt

1 1 289

- vừa được xem lúc

Yếu tố nào để trở thành International Software Engineer?

Bài viết xoay quanh ý kiến quan điểm cá nhân và kinh nghiệm thực tế mình đã trải qua. Một khi đã trở thành ISE thì $$$ không còn là mục tiêu quá quan trọng.

0 0 35

- vừa được xem lúc

Doanh nghiệp không trả lương tương xứng cho giá trị của nhân viên

Việc deal lương khi phỏng vấn luôn là một vấn đề cực kì nhạy cảm của tất cả ngành nghề. Bản thân mình lúc nào cũng suy nghĩ tại sao các công ty không public lương lậu ở trên JD luôn (có một số nơi làm

0 0 18

- vừa được xem lúc

Nhập môn lý thuyết cơ sở dữ liệu - Phần 1 : Tổng quan

# Trong bài viết này mình sẽ tập trung vào chủ đề tổng quan về Cơ sở dữ liệu. Phần 1 lý thuyết nên hơi chán các bạn cố gắng đọc nhé, chắc lý thuyết mới làm bài tập được, kiến thức còn nhiều các bạn cứ

0 0 96

- vừa được xem lúc

Nhập môn lý thuyết cơ sở dữ liệu - Phần 2: Mô hình thực thể liên kết

**Chào các bạn, hôm nay mình tiếp tục viết tiếp phần 2 cho series Nhập môn lý thuyết cơ sở dữ liệu. Chắc hẳn qua bài trước các bạn tìm được lý do vì sao mình phải học môn này rồi chứ.

0 0 58

- vừa được xem lúc

[Python Library Series] Pandas Tutorial for Beginners Part 2

Ở Part 1 chúng ta đã đi qua các bước hướng dẫn cách cài đặt Pandas, cách tạo và xem thông tin của một Dataframe. Như đã đề cập ở phần trước thì nội dung trong Part 2 này giúp chúng ta làm quen các tha

0 0 27