Dữ liệu ở đâu! Nên lấy dữ liệu từ nguồn nào để giải quyết vấn đề đặt ra? ??
Đó là câu hỏi của nhiều bạn khi bắt tay vào một dự án khoa học dữ liệu. Thật vậy, việc tìm ra một bộ dữ liệu chính là bước đầu tiên và quan trọng nhất đối với dự án. Câu hỏi trên chắc hẳn tiêu tốn thời gian của bạn rất nhiều, thậm chí có thể mất vài tháng chỉ để sưu tầm được bộ dữ liệu phù hợp với bài toán ban đầu. Bài viết này hướng đến mục tiêu hỗ trợ các bạn tìm thấy các nguồn dữ liệu hữu ích mà lại hoàn toàn FREE.
1. Kaggle
Kaggle được xem là một nền tảng được tin dùng rất nhiều trong cộng đồng khoa học dữ liệu bởi vì nguồn dữ liệu mở ở đây rất phong phú. Các chủ đề phổ biến như tài chính, ngân hàng, giáo dục, y khoa; đủ mọi lĩnh vực máy học, thị giác máy tính, xử lý ngôn ngữ tự nhiên, …; đa dạng về loại dữ liệu csv, json, SQLite, …
2. Awesome Public Datasets
Repo này mình vô tình thấy được vì nó được rất nhiều người quan tâm (46.6K stars và 8.3K lượt fork). Điều mình ấn tượng ở đây chính là cách bố cục dataset theo từng chủ đề giúp mình thuận tiện hơn trong việc tìm kiếm. Hy vọng trang này sẽ giúp bạn tối ưu hóa thời gian tìm nguồn dữ liệu.
3. UCI Machine Learning Repository
UCI Machine Learning Repository là nơi lưu trữ các bộ dữ liệu phục vụ cho việc phân tích đánh giá các thuật toán máy học. Trang này được sử dụng rộng rãi bởi những sinh viên, giảng viên và nhà nghiên cứu trên toàn thế giới như một nguồn chính của bộ dữ liệu về máy học. Bên cạnh đó, nó còn được trích dẫn hơn 1000 lần và trở thành một trong 100 "papers" được trích dẫn nhiều nhất trong tất cả các ngành khoa học máy tính.
4. Data.gov
Website này chứa rất nhiều bộ dữ liệu trong nhiều lĩnh vực khác nhau và được duy trì bởi chính phủ Mỹ. Nếu bạn đang có vấn đề về dữ liệu thì đây chính là một nguồn đáng tham khảo.
5. Web Scraping
Ngoài việc “ngồi mát ăn bát vàng”, thì bạn có thể tự mình tạo ra bộ dữ liệu của riêng mình bằng cách sử dụng kĩ thuật web scraping. Hiện tại có rất nhiều tutorial hướng dẫn chi tiết nên việc này rất đơn giản. Tuy nhiên cần lưu ý về các chính sách bảo mật hiện hành của website mà bạn dự định thu thập để trách bất cập về sau này. Nếu các bạn cảm thấy cần thiết thì mình sẽ làm một bài hướng dẫn để scape từ a đến á luôn nhé ?