Chào mọi người, dạo gần đây mình có thời gian nên tìm hiểu bài bản vể việc học DA từ đầu nên bắt đầu như thế nào, Vì vậy hôm nay mình cũng viết bài chia sẻ những gì mình đã tìm hiểu trong thời gian vừa qua.
Để trở thành một nhà phân tích dữ liệu thì chúng ta cần học và có những kỹ năng sau:
Kiến thức về Data, Database
Muốn phân tích được data thì việc hiểu data là gì rất là quan trọng,Data (hay còn gọi là số liệu, dữ liệu) là tập hợp thông tin bao gồm các số, từ hoặc hình ảnh, được chia làm dữ liệu thô và dữ liệu đã được xử lý. Data có nhiều kiểu như:
- Có cấu trúc (bảng biểu)
- Không có cấu trúc (giọng nói, âm thanh, ....)
- Kết hợp cả 2 loại trên (bán cấu trúc)
Database là một tập hợp liên kết các dữ liệu, lưu trên một thiết bị lưu trữ, được duy trì dưới dạng một tập hợp các tập tin trong hệ điều hành hay được lưu trữ trong các hệ quản trị cơ sở dữ liệu. Mọi người có thể tìm hiểu thêm ở đây nhé.
SQL
SQL là viết tắt của Structured Query Language, là ngôn ngữ truy vấn có cấu trúc, cho phép bạn truy cập và thao tác với các cơ sở dữ liệu để tạo, xóa, sửa đổi, trích xuất dữ liệu. SQL khá là cần thiết đối với 1 DA, nếu như bạn cần lấy dữ liệu theo ý muốn của mình mà không muốn nhờ đến DE vì DE đang quá bận hoặc 1 lí do nào đó. Việc thành thạo SQL mình thấy đây là yêu cầu mà trong JD nào của DA cũng có hết á. Mọi người có thể tự học SQL ở các nguồn sau đây mọi người có thể tìm hiểu các khóa học online hoặc sách nhé : w3schools.com www.programiz.com
Kiến thức business
Về phần này sẽ là lợi thế của các bạn có background Kinh tế, finance hơn so với mình là dân kĩ thuật, tuy nhiên nếu như mọi người cũng có background kĩ thuật như mình thì có thể học qua các casestudy trên kaggle, ...
Statistic
Kiến thức thống kê là cực kì cần thiết đối với DA. Nếu như mình được quay lại là sinh viên mình sẽ học hành môn này chăm chỉ hơn )), Vì vậy nếu bạn đang là sinh viên thì hãy chăm chỉ học môn này đi nha. Còn nếu ai đã qua thời sinh viên thì bây giờ đành phải tự học lại như mình vậy :v . Mình đang học lại từ quyển sách này
Hoặc mọi người có thể tham khảo khóa học này của coursera
TOOL visualize dữ liệu
Có rất nhiều tool có sẵn để bạn trực quan hóa dữ liệu cũng như tạo Dashboard để show cho sếp hay khách hàng. Hoặc như một số bạn bên kinh tế thường hay dùng Excel để tạo báo cáo. CÒn những Tool hiện đại hơn thì có Power BI, Tableau ( mọi người có thể xem mấy bài viết về tableau của mình ở đây) . Mấy tool này mình nghĩ mọi người xem youtube rồi tự thực hành khoảng 1 vài tuần là sẽ ok hơn thôi ).
Python
Bên cạnh tool trực quan hóa dữ liệu thì bạn có thể dùng code để tự trực quan hóa dữ liệu, với python mình sẽ làm chủ dữ liệu tốt hơn và visualize data theoys mình mong muốn tốt hơn. Mình để python sau cùng vì nó sẽ khá khó với những bạn Nontech còn với những bạn dân IT hay Tech thì sẽ nhẹ nhàng hơn. Python có thư viện Pandas support cực kì mạnh và mọi người có thể tham khảo khóa, Pandas for Data Analysis của team mình.
Kết Luận
Trên đây là những kĩ năng skill mình thấy cần trong công việc phân tích dữ liệu theo quan điểm của mình. Nếu có gì sai sót hay thiếu thì mong nhận được sự đóng góp của mọi người, vì mình cũng mới bắt đầu thôi, có bạn nào đang làm DA có thể góp ý cho mình phần business học ở đâu không ạ .
Đừng quên Upvoted bài viết nha mọi người ))
Reference
https://www.w3schools.com/sql/
https://viblo.asia/p/database-bai-1-database-la-cai-gi-4dbZNRqvZYM
https://www.coursera.org/learn/statistics-for-data-science-python