[Liệu bạn có biết] Bài 3: Data analyst và Data processing trong 1 nốt nhạc

0 0 28

Người đăng: CisMine

Theo Viblo Asia

Khi xử lí bài toán Machine Learning thì bước đầu tiên không thể thiếu là data analyst và data processing thì ở bài viết này mình sẽ hướng dẫn các bạn cách xử lí 2 vấn đề này trong 1 nốt nhạc

Data analyst và Data processing trong 1 nốt nhạc

Các bước tiêu chuẩn khi xử lí 1 file csv bất kì là:

Kiểm tra kiểu dữ liệu của các features
Kiểm tra Missing/ Outlier/ Duplicate values
Phân tích sâu hơn về data như: stastistics, sự phân bổ của data,...

Chung quy lại là có rất nhiều bước và sẽ mất kha khá thời gian để chúng ta code cũng như phân tích thì YData đã tạo ra thư viện ydata_profiling giúp chúng ta xử lí các công việc này

Cách sử dụng

Bạn có thể cài đặt ydata_profiling bằng câu lệnh:

pip install ydata-profiling

Demo

import pandas as pd
from ydata_profiling import ProfileReport df = pd.read_csv('data.csv')
profile = ProfileReport(df, title="Profile csv", explorative=True)
profile.to_file("output.html")

Chỉ đơn giản 2 dòng các bạn đã có file html đầy đủ phân tích thống kê về data của các bạn

Hi vọng bài viết này sẽ giúp ích cho các bạn

Bình luận

Bài viết tương tự

19/02/2021 - vừa được xem lúc 15/09/2025

[Series Pandas DataFrame] Phân tích dữ liệu cùng Pandas (Phần 3)

Tiếp tục phần 2 của series Pandas DataFrame nào. Let's go!!. Ở phần trước, các bạn đã biết được cách lấy dữ liệu một row hoặc column trong Pandas DataFame rồi phải không nào. 6 Hoc.

1 1 161

21/01/2021 - vừa được xem lúc 23/09/2025

[Series Pandas DataFrame] Phân tích dữ liệu cùng Pandas (Phần 2)

Nào, chúng ta cùng đến với phần 2 của series Pandas DataFrame. Truy xuất Labels và Data. Bạn đã biết cách khởi tạo 1 DataFrame của mình, và giờ bạn có thể truy xuất thông tin từ đó. Với Pandas, bạn có thể thực hiện các thao tác sau:.

0 0 193

18/12/2020 - vừa được xem lúc 15/09/2025

[Series Pandas DataFrame] Phân tích dữ liệu cùng Pandas (Phần 1)

Pandas DataFrame là một cấu trúc chứa dữ liệu hai chiều và các nhãn tương ứng của nó. DataFrames được sử dụng rộng rãi trong data science, machine learning, scientific computing và nhiều lĩnh vực sử dụng nhiều dữ liệu khác.

0 0 44

28/06/2021 - vừa được xem lúc 11/09/2025

Buổi hẹn hò đầu tiên với bộ dữ liệu, chúng ta nên làm gì?

Khi có một bộ dữ liệu trong tay, phần lớn những newbie (trong đó có cả mình) sẽ nghĩ tới việc bắt tay vào mô hình hoá, tính toán, phân tích, thậm chí bê nguyên các model machine learning vào để predic

0 0 43

25/07/2021 - vừa được xem lúc 15/09/2025

[Series Pandas DataFrame] Phân tích dữ liệu cùng Pandas (Phần 7)

Làm việc với Time Series trong Pandas. Pandas thật sự vượt trội trong việc xử lý với Time Series.

0 0 51

24/11/2021 - vừa được xem lúc 15/09/2025

[Python Library Series] Pandas Tutorial for Beginners Part 1

Pandas là thư viện rất quan trọng đối với các lập trình viên Python hiện nay. Thư viện này được ví như backbone của hầu hết các dự án dữ liệu. . Note:.

0 0 57