- vừa được xem lúc

[Python Library Series] Pandas Tutorial for Beginners Part 1

0 0 42

Người đăng: Nguyễn Xuân Tính

Theo Viblo Asia

Pandas là thư viện rất quan trọng đối với các lập trình viên Python hiện nay. Thư viện này được ví như backbone của hầu hết các dự án dữ liệu.

Nếu bạn đang có dự định theo ngành khoa học dữ liệu thì điều bắt buộc mà bạn phải làm là tìm hiểu về Pandas. Hy vọng sau chuỗi bài đăng này, chúng ta sẽ biết được những thông tin cần thiết về cách cài đặt, cách sử dụng và cách nó hoạt động với các gói phân tích dữ liệu Python phổ biến khác.

Note: Trước khi tìm hiểu Pandas, bạn nên có kiến thức nền về Python (lists, tuples, dictionaries, functions, and iterations)

Nếu bạn đã sẵn sàng thì chúng ta cùng bắt đầu thôi nào ^^

1. Install and import

Đầu tiên, bạn phải cài đặt gói của thư viện Pandas vào môi trường của mình. Có 2 cách đơn giản như sau:

conda install pandas hoặc pip install pandas

Sau đó, mỗi khi sử dụng thì bạn chỉ cần import nó vào chương trình của mình bằng cách chạy lệnh import pandas as pd

Pandas có 2 thành phần chính đó là SeriesDataFrame. Để bạn dễ hình dung thì ta xem DataFrame như là một bảng dữ liệu 2 chiều, trong đó mỗi cột tương ứng là Series

2. How to create DataFrame

Cách đơn giản nhất để tạo một DataFrame là xây dựng từ một Dictionary.

Giả sử ta cần lưu lại lịch sử mua hàng thì DataFrame này sẽ gồm những cột tương ứng với mỗi mặt hàng và mỗi dòng là số lượng mà khách hàng đã chọn. Ví dụ gian hàng này chỉ có 2 loại là cam và táo, có 4 khách hàng đến mua hàng. Chúng ta sẽ tổ chức dữ liệu dưới dạng các cặp key : value như trong đoạn code sau:

import pandas as pd data = { 'apples': [3, 2, 0, 1], 'oranges': [0, 3, 7, 2]
} #load data into a DataFrame object:
df = pd.DataFrame(data) print(df) 

Kết quả ta sẽ được ouput:

Mặc định Pandas sẽ tạo thêm một cột Index ở phía trước để giúp ta dễ dàng truy vấn về sau. Để lấy thông tin khách hàng đầu tiên ta làm bằng cách:

print(df.loc[0])

Ngoài ra ta có định dạng lại cột Index bằng cách thêm index vào lúc tạo DataFrame

import pandas as pd data = { 'apples': [3, 2, 0, 1], 'oranges': [0, 3, 7, 2]
} #load data into a DataFrame object:
df = pd.DataFrame(data, index = ["An", "Bình", "Minh", "Hoàng"]) print(df) 

Kết quả là

3. Get info about DataFrame

Viewing your data

df.head() #hiển thị mặc định 5 dòng đầu trong dataframe
df.head(20) # hiển thị 20 dòng đầu trong dataframe
hoặc
df.tail() #hiển thị mặc định 5 dòng cuối trong dataframe
df.tail(10) # hiển thị 10 dòng đầu cuối dataframe

Getting info about your data

df.info()

Summary

Việc hiểu tường tận một thư viện trong một thời gian ngắn rất khó, chính vì thế mình sẽ chia nhỏ các phần ra để các bạn có hứng thú học tập hơn. Mình tin chắc rằng thông qua Part 1 thì chúng ta đã hiểu về DataFrame là gì? Cách tạo và xem thông tin DataFrame bằng cách rất đơn giản.

Ở bài viết sau mình sẽ làm rõ cách thao tác với Pandas để làm sạch và xử lý dữ liệu. Hẹn gặp lại các bạn ở Part 2.

Tài liệu tham khảo

  1. Applied Data Science with Python - Coursera
  2. 100 Days of Code: The Complete Python Pro Bootcamp for 2022 - Udemy
  3. Pandas Tutorial - W3School
  4. Python Pandas Tutorial: A Complete Introduction for Beginners

Bình luận

Bài viết tương tự

- vừa được xem lúc

Lớp trong Python

. Hôm ni, mình học tiếp về bạn “Lớp(class) trong python”, bài blog tiếp theo nằm trong series “Khám phá Đại Bản Doanh Python”(nội dung trong bài series này từ chủ yếu mình lấy từ python.org rồi viết lại hoặc dịch lại theo ngôn ngữ của mình).

0 0 33

- vừa được xem lúc

Tổng quan về Recommender System [Recommender System cơ bản - Phần 1]

Giới thiệu. Recommender System là một trong những ứng dụng phổ biến nhất của khoa học dữ liệu ngày nay.

0 0 367

- vừa được xem lúc

Gotchas trong Python

Python là một ngôn ngữ quen thuộc của hầu hết những người mới lập trình. Phần lớn bởi vì Python khá đơn giản trong cấu trúc, có nhu cầu cao và đặc biệt Python là một ngôn ngữ được ứng dụng cực kì rộng

0 0 34

- vừa được xem lúc

Hướng dẫn cơ bản framework FastAPI từ A -> Z (Phần 1)

Lời mở đầu. Chào các bạn, hôm nay tôi xin giới thiệu với các bạn về 1 framework API mà tôi mới vọc vạch mấy tuần trước.

0 0 111

- vừa được xem lúc

[Python Library Series] Pandas Tutorial for Beginners Part 2

Ở Part 1 chúng ta đã đi qua các bước hướng dẫn cách cài đặt Pandas, cách tạo và xem thông tin của một Dataframe. Như đã đề cập ở phần trước thì nội dung trong Part 2 này giúp chúng ta làm quen các tha

0 0 42

- vừa được xem lúc

Python thực chiến cùng Mow - Bài 1 - Khai báo biến & Nhập - Xuất dữ liệu cơ bản

Bài trước Mow đã nói sương sương về <a href="https://mowblog.hashnode.

0 0 32