- vừa được xem lúc

Các hàm pandas mà Data Scientists hay dùng với nguyên tắc 80/20 [Phần 2]

0 0 34

Người đăng: kien ly

Theo Viblo Asia

Các bạn có thể đọc phần trước của bài viết tại đây.

11.Xóa cột

Nếu bạn muốn bỏ một hoặc nhiều cột khỏi DataFrame, hãy sử dụng phương thức drop() như được minh họa bên dưới:

import pandas as pd df = pd.DataFrame([[1,"A"], [2,"B"]], columns = [“coli", "“col2"]) df.drop(columns = ["col2"]) """ col1
0 1
l 2
"""

Đọc thêm tại đây.

12. GroupBy:

Nếu bạn muốn thực hiện thao tác tổng hợp sau khi nhóm, hãy sử dụng phương thức groupby() như được minh họa bên dưới:

import pandas as pd df = pd.DataFrame([[1,"A"], [2,"B"], [3,"A"], [4,"C"]], columns = ["col1", "col2"]) df.groupby("col2").col1.sum()
""" Col2
A 4
B 2
C 4
"""

Đọc thêm tại đây.

13. Giá trị duy nhất trong cột:

Nếu bạn muốn đếm hoặc in giá trị duy nhất trong một cột của DataFrame, hãy sử dụng phương thức unique() hoặc nunique() như được minh họa bên dưới:

import pandas as pd df = pd.DataFrame([[1,"A"], [2,"B"], [3,"A"], [4,"C"]], columns = ["col1", "col2"]) # Print Unique values
df.col2.unique()
"""
['A','B','C']
""" # Number of unique values
df.col2.nunique() """
3
"""

Đọc thêm tại đây.

14. Điền các giá trị NaN (trống)

Nếu bạn muốn thay thế các giá trị NaN trong một cột bằng một số giá trị khác, hãy sử dụng phương thức fillna() như được minh họa bên dưới:

import pandas as pd
import numpy as np df = pd.DataFrame([[1, "A"], [2, np.nan], [3, np.nan], columns = ["col1", "col2"]) df.col2.fillna("B", inplace = True) """ col1 col2
0 1 A
1 2 B
2 3 B
"""

Đọc thêm tại đây.

15. Áp dụng hàm trên 1 cột:

Nếu bạn muốn áp dụng một hàm cho một cột, hãy sử dụng phương thức apply() như được minh họa bên dưới:

import pandas as pd def f(number): return number + 2 df = pd.DataFrame([[1, "A"], [2, "B"], columns = ["col1", "col2"]) df["col3"] = df.col1.apply(f) """ col1 col2 col3
0 1 A 3 1 2 B 4
"""

Đọc thêm tại đây.

16. Loại bỏ trùng lặp:

Nếu bạn muốn loại bỏ các giá trị trùng lặp, hãy sử dụng phương thức dropduplicates () như được minh họa bên dưới:

import pandas as pd df = pd.DataFrame([[1,"A"], [2,"B"], [1,"A"], columns = ["col1", "col2"]) df.drop_duplicates()
""" col1 col2
0 1 A
1 2 B
"""

Đọc thêm tại đây.

17. Đếm giá trị:

Nếu bạn muốn tìm tần suất của từng giá trị trong một cột, hãy sử dụng phương thức value_counts() như được minh họa bên dưới:

import pandas as pd df = pd.DataFrame([[1,"A"], [2,"B"], [2,"A"], [3,"C"]], columns = ["col1", "col2"]) df.col2.value_counts() """
A 2
B 1
C 1
"""

18. Kích thước của DataFrame:

Nếu bạn muốn tìm kích thước của DataFrame, hãy sử dụng thuộc tính .shape như được minh họa bên dưới:

import pandas as pd df = pd.DataFrame([[1,"A"], [2,"B"], [2,"A"], [3,"C"]], columns = ["col1", "col2"]) df.shape """
(4,2)
"""

Để kết thúc, trong bài đăng này, tôi đã trình bày một số hàm / phương thức được sử dụng phổ biến nhất trong Pandas để giúp bạn bắt đầu với thư viện này.

Hơn nữa, không có nơi nào tốt hơn là tham khảo tài liệu chính thức về Pandas có sẵn ở đây để có được kiến thức cơ bản và thực tế về các phương pháp khác nhau trong Pandas. Tài liệu chính thức của Pandas cung cấp giải thích chi tiết về từng đối số được một hàm chấp nhận cùng với ví dụ thực tế, theo tôi, là một cách tuyệt vời để có được kiến thức chuyên môn về Pandas.

Cảm ơn vì đã đọc. Tôi hy vọng bài viết này hữu ích.

Kham khảo

https://towardsdatascience.com/20-of-pandas-functions-that-data-scientists-use-80-of-the-time-a4ff1b694707

https://pandas.pydata.org/docs/index.html

Bình luận

Bài viết tương tự

- vừa được xem lúc

Lập Trình Hướng Đối Tượng trong Python

Chào các bạn Trong bài này, bạn sẽ tìm hiểu về Lập trình hướng đối tượng (OOP) bằng Python và khái niệm cơ bản của nó và một số các ví dụ. Các bạn cùng tìm hiểu trong bài viết của mình nhé.

0 0 50

- vừa được xem lúc

Lớp trong Python

. Hôm ni, mình học tiếp về bạn “Lớp(class) trong python”, bài blog tiếp theo nằm trong series “Khám phá Đại Bản Doanh Python”(nội dung trong bài series này từ chủ yếu mình lấy từ python.org rồi viết lại hoặc dịch lại theo ngôn ngữ của mình).

0 0 33

- vừa được xem lúc

Tìm hiểu về thư viện Numpy trong Python(Phần 3)

Trong bài viết trước tôi đã giới thiệu cho bạn về NumPy, tìm hiểu về Mảng trong NumPy. Trong bài viết này chúng ta sẽ tiếp tục tìm hiểu về các kiểu dữ liệu khác trong NumPy.

0 0 140

- vừa được xem lúc

Hướng dẫn cài đặt Anaconda trên Ubuntu

Anaconda là một nền tảng mã nguồn mở về Data Science và Machine Learning trên Python thông dụng nhất hiện nay, Anaconda có vai trò đơn giản hóa việc triển khai và quản lí các gói cài đặt khi làm việc với Python. Anaconda được cài đặt dễ dàng trên 3 nền tảng hệ điều hành thông dụng hiện nay là Ubuntu

0 0 43

- vừa được xem lúc

Tùy chỉnh Exceptions trong Python

Chào các bạn trong bài viết này, mình sẽ giới thiệu với các bạn về cách tùy chỉnh các Exceptions trong Python.Mình sẽ giải thích cho các bạn hiểu và cách xử dụng chúng.

0 0 36

- vừa được xem lúc

Không gian tên(namspace) và phạm vi(scope) trong Python

. Khi mình ngồi học và dịch bài "Class trong Python" cho sê-ri "Khám Phá Đại Bản Doanh Python", mình đã đụng hai bạn này, và các bạn thật là trừu tượng và khó gặm. Thế là mình tìm kiếm và viết bài này để hiểu rõ hơn về hai bạn ấy, hi vọng bạn đọc thêm để hiểu về Python nhé.

0 0 49