polars
cung cấp nhiều hànm, công cụ phục vụ việc "transform" dữ liệu trong DataFrame
. Thoạt nhìn thì các hàm này có vẻ sẽ thực hiện những chức năng như nhau mà trong thực tế chúng có thể cùng thực hiện một chức năng thật, chẳng hạn .replace()
và .with_column()
đều có thể thực hiện việc chuyển kiểu dữ liệu hay chuyển đổi giá trị dữ liệu của một cột. Tuy nhiên, hành vi thực hiện nội tại của chúng lại khác nhau vì chúng được thiết kế với các mục đích khác nhau. Việc nắm rõ mục đích của từng hàm, phương thức sẽ giúp chúng ta chọn lựa và sử dụng đúng công cụ cho đúng mục đích và quan trọng hơn là tránh được những vấn đề không mong muốn.
Bên cạnh đó, việc xác định được mục đích của từng cột dữ liệu cũng sẽ giúp chúng ta xác định được kiểu dữ liệu tối ưu cho mục đích đó ngay từ đầu để có thể tối ưu được việc sử dụng tài nguyên hệ thống và tăng tốc xử lý đặc biệt khi làm việc với những khối dữ liệu lớn. Chẳng hạn, chỉ cần bình tĩnh một chút để đánh giá kiểu dữ liệu trước khi thực hiện công tác phân tích, chúng ta hoàn toàn có thể giảm kích thước dữ liệu tới 4 lần ngay từ khi tải nạp từ tệp tin dữ liệu thô.
Hãy cùng chúng tôi tìm hiểu và thực hành những nội dung trên trong video “#0037 - Phân tích dữ liệu với polars (Phần 03)” trên kênh Youtube RustDEV Vietnam.