Ngày nay data ngày một nhiều dẫn đến việc ETL (Extract, Transform, Load) hay còn gọi là phân tích và xử lí data ( data analyis) ngày một phức tạp và tốn nhiều thời gian nên NVIDIA đã tạo nên RAPIDS giúp giải quyết vấn đề này
RAPIDS trong GPU
Khi nhắc đến phân tích và xử lí data chúng ta không thể không nhắc tới: Python, Pandas, SQL, Spark, ... nhưng tất cả các ngôn ngữ trên đều có 1 khuyết điểm lớn là đều chạy trên CPU dẫn đến việc xử lí data rất tốn thời gian và không sử dụng hiệu quả tài nguyên của máy tính nên RAPIDS đã ra đời
RAPIDS là gì
- Là các thư viện open-source được viết bởi NVIDIA
- Dùng Cuda cho backends để tối ưu hóa tốc độ tính toán trên GPU
- Dùng cho mục đích data science và analytics trên GPU
- Cung cấp giao diện Python thân thiện với người dùng
Có thể nói ngắn gọn là RAPIDS giúp chúng ta xử lí data và thực hiện các bài toán về Machine Learning trên GPU và 1 điều tuyệt vời là syntax hoàn toàn giống với pandas, Numpy, scikit-learn, ...
Trong RAPIDS sẽ có các thư viện chính là
- cuDF: giống pandas nhưng chạy trên GPU
- cuML: giống Sklearn nhưng chạy trên GPU
- cuGraph: giống NetworkX nhưng chạy trên GPU
- cuSpatial: giống GIS nhưng chạy trên GPU
Qua các bức ảnh trên ta có thể thấy RAPIDS thể hiện 1 tốc độ vượt trội so với các thư viện khác và điều tuyệt vời là độ chính xác vẫn không thay đổi
1 lưu ý là trong series GPU in AI mình chỉ hướng dẫn 2 thư viện chính là cuDF ( pandas in GPU ) và cuML ( Sklearn in GPU )
Hướng dẫn cài đặt
Trên local
Đây là link để cài RAPIDS
Các bạn hãy chọn giống như trên TUY NHIÊN nhớ kiểm tra lại để xem Cuda toolkit phiên bản nào bằng lệnh:
$ nvcc -V
Nếu các bạn chưa cài đặt Cuda toolkit thì hãy tham khảo ở đây
1 lưu ý quan trọng là RAPIDS chỉ hỗ trợ trên python phiên bản 3.9 - 3.10 - 3.11
Và sau khi xong có thể kiểm tra bằng các lệnh:
import cudf
cudf._ _version _ _
import cuml
cuml._ _ version_ _
import cugraph
cugraph._ _ version _ _
import cuspatial
cuspatial._ _ version _ _
import cuxfilter
cuxfilter._ _ version _ _
Trên Google Colab
Hãy đổi từ CPU sang GPU
Hãy chạy 2 lệnh này:
!git clone https://github.com/rapidsai/rapidsai-csp-utils.git
!python rapidsai-csp-utils/colab/pip-install.py
Và sau khi xong có thể kiểm tra bằng các lệnh:
import cudf
cudf._ _version _ _
import cuml
cuml._ _ version_ _
import cugraph
cugraph._ _ version _ _
import cuspatial
cuspatial._ _ version _ _
import cuxfilter
cuxfilter._ _ version _ _