Tại bài viết trước mình đã đề cập đến các công cụ nguồn mở cho khoa học dữ liệu. Tại bài viết này mình sẽ giới thiệu các công cụ thương mại mà bạn sẽ tìm thấy trong nhiều dự án doanh nghiệp.
1. Data management
Trong quản lý dữ liệu, hầu hết dữ liệu liên quan của doanh nghiệp được lưu trữ trong cơ sở dữ liệu Oracle, Microsoft SQL Server hoặc IBM DB2. Mặc dù cơ sở dữ liệu nguồn mở đang trở nên phổ biến, nhưng ba sản phẩm quản lý dữ liệu đó vẫn được coi là tiêu chuẩn của ngành. Họ sẽ không biến mất trong tương lai gần. Nó không chỉ là về chức năng. Dữ liệu là trung tâm của mọi tổ chức và sự sẵn có của thương mại hỗ trợ đóng vai trò chính. Hỗ trợ thương mại được cung cấp trực tiếp từ các nhà cung cấp phần mềm, đối tác có ảnh hưởng và mạng lưới hỗ trợ.
2. Data Integration and Transformation
Theo Gartner Magic Quadrant, Datastage InfoSphere, Informatera, PowerCenter và IBM là những công cụ dẫn đầu, tiếp theo là các sản phẩm từ SAP, Oracle, SAS, Talend và Microsoft. Các công cụ này hỗ trợ thiết kế và triển khai các đường ống xử lý dữ liệu ETL thông qua giao diện đồ họa. Họ cũng cung cấp đầu nối cho hầu hết các hệ thống thông tin mục tiêu thương mại và nguồn mở. Cuối cùng, Watson Studio Desktop bao gồm một thành phần có tên là Data Refinery, cho phép xác định và thực hiện các quy trình tích hợp dữ liệu theo kiểu bảng tính.
3. Data Visualization
Trong môi trường thương mại, trực quan hóa dữ liệu đang sử dụng các công cụ Business Intelligence hay còn gọi "BI". Mục tiêu chính của chúng là tạo ra các báo cáo trực quan hấp dẫn và dễ hiểu và bảng điều khiển trực tiếp. Các ví dụ thương mại nổi bật nhất là: Tableau, Microsoft Power BI và IBM Cognos Analytics.
Một loại trực quan khác target vào các nhà khoa học dữ liệu chứ không phải người dùng thường xuyên là Watson Studio Desktop. Nếu bạn muốn xây dựng mô hình học máy bằng công cụ thương mại, bạn nên xem xét sử dụng sản phẩm khai thác dữ liệu. Nổi bật nhất trong số các loại sản phẩm này là: SPSS Modeler và SAS Enterprise Miner. Ngoài ra, một phiên bản của SPSS Modeler cũng có sẵn trong Watson Studio Desktop, dựa trên phiên bản đám mây của công cụ.
4. Model Deployment
Trong phần mềm thương mại, triển khai mô hình được tích hợp chặt chẽ trong quy trình xây dựng mô hình. Phần mềm thương mại cũng có thể xuất các mô hình ở định dạng mở. Ví dụ: SPSS Modeler hỗ trợ xuất các mô hình dưới dạng ngôn ngữ đánh dấu mô hình dự đoán hoặc PMML, có thể được đọc bởi nhiều gói phần mềm thương mại và mở khác.
5. Model Monitoring and assessment
Giám sát mô hình là một ngành học mới và hiện tại không có công cụ thương mại có liên quan. Kết quả là, nguồn mở là lựa chọn đầu tiên.
6. Code asset Management
Điều tương tự cũng đúng với quản lý tài sản mã. Nguồn mở với Git và GitHub là tiêu chuẩn hiệu quả. Quản lý data asset, thường được gọi là quản trị dữ liệu hoặc dòng dữ liệu, là một phần quan trọng của khoa học dữ liệu cấp doanh nghiệp. Dữ liệu phải được lên phiên bản và chú thích bằng siêu dữ liệu. Các nhà cung cấp, bao gồm quản trị dữ liệu doanh nghiệp thông tin và IBM, cung cấp các công cụ cho các nhiệm vụ cụ thể này. Danh mục quản trị thông tin IBM InfoSphere bao gồm các chức năng như từ điển dữ liệu, tạo điều kiện phát hiện data asset. Mỗi data asset được gán cho người quản lý dữ liệu - chủ sở hữu dữ liệu. Điều này cho phép người dùng theo dõi lại các bước chuyển đổi theo sau trong việc tạo data asset.
7. Development Enviroment
Watson Studio là một môi trường phát triển tích hợp đầy đủ cho các nhà khoa học dữ liệu. Nó thường được sử dụng qua Cloud (mình sẽ đề cập nhiều hơn ở bài viết sau). Ngoài ra còn có một phiên bản Desktop là Watson Studio Desktop kết hợp Jupyter Note Book với các công cụ đồ họa để tối đa hóa hiệu suất của các nhà khoa học dữ liệu.