- vừa được xem lúc

Model-Centric và Data-Centric là gì vậy?

0 0 21

Người đăng: Pham Thi Hong Anh

Theo Viblo Asia

Xin chào mọi người hôm nay mình sẽ viết 1 bài chủ đề hơi khác một chút xíu so với mọi ngày. Model centric và Data centric là gì và nó khác nhau như thế nào? Như mọi người cũng biết Data và model đều là nền tảng quan trọng trong hệ thống AI. Cả hai thành phần này đều đóng một vai trò quan trọng trong việc phát triển một mô hình mạnh mẽ nhưng bạn nên tập trung vào thành phần nào hơn? Trong bài viết này, chúng ta sẽ xem xét các phương pháp tiếp cận tập trung vào dữ liệu (data-centric approach) so với tập trung vào mô hình (Model-centric approach) và so sánh chúng nha.

Tiếp cận theo hướng mô hình - Model-centric

Hình: tiếp cận theo hướng mô hình

Phương pháp tiếp cận theo hướng mô hình lấy mô hình làm trung tâm có nghĩa là tập trung vào việc sử dụng đúng tập hợp các thuật toán học máy, ngôn ngữ lập trình và nền tảng AI để xây dựng các mô hình học máy chất lượng cao. Điều này liên quan đến việc lựa chọn kiến trúc mô hình sao cho tốt nhất. Trong cách tiếp cận này, chúng ta thường giữ nguyên dữ liệu và cải thiện code hoặc kiến trúc mô hình. Cách tiếp cận này đã dẫn đến sự tiến bộ vượt bậc trong lĩnh vực máy học / thuật toán học sâu.

Hiện tại, đa phần các ứng dụng AI đều tập trung vào mô hình, mn đa phần chú trọng đến nghiên cứu học thuật về mô hình, cải thiện mô hình. Theo Andrew Ng, hơn 90% các bài báo nghiên cứu trong lĩnh vực AI tập trung vào mô hình. Việc này là do rất khó để taọ ra các bộ dữ liệu lớn có thể trở thành các tiêu chuẩn được công nhận chung và việc thu thập dữ liệu cũng khá là khó khăn.

Tiếp cận theo hướng dữ liệu - Data-centric

Hình: tiếp cận theo hướng dữ liệu

Phương pháp tiếp cận lấy dữ liệu làm trung tâm đối với AI là tập trung vào việc lấy đúng loại dữ liệu có thể được sử dụng để xây dựng các mô hình học máy chất lượng cao, hiệu suất cao. Không giống như AI tập trung vào mô hình, trọng tâm chuyển sang lấy dữ liệu chất lượng cao cho các mô hình đào tạo hơn là các mô hình.

Trong thời đại hiện giờ, khi mà mô hình AI đã phát triển và các công ty đa phần cũng đều có một lượng dữ liệu của riêng mình, thì dữ liệu trở thành cốt lõi của mọi quy trình ra quyết định. Một số công ty lấy dữ liệu làm trung tâm hay còn gọi là tiếp cận theo hướng dữ liệu có thể dựa vào dữ liệu để phân tích thông tin về hoạt động của công ty, doanh nghiệp để điều chỉnh chiến lược phù hợp với mình nhằm tăng lợi ích cho chính công ty. Bằng cách tiếp cận này, kết quả có thể chính xác hơn, có tổ chức và minh bạch hơn, có thể giúp tổ chức hoạt động trơn tru hơn. Cách tiếp cận này liên quan đến việc thay đổi / cải tiến bộ dữ liệu một cách có hệ thống để tăng độ chính xác của các ứng dụng học máy. Làm việc trên dữ liệu là mục tiêu trọng tâm của phương pháp này.

So sánh 2 phương pháp trên

Đối với các nhà khoa học dữ liệu và kỹ sư học máy, cách tiếp cận lấy mô hình làm trung tâm có vẻ hứng thú hơn. Điều này có thể hiểu được vì các nhà nghiên cứu có thể sử dụng kiến thức của họ để giải quyết một vấn đề cụ thể. Mặt khác, không ai muốn dành cả ngày để dán nhãn dữ liệu vì nó được coi là công việc tốn thời gian và nhàm chán :v.

Tuy nhiên, trong công nghệ máy học ngày nay, dữ liệu rất quan trọng nhưng nó thường bị bỏ qua .Kết quả là, hàng trăm giờ bị lãng phí để tinh chỉnh một mô hình dựa trên dữ liệu bị lỗi. Đó rất có thể là nguyên nhân cơ bản khiến mô hình của bạn có độ chính xác thấp hơn và nó không liên quan gì đến việc tối ưu hóa mô hình.

Model-Centric Data-Centric
Làm việc với mô hình là mục tiêu trung tâm Làm việc với dữ liệu là mục tiêu trọng tâm
Tối ưu hóa mô hình Thu thập và xử lý dữ liệu
Labels không nhất quán Tính nhất quán của dữ liệu là chìa khóa
Dữ liệu được giữ cố định sau khi chuẩn hóa Code/thuật toán được giữ cố định
Mô hình được cải tiến lặp đi lặp lại Chất lượng dữ liệu được cải thiện

Bảng: So sánh Model-centric và Data-centric

Kết luận

Theo bản thân mình thấy làm sao kết hợp hài hòa giữa dữ liệu và mô hình là cách hiệu quả nhất và tốt nhất. Vì như ở trên mình có nhắc đến không phải công ty nào cũng có lượng lớn dữ liệu để tập trung vào dữ liệu được. Vì vậy mn phải lựa chọn cải tiến chất lượng mô hình.

Cảm ơn mn đã đọc bài viết của mình ạ.

Reference

https://www.deeplearning.ai/wp-content/uploads/2021/06/MLOps-From-Model-centric-to-Data-centric-AI.pdf

https://medium.com/analytics-vidhya/moving-from-model-centric-to-data-centric-approach-1468fb5dbafb

https://neptune.ai/blog/data-centric-vs-model-centric-machine-learning#:~:text=It's sometimes referred to as,permanent asset%2C whereas applications change

https://dida.do/blog/data-centric-machine-learning

Bình luận

Bài viết tương tự

- vừa được xem lúc

Hành trình AI của một sinh viên tồi

Mình ngồi gõ những dòng này vào lúc 2h sáng (chính xác là 2h 2 phút), quả là một đêm khó ngủ. Có lẽ vì lúc chiều đã uống cốc nâu đá mà giờ mắt mình tỉnh như sáo, cũng có thể là vì những trăn trở về lý thuyết chồng chất ánh xạ mình đọc ban sáng khiến không tài nào chợp mắt được hoặc cũng có thể do mì

0 0 131

- vừa được xem lúc

[Deep Learning] Key Information Extraction from document using Graph Convolution Network - Bài toán trích rút thông tin từ hóa đơn với Graph Convolution Network

Các nội dung sẽ được đề cập trong bài blog lần này. . Tổng quan về GNN, GCN. Bài toán Key Information Extraction, trích rút thông tin trong văn bản từ ảnh.

0 0 204

- vừa được xem lúc

Tìm hiểu về YOLO trong bài toán real-time object detection

1.Yolo là gì. . Họ các mô hình RCNN ( Region-Based Convolutional Neural Networks) để giải quyết các bài toán về định vị và nhận diện vật thể.

0 0 272

- vừa được xem lúc

Encoding categorical features in Machine learning

Khi tiếp cận với một bài toán machine learning, khả năng cao là chúng ta sẽ phải đối mặt với dữ liệu dạng phân loại (categorical data). Khác với các dữ liệu dạng số, máy tính sẽ không thể hiểu và làm việc trực tiếp với categorical variable.

0 0 244

- vừa được xem lúc

TF Lite with Android Mobile

Như các bạn đã biết việc đưa ứng dụng đến với người sử dụng thực tế là một thành công lớn trong Machine Learning.Việc làm AI nó không chỉ dừng lại ở mức nghiên cứu, tìm ra giải pháp, chứng minh một giải pháp mới,... mà quan trọng là đưa được những nghiên cứu đó vào ứng dụng thực tế, được sử dụng để

0 0 55

- vừa được xem lúc

Xây dựng hệ thống Real-time Multi-person Tracking với YOLOv3 và DeepSORT

Trong bài này chúng ta sẽ xây dựng một hệ thống sử dụng YOLOv3 kết hợp với DeepSORT để tracking được các đối tượng trên camera, YOLO là một thuật toán deep learning ra đời vào tháng 5 năm 2016 và nó nhanh chóng trở nên phổ biến vì nó quá nhanh so với thuật toán deep learning trước đó, sử dụng YOLO t

0 0 303