- vừa được xem lúc

[2 phút đọc] Tại sao các ứng dụng RAG lại thất bại khi lên production?

0 0 6

Người đăng: Ngọc Uyên

Theo Viblo Asia

Đây là phần ghi chép theo ý hiểu của mình từ bài viết Why RAG Applications Fail in Production của tác giả Mandar Karhade, MD. PhD.

Không thể phủ nhận các ứng dụng Retrieval-Augmented Generation (RAG) là một trong những công cụ mạnh mẽ nhất của LLM. Tuy nhiên, không tránh khỏi việc RAG gặp một số khó khăn khi đi lên production. Bài viết này sẽ giới thiệu một số vấn đề và giải pháp để deploy thành công.

images.jpg

1. Các vấn đề mà RAG gặp phải

a. Chất lượng retrieval

Thực sự mà fail ngay từ bước đầu tiên thì khá tệ cho cả hệ thống. Nhất là khi dataset của bạn thuộc một domain khá đặc thù mà mô hình tạo embedding của bạn thì chưa được fine tune, thì kể cả khi điểm similarity có cao thì cũng chưa chắc đã đúng, và điểm thấp cũng chưa chắc đã sai.

b. Hallucination

Mô hình LLM rất hay sinh ra các nội dung không nằm trong dataset của bạn mà chẳng hiểu lấy ra từ đâu - đấy gọi là hallucination. Nếu mô hình bay quá thì dễ cung cấp phải thông tin sai lệch cho khách hàng. Bạn không muốn thế... đúng không?

c. An toàn thông tin

Không chỉ dừng lại ở thông tin khách hàng, chúng ta cũng cần phải đảm bảo an toàn thông tin cho chính dữ liệu của chúng ta.

d. Nội dung phù hợp

Cần phải đảm bảo ứng dụng của bạn không cung cấp các thông tin trái phép hay gây nguy hại đến người dùng và hình ảnh của công ty.

e. Các vấn đề vận hành

Các vấn đề như là recursive retrieval (retrieval từng phần), sentence window retrieval (ngoài câu liên quan thì lấy thêm bao nhiêu câu liền kề để mô hình hiểu hơn về ngữ cảnh), hay việc cân đối giữa hệ thống tự host hay xài API sẽ ảnh hưởng khá nhiều đến bài toán đánh đổi giữa độ chính xác và tối ưu chi phí của mô hình.

2. Giải pháp

1. Lên kế hoạch cẩn thận cho trường hợp xấu nhất

Không có một phép đo cụ thể cho một kế hoạch đúng, nhưng ít nhất nó phải dự phòng được các vấn đề, rồi được test một cách cẩn thận qua chí ít là các vấn đề bên trên: chất lượng retrieval, hallucination, an toàn thông tin, nội dung phù hợp hay các vấn đề về vận hành.

2. Thường xuyên cập nhật mô hình

Bạn cần phải có cơ chế theo dõi và cập nhật mô hình theo tình hình sử dụng thực tế và phản hồi của khách hàng. Nên bắt đầu từ một mô hình nhỏ rồi mới mở rộng dần. Ngoài ra, cần đảm bảo về bảo mật dữ liệu, hạ tầng, tích hợp SSO, chứng chỉ SOC2, ... để tự tin đem đi bán.

3. Viết documentation cẩn thận

Lường trước hết tất cả các tình huống xấu có thể xảy ra và trao đổi cẩn thận với khách hàng. Chịu đau thương trước còn hơn sau này phải giảng hòa.

4. Decor với ngôn ngữ của thương hiệu

Nếu bạn có sẵn dataset để train lại mô hình thì tốt. Nhưng nếu bạn không có, thì nên đảm bảo phần trích xuất thông tin đúng trước, và dùng thông tin này để tính accuracy metric. Hoàn thành trích xuất rồi sinh ra nội dung xong xuôi thì bạn mới nên bảo LLM viết lại phần thông tin đó thành ngôn ngữ của brand.

Bình luận

Bài viết tương tự

- vừa được xem lúc

Lightweight Fine-Tuning: Một hướng đi cho những người làm AI trong kỉ nguyên của các Super Large Models (Phần 1)

Note: Tiêu đề và nội dung của bài viết này được lấy cảm hứng từ bài viết của sếp mình: "Hướng đi nào cho những người làm AI trong kỉ nguyên của các Super Large Models?". Recommend các bạn nên đọc để t

0 0 26

- vừa được xem lúc

[Từ Transformer Đến Language Model] Bài 2: Kiến trúc và phương pháp Generative-Pretraining của GPT model

Tiếp nối series kiến thức nền tảng của large language model. Ở Bài 1: Bắt đầu với kiến trúc mô hình - Transformer, mình đã giới thiệu với các bạn về kiến trúc khởi nguồn của large language model - tra

0 0 19

- vừa được xem lúc

Hướng dẫn xây dựng một trang web InterviewGPT ứng dụng chatgpt cho các bạn sinh viên thực hành phỏng vấn

Giới thiệu về InterviewGPT. InterviewGPT là một ứng dụng web được phát triển nhằm cung cấp một trải nghiệm tương tác và trợ giúp trong quá trình phỏng vấn việc làm.

0 0 23

- vừa được xem lúc

Lightweight Fine-Tuning: Một hướng đi cho những người làm AI trong kỉ nguyên của các Super Large Models (Phần 2)

Note: Tiêu đề và nội dung của bài viết này được lấy cảm hứng từ bài viết của sếp mình: "Hướng đi nào cho những người làm AI trong kỉ nguyên của các Super Large Models?". Recommend các bạn nên đọc để t

0 0 25

- vừa được xem lúc

Fine-tuning một cách hiệu quả và thân thiện với phần cứng: Adapters và LoRA

Fine-tuning là gì. Parameter-efficient Fine-tuning (PEFT) với Adapters.

0 0 26

- vừa được xem lúc

Tất tần tật về LLaMA-2 - liệu có đủ làm nên một cuộc cách mạng mới

Lời giới thiệu. Xin chào tất cả các bạn, đã lâu lắm rồi kể từ sau bài viết về Trải lòng sau khi đọc GPT-4 Technical Report của OpenAI - các bác nên đổi tên công ty đi mình không có viết bài về LLM nữa

0 0 21