Mở đầu
Open vocabulary object detection (OVD) hay còn gọi là phát hiện đối tượng từ vựng mở, đang nổi lên trong lĩnh vực thị giác máy tính hiện, được coi là một hướng đi mới trong nhiệm vụ phát hiện đối tượng. Điểm nhấn mạnh ở đây là "từ vựng mở", nghe qua đã nhận ra có sự xuất hiện của từ ngữ văn bản và sẽ có một sự kết hợp gì đó. Vậy phát hiện đối tượng từ vựng mở là gì? Phương pháp này có gì mới? Nó có gì hơn so với phát hiện đối tượng truyền thống? Chúng ta sẽ cùng tìm hiểu qua bài viết này.
Phát hiện từ vựng mở
Đầu tiên, hãy nhìn vào hình minh họa dưới đây về mô hình phát hiện đối tượng truyền thống (phía trên - a) và phát hiện đối tượng từ vựng mở (phía dưới - b). Có thể thấy ngay rằng sự khác biệt đó là dữ liệu đầu vào. Khác với các phương pháp phát hiện đối tượng truyền thống là chỉ dùng ảnh thì OVD dùng các cặp ảnh và văn bản, phần văn bản này sẽ chứa tên các đối tượng xuất hiện trong bức ảnh. Và sau khi qua mô hình OVD sẽ xác định vị trí của những đối tượng và gán nó với tên đối tượng (danh từ) được lọc ra từ phần văn bản mô tả kèm theo. Nhờ vào điều này chúng ta chỉ cần gõ văn bản mô tả, mô hình sẽ phát hiện các đối tượng có trong ảnh. Các đối tượng được phát hiện sẽ không cố định như trước mà sẽ theo những trong văn bản người dùng mô tả, chính vì vậy nó được gọi là phát hiện đối tượng "từ vựng mở", mang ý nghĩa chỉ sự phát hiện các đối tượng linh hoạt theo từ ngữ của phương pháp này.
Ưu và nhược điểm
Phương pháp phát hiện đối tượng truyền thống xác định vị trí và phân loại các đối tượng trong một tập hợp danh mục cố định. Do đó, người lập trình phải liên tục huấn luyện lại mô hình để phù hợp với các ứng dụng thực tế khác nhau, vì các ứng dụng khác nhau thường có các tập hợp danh mục các đối tượng khác nhau. Điều này gây những khó khăn về mặt thu thập dữ liệu cho các đối tượng mới không phải lúc nào cũng dễ kiếm và đủ đa dạng. Cùng với đó việc mất thêm nhiều thời gian thu thập dữ liệu và đào tạo lại mô hình cũng có thể ảnh hưởng đến tiến độ của dự án.
Kết hợp đào tạo giữa cả dữ liệu văn và hình ảnh, phương pháp hát hiện đối tượng từ vựng mở đào tạo một lượng lượng lớn dữ liệu (lên đến hàng tỷ cặp văn bản-hình ảnh), vì được "học" nhiều như vậy nên nó có thể phát hiện ra một loạt các đối tượng mà không cần đào tạo lại mô hình. Với nhiều phương pháp còn kết hợp học giữa từ đồng nghĩa, trái nghĩa, quan hệ từ chỉ vị trí, tính từ... giúp cho mô hình trở nên thông minh với từ ngữ. Ví dụ như nó sẽ kết hợp từ "vằn" và "mèo" thành "mèo vằn" để phát hiện ra con mèo vằn trong ảnh, mặc dù trong quá trình đào tạo chỉ có các loại mèo khác chứ không có miêu tả ảnh con mèo vằn, nhưng nó đã được học đặc trưng "vằn" từ những con hổ vằn hay ngựa vằn. Như vậy, phát hiện đối tượng từ vựng mở đã khắc phục được vấn đề tập đối tượng phát hiện bị hạn chế, sự kết giữa văn bản và hình ảnh sẽ giúp tăng độ chính xác cho phát hiện đối tượng trong ảnh.
Tuy nhiên các mô hình OVD thường rất nặng, yêu cầu máy có GPU mạnh để suy luận nhanh. Điều này chính là cản trở về mặt chi phí khi ứng dụng. Đồng thời để đào tạo mô hình cũng cần lượng dữ liệu lớn, và máy tính cấu hình cao để đào tạo mô hình, cũng là một khó khăn tài chính đối với những công ty nhỏ và vừa muốn nghiên cứu xây dựng mới mô hình OVD
Các mô hình phổ biến
Với sự phát triển của công nghệ kèm theo sự phát triển của dữ liệu, những ý tưởng mới kết hợp giữa văn bản, để phát hiện đối tượng trong ảnh tốt hơn, có thể kể đến rất nhiều mô hình như GLIP, OwL-ViT, OwL-ST (OwL-ViT v2), Grounding DINO,... Hay mới gần đây nhà YOLO đã ra đời thêm YOLO-World, phiên bản phát hiện đối tượng từ vựng mở của dòng họ huyền thoại này.
Ứng dụng các lĩnh vực
Mô hình phát hiện đối tượng tượng từ vựng mở có thể sử dụng trong tất cả các lĩnh vực của phát hiện từ vựng truyền thống trước đây, bằng các truyền vào các đối tượng cần phát hiện bằng văn bản và độ chính xác sẽ tốt hơn và chúng linh hoạt hơn nhiều. Thử tưởng tượng giờ chúng ta muốn tìm kiếm đối tượng với mô tả kỹ càng sẽ chuẩn xác hơn nhiều, ví dụ như "cuốn sách màu xanh trên giá" sẽ chính xác hơn nhiều là "sách". Đồng thời nó có thể được ứng dụng mạnh mẽ trong cách ngành về tự động hóa, robot
Ngoài ra, vì độ chính xác cao, tuy nhiên lại chậm nếu người dùng không có máy cấu hình cao thì có thể sử dụng OVD như một công cụ gán nhãn tự động, làm dữ liệu cho mô hình nhỏ hơn."