🔍 Trong ngữ cảnh bạn đang làm (ghép text ↔ image), nó cụ thể là: 📛 Cross-Modal Contrastive Learning hoặc
📛 Multimodal Contrastive Learning 💥 Ví dụ nổi bật: Mô hình Ý tưởng chính CLIP (OpenAI) Học không gian chung cho text & image embeddings. Dùng contrastive loss để ghép caption đúng với ảnh. ALIGN (Google) Giống CLIP nhưng scale lên hàng tỷ dữ liệu. SimCLR Contrastive learning cho ảnh (image-only). MoCo Momentum contrast – image-only nhưng cũng dùng similarity matrix.
🧠 Các kỹ thuật chính dùng trong đó: Tên kỹ thuật Mô tả Contrastive Loss Phân biệt cặp dương (positive) và cặp âm (negative) InfoNCE Phiên bản chuẩn hoá của contrastive loss, dùng softmax + CE Cosine Similarity Đo độ gần giữa vector embedding Softmax over similarities Xem mỗi dòng (text) như bài toán phân loại ảnh đúng trong batch
📌 Tóm lại: Technique này là một dạng Contrastive Learning, cụ thể là Cross-Modal Contrastive Learning nếu bạn áp dụng trên ảnh và văn bản.
Bạn cũng có thể nói: → “CLIP-style contrastive loss” → “InfoNCE loss over similarity matrix”
Muốn mình gửi tài liệu đọc nhanh hoặc hình minh họa CLIP không?