Tag Deep Learning
Tìm kiếm bài viết trong Tag Deep Learning
Few-Shot Learning cho phân loại hình ảnh
Giới thiệu chung. Một vấn đề khi sử dụng các model Deep Learning là không phải lúc nào ta cũng có đủ lượng dữ liệu để train.
0 0 17
Paper reading | X3D: Expanding Architectures for Efficient Video Recognition
Đóng góp của bài báo. Ý tưởng cơ bản để xây dựng model cho các bài toán liên quan tới video đó là mở rộng kiến trúc mạng cho ảnh từ 2D theo chiều thời gian lên 3D.
0 0 18
Paper reading | MaxViT: Multi-Axis Vision Transformer
Đóng góp của bài báo. Các mô hình ViT nếu như không pretrained trước đó sẽ có hiệu suất kém hơn so với các mô hình ConvNets.
0 0 17
Paper reading | CoAtNet: Marrying Convolution and Attention for All Data Sizes
Giới thiệu. Kể từ sự ra đời của AlexNet, mạng ConvNets đã trở thành một kiến trúc mô hình quan trọng trong lĩnh vực thị giác máy tính.
0 0 21
Paper reading | CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model
Đóng góp của bài báo. Các mô hình pretrained Vision-language (VL) với dữ liệu lớn như CLIP và ALIGN thể hiện sự mạnh mẽ trong đa dạng task về hình ảnh và ngôn ngữ.
0 0 13
Paper reading | Tóm tắt mô hình ResNeSt: Split-Attention Networks
Đóng góp của bài báo. Bài báo giới thiệu một kiến trúc mô hình đơn giản có tên ResNeSt sử dụng channel-wise attention trên các nhánh của mạng với mục tiêu tận dụng sức mạnh capture thông tin tương tác
0 0 17
Paper reading | Tìm hiểu mô hình ResNeXt
Đóng góp của bài báo. Bài báo giới thiệu một kiến trúc mô hình mới có tên ResNeXt (Residual Next) là phiên bản nâng cấp từ ResNet.
0 0 15
Paper reading | Deep High-Resolution Representation Learning for Visual Recognition
Đóng góp của bài báo. Bài báo đề xuất kiến trúc High-Resolution Net (HRNet) là một kiến trúc mạng nơ-ron sâu được phát triển cho các ứng dụng trong lĩnh vực thị giác máy tính, đặc biệt là trong bài to
0 0 14
Paper reading | EfficientNetV2: Smaller Models and Faster Training
Đóng góp của bài báo. Kết quả training có độ chính xác cao là rất tốt tuy nhiên việc tối ưu thời gian, tài nguyên training và inference của model cũng quan trọng không kém Được giới thiệu lần đầu vào
0 0 18
Paper reading | Xception phiên bản nâng cấp của Inception V3
Đóng góp của bài báo. Bài báo giới thiệu mô hình Xception (Extreme Inception) là một kiến trúc mạng neural được phát triển dựa trên ý tưởng của Inception và sử dụng các convolution depthwise separable
0 0 21
Paper reading | Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning
Đóng góp bài báo. Trong bài báo, nhóm tác giả nghiên cứu sự kết hợp của 2 ý tưởng có thể coi là kinh điển trong lịch sử các mô hình CNN nổi tiếng là Residual connection và phiên bản mới nhất của kiến
0 0 11
Paper reading | Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
Đặt vấn đề. Self-supervised learning là một phương pháp học máy mà trong đó mô hình được huấn luyện từ dữ liệu mà không yêu cầu nhãn rõ ràng từ con người.
0 0 15
Paper reading | GRAPH ATTENTION NETWORKS
Giới thiệu. Các mô hình CNN thể hiện sự mạnh mẽ khi áp dụng vào những bài toán có dữ liệu là hình ảnh ví dụ như image classification, semantic segmentation, object detection,.
0 0 10
Paper reading | ACTION-Net: Multipath Excitation for Action Recognition
Đóng góp của bài báo. Trong các bài toán liên quan tới video, thông tin cần nắm bắt không chỉ là thông tin về mặt không gian (spatial information) giống như hình ảnh mà còn là thông tin về thời gian (
0 0 12
Tìm hiểu về lập trình dự báo theo chuỗi thời gian từ tổng quát đến chi tiết
1. Lời nói đầu.
0 0 13
[Paper Explain] Segment Anything in High Quality
Title: Segment Anything in High Quality . Original Paper: https://arxiv.org/pdf/2306.01567.
0 0 12
Paper reading | Video Swin Transformer
Đóng góp của bài báo. Kiến trúc Transformer ngày càng chiếm xong trên mọi mặt trận cụ thể trong các bài toán liên quan tới lĩnh vực Computer Vision.
0 0 20
Dự báo chuỗi thời gian là gì? Các loại dự báo và phương pháp thực hiện
1. Dự báo chuỗi thời gian là gì.
0 0 21
Paper reading | ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices
Đóng góp của bài báo. Việc thiết kế những model nhỏ, nhẹ, chính xác để có thể tích hợp trên các thiết bị di động luôn là bài toán hay thách thức những người thiết kế model AI Bài báo giới thiệu model
0 0 11
Paper reading | ZipIt! Merging Models from Different Tasks without Training
Giới thiệu chung. Các model hình ảnh ngày càng phát triển mạnh với khả năng thực hiện chính xác được nhiều task khác nhau, từ classification với hàng nghìn class cho đến những task về object detection
0 0 18
Paper reading | Expanding Language-Image Pretrained Models for General Video Recognition
Giới thiệu chung. Video recognition là một lĩnh vực trong trí tuệ nhân tạo (AI) và thị giác máy tính tập trung vào việc phân tích và nhận dạng nội dung trong các video.
0 0 12