Chúng tôi đã phân tích 62,6 tỷ lượt xem từ các video được đăng trong năm 2025 để hiểu điều gì thực sự quyết định hiệu suất của video trên YouTube hiện nay.
Nghiên cứu này xem xét:
-
323.000+ video ngoại lệ (outlier)
-
50.000+ kênh
-
300+ điểm dữ liệu cho mỗi video
-
15,8+ năm tổng thời gian xem tích lũy
Dự án tiêu tốn hơn 10.000 USD và là một trong những phân tích hiệu suất lớn nhất từng được thực hiện trên nền tảng.
Chúng tôi phân tích nhiều yếu tố khác nhau gồm:
-
packaging (cách đóng gói nội dung)
-
cấu trúc video
-
hành vi người xem
-
trigger cảm xúc
-
hiệu suất theo từng niche
Dưới đây là những gì dữ liệu cho thấy.

Viral trên YouTube bắt đầu từ cảm xúc, không phải thông tin
Một trong những mô hình rõ ràng nhất trong bộ dữ liệu là:
người xem không nhấp vào video vì nó hữu ích, mà vì nó khiến họ cảm thấy điều gì đó.
Chúng tôi phân loại video theo nhóm cảm xúc dựa trên tiêu đề. Những video có hiệu suất cao nhất thường kích hoạt:
-
Humor (hài hước)
-
Anger (tức giận)
-
Controversy (tranh cãi)

Những cảm xúc này buộc người xem phải phản ứng. Chúng tạo ra tension (sự căng thẳng tò mò) mà hành động click sẽ giải quyết.
Các tiêu đề trung tính chiếm khoảng hai phần ba dữ liệu, nhưng hiệu suất thấp hơn.
Tiêu đề mang cảm xúc tiêu cực tạo ra lượt xem trung vị cao hơn khoảng 20% ở cả nội dung giáo dục và giải trí.
Tin xấu tạo ra tension.
Tension tạo ra click.
Điều này cũng giải thích tại sao tiêu đề giải thích một khái niệm thường thua tiêu đề thách thức hoặc phá vỡ kỳ vọng.
Ví dụ:
“Why this fails” thường vượt “How this works”.

Con số và cấu trúc tạo logic, nhưng không tạo urgency
Khoảng 35% video có số trong tiêu đề.
Trung bình, các video này nhận ít hơn khoảng 11% lượt xem.
Các con số thường gợi ý cấu trúc như:
-
list
-
tutorial
-
video giải thích
Cấu trúc hấp dẫn logic.
Nhưng click được thúc đẩy bởi cảm xúc.
Điều này không có nghĩa con số không bao giờ hiệu quả.
Chỉ là chúng hiếm khi tự tạo ra urgency.

Độ dài tiêu đề: sự chú ý ưu tiên ngắn gọn
Các tiêu đề ngắn hơn luôn có hiệu suất tốt hơn.
Mỗi từ thêm vào đều tăng ma sát nhận thức, khiến người xem mất nhiều thời gian hơn để quyết định.
Khi chúng tôi đo bằng số ký tự thay vì số từ, mô hình này càng rõ ràng.
Các tiêu đề khoảng 30 ký tự nhận gần 60% lượt xem trung vị cao hơn so với tiêu đề dài hơn 70 ký tự.
Hiệu suất giảm mạnh trong khoảng 60–70 ký tự, vì đây là nơi tiêu đề bắt đầu bị cắt trên một số thiết bị.
Tiêu đề ngắn:
-
nổi bật hơn về mặt thị giác
-
giảm nỗ lực nhận thức
-
được xử lý gần như ngay lập tức

Tuy nhiên, độ dài tiêu đề quan trọng hơn nhiều với nội dung giải trí.
Video giáo dục thường được xem với mục đích rõ ràng. Miễn là chủ đề rõ ràng, thêm vài từ không ảnh hưởng nhiều.
Video giải trí được click theo bản năng. Tiêu đề phải kích thích tò mò ngay lập tức. Mỗi từ thêm vào đều tạo thêm ma sát.

Thumbnail: kể câu chuyện ngay lập tức
Packaging quyết định liệu video có cơ hội được xem hay không.
Một phát hiện khá bất ngờ là thumbnail có chữ nhận ít hơn khoảng 19% lượt xem trung bình.
Chữ tạo ra ma sát:
-
cạnh tranh với tiêu đề
-
làm chậm quá trình xử lý hình ảnh
-
làm hình bị rối
Thumbnail hoạt động tốt nhất khi truyền tải trực quan khoảnh khắc, xung đột hoặc khoảng trống tò mò.
Nếu bắt buộc phải có chữ, hiệu suất tốt hơn khi:
-
chữ ít hơn 10 ký tự
-
chữ chiếm dưới 7% diện tích ảnh
Nhìn một lần là hiểu luôn thắng.

Gương mặt trong thumbnail: phụ thuộc vào bối cảnh
Trên toàn bộ dữ liệu, gương mặt có tác động tổng thể khá nhỏ.
Tuy nhiên bối cảnh niche thay đổi hiệu ứng rất nhiều.
Trong nội dung finance và business, thumbnail có gương mặt hiệu quả hơn 36%. Gương mặt tạo ra niềm tin và uy tín.

Trong gaming, thumbnail có gương mặt kém hơn khoảng 3%. Các khung cảnh hành động, nhân vật và gameplay truyền tải giá trị tốt hơn chân dung creator.
Câu hỏi không phải là gương mặt có hiệu quả hay không.
Câu hỏi là người xem quan tâm đến con người hay khoảnh khắc.

Nhiều gương mặt hiệu quả hơn một
Thumbnail có nhiều gương mặt luôn vượt thumbnail chỉ có một gương mặt.
Nhiều gương mặt gợi ý:
-
tương tác
-
phản ứng
-
bối cảnh xã hội
Chúng cho thấy điều gì đó đang xảy ra và người khác đã thấy nó thú vị.
Bối cảnh cảm xúc này giúp người xem dừng cuộn.

Độ sáng và màu sắc ảnh hưởng đến click
Khả năng hiển thị của thumbnail phụ thuộc nhiều vào độ tương phản.
Lượt xem trung vị đạt đỉnh khi độ sáng trung bình của thumbnail nằm giữa 100–110 trên thang xám 0–255.
Thumbnail quá tối sẽ mất tương phản và biến mất trong feed.
Các màu chủ đạo có hiệu suất cao gồm:
-
cyan
-
green
-
yellow
-
orange
Những màu này nổi bật trên giao diện trung tính của YouTube, tạo cảm giác năng lượng và vẫn giữ tương phản sau khi nén.
Một số xu hướng màu có thể liên quan đến niche. Ví dụ màu xanh lá xuất hiện nhiều trong nội dung thể thao.

Độ dài video: hành vi người xem đang thay đổi
Hơn một nửa video trong nghiên cứu dưới 15 phút.
Tuy nhiên, video ngắn không phải là loại có hiệu suất tốt nhất.
Lượt xem trung vị tăng theo độ dài:
-
dưới 15 phút: ~43K
-
15–30 phút: ~52K
-
60+ phút: ~55K

Vì sao video dài hơn hoạt động tốt
Video dài tạo nhiều watch time tổng thể hơn, điều này củng cố tín hiệu đề xuất của thuật toán.
Hành vi người xem cũng đang thay đổi:
-
xem YouTube trên TV ngày càng tăng, nơi nội dung dài hoạt động tốt
-
nội dung short form thống trị mobile, khiến long form ngắn trở nên kém hấp dẫn hơn

Khoảng độ dài hiệu quả nhất
Nếu video dưới 1 giờ, khoảng 15–25 phút có hiệu suất ổn định nhất.
Nó tạo cảm giác:
-
đủ sâu
-
dễ binge
-
không cần cam kết thời gian lớn
Video 30–60 phút thường gặp khó khăn vì:
-
cảm giác cam kết thời gian cao
-
nhưng tổng watch time không cạnh tranh được với video hơn 1 giờ
Độ dài video phụ thuộc vào niche
Các niche khác nhau có thời lượng tối ưu khác nhau.
Gaming, entertainment và sports đạt đỉnh ở 15–30 phút vì cân bằng giữa immersion và khả năng binge.
Finance, business và tech hoạt động mạnh nhất ở 25–40 phút, nơi độ sâu nội dung tạo niềm tin.
Movies, TV, music và art thường tập trung ở 20–30 phút, vì bối cảnh và phân tích giúp tăng engagement.
DIY và engineering hưởng lợi từ 30–45 phút vì người xem muốn thấy toàn bộ quy trình.
Lifestyle và vlog hoạt động ổn định nhất ở 15–25 phút.
Tech review thường đạt đỉnh khoảng 28 phút do cần phân tích chi tiết tính năng.
Không có một độ dài lý tưởng chung cho tất cả. Tuy nhiên mid-form đến long-form luôn thống trị hiệu suất trung vị.
Video ngắn rất phổ biến, nhưng không phải nơi thành công bền vững thường xuất hiện.

Chọn niche: nhu cầu vs khả năng bùng nổ
Chúng tôi lập bản đồ các niche theo hai chiều:
-
Median views (lượt xem trung vị) đại diện cho nhu cầu nền
-
Outlier score đại diện cho khả năng tạo video bùng nổ
Điều này cho thấy động lượng thị trường nằm ở đâu.
Gaming và entertainment có lượng khán giả rất lớn, nhưng khả năng breakout thấp do thị trường bão hòa và format lặp lại.
Movies & TV, music và nhóm “khác” gồm animals, politics, history nằm ở góc trên bên phải: nhu cầu nền cao và chu kỳ trend mạnh.
Trend tạo ra video breakout:
-
politics theo chu kỳ tin tức
-
movies & TV theo lịch phát hành
-
music liên tục có bản phát hành mới
-
animals và history có vô số góc kể chuyện
Health & fitness có lượt xem nền thấp hơn nhưng khả năng breakout tốt vì trend xuất hiện thường xuyên.
Business & finance có lượt xem trung vị thấp hơn và ít outlier hơn do bão hòa và ít yếu tố mới lạ.
Niche này không tệ, chỉ khó hơn.
Trên tất cả niche:
-
lượt xem trung vị khoảng 20K – 70K
-
outlier score khoảng 1.4x – 2.4x
Cuối cùng, execution, timing và skill vẫn quan trọng hơn category.
Bức tranh tổng thể
Qua hàng trăm nghìn video, các mô hình đều giống nhau:
Emotion tạo ra click.
Clarity tạo hiệu suất packaging.
Watch time thúc đẩy thuật toán đề xuất.
Trend tạo cơ hội bùng nổ.
Virality không phải ngẫu nhiên.
Nó là hành vi có mô hình ở quy mô lớn.
Những creator hiểu các mô hình này có lợi thế cấu trúc.
Những người áp dụng chúng một cách có chủ đích sẽ tạo ra động lượng tăng trưởng.
