Data Moat: "Hào Nước" Dữ Liệu Trong Thời Đại AI

Một buổi lướt web, mình tình cờ đọc được bài blog “Data and Defensibility” của Abraham Thomas, và thấy khá hứng thú với khái niệm data moat — một lợi thế cạnh tranh từ dữ liệu, đặc biệt trong thời đại AI. Thử đi search 1 vòng tìm hiểu thêm thì cũng có khá nhiều bài viết liên quan, giải thích các góc nhìn và cách tiếp cận khác nhau. Tuy nhiên ở Việt Nam, khái niệm này còn khá mới, vì vậy, bài viết này ra đời (1 phần là dịch lại, 1 phần là triển khai ý cho phù hợp với văn phong của VN) trên tinh thần chia sẻ và thảo luận.

Bài dịch có thể sẽ không đầy đủ, các bạn nên đọc thêm bài viết gốc ở đây: Data and Defensibility

Mình sẽ trình bày các ý tưởng chính trong bài viết, trích dẫn trực tiếp kèm bản dịch để giữ đúng tinh thần, và có thể bổ sung ví dụ nếu cần thiết để làm rõ hơn các ý chính. Hy vọng các bạn sẽ thấy data moat thú vị và thực sự ứng dụng được gì đó từ bài viết này!

1. Mở đầu - Introduction

Bài blog của Abraham Thomas đã mở ra một góc nhìn mới về cách startups cạnh tranh trong thời đại AI.

“ We’re in the middle of a remarkable land-grab in software. LLMs are changing the way software is built, opening up vast new markets previously untouched by tech (especially in services), and making many incumbents look decidedly long in the tooth. This is a generational opportunity for companies to capture market share, and many startups are doing precisely that.”
— Abraham Thomas, Data and Defensibility

Tạm dịch: Chúng ta đang ở giữa một cuộc “chiếm đất” ngoạn mục trong ngành phần mềm. Các mô hình ngôn ngữ lớn (LLM) đang thay đổi cách xây dựng sản phẩm, mở ra những thị trường rộng lớn mà trước đây công nghệ chưa chạm tới (đặc biệt trong dịch vụ), và khiến nhiều doanh nghiệp lâu năm trở nên “già cỗi”. Đây là cơ hội hiếm có để các công ty giành thị phần, và nhiều startup đang làm được điều đó.

imgur

Điều này cũng khá đúng với bối cảnh Việt Nam, nơi các lĩnh vực như giao hàng, bán lẻ, hay giáo dục trực tuyến đang bùng nổ. Tác giả nhắc đến những startup tăng trưởng nhanh: Bolt đạt 20 triệu USD ARR sau 2 tháng, Cursor từ 1 triệu lên 100 triệu ARR trong 21 tháng, OpenAI đã có doanh thu hàng tỉ đô (nhớ rằng GPT‑3 ra mắt chưa đầy 5 năm). Những câu chuyện tăng trưởng siêu tốc nhan nhản. Nhưng ông cũng cảnh báo:

“Competition is fierce: if you can build a crazy powerful app in a weekend, so can others. Any capabilities you create might be eaten by the next generation of foundation models.”
— Abraham Thomas, Data and Defensibility

Tạm dịch: Cạnh tranh cực kỳ khốc liệt: nếu bạn có thể tạo một ứng dụng “khủng” vào cuối tuần này, người khác cũng làm được. Những tính năng bạn xây hôm nay có thể bị thế hệ mô hình nền tiếp theo “nuốt chửng”.

Để tồn tại, startups cần moat — lợi thế cạnh tranh giúp bảo vệ thị phần. Tác giả định nghĩa:

“In warfare, moats are what prevent a castle from being stormed. In business, they’re what prevent a company from being overrun by competition, engulfment, or slow decay. Moats help you acquire and retain customers; they help you outperform and undercut rivals; they help you buy low and sell high, move fast and play bigger; they help you win, and keep winning.”
— Abraham Thomas, Data and Defensibility

Tạm dịch: Trong chiến tranh, hào nước bảo vệ lâu đài khỏi bị đánh chiếm. Trong kinh doanh, "moat" bảo vệ công ty khỏi bị nuốt chửng, bị cạnh tranh đến chết, hoặc trở nên dần suy yếu. Moat giúp bạn thu hút và giữ khách, vượt qua và hạ giá đối thủ, mua rẻ bán đắt, di chuyển nhanh và chơi lớn — giúp bạn thắng và tiếp tục thắng.

Trong các loại moat (hiệu ứng mạng, thương hiệu, sở hữu trí tuệ), data moat nổi bật vì sự kết hợp chặt chẽ với AI. Tác giả nhấn mạnh:

“AI companies have a special resonance with data moats, because data and AI are two sides of the same coin. LLMs require vast amounts of data, for training, fine-tuning, learning, reasoning. And LLMs unlock the value of data like almost no technology before. It’s a match made in business-model heaven.”
— Abraham Thomas, Data and Defensibility

Tạm dịch: Các công ty AI đặc biệt phù hợp với data moat vì dữ liệu và AI là hai mặt của cùng một đồng xu. LLM cần khối dữ liệu khổng lồ để huấn luyện, tinh chỉnh, học hỏi, và suy luận; và chính LLM giải phóng được giá trị của dữ liệu theo cách hiếm công nghệ nào sánh được — một cặp đôi hoàn hảo trong mô hình kinh doanh.

“Data moats reinforce AI advantages, and AI advantages reinforce data moats.”
— Abraham Thomas, Data and Defensibility

2. Data Moat 101: Thế nào là "hào nước" dữ liệu

Data Moat là gì?

Data moat xuất hiện khi dữ liệu của công ty tạo ra rào cản mà đối thủ khó sao chép hoặc vượt qua. Điều này có thể vì dữ liệu độc quyền, khó thu thập, hoặc được tích hợp chặt chẽ vào sản phẩm, tạo độ “bám dính” hoặc sự khác biệt. Nói cách khác, data moat là lợi thế từ dữ liệu, giúp các công ty, các startup giữ chân được khách hàng, tạo ra sản phẩm khác biệt, và dựng rào cản không thể vượt qua cho đối thủ. Dữ liệu cần đảm bảo:

Meaningful (có giá trị): Liên quan trực tiếp đến sản phẩm.
Rivalrous (độc quyền): Khó sao chép hoặc sử dụng bởi đối thủ.
Irreplaceable (không thay thế được): Không có nguồn dữ liệu tương tự.

Ví dụ: MoMo dùng lịch sử giao dịch để gợi ý dịch vụ tài chính cá nhân hóa — đó là data moat vì dữ liệu này độc quyền, có giá trị, và khó thay thế. Ngược lại, log click trên app không phải moat vì ai cũng thu thập được và ít cải thiện sản phẩm. Hoặc một startup bán hàng online lưu dữ liệu sở thích khách (như “thích áo thun unisex”), dùng để gợi ý sản phẩm, tạo lợi thế so với đối thủ dùng dữ liệu chung chung.

Tại sao Data Moat quan trọng?

Như đã trình bày trước đó, trong cuộc cách mạng 4.0 hiện nay, cạnh tranh là vô cùng khốc liệt: nếu bạn tạo được ứng dụng “khủng” cuối tuần này, người khác cũng làm được. Những tính năng bạn xây dựng hôm nay có thể bị vượt qua ngay lập tức vào ngày mai. LLM giúp các bạn tạo sản phẩm nhanh (chatbot, gợi ý sản phẩm), nhưng cũng khiến mọi thứ dễ bị sao chép.

Data moat là cách để các công ty/startups nhỏ ở Việt Nam có thể tạo ra lợi thế cạnh tranh mà chưa cần big data. Small data (như feedback khách, lộ trình giao hàng) nếu khai thác đúng, có thể giúp cạnh tranh với các “ông lớn” như Tiki hay Shopee.

Ví dụ: Một app giao đồ ăn dùng dữ liệu đánh giá shipper để tối ưu tuyến đường, giao hàng nhanh hơn đối thủ. Dữ liệu này khó sao chép, tạo differentiation và stickiness. Hoặc một startup edtech dùng dữ liệu câu trả lời sai của học sinh để tạo bài luyện tập cá nhân hóa, giúp học sinh tiến bộ nhanh hơn so với app dùng nội dung chung.

3. Phân loại các cách xây dựng Data Moat

Tác giả chia cách hình thành data moat thành hai loại chính: Data Control và Data Loops.

3.1. Data Control: Kiểm soát dữ liệu

Để xây dựng một data moat – lợi thế cạnh tranh từ dữ liệu – cách mạnh mẽ nhất là kiểm soát dữ liệu. Nói đơn giản, bạn cần nắm quyền kiểm soát giá trị mà dữ liệu mang lại, khiến đối thủ không thể chạm tới.

Để xây data moat thông qua kiểm soát dữ liệu, bạn có thể:

Tạo và sở hữu dữ liệu độc quyền: Dữ liệu mà chỉ bạn có, đối thủ không thể sao chép.
Kiểm soát luồng di chuyển dữ liệu: Nắm quyền điều khiển cách dữ liệu vận hành trong hệ sinh thái.
Kiểm soát cách sử dụng dữ liệu: Biến dữ liệu thành công cụ tạo ra giá trị không thể thay thế.

“Create value; transport value; extract value: each of these approaches can lead to a data moat. A pre-condition here is that the data being controlled has to be meaningful. Otherwise, “control” is pointless: you can’t make money from tolls on a road going nowhere.”
— Abraham Thomas, Data and Defensibility

Tạm dịch: Tạo ra giá trị / vận chuyển giá trị / khai thác giá trị: mỗi hướng tiếp cận này đều có thể dẫn đến việc hình thành "moat". Một điều kiện tiên quyết là dữ liệu được kiểm soát phải có ý nghĩa. Nếu không, việc “kiểm soát” sẽ trở nên vô nghĩa, giống như việc cố gắng thu phí trên một con đường không dẫn tới đâu cả ...

Tạo và sở hữu dữ liệu độc quyền (Unique and Proprietary data):

Dữ liệu độc quyền là dữ liệu bạn tạo ra, thu thập, hoặc sở hữu, và đối thủ khó lòng tiếp cận. Nhưng chỉ có dữ liệu độc quyền chưa đủ để tạo data moat. Dữ liệu cần đáp ứng ba tiêu chí:

Có giá trị (Meaningful): Mang lại lợi ích rõ ràng cho sản phẩm hoặc khách hàng.
Độc quyền (Rivalrous): Đối thủ không thể dùng lại hoặc giá trị họ nhận được kém hơn.
Không thể thay thế (Irreplaceable): Không có nguồn dữ liệu nào khác tạo ra kết quả tương tự.

Hầu hết các bộ dữ liệu không đáp ứng được cả ba tiêu chí này. Nhưng nếu bạn có dữ liệu thỏa mãn cả ba, bạn đã xây được một data moat vững chắc.

Nếu bạn quan tâm những loại data nào có thể giúp công ty hình thành được lợi thế, tác giả có một số gợi ý:

Exhaust Data (Dữ liệu phụ sinh): Đây là dữ liệu phát sinh từ hoạt động chính của công ty.
- Để dễ hình dung, hãy nghĩ đến những công ty làm sàn chứng khoán. Sàn HOSE hoặc HNX ở Việt Nam tạo ra dữ liệu về giá cổ phiếu, khối lượng giao dịch. Dữ liệu này độc quyền (chỉ sàn có) và không thể thay thế (không ai khác có dữ liệu giao dịch chính xác tương tự).
- Tuy nhiên, không phải lúc nào dữ liệu cũng có giá trị cao. Dữ liệu giao dịch thô có thể không đủ để tạo moat nếu không được phân tích hoặc kết hợp để mang lại giá trị cụ thể cho khách hàng
Process-Driven Data (Dữ liệu chuyên sâu): Dữ liệu được thu thập bởi các công ty có kinh nghiệm lâu năm trong một lĩnh vực nhất định, thường qua khảo sát hoặc nghiên cứu chuyên sâu.
- Ví dụ như Moody’s hay Nielsen thu thập dữ liệu thị trường qua các khảo sát chi tiết, mang lại góc nhìn chuyên gia và cung cấp insight cho doanh nghiệp để cải thiện sản phẩm
- Tuy nhiên, khi quy mô công ty đạt đến một cấp độ nhất định, việc thu thập dữ liệu này trở nên khó khăn hơn và khó để tạo thành một lợi thế, một "moat" đủ mạnh
Brute Force Data (Thu thập dữ liệu hàng loạt): Đầu tư lớn vào con người và tài nguyên để thu thập dữ liệu quy mô lớn.
- Ví dụ: Google từng dùng đội ngũ nhân viên để “crawl” web, hay các công ty xe tự lái ghi lại hàng triệu giờ video đường phố.
- Tuy nhiên, ngày nay LLM phát triển khiến việc brute force không thật sự phù hợp để tạo "moat" nữa. LLM khiến mọi thứ trở nên dễ hơn, rẻ hơn và phổ thông hơn - studio hoạt hình Ghibli mất hàng chục năm để tạo phong cách riêng, nhưng giờ chỉ cần vài lệnh trên ChatGPT là tạo được hình ảnh tương tự.
- Nếu thật sự vẫn muốn dùng brute force để tạo lợi thế cạnh tranh, trừ khi công ty bạn là người trực tiếp xây dựng LLM, hoặc không hãy tập trung vào nhưng dự liệu thế giới thực như: video giao thông, âm thanh môi trường, hoặc dữ liệu sinh học, ... - những dữ liệu mà LLM vẫn chưa thể thay thế hiện tại (tất nhiên là điều này không thể đảm bảo trong tương lai).

Ngoài ra, bạn cũng hoàn toàn có thể dựa vào bản quyền, hợp đồng độc quyền, hoặc quy định pháp luật để đảm bảo tính độc quyền của dữ liệu, tạo ra lợi thế cạnh tranh với đối thủ

Kiểm soát luồng dữ liệu (Data Movement)

Kiểm soát luồng dữ liệu là khi bạn trở thành “trạm trung chuyển” trong hệ sinh thái, quyết định cách dữ liệu di chuyển giữa các bên – từ khách hàng, đối tác, đến nội bộ công ty. Đây là cách mạnh mẽ để xây data moat, vì bạn không chỉ sở hữu dữ liệu mà còn kiểm soát cách nó được sử dụng trong hệ sinh thái.

Ví dụ:

Visa kiểm soát luồng dữ liệu giao dịch (tên khách hàng, giới hạn tín dụng, mã ngân hàng). Mọi giao dịch qua Visa đều phải đi qua hệ thống của họ, tạo data moat khổng lồ.
Amadeus và Sabre (du lịch) kiểm soát dữ liệu đặt vé máy bay giữa hãng hàng không, đại lý, và khách hàng.

Đây cũng là một hướng đi cho những công ty muốn tạo ra lợi thể cạnh tranh cách biệt và bền vững theo thời gian, tuy nhiên không phải công ty nào cũng làm được.

Kiểm soát cách sử dụng dữ liệu (Data Usage)

Cách mạnh mẽ nhất để xây data moat là kiểm soát cách dữ liệu được sử dụng, biến nó thành một phần không thể tách rời của sản phẩm. Đây là một quy trình từ lưu trữ dữ liệu (System of Record - SoR), đến thao tác trên dữ liệu (System of Action - SoA) cuối cùng là tạo ra sản phẩm từ dữ liệu (Agentic Systems)

Một ví dụ dễ hình dung nhất cho cách kiếm soát dữ liệu này là Github.
- Github không chỉ cho phép lưu mã nguồn (upload/download/...) -- SoR
- mà còn cho phép tương tác trên mã nguồn (commit/merge/versioning) -- SoA,
- cuối cùng dựa vào dữ liệu để xây dựng Github Copilot - tự động gợi ý mã code dựa trên hành vi lập trình. -- Agentic System

Ngoài các ý chính trên, tác giả cũng đề cập đến Fragmented Data - Gom dữ liệu từ nhiều nguồn phân tán, chuẩn hóa và làm phong phú để tạo ra giá trị mới, hay Catalyst Data - loại dữ liệu không có giá trị lớn khi đứng một mình, nhưng khi kết hợp với dữ liệu chính, nó tạo ra giá trị vượt trội. Đây đều là những điểm cần chú ý nếu muốn xây dựng được data moat đủ mạnh và bền vững

Tóm lại: Kiểm soát dữ liệu là cách bạn xây data moat bằng cách:

Tạo và sở hữu dữ liệu độc quyền: Qua exhaust data, dữ liệu chuyên sâu, brute force, hoặc thu thập dữ liệu phân mảnh và cố gắng bảo vệ bằng yếu tố ngoại sinh như bản quyền, hợp đồng, ....
Kiểm soát luồng dữ liệu: Trở thành “trạm trung chuyển” trong hệ sinh thái.
Kiểm soát cách sử dụng dữ liệu: Biến dữ liệu thành hành động qua SoR, SoA, Agentic Systems, và tận dụng Catalyst Data.

imgur

3.2. Data Loops: Vòng lặp dữ liệu

Đây là cách các công ty tạo ra một hệ thống tự cải tiến, nơi dữ liệu từ người dùng được thu thập, phân tích, và sử dụng để nâng cao sản phẩm, từ đó thu hút nhiều người dùng hơn, tạo ra nhiều dữ liệu hơn, và cứ thế tiếp tục.

Data loops chính là động cơ giúp công ty không chỉ giữ chân khách hàng mà còn xây dựng lợi thế cạnh tranh bền vững.

Data loop: a positive feedback process that links data and business value in a virtuous cycle. Data improves the business, and the business improves the data (for some value of the word “improve”), and the flywheel spins sufficiently fast that no competitor can catch up.

Tạm dịch: Data loops (vòng lặp dữ liệu) – một quá trình phản hồi tích cực, nơi dữ liệu và giá trị kinh doanh liên tục thúc đẩy lẫn nhau trong một vòng tuần hoàn. Dữ liệu giúp doanh nghiệp hoạt động hiệu quả hơn, và doanh nghiệp càng phát triển thì lại càng thu được dữ liệu nhiều hơn (và tốt hơn). Khi vòng quay này đủ nhanh, các đối thủ sẽ không thể đuổi kịp.

Tuy nhiên, không phải data loop nào cũng tạo ra data moat mạnh. Một số vòng lặp đủ mạnh, một số khác thì yếu và dễ bị phá vỡ, hoặc phụ thuộc vào network/quy mô của công ty hơn là dữ liệu.

Về cơ bản, có ba loại data loops chính: Quantity Loops (vòng lặp số lượng), Learning Loops (vòng lặp học hỏi), và Usage/Value Loops (vòng lặp sử dụng/giá trị).

Quantity Loops: Vòng lặp số lượng – Dữ liệu thu hút dữ liệu

Quantity Loops là loại vòng lặp đơn giản nhất: dữ liệu thu hút thêm dữ liệu, tạo ra chu kỳ nơi lượng dữ liệu tăng lên kéo theo nhiều người dùng hơn, và ngược lại.

User-Generated-Content (UGC) Loop – Vòng lặp nội dung do người dùng tạo
- Đây là vòng lặp thúc đẩy Facebook, Youtube, Instagram, TikTok, X và thậm chí cả LinkedIn .
- Tất cả các nền tảng này đều lưu trữ nội dung do người dùng tạo miễn phí: ảnh, video, bài đăng, sơ yếu lý lịch.
- Nội dung này thu hút những người dùng khác, những người đăng nhiều nội dung hơn nữa. Càng nhiều nội dung, càng nhiều người dùng; ngoài ra, càng nhiều nội dung, các đề xuất càng tốt và do đó, càng nhiều người dùng.
- Sự hiện diện của tất cả những người dùng này (và sự tương tác của họ) thu hút các nhà quảng cáo, những người trợ cấp thật sự cho vòng lặp này.
- Nội dung, tất nhiên, chỉ là một từ khác để chỉ dữ liệu. Đây là một vòng lặp số lượng dữ liệu hoàn hảo và khi đạt đến độ chín muồi, nó vừa có lợi nhuận vừa rất khó thay thế.
- Vấn đề với vòng lặp UGC là nó có thể đảo ngược nhanh như tốc độ mà nó được xây dựng. Nếu không duy trì được sự hấp dẫn, hoặc có những chiến lược sai lầm, hoặc bị hạn chế bởi chính phủ, ... người dùng sẽ rời đi, đưa nền tảng trở về vạch xuất phát. Tình trạng của Telegram ở Việt nam hiện tại là một ví dụ cho sự đảo ngược này
Search-Engine-Optimization (SEO) Loop – Vòng lặp tối ưu hóa công cụ tìm kiếm
- Đây là vòng lặp, nơi nội dung (do người dùng hoặc nền tảng tạo ra) thu hút người dùng qua công cụ tìm kiếm như Google. Người dùng tìm kiếm nội dung cụ thể, đến với nền tảng, tạo thêm nội dung hoặc dữ liệu, giúp nền tảng xuất hiện nhiều hơn trên Google, thu hút thêm người dùng.
- Ví dụ: Reddit, Quora, Stackoverflow cung cấp câu trả lời cho câu hỏi cụ thể (như “cách sửa lỗi code Python”). Yelp và TripAdvisor cung cấp đánh giá dịch vụ, ... Những nền tảng này thu hút người dùng qua Google, tạo thêm dữ liệu (bài đăng, đánh giá), giúp tăng thứ hạng tìm kiếm.
- Các công ty này kiếm tiền theo những cách khác nhau: thông qua quảng cáo, tiếp thị liên kết, thông qua đăng ký hoặc dịch vụ. Đặc biệt, nó tạo ra khách hàng tiềm năng đủ sinh lợi — hãy nghĩ đến bảo hiểm, sản phẩm tài chính, dịch vụ pháp lý, chăm sóc sức khỏe, giáo dục, du lịch, bảo trì nhà cửa.
- Trong mỗi trường hợp, việc thêm nhiều dữ liệu hơn sẽ giúp các trang web này có nhiều quyền tìm kiếm hơn, dẫn đến nhiều lưu lượng truy cập hơn và do đó (trực tiếp hoặc gián tiếp) nhiều dữ liệu hơn. Khi đó, data moat sẽ được thiết lập
- Tuy nhiên, với sự bùng nổ nội dung AI, Google ngày càng kém hiệu quả trong việc cung cấp kết quả chính xác. LLM đang thay thế tìm kiếm cho các câu hỏi thông tin, và trong tương lai, có thể thay thế cả tìm kiếm giao dịch (như đặt vé máy bay). SEO Loop sẽ khó có thể tạo thành data moat trong tương lai. Một ví dụ điển hình là Stackoverflow, khi số lượng câu hỏi trên nền tảng này đang ít dần đi theo thời gian
Give-to-Get (G2G) Loop – Vòng lặp cho-để-nhận
- Trong vòng lặp này, người dùng nhận dữ liệu từ nền tảng nếu họ đóng góp dữ liệu. Càng nhiều người đóng góp, nền tảng càng có nhiều dữ liệu, càng hấp dẫn hơn, thu hút thêm người dùng đóng góp.
- Ví dụ: Waze cho phép người dùng đóng góp dữ liệu giao thông (như tắc đường) để nhận dữ liệu tổng hợp về lộ trình tốt nhất. Trên thực tế, vòng lặp này thường được sử dụng khá nhiều ở các ngành như giao thông, thời tiết, địa lý: OpenStreetMap, Weather Underground, ...
- Tuy nhiên, để phát triển vòng lặp này, cần vượt qua giai đoạn cold-start ban đầu, khi lượng dữ liệu ban đầu chưa đủ lớn để thu hút người dùng.
- Đặc biệt, việc ẩn danh (Anonymization) và bảo vệ thông tin nhạy cảm của người dùng là vô cùng quan trọng, để đảm bảo sự phát triển và tính bền vững của G2G Loop

Learning Loops: Vòng lặp học hỏi – Dữ liệu giúp cải thiện kinh doanh

Learning Loops là vòng lặp doanh nghiệp dùng dữ liệu để cải thiện hoạt động, và khi hoạt động tốt hơn giúp thu thập thêm nhiều dữ liệu hơn. Ví dụ, dữ liệu về hành vi khách hàng giúp tối ưu hóa sản phẩm, thu hút thêm khách hàng, tạo thêm dữ liệu.

Tuy nhiên, Learning Loops thường không phải data moat mạnh, vì giá trị từ dữ liệu có xu hướng đạt đỉnh ở một mức nhất định, trong khi chi phí thu thập dữ liệu tăng lên ở quy mô lớn.
Có một số trường hợp ngoại lệ khi mà Learning Loops có thể tạo data moat:
- Business Model Unlock – Mở khóa mô hình kinh doanh: khi vòng lặp đạt đến ngưỡng "kỳ diệu", nó mở ra một mô hình kinh doanh mới, mà đơn giản là không thể hình thành nếu không có quá trình học tập đó.
  - Ví dụ: Amazon Prime dùng dữ liệu về hành vi mua sắm, kho bãi, và lộ trình giao hàng để cung cấp giao hàng "miễn phí" trong 2 ngày. Điều này không chỉ cải thiện dịch vụ mà mở ra một mô hình kinh doanh mới, tạo data moat mạnh mẽ.
- Data Businesses – Doanh nghiệp dữ liệu: Các công ty tập trung vào dữ liệu có thể tận dụng Learning Loops để tạo ra sản phẩm cạnh tranh về giá trong phân khúc thị trường, hoặc định giá khác biệt.
Secondary Learning Loops – Vòng lặp học hỏi phụ Một số vòng lặp học hỏi phụ (như cải thiện chất lượng dữ liệu, gợi ý sản phẩm, tối ưu hóa sản phẩm qua A/B testing) cũng có thể được coi là data moat, nhưng thực tế rất yếu:
- Data Quality Loop: Cải thiện chất lượng dữ liệu có giá trị, nhưng không đủ mạnh để tạo moat.
- Product Recommendation Loop: Gợi ý sản phẩm (như trên Shopee) hữu ích, nhưng dễ bị sao chép bởi đối thủ.
- Product Optimization Loop: Tối ưu hóa sản phẩm qua A/B testing không phải moat, vì ai cũng làm được.

Usage/Value Loops: Vòng lặp sử dụng/giá trị – Dữ liệu càng được dùng, càng giá trị

Usage/Value Loops là loại vòng lặp nơi dữ liệu càng được sử dụng rộng rãi, càng trở nên giá trị với người dùng. Bất kỳ ai kiểm soát dữ liệu này sẽ tạo ra được data moat mạnh mẽ, vì dữ liệu trở thành tiêu chuẩn / công cụ không thể thiếu trong lĩnh vực đó. (Loại Loop mà tác giả thích nhất)

Data Exchange Standards – Tiêu chuẩn trao đổi dữ liệu
- Cung cấp một “khóa chính” (primary key) để liên kết dữ liệu giữa các công ty, trở thành tiêu chuẩn ngành.
- Ví dụ: CUSIP của FactSet là mã định danh chứng khoán, giúp các công ty tài chính giao dịch chính xác. Càng nhiều người dùng, CUSIP càng trở thành tiêu chuẩn, càng giá trị.
Business Evaluation Standards – Tiêu chuẩn đánh giá kinh doanh
- Cung cấp một “chuẩn mực” mà ngành sử dụng để đánh giá hoặc định giá giao dịch.
- Ví dụ: S&P 500 là chuẩn mực để đánh giá hiệu suất đầu tư. Càng nhiều người dùng, chỉ số này càng trở thành tiêu chuẩn, càng giá trị.
Pass-Through Loop – Vòng lặp truyền tải
- Dữ liệu được dùng để tạo lợi ích trực tiếp cho khách hàng, như giảm chi phí hoặc tăng hiệu quả, và lợi ích này tăng theo quy mô.
- Ví dụ: Stripe dùng dữ liệu giao dịch để phát hiện gian lận, giảm chi phí cho thương nhân. Càng nhiều giao dịch, Stripe càng phát hiện gian lận tốt hơn, mang lại lợi ích lớn hơn.
Trust Loop – Vòng lặp lòng tin
- Khi dữ liệu trở thành “nguồn sự thật” được nhiều người tin cậy, nó càng được dùng nhiều, càng củng cố lòng tin.
- Ví dụ: Moody’s cung cấp xếp hạng tín dụng, được coi là “nguồn sự thật” trong ngành tài chính.
Implicit Knowledge Capture – Ghi nhận kiến thức ẩn
- Kết hợp dữ liệu độc quyền, proprietary data, learning, trust và usage/value để ghi nhận kiến thức ẩn từ người dùng, tạo ra sản phẩm không thể thay thế.
- Rất nhiều công ty tập trung vào application-layer AI đang follow template sau:
  1. Bắt đầu với một mô hình nền tảng (foundation model);
  2. Tinh chỉnh mô hình đó bằng kiến thức chuyên sâu của một ngành cụ thể;
  3. Tự động hóa các quy trình đơn giản trong ngành đó;
  4. Từ quá trình triển khai, dần phát hiện các trường hợp đặc biệt, tương tác phức tạp và các tình huống thực tế rắc rối khác;
  5. Kết hợp phản hồi từ con người để cải thiện khả năng xử lý những tình huống “lộn xộn” của thế giới thực;
  6. Từ đó dần xây dựng được niềm tin từ người dùng/doanh nghiệp;
  7. Mở rộng khả năng của hệ thống để thay thế hoặc hỗ trợ ngày càng nhiều quy trình hơn nữa;
  8. Lặp lại tất cả các bước trên;
  9. Và cuối cùng: trở thành một phần không thể thay thế, tạo thành Moat

Tóm lại: Data Loops là chu kỳ tự củng cố, giúp startup biến dữ liệu thành data moat bền vững. Có ba loại chính:

Quantity Loops: Dữ liệu thu hút dữ liệu (UGC, SEO, SaaS Data Gravity, G2G). Mạnh nhưng dễ bị đảo ngược nếu mất đà.
Learning Loops: Dữ liệu cải thiện kinh doanh, nhưng thường yếu khi giá trị đạt một ngưỡng nhất định. Ngoại lệ là khi mở khóa mô hình kinh doanh mới hoặc tạo ra doanh nghiệp dữ liệu.
Usage/Value Loops: Dữ liệu càng được dùng, càng giá trị, tạo tiêu chuẩn ngành hoặc nguồn tin cậy.

imgur

4. Kết Luận

Oke, bài viết cũng đã dài, nên mình xin phép kết thúc ở đây. Phần liên hệ như thế nào đến bối cảnh Việt Nam, cách vận hành và duy trì doanh nghiệp, hay cách xây dựng startup vượt lên sánh ngang với các Big Tech dựa vào data, mình xin để lại cho mọi người - Mỗi người luôn có 1 góc nhìn khác nhau.

Một điều cuối:

Data moat có sự giao thoa (Overlaps): Nhiều công ty sở hữu nhiều loại data moat, và chúng thường hỗ trợ lẫn nhau, tạo ra sức mạnh tổng hợp. Một data moat cũng có thể là kết hợp của cả kiểm soát dữ liệu và vòng lặp dữ liệu
Data moat có vòng đời (Evolution): Không phải data moat nào cũng tồn tại mãi mãi. Chúng cần đạt quy mô nhất định để phát huy tác dụng, và có thể suy yếu do các yếu tố như sự phát triển của AI, giá trị dữ liệu giảm dần, hoặc các vấn đề về quy mô.

Cảm ơn các bạn đã đọc, mong bài viết sẽ thực sự mang lại đượcgiá trị gì đó! 🙌. Đừng quên upvote, lưu và share bài viết để mình có động lực viết tiếp, và không "thợ lặn" thêm năm nữa ở Viblo. Hẹn gặp lạị mọi người ở những bài viết tiếp theo. See ya!

Tài liệu tham khảo:

Data and Defensibility - Abraham Thomas

Data Moat: "Hào Nước" Dữ Liệu Trong Thời Đại AI

1. Mở đầu - Introduction

2. Data Moat 101: Thế nào là "hào nước" dữ liệu

Data Moat là gì?

Tại sao Data Moat quan trọng?

3. Phân loại các cách xây dựng Data Moat

3.1. Data Control: Kiểm soát dữ liệu

3.2. Data Loops: Vòng lặp dữ liệu

4. Kết Luận

Bình luận

Bài viết tương tự

Các thuật toán cơ bản trong AI - Phân biệt Best First Search và Uniform Cost Search (UCS)

Con đường AI của tôi

[ChatterBot] Thư viện chatbot hay ho dành cho Python| phần 3

[Deep Learning] Kỹ thuật Dropout (Bỏ học) trong Deep Learning

Kỹ thuật Dropout (Bỏ học) trong Deep Learning

Blockchain dưới con mắt làng Vũ Đại 4.0