Sự ra đời của Big Data - [Data Analyst Series]

Trong thế giới digital ngày nay, mọi người đều tạo ra dữ liệu. Từ thói quen du lịch cho đến khi tập luyện và giải trí, số lượng thiết bị kết nối Internet ngày càng tăng, từ đó lượng tương tác hàng ngày tạo ra một bộ dữ liệu khổng lồ và người ta gọi đó là Big Data.

I. Big Data là gì?

Big Data - Dữ liệu lớn đề cập đến khối lượng dữ liệu năng động, lớn và khác nhau được tạo bởi tất cả mọi người, công cụ và máy móc. Nó đòi hỏi công nghệ mới, sáng tạo và có thể mở rộng để thu thập, lưu trữ và xử lý phân tích số lượng lớn dữ liệu được thu thập để thúc đẩy những hiểu biết kinh doanh theo thời gian thực liên quan đến người tiêu dùng, rủi ro, lợi nhuận, hiệu suất, quản lý năng suất và giá trị cổ đông nâng cao.

Không có một định nghĩa nào về dữ liệu lớn nhưng có một số yếu tố nhất định trên các định nghĩa khác nhau, một trong số đó là "The V's of Big Data", đề cập đến 5 chữ V viết tắt của Velocity, Volumn, Variety, Veracity, Value:

1. Velocity - Vận tốc

Đây là V của vận tốc dữ liệu lớn, là tốc độ mà dữ liệu tích lũy. Dữ liệu đang được tạo ra cực kỳ nhanh và không bao giờ dừng lại. Thông qua livestream hoặc realtime, các công nghệ và cloud có thể xử lý thông tin rất nhanh.

2. Volumn - Khối lượng

Khối lượng là tỷ lệ của dữ liệu hoặc tăng lượng dữ liệu được lưu trữ.

3. Variety - Sự đa dạng

Variety là sự đa dạng của dữ liệu. Dữ liệu có cấu trúc được tổ chức dưới các hàng và cột trong cơ sở dữ liệu quan hệ, trong khi dữ liệu phi cấu trúc không được tổ chức theo cách được xác định trước như tweet, bài đăng trên blog, hình ảnh, số và video. Variety cũng phản ánh rằng dữ liệu đến từ các nguồn khác nhau; Máy móc, con người và quy trình, cả bên trong và bên ngoài cho các tổ chức, phương tiện truyền thông xã hội, công nghệ di động, công nghệ thiết bị đeo, video GEO Technologies, và nhiều, nhiều hơn nữa.

4. Veracity - Tính chính xác

Tính chính xác là chất lượng và nguồn gốc của dữ liệu và sự phù hợp của nó với các sự kiện với độ chính xác. Các thuộc tính bao gồm tính nhất quán, đầy đủ, tính toàn vẹn và sự mơ hồ.

5. Value - Giá trị

Giá trị là khả năng biến dữ liệu thành giá trị. Lý do chính mà mọi người đầu tư thời gian để hiểu dữ liệu lớn là để lấy giá trị từ nó.

Hãy xem xét một số ví dụ:

Velocity: Cứ sau 60 giây, một video được tải lên YouTube, tạo ra dữ liệu. Hãy suy nghĩ về việc dữ liệu tích lũy nhanh như thế nào qua nhiều giờ, ngày và năm.
Volumn: Dân số thế giới là khoảng 7 tỷ người và đại đa số hiện đang sử dụng các thiết bị kỹ thuật số. Điện thoại di động, máy tính để bàn và máy tính xách tay, thiết bị đeo được, v.v. Các thiết bị này đều tạo ra, thu thập và lưu trữ dữ liệu khoảng 2,5 triệu byte mỗi ngày. Đó là tương đương với 10 triệu đĩa DVD Blu-ray.
Variety: Hãy nghĩ về các loại dữ liệu khác nhau. Văn bản, hình ảnh, phim, âm thanh, dữ liệu sức khỏe từ các thiết bị có thể đeo và nhiều loại dữ liệu khác nhau từ các thiết bị được kết nối với Internet vạn vật.
Veracity: Tám mươi phần trăm dữ liệu được coi là không cấu trúc và chúng ta phải nghĩ ra các cách để tạo ra những hiểu biết đáng tin cậy và chính xác. Dữ liệu phải được phân loại, phân tích và trực quan hóa.
Value: Các nhà khoa học dữ liệu, ngày nay, có được những hiểu biết sâu sắc từ dữ liệu lớn và đối phó với những thách thức mà các bộ dữ liệu lớn này tạo ra.

Quy mô của dữ liệu được thu thập rất lớn dẫn đến những công cụ phân tích dữ liệu thông thường không đủ khả năng phân tích. Tuy nhiên, các công cụ mới thay thế tận dụng sức mạnh điện toán phân tán có thể khắc phục vấn đề này. Các công cụ như Apache Spark, Hadoop và hệ sinh thái của nó cung cấp các cách để trích xuất, tải, phân tích và xử lý dữ liệu trên các tài nguyên tính toán phân tán, cung cấp những insight và knownledge. Điều này cung cấp cho các tổ chức nhiều cách hơn để kết nối với khách hàng của họ và làm phong phú các dịch vụ họ cung cấp. Vì vậy, lần tới khi bạn đeo trên chiếc smartwatch của mình, mở khóa điện thoại thông minh hoặc theo dõi tập luyện của bạn, hãy nhớ dữ liệu của bạn đang bắt đầu một hành trình có thể đi khắp thế giới, thông qua phân tích dữ liệu lớn và quay lại với bạn.

Sự ra đời của Big Data - [Data Analyst Series]

I. Big Data là gì?

1. Velocity - Vận tốc

2. Volumn - Khối lượng

3. Variety - Sự đa dạng

4. Veracity - Tính chính xác

5. Value - Giá trị

Tham khảo từ khoá học Data Analyst của IBM

Bình luận

Bài viết tương tự

Data bias trong phân tích dữ liệu

Data Mining - Khai phá dữ liệu - [Data Science Series]

Data Science, công việc hấp dẫn nhất thế kỷ 21 - [Data Science Series]

Thao tác cơ bản với khung dữ liệu trong R (phần 1)

Thao tác cơ bản với khung dữ liệu trong R (phần 2)

Ngôn ngữ lập trình sử dụng trong Data Science - [Data Science Series]