- vừa được xem lúc

Sự ra đời của Big Data - [Data Analyst Series]

0 0 36

Người đăng: Hoàng Đinh

Theo Viblo Asia

Trong thế giới digital ngày nay, mọi người đều tạo ra dữ liệu. Từ thói quen du lịch cho đến khi tập luyện và giải trí, số lượng thiết bị kết nối Internet ngày càng tăng, từ đó lượng tương tác hàng ngày tạo ra một bộ dữ liệu khổng lồ và người ta gọi đó là Big Data.

I. Big Data là gì?

Big Data - Dữ liệu lớn đề cập đến khối lượng dữ liệu năng động, lớn và khác nhau được tạo bởi tất cả mọi người, công cụ và máy móc. Nó đòi hỏi công nghệ mới, sáng tạo và có thể mở rộng để thu thập, lưu trữ và xử lý phân tích số lượng lớn dữ liệu được thu thập để thúc đẩy những hiểu biết kinh doanh theo thời gian thực liên quan đến người tiêu dùng, rủi ro, lợi nhuận, hiệu suất, quản lý năng suất và giá trị cổ đông nâng cao.

Không có một định nghĩa nào về dữ liệu lớn nhưng có một số yếu tố nhất định trên các định nghĩa khác nhau, một trong số đó là "The V's of Big Data", đề cập đến 5 chữ V viết tắt của Velocity, Volumn, Variety, Veracity, Value:

1. Velocity - Vận tốc

Đây là V của vận tốc dữ liệu lớn, là tốc độ mà dữ liệu tích lũy. Dữ liệu đang được tạo ra cực kỳ nhanh và không bao giờ dừng lại. Thông qua livestream hoặc realtime, các công nghệ và cloud có thể xử lý thông tin rất nhanh.

2. Volumn - Khối lượng

Khối lượng là tỷ lệ của dữ liệu hoặc tăng lượng dữ liệu được lưu trữ.

3. Variety - Sự đa dạng

Variety là sự đa dạng của dữ liệu. Dữ liệu có cấu trúc được tổ chức dưới các hàng và cột trong cơ sở dữ liệu quan hệ, trong khi dữ liệu phi cấu trúc không được tổ chức theo cách được xác định trước như tweet, bài đăng trên blog, hình ảnh, số và video. Variety cũng phản ánh rằng dữ liệu đến từ các nguồn khác nhau; Máy móc, con người và quy trình, cả bên trong và bên ngoài cho các tổ chức, phương tiện truyền thông xã hội, công nghệ di động, công nghệ thiết bị đeo, video GEO Technologies, và nhiều, nhiều hơn nữa.

4. Veracity - Tính chính xác

Tính chính xác là chất lượng và nguồn gốc của dữ liệu và sự phù hợp của nó với các sự kiện với độ chính xác. Các thuộc tính bao gồm tính nhất quán, đầy đủ, tính toàn vẹn và sự mơ hồ.

5. Value - Giá trị

Giá trị là khả năng biến dữ liệu thành giá trị. Lý do chính mà mọi người đầu tư thời gian để hiểu dữ liệu lớn là để lấy giá trị từ nó.

Hãy xem xét một số ví dụ:

  • Velocity: Cứ sau 60 giây, một video được tải lên YouTube, tạo ra dữ liệu. Hãy suy nghĩ về việc dữ liệu tích lũy nhanh như thế nào qua nhiều giờ, ngày và năm.
  • Volumn: Dân số thế giới là khoảng 7 tỷ người và đại đa số hiện đang sử dụng các thiết bị kỹ thuật số. Điện thoại di động, máy tính để bàn và máy tính xách tay, thiết bị đeo được, v.v. Các thiết bị này đều tạo ra, thu thập và lưu trữ dữ liệu khoảng 2,5 triệu byte mỗi ngày. Đó là tương đương với 10 triệu đĩa DVD Blu-ray.
  • Variety: Hãy nghĩ về các loại dữ liệu khác nhau. Văn bản, hình ảnh, phim, âm thanh, dữ liệu sức khỏe từ các thiết bị có thể đeo và nhiều loại dữ liệu khác nhau từ các thiết bị được kết nối với Internet vạn vật.
  • Veracity: Tám mươi phần trăm dữ liệu được coi là không cấu trúc và chúng ta phải nghĩ ra các cách để tạo ra những hiểu biết đáng tin cậy và chính xác. Dữ liệu phải được phân loại, phân tích và trực quan hóa.
  • Value: Các nhà khoa học dữ liệu, ngày nay, có được những hiểu biết sâu sắc từ dữ liệu lớn và đối phó với những thách thức mà các bộ dữ liệu lớn này tạo ra.

Quy mô của dữ liệu được thu thập rất lớn dẫn đến những công cụ phân tích dữ liệu thông thường không đủ khả năng phân tích. Tuy nhiên, các công cụ mới thay thế tận dụng sức mạnh điện toán phân tán có thể khắc phục vấn đề này. Các công cụ như Apache Spark, Hadoop và hệ sinh thái của nó cung cấp các cách để trích xuất, tải, phân tích và xử lý dữ liệu trên các tài nguyên tính toán phân tán, cung cấp những insight và knownledge. Điều này cung cấp cho các tổ chức nhiều cách hơn để kết nối với khách hàng của họ và làm phong phú các dịch vụ họ cung cấp. Vì vậy, lần tới khi bạn đeo trên chiếc smartwatch của mình, mở khóa điện thoại thông minh hoặc theo dõi tập luyện của bạn, hãy nhớ dữ liệu của bạn đang bắt đầu một hành trình có thể đi khắp thế giới, thông qua phân tích dữ liệu lớn và quay lại với bạn.

Tham khảo từ khoá học Data Analyst của IBM

Bình luận

Bài viết tương tự

- vừa được xem lúc

Data bias trong phân tích dữ liệu

Hi các bạn, để tiếp tục chuỗi bài chia sẻ về nghiệp vụ của BA, hôm nay mình sẽ chia sẻ một chút về Data analysis (phân tích dữ liệu) - một kỹ thuật khá là rộng và cũng rất quan trọng với BA trong thời

1 0 106

- vừa được xem lúc

Data Mining - Khai phá dữ liệu - [Data Science Series]

I. Data Mining là gì. Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán. 1.

0 0 30

- vừa được xem lúc

Data Science, công việc hấp dẫn nhất thế kỷ 21 - [Data Science Series]

I. Data Science, công việc hấp dẫn nhất thế kỷ 21.

0 0 25

- vừa được xem lúc

Thao tác cơ bản với khung dữ liệu trong R (phần 1)

Giới thiệu. R là một ngôn ngữ lập trình bậc cao, nó được tạo ra với mục đích dành cho các công việc liên quan đến phân tích dữ liệu, thống kê và học máy.

0 0 23

- vừa được xem lúc

Thao tác cơ bản với khung dữ liệu trong R (phần 2)

Giới thiệu. R là một ngôn ngữ lập trình bậc cao, nó được tạo ra với mục đích dành cho các công việc phân tích dữ liệu, thống kê và học máy.

0 0 14

- vừa được xem lúc

Ngôn ngữ lập trình sử dụng trong Data Science - [Data Science Series]

Có một số lượng lớn các lựa chọn khi nói đến ngôn ngữ lập trình nói riêng và ngôn ngữ lập trình trong Data Science . Mỗi người đều có điểm mạnh và điểm yếu của riêng và sẽ không có ai trả lời đúng cho

0 0 20