- vừa được xem lúc

"Thợ xây" tìm hiểu về Big Data từ con số "0"

0 0 1

Người đăng: Nguyễn Trung Nam

Theo Viblo Asia

Để tìm hiểu một vấn đề mới và chưa trải bao giờ điều đầu tiên mình luôn cố gắng nhìn vấn đề đó tổng quan nhất và tìm kiếm động lực nào để khiến thế giới công nghệ có hẳn một lĩnh vực riêng cho nó, bài viết ngày hôm này chúng ta sẽ cùng đi tìm hiểu việc xử lý dữ liệu lớn (big data). Hãy bắt đầu bằng cách mô tả ý nghĩa của dữ liệu lớn. Nghe tên là "Dữ liệu lớn" cảm giác sợ vãi linh hồn, nhưng vẫn phải hiểu ý nghĩa, cụ thể từ tên gọi cũng đủ hiểu thuật ngữ này dùng để mô tả các tập dữ liệu có kích thước quá lớn, cấu trúc quá phức tạp hoặc đến với hệ thống của chúng ta với tốc độ quá nhanh, vượt quá khả năng của các ứng dụng truyền thống trong việc xử lý đủ nhanh để mang lại giá trị.

1. Đặc điểm nổi bật của "dữ liệu lớn"

Để có thể tiếp cận nhanh chóng với lĩnh vực này, chúng ta có thể đi tìm và phân tích đặc điểm nhận biết của thứ gọi là "dữ liệu lớn". Nói chung đọc tài liệu thì có nhiều đặc điểm của dữ liệu lớn lắm, nhưng mình chỉ cô đọng lại ba đặc điểm nổi bật và quan trọng nhất là:

  • Đặc điểm đầu tiên là khối lượng (volume). Khối lượng đề cập đến số lượng dữ liệu mà chúng ta cần xử lý, lưu trữ và phân tích. Khi nói về dữ liệu lớn, chúng ta đang nói về những khối lượng dữ liệu rất lớn và cực kì lớn hoặc k thể tưởng tượng được, thường là hàng terabyte, petabyte, hoặc thậm chí nhiều hơn thế nữa. Một số lĩnh vực công nghệ có lượng dữ liệu lớn có thể anh em hình dung ra ngay là các công ty tìm kiếm trên internet như google..., họ phải phân tích toàn bộ thông tin trên internet và cung cấp khả năng tìm kiếm tức thời cho người dùng của họ. Một ví dụ khác là các hệ thống phần mềm y tế thu thập, phân tích và lưu trữ rất nhiều thông tin về bênh án cảu bệnh nhân trong bệnh viện hoặc phòng khám, có thể giúp đưa ra biện pháp ngăn ngừa hoặc chẩn đoán bệnh. Tiếp theo, chúng ta có các hệ thống an ninh thời gian thực, phân tích nhiều luồng video đến từ các camera được đặt khắp các khu dân cư, thành phố hoặc các cơ sở an ninh cao. Mục đích của những hệ thống này là giúp chống lại tội phạm. Cuối cùng, chúng ta có các hệ thống dự báo thời tiết phân tích rất nhiều dữ liệu từ các cảm biến khác nhau được đặt trên vệ tinh, cũng như ở các vị trí khác nhau trên khắp một vùng địa lý rộng lớn. Các hệ thống này có thể giúp chúng ta dự báo thời tiết, cũng như cảnh báo về những cơn bão hoặc sóng thần sắp tới.

  • Đặc điểm thứ hai của dữ liệu lớn là sự đa dạng (variety). Trong các hệ thống truyền thống chúng ta thường làm việc với một số loại dữ liệu có cấu trúc và được xác định rõ ràng. Tuy nhiên, khi chuyển sang lĩnh vực dữ liệu lớn, chúng ta có thể gặp rất nhiều loại dữ liệu, có thể là dữ liệu phi cấu trúc, được thu thập từ nhiều nguồn khác nhau. Mục tiêu của chúng ta là xử lý tất cả các loại dữ liệu đó và kết hợp chúng lại thông qua một quá trình gọi là dung hợp dữ liệu (data fusion). Điều này có thể giúp chúng ta tìm ra các mô hình tiềm ẩn hoặc cung cấp những hiểu biết kinh doanh cho tổ chức mà không thể thấy được nếu chỉ phân tích một nguồn dữ liệu duy nhất. Một ví dụ cho điều này là các dịch vụ hoặc ứng dụng mạng xã hội thu thập rất nhiều loại dữ liệu khác nhau về hành vi của người dùng trong thời gian thực. Ví dụ, họ có thể thu thập thông tin về các lượt click, thích, chia sẻ hoặc bài đăng của người dùng, cũng như thời gian mà người dùng dành để xem một video cụ thể hoặc thậm chí di chuột qua một bài viết hoặc quảng cáo nào đó. Tất cả những hoạt động dường như không liên quan này có thể được kết hợp với nhau và xây dựng các mô hình dự đoán hành vi và phản hồi của mỗi người dùng đối với các quảng cáo sản phẩm trong tương lai. Đồng thời, ở mức độ tổng hợp, nếu chúng ta kết hợp tất cả dữ liệu từ nhiều người dùng, chúng ta có thể phát hiện ra các xu hướng trên internet cũng như các cụm sở thích và xuất hiện nhiều.

  • Cuối cùng, đặc điểm thứ ba của dữ liệu lớn là tốc độ (velocity). Khi xử lý dữ liệu lớn, chúng ta thường phải đối mặt với những luồng dữ liệu liên tục chảy vào hệ thống với tốc độ rất cao. Tốc độ cao của dữ liệu đầu vào có thể do quy mô lớn của hệ thống hiện tại hoặc đơn giản là tần suất sự kiện cao. Ví dụ, nếu chúng ta có mộ hệ thống thương mại điện tử hoạt động trên quy mô toàn cầu với hàng triệu người dùng truy cập website mỗi ngày, duyệt và mua sản phẩm, thì tần suất sự kiện cao sẽ xuất phát từ thực tế là chúng ta có rất nhiều người dùng. Mặt khác, lĩnh vực internet vạn vật (IoT) liên quan đến việc kết nối nhiều thiết bị và lấy phân tích từ các cảm biến của chúng. Trong trường hợp này, chúng ta có thể chỉ có một đội xe buýt, tàu hỏa hoặc ô tô, nhưng tất cả các phương tiện đó có thể tạo ra vô số điểm dữ liệu từ các cảm biến của chúng, như vị trí, tốc độ, các đối tượng xung quanh, v.v. Tương tự, chúng ta có thể có một nhà máy sản xuất thực phẩm hoặc quần áo với đầy đủ công nghệ như robot, dây chuyền lắp ráp và các loại máy móc khác liên tục tạo ra dữ liệu về chất lượng và tốc độ sản xuất từ các cảm biến của chúng. Trong cả hai trường hợp sử dụng này, số lượng thiết bị có thể không lớn, nhưng mỗi cảm biến trên robot, máy móc hoặc xe tự động có thể tạo ra một luồng dữ liệu liên tục mà chúng ta phải xử lý rất nhanh.

Điều quan trọng cần chỉ ra là việc lưu trữ và xử lý dữ liệu lớn rất phức tạp, thực sự rất tốn kém, nhưng giá trị mà chúng ta thu được từ nó thường vượt xa chi phí liên quan. Những hiểu biết từ việc phân tích dữ liệu lớn có thể mang lại lợi thế cạnh tranh đáng kể so với các đối thủ. Những hiểu biết này có thể dưới dạng trực quan hóa, khả năng truy vấn hoặc phân tích dự đoán.

  • Trực quan hóa (Visualization) là một công cụ rất mạnh mẽ cho phép con người hiểu được những dữ liệu vô nghĩa mà nếu chỉ lưu trữ trên một hệ thống tệp hoặc cơ sở dữ liệu thì khó có thể hiểu được.
  • Trong nhiều trường hợp, sau khi thu thập rất nhiều dữ liệu, chúng ta không nhất thiết biết ngay phải làm gì với chúng hoặc làm sao có thể tận dụng chúng, vì vậy khả năng truy vấn cho phép chúng ta thực hiện phân tích tức thời trên dữ liệu, điều này cuối cùng giúp chúng ta tìm ra những hiểu biết hoặc mô hình mà trước đó không rõ ràng.
  • Cuối cùng, về mặt phân tích dự đoán, chúng ta có thể xây dựng các thuật toán hoặc mô hình học máy để dự đoán hành vi của người dùng và đề xuất những sản phẩm mà họ có khả năng mua cao hơn. Nhưng cũng có thể đơn giản là phát hiện các điểm bất thường trong hệ thống bằng cách phân tích log từ các máy chủ đưa ra các cảnh báo cho đội ngũ kỹ sư đang trực hệ thống.

2. Thông tin kết nối

Nếu anh em muốn trao đổi thêm về bài viết, hãy kết nối với mình qua LinkedIn và Facebook:

Rất mong được kết nối và cùng thảo luận!

Bình luận

Bài viết tương tự

- vừa được xem lúc

Apache Presto - Hướng dẫn cài đặt

Bài viết này mình sẽ hướng dẫn các bạn cách cài đặt Apache Presto, trước tiên, để làm theo hướng dẫn này thì yêu cầu cơ bản như sau:. .

0 0 43

- vừa được xem lúc

Apache Presto - Giới thiệu tổng quan và kiến trúc của Apache Presto

Sau seri HIVE thì mình sẽ mang đến tiếp tục seri về Apache Presto, thằng này thì có thể sử dụng HIVE như là một connector trong kiến trúc của nó, cùng tìm hiểu về nó nhé, let's start. Apache Presto rất hữu ích để thực hiện các truy vấn thậm chí là hàng petabyte dữ liệu.

0 0 43

- vừa được xem lúc

Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 2)

Các bạn chưa đọc phần 1 thì có thể đọc tại đây nha : Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 1). Ghi dữ liệu ra file parquet sử dụng Spark.

0 0 49

- vừa được xem lúc

Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 1)

Định dạng text là một định dạng vô cùng phổ biến cả trên HDFS hay bất cứ đâu. Dữ liệu file text được trình bày thành từng dòng, mỗi dòng có thể coi như một bản ghi và đánh dấu kết thúc bằng kí tự "" (

0 0 36

- vừa được xem lúc

Blockchain dưới con mắt làng Vũ Đại 4.0

Mở bài. Hey nhô các bạn, lại là mình đây .

0 0 50

- vừa được xem lúc

Khám phá từng ngõ ngách Apache Druid - Phần 1

1. Giới thiệu. Trước khi đi vào nội dung chính mình muốn kể 1 câu chuyện sau:. .

0 0 572