- vừa được xem lúc

APACHE BEAM - Tóm tắt về Apache Beam

0 0 8

Người đăng: Myzu

Theo Viblo Asia

APACHE BEAM LÀ GÌ?

Định nghĩa

  • Là open-source
  • Là một mô hình lập trình thống nhất để xác định và thực thi các luồng xử lý dữ liệu (data processing pipelines). Nghĩa là khi mình viết logic xử lý cho Batch processing, thì logic này có thể sử dụng cho Streaming , mình không cần phải học quá nhiều về chia SKD riêng lẻ cho batch và streaming data processing

Lịch sử phát triển

  1. Google's MapReduce (2004):
    • Google giới thiệu MapReduce như một mô hình lập trình và một hệ thống thực thi để xử lý và tạo ra các tập dữ liệu lớn. Đây là một trong những nền tảng đầu tiên để xử lý dữ liệu hàng loạt phân tán.
  2. FlumeJava (2010):
    • Google phát triển FlumeJava, một thư viện Java cung cấp một API dễ sử dụng để phát triển các pipeline xử lý dữ liệu hàng loạt. FlumeJava đơn giản hóa việc tạo các pipeline bằng cách sử dụng các toán tử bậc cao (high-level operators) thay vì các hàm Map và Reduce truyền thống.
  3. MillWheel (2013):
    • Google phát triển MillWheel, một hệ thống xử lý dữ liệu thời gian thực phân tán. MillWheel cung cấp khả năng xử lý các luồng dữ liệu với độ trễ thấp và độ tin cậy cao.
  4. Google Cloud Dataflow (2014):
    • Google hợp nhất các ý tưởng và công nghệ từ FlumeJava và MillWheel để tạo ra Google Cloud Dataflow. Đây là một dịch vụ quản lý hoàn toàn cho việc xử lý dữ liệu hàng loạt và dữ liệu thời gian thực trên Google Cloud Platform. Google Cloud Dataflow cung cấp một API thống nhất cho cả xử lý dữ liệu hàng loạt và thời gian thực.
  5. Apache Beam (2016):
    • Để mở rộng sự tiếp cận và đóng góp của cộng đồng mã nguồn mở, Google đóng góp SDK của Google Cloud Dataflow cho Apache Software Foundation, và từ đó Apache Beam ra đời. Apache Beam trở thành một dự án top-level của Apache vào năm 2017.
  6. Phát triển và tích hợp với các Runner khác:
    • Apache Beam đã phát triển và hỗ trợ nhiều Runner khác nhau, cho phép thực thi pipelines trên nhiều nền tảng như Apache Flink, Apache Spark, Apache Samza, và Google Cloud Dataflow. Điều này làm cho Apache Beam trở thành một công cụ linh hoạt và mạnh mẽ cho xử lý dữ liệu phân tán.

So sánh Apache Beam và một số công nghệ


Bình luận

Bài viết tương tự

- vừa được xem lúc

Apache Presto - Hướng dẫn cài đặt

Bài viết này mình sẽ hướng dẫn các bạn cách cài đặt Apache Presto, trước tiên, để làm theo hướng dẫn này thì yêu cầu cơ bản như sau:. .

0 0 43

- vừa được xem lúc

Apache Presto - Giới thiệu tổng quan và kiến trúc của Apache Presto

Sau seri HIVE thì mình sẽ mang đến tiếp tục seri về Apache Presto, thằng này thì có thể sử dụng HIVE như là một connector trong kiến trúc của nó, cùng tìm hiểu về nó nhé, let's start. Apache Presto rất hữu ích để thực hiện các truy vấn thậm chí là hàng petabyte dữ liệu.

0 0 43

- vừa được xem lúc

Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 2)

Các bạn chưa đọc phần 1 thì có thể đọc tại đây nha : Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 1). Ghi dữ liệu ra file parquet sử dụng Spark.

0 0 49

- vừa được xem lúc

Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 1)

Định dạng text là một định dạng vô cùng phổ biến cả trên HDFS hay bất cứ đâu. Dữ liệu file text được trình bày thành từng dòng, mỗi dòng có thể coi như một bản ghi và đánh dấu kết thúc bằng kí tự "" (

0 0 35

- vừa được xem lúc

Blockchain dưới con mắt làng Vũ Đại 4.0

Mở bài. Hey nhô các bạn, lại là mình đây .

0 0 50

- vừa được xem lúc

Khám phá từng ngõ ngách Apache Druid - Phần 1

1. Giới thiệu. Trước khi đi vào nội dung chính mình muốn kể 1 câu chuyện sau:. .

0 0 571