- vừa được xem lúc

Quản Lý File trong Kafka

0 0 9

Người đăng: Nguyễn Trung Nam

Theo Viblo Asia

1. Mở đầu

Mỗi partition dữ liệu được chia thành các segment, và việc xử lý, duy trì những file này là thiết yếu để đảm bảo hoạt động trơn tru của Kafka.

2. Quản lí file

Retention là một khái niệm quan trọng trong Kafka — Kafka không lưu trữ dữ liệu vĩnh viễn, cũng như không chờ tất cả các consumer đọc một message trước khi xóa nó. Thay vào đó, Kafka administrator sẽ cấu hình thời gian lưu trữ cho từng topic — hoặc là khoảng thời gian để lưu trữ các message trước khi xóa chúng, hoặc là hoặc là dung lượng dữ liệu tối đa cần lưu trữ trước khi xóa các message cũ.

Vì việc tìm kiếm các message cần xóa trong một tệp lớn và sau đó xóa một phần của tệp vừa tốn thời gian vừa dễ gây lỗi, chúng ta thay vào đó chia mỗi partition thành các segment. Mặc định, mỗi segment chứa tối đa 1 GB dữ liệu hoặc một tuần dữ liệu, tùy theo cái nào nhỏ hơn. Khi một Kafka broker đang ghi vào một partition, nếu đạt đến giới hạn của segment, nó sẽ đóng tệp đó và bắt đầu một tệp mới.

Segment mà chúng ta đang ghi dữ liệu vào gọi là active segment. Active segment không bao giờ bị xóa, vì vậy nếu chúng ta cài đặt thời gian lưu trữ log chỉ một ngày, nhưng mỗi segment chứa dữ liệu trong năm ngày, thực tế sẽ giữ dữ liệu trong năm ngày vì chúng ta không thể xóa dữ liệu trước khi segment được đóng lại. Nếu bạn chọn lưu dữ liệu trong một tuần và tạo một segment mới mỗi ngày, thì mỗi ngày sẽ tạo một segment mới và xóa segment cũ nhất—do đó, partition thường sẽ có bảy segment.

3. Thông tin kết nối

Nếu anh em muốn trao đổi thêm về bài viết, hãy kết nối với mình qua LinkedIn và Facebook:

Rất mong được kết nối và cùng thảo luận!

Bình luận

Bài viết tương tự

- vừa được xem lúc

Kafka là gì?

Apache Kafka® là một nền tảng stream dữ liệu phân tán. . stream data: dòng dữ liệu, hãy tưởng tượng dữ liệu là nước trong 1 con suối. .

0 0 43

- vừa được xem lúc

001: Message-driven programming với Message broker và Apache Kafka

Bài viết nằm trong series Apache Kafka từ zero đến one. . . Asynchronous programming.

0 0 165

- vừa được xem lúc

002: Apache Kafka topic, partition, offset và broker

Bài viết nằm trong series Apache Kafka từ zero đến one. Nói qua về lịch sử, Kafka được phát triển bởi LinkedIn (các anh em dev chắc chẳng xa lạ gì) và viết bằng ngôn ngữ JVM, cụ thể là Java và Scala.

0 0 153

- vừa được xem lúc

003: Gửi và nhận message trong Apache Kafka

Bài viết nằm trong series Apache Kafka từ zero đến one. . . Nếu muốn các message được lưu trên cùng một partition để đảm bảo thứ tự thì làm cách nào.

0 0 224

- vừa được xem lúc

004: Apache Kafka consumer offset, Broker discovery và Zookeeper

Bài viết nằm trong series Apache Kafka từ zero đến one. 1) Consumer offset.

0 0 130

- vừa được xem lúc

Apache Kafka - Producer - Gửi message đến Kafka bằng kafka-python

Overview. Understand how to produce message and send to the Kafka topic. Architecture. .

0 0 65