- vừa được xem lúc

Clustering và Khả năng Khả dụng Cao (High Availability - HA) trong Elasticsearch

0 0 1

Người đăng: Son Do

Theo Viblo Asia

image.png

Đã sử dụng Elasticsearch lâu năm, mình muốn chia sẻ một số kinh nghiệm cá nhân về clustering và khả năng khả dụng cao (High Availability) trong Elasticsearch. Đây là những yếu tố giúp Elasticsearch vận hành ổn định và mở rộng quy mô hiệu quả.

Clustering trong Elasticsearch

Về cơ bản, clustering trong Elasticsearch là tập hợp các node (máy chủ) làm việc cùng nhau để lưu trữ và xử lý dữ liệu. Một cluster Elasticsearch có thể chứa nhiều node, mỗi node đảm nhận một phần công việc và dữ liệu của cluster. Clustering cho phép Elasticsearch phân phối dữ liệu, đảm bảo dự phòng và mở rộng ngang để đáp ứng nhu cầu tăng trưởng.

Các thành phần chính của một cluster gồm có:

  1. Cluster Name: Tên định danh duy nhất cho cluster. Các node chỉ tham gia vào cluster nếu chúng có cùng tên.
  2. Nodes: Các instance Elasticsearch. Node có thể được phân loại thành master node, data node, coordinating node, và nhiều vai trò khác.
  3. Shards và Replicas: Dữ liệu được chia thành các shard chính và có thể có các bản sao (replica) để dự phòng.

Khả năng Khả dụng Cao (High Availability)

Khả năng khả dụng cao đảm bảo rằng cluster vẫn hoạt động ngay cả khi một số node gặp sự cố. Elasticsearch đạt được điều này thông qua việc sao chép dữ liệu giữa các node và áp dụng cơ chế phát hiện lỗi thông minh.

Các tính năng chính để đảm bảo khả năng khả dụng cao:

  1. Replication: Mỗi shard chính có thể có nhiều shard bản sao. Trong trường hợp một node gặp lỗi, các bản sao sẽ đảm bảo dữ liệu vẫn khả dụng.
  2. Quorum-based Decision Making:
    • Elasticsearch sử dụng hệ thống quorum để bầu chọn master node và xác nhận các thay đổi trạng thái cluster.
    • Các thiết lập như discovery.zen.minimum_master_nodes (trong các phiên bản cũ) hoặc cluster.initial_master_nodes giúp duy trì sự ổn định của cluster.
  3. Fault Detection:
    • Các node liên tục theo dõi tình trạng của nhau.
    • Nếu một node không phản hồi, cluster sẽ phân công lại nhiệm vụ và sao chép dữ liệu để đảm bảo khả dụng.

Quá trình Discovery và Bootstrap của Cluster

Discovery là quá trình mà các node nhận diện lẫn nhau để hình thành hoặc tham gia vào một cluster. Elasticsearch cung cấp các cơ chế discovery linh hoạt:

  1. Unicast Host Providers:

    • Mặc định, các node phát hiện nhau thông qua danh sách địa chỉ host được định trước.
    • Điều này được cấu hình qua thiết lập discovery.seed_hosts.
  2. Cloud-based Discovery:

    • Elasticsearch tích hợp với các dịch vụ đám mây như AWS, Azure, và GCP để tự động phát hiện node.
    • Các plugin có sẵn giúp việc tích hợp trở nên dễ dàng hơn.
  3. Bootstrap Checks:

    • Các kiểm tra này đảm bảo sự ổn định của cluster trong quá trình khởi tạo.
    • Đối với môi trường sản xuất, các thiết lập quan trọng như giới hạn bộ nhớ ảo, số lượng file descriptors, và cấu hình node cần được thông qua.

Quản lý Trạng thái Cluster

Trạng thái cluster là một ảnh chụp metadata thể hiện cấu hình của cluster, bao gồm thành viên node, phân bổ shard và các thiết lập. Master node chịu trách nhiệm quản lý và công bố trạng thái cluster đến tất cả các node.

Các điểm chính:

  • Tính nhất quán: Master node đảm bảo rằng tất cả các node trong cluster đều có cái nhìn cập nhật về trạng thái cluster.
  • Khả năng mở rộng: Để giảm tải trong việc cập nhật trạng thái, Elasticsearch tối ưu hóa quá trình công bố bằng cách chỉ gửi các thay đổi gia tăng đến các node.

Thêm Node và Mở rộng Cluster

Elasticsearch hỗ trợ việc thêm hoặc xóa node một cách động, giúp cluster mở rộng dễ dàng. Khi có node mới tham gia:

  • Dữ liệu được cân bằng lại tự động để phân phối shard đồng đều.
  • Các shard bản sao được chỉ định lại để đảm bảo tính dự phòng.

Để thêm một node, cập nhật discovery.seed_hosts hoặc sử dụng các plugin discovery đám mây, sau đó khởi chạy node mới với các thiết lập phù hợp.

Phát Hiện Lỗi và Khôi Phục

Elasticsearch sử dụng các cơ chế phát hiện lỗi mạnh mẽ để nhận diện và khôi phục từ các sự cố:

  • Cơ chế Heartbeat:
    • Các node gửi tín hiệu ping định kỳ để phát hiện lỗi.
    • Nếu một node bỏ lỡ một số lượng ping nhất định, nó sẽ bị đánh dấu là lỗi.
  • Quá trình Khôi Phục:
    • Các shard trên node lỗi được sao chép sang các node khác.
    • Cluster vẫn hoạt động với mức độ mất mát dữ liệu hoặc downtime tối thiểu.

Cấu Hình Discovery và Khả năng Khả dụng Cao

Để kích hoạt clustering và khả năng khả dụng cao, các thiết lập sau là rất quan trọng:

  1. Thiết lập Discovery cơ bản:

    cluster.name: my-cluster
    node.name: node-1
    discovery.seed_hosts: ["127.0.0.1", "node-2"]
    cluster.initial_master_nodes: ["node-1", "node-2"]
    
  2. Kiểm tra Bootstrap cho Sản Xuất: Đảm bảo rằng các thiết lập như giới hạn bộ nhớ và số lượng file descriptors được cấu hình chính xác.

  3. Replication Factor: Cấu hình số lượng shard bản sao dựa trên mức độ dự phòng mong muốn:

    index.number_of_replicas: 1
    

Kết luận

Clustering và khả năng khả dụng cao là những tính năng nền tảng của Elasticsearch, giúp nó mở rộng dễ dàng và đảm bảo tính toàn vẹn dữ liệu. Khi hiểu và cấu hình đúng các tính năng này, bạn có thể xây dựng các giải pháp tìm kiếm và phân tích mạnh mẽ, đáp ứng nhu cầu của các ứng dụng hiện đại. Dù là mở rộng ngang hay đảm bảo dự phòng lỗi, các tính năng clustering và HA của Elasticsearch luôn sẵn sàng hỗ trợ bạn.

Tài liệu tham khảo:

Bình luận

Bài viết tương tự

- vừa được xem lúc

Elasticsearch là gì ?

. Lời nói đầu. Elasticsearch là gì .

0 0 35

- vừa được xem lúc

Backup và Restore Elasticsearch snapshot với AWS S3 trong Kubernetes

Ở công ty mình vừa có mấy task devops liên quan đến scaling, clustering Elasticsearch nên viết lại đề phòng sau này cần dùng. Có một task là chuyển dữ liệu từ single-node Elasticsearch cũ lên cluster mới.

0 0 52

- vừa được xem lúc

Reindex Elasticsearch data with zero downtime

Elasticsearch là một search engine tuyệt vời cho mọi dự án muốn áp dụng chức năng search cho sản phẩm của mình, với những tính năng như là near-realtime search, auto-complete, suggestion,.... Cùng với đó là lợi thế kiến trúc distributed search system, có thể dễ dàng scaling, failing handle. Khi muốn

0 0 40

- vừa được xem lúc

Fork you ElasticSearch! How Open Source Works

ElasticSearch recently dropped its open-source licensing strategy, prompting AWS to fork it. Learn how "Open Source" actually works and how companies profit from it.

0 0 52

- vừa được xem lúc

Tìm hiểu Text và Keyword trong Elasticsearch

Giới thiệu. Khi mình mới bắt đầu tìm hiểu về Elasticsearch mình không nghĩ rằng giữa kiểu dữ liệu Text và Keyword có sự khác nhau nhưng khi vào dự án thực tế mình mới nhận ra được sự khác biệt giữa 2

0 0 141

- vừa được xem lúc

Tìm hiểu và cài đặt Elasticsearch

Elasticsearch là gì. Elasticsearch cung cấp công cụ tìm tiếm và phân tích gần như là thời gian thực, áp dụng với mọi kiểu dữ liệu - văn bản có cấu trúc hoặc phi cấu trúc, số, thông tin địa lý.

0 0 115