- vừa được xem lúc

Redshift là gì? Giải pháp lưu trữ và xử lý dữ liệu lớn

0 0 24

Người đăng: Nguyễn Khắc Cường

Theo Viblo Asia

Lời nói đầu:

Cùng với sự phát triển về công nghệ thông tin và truyền thông thì càng ngày số lượng người sử dụng các trang thương mại điện tử, dịch vụ trực tuyến càng lớn dẫn đến lượng dữ liệu được lưu trữ cũng tăng theo. Do đó xử lý dữ liệu lớn là rất cần thiết. Công ty mình cũng từng gặp phải vấn đề như vậy, và sau những tìm hiểu và phân tích thì đội ngũ engineer cũng đã đưa ra quyết định sẽ sử dụng một dịch vụ của Amazon là Amazon Redshift- một giải pháp hàng đầu về lưu trữ và xử lý dữ liệu lớn. CÙng mình tìm hiểu về nó nào 😀

Redshift là gì?

  • Redshift được base trên PostgreSQL, tuy nhiên không được dùng trong OLTP (On-line transactional processing)
  • Redshift là OLAP - On-line analytical processing (dùng cho analytics và data warehousing) (Bạn có thể tìm hiểu xem OLTP và OLAP là gì ở đây nhé 😄)
  • Lưu trữ dữ liệu dưới dạng cột (Column)
  • Hỗ trợ mạn hình SQL interface để tạo các câu query truy vấn
  • Amazon Redshift là kho dữ liệu được quản lý và lưu trữ hoàn toàn trên đám mây, có thể mở rộng và tăng tốc độ nhận thông tin chuyên sâu bằng tính năng phân tích nhanh chóng, dễ dàng, bảo mật trên quy mô lớn.
  • Amazon Redshift dễ dàng theo dõi và xử lý theo thời gian thực với nội dung phân tích mang tính dự đoán về mọi dữ liệu của bạn trong các cơ sở dữ liệu, kho dữ liệu.
  • Theo thống kê của AWS thì có đến hàng triệu khách hàng đang sử dụng Amazon Redshift để chạy các truy vấn phân tích phức tạp và lưu trữ, xử lý dữ liệu từ terabyte đến petabyte.

Thực trạng và nhu cầu xử lý dữ liệu lớn.

  • Hiện tại, lượng truy cập và sử dụng các hệ thống ngày càng tăng dẫn đến lượng dữ liệu các hệ thống cũng tăng theo như Google, Shopee, eBay hay Facebook,...
  • Do đó, nhu cầu thực tế về xử lý dữ liệu lớn là cấp thiết đối với cả những hệ thống lớn hoặc hệ thống nhỏ nhưng có lượng dữ liệu lớn. Amazon Redshift là một trong những giải pháp hiệu quả để xử lý và lưu trữ lượng dữ liệu trên đám mây lên tới hàng petabyte.

Redshift architecture

  • Cluster: Đây là thành phần cốt lỗi trong kiến trúc của Redshift. Mỗi Cluster bao gồm một hoặc nhiều nodes thực hiện việc tính toán
  • Trong một Cluster sẽ có một hoặc nhiều Database
  • Leader node xử lý giao tiếp với các layer bên ngoài, ví dụ như thực hiện query, tổng hợp kết quả
  • Compute node: thực thi các câu truy vấn, gửi lại kết quả cho leader node
  • Node slices: Mỗi một Compute Node tiếp tục được chia nhỏ ra thành các Node Slice. Mỗi một Node Slice sẽ được phân chia đều CPU, Memory và Storage từ Compute Node đó.
  • Backup & Restore, Security VPC/IAM/KMS, Monitoring

Redshift - Snapshot & DR (Disaster recovery)

  • Redshift không có cơ chế "Multi-AZ"
  • Bạn cần sử dụng snapshot để backup cluster và store trên S3
  • Bạn có thể restore một snapshot ra một cluster mới
  • Tạo snapshot có thể tự động hoặc bằng tay
    • Automated: bạn có thể tạo schedule tạo mỗi 8h/mỗi 5GB...
    • Manual:
  • Bạn có thể config Amazon Redshift tự động copy snapshots của một Cluster sang một Region mới

Redshift Spectrum là gì

Redshift Spectrum: truy vấn dữ liệu trực tiếp tới Amazon S3 mà không cần load dữ liệu vào các bảng của Redshift.

Redshift xử lý và lưu trữ dữ liệu như thế nào?

  • Amazon Redshift thực hiện phân phối và lưu trữ dữ liệu trên các nút nhỏ (nodes). Redshift sử dụng khoá phân phối (distributionKey) có thể tự định nghĩa để phân phối và lưu trữ vào các nút.
  • Khi thực hiện truy xuất, tìm kiếm Redshift sẽ dựa vào khoá phân phối và các nút. Càng nhiều nút, tốc độ truy xuất càng nhanh, vì các khoảng dữ liệu được chia nhỏ. Việc tìm kiếm trong không gian nhỏ sẽ dễ dàng hơn.
  • Ngoài ra, các bảng sẽ được sắp xếp theo khóa sắp xếp (sortKey) có thể tự định nghĩa để tối ưu tìm kiếm cũng như truy vấn tốt nhất.

Lợi ích khi sử dụng Amazon Redshift.

  • Amazon Redshift rẻ hơn gấp 3 lần so với các kho dữ liệu đám mây khác và 10 lần so với cơ sở dữ liệu truyền thống (dưới 1.000 đô la mỗi terabyte/năm). Với tốc độ xử lý nhanh và dễ dàng giúp tăng tối đa trải nghiệm người dùng và khách hàng.
  • Lưu trữ hoàn toàn trên đám mây để độ bảo mật và an toàn cao nhất.
  • Redshift cung cấp kho lưu trữ dữ liệu lớn lên tới hàng petabyte, không còn gặp vấn đề về thiếu dung lượng lưu trữ.

Lời kết

Trên đây là những chia sẻ về hiểu biết của mình về Amazon Redshift. Tuy những kiến thức này chưa đầy đủ và cách thể hiện văn của mình chưa được hay và hiệu quả nhưng mong rẳng sẽ cung cấp được phần nào thông tin và kiến thức cho các bạn. Thân ái. Các bạn có thể tham khảo nhiều hơn theo link này: https://viblo.asia/p/aws-redshift-E7bGoxYKv5e2 https://aws.amazon.com/vi/redshift/faqs/

Bình luận

Bài viết tương tự

- vừa được xem lúc

Mô hình quan hệ - thực thể (Entity – Relationship Model)

Mô hình quan hệ thực thể (Entity Relationship model - E-R) được CHEN giới thiệu vào năm 1976 là một mô hình được sử dụng rộng rãi trong các bản thiết kế cơ sở dữ liệu ở mức khái niệm, được xây dựng dựa trên việc nhận thức thế giới thực thông qua tập các đối tượng được gọi là các thực thể và các mối

0 0 132

- vừa được xem lúc

[Embulk #1] Công cụ giúp giảm nỗi đau chuyển đổi dữ liệu

Embulk là gì. Embulk là một công cụ open source có chức năng cơ bản là load các record từ database này và import sang database khác.

0 0 57

- vừa được xem lúc

Window Functions trong MySQL, Nâng cao và cực kì hữu dụng (Phần II).

Chào mọi người, lại là mình đây, ở phần trước mình đã giới thiệu với mọi người về Window Functions Phần I. Nếu chưa rõ nó là gì thì mọi người nên đọc lại trước nha, để nắm được định nghĩa và các key words, tránh mắt chữ O mồm chứ A vì phần này mình chủ yếu sẽ thực hành với các Window Functions.

0 0 110

- vừa được xem lúc

Window Functions trong MySQL, Nâng cao và cực kì hữu dụng (Phần I).

Chào mọi người, mình mới tìm hiểu đc topic Window Functions cá nhân mình cảm thấy khá là hay và mình đánh giá nó là phần nâng cao. Vì ít người biết nên Window Functions thấy rất ít khi sử dụng, thay vì đó là những câu subquery dài dằng dặc như tin nhắn nhắn cho crush, và người khác đọc hiểu được câu

0 0 980

- vừa được xem lúc

Disable và Enable trigger trong Oracle

Origin post: https://www.tranthanhdeveloper.com/2020/12/disable-va-enable-trigger-trong-oracle.html.

0 0 41

- vừa được xem lúc

Lưu trữ dữ liệu với Data Store

. Data Store là một trong những componet của bộ thư viện Android JetPack, nó là một sự lựa chọn hoàn hảo để thay thế cho SharedPreferences để lưu trữ dữ liệu đơn giản dưới dạng key-value. Chúng ta cùng làm một so sánh nhỏ để thấy sự tối ưu của Data Store với SharedPreferences nhé.

0 0 73