- vừa được xem lúc

Giới thiệu về Azure Databricks

0 0 4

Người đăng: Vũ Tuấn

Theo Viblo Asia

Các khái niệm chính

ETL (Extract, Transform, Load)

Đây là một quy trình được sử dụng trong kho dữ liệu để:

  • Extract (Trích xuất): Lấy dữ liệu từ nhiều nguồn khác nhau.
  • Transform (Chuyển đổi): Định dạng dữ liệu sao cho phù hợp với phân tích.
  • Load (Tải): Lưu dữ liệu vào kho dữ liệu để truy vấn và báo cáo.

Kho dữ liệu (Data Warehouse)

Kho dữ liệu là một kho lưu trữ tập trung, chứa dữ liệu có cấu trúc ở mọi quy mô để phân tích và báo cáo. Nó được thiết kế để:

  • Xử lý và phân tích dữ liệu có cấu trúc.
  • Hỗ trợ các hoạt động kinh doanh thông minh (BI - Business Intelligence).

Databricks là gì?

Databricks là một nền tảng phân tích hợp nhất cung cấp giao diện người dùng trên web để làm việc với Apache Spark. Được sáng lập bởi những người tạo ra Apache Spark, Databricks được thiết kế để phân tích dữ liệu, xử lý dữ liệu lớn (Big Data) và truy vấn ở quy mô lớn.

Các tính năng chính của Databricks:

  • Giao diện web giúp làm việc với Apache Spark dễ dàng hơn.
  • Hỗ trợ phân tích dữ liệu lớn và truy vấn dữ liệu.
  • Hỗ trợ Machine Learning và xử lý dữ liệu thời gian thực.
  • Cho phép xây dựng kiến trúc Data Lakehouse với Delta Lake.

Azure Databricks

Azure Databricks là phiên bản Databricks được tích hợp hoàn toàn trên nền tảng đám mây Microsoft Azure. Nó kết hợp sức mạnh của Databricks với các dịch vụ của Azure để hỗ trợ phân tích dữ liệu quy mô lớn.

Các tính năng chính:

  • Phân tích dữ liệu lớn (Big Data Analytics): Xử lý khối lượng dữ liệu khổng lồ một cách hiệu quả.
  • Machine Learning & AI: Hỗ trợ xử lý dữ liệu thời gian thực và các mô hình học máy (Machine Learning).
  • Linh hoạt trong xử lý dữ liệu: Làm việc với mọi loại dữ liệu mà không cần di chuyển sang lưu trữ độc quyền.
  • Kiến trúc Data Lakehouse: Xây dựng trên Delta Lake để quản lý dữ liệu đáng tin cậy.
  • Tích hợp AI thế hệ mới: Sử dụng AI để hiểu dữ liệu của bạn.
  • Tích hợp sâu với Azure: Kết nối với Azure Data Lake Storage, Azure Synapse Analytics và các dịch vụ Azure khác.

Kiến trúc Databricks

  • Cluster Manager tạo Driver Program.
  • Driver Program chia nhỏ tác vụ và phân bổ cho các worker nodes (nút tính toán).

Các thành phần chính:

Workspace

  • Là môi trường quản lý tài nguyên Databricks, bao gồm notebook, cluster, job, thư viện, v.v.
  • Cung cấp giao diện hợp nhất để kỹ sư dữ liệu, nhà khoa học dữ liệu và nhà phân tích cộng tác phát triển giải pháp dữ liệu.

Catalog

  • Là cấp độ tổ chức dữ liệu cao nhất trong Unity Catalog của Databricks.
  • Đại diện cho một đơn vị logic trong quản lý quyền truy cập và phân tách dữ liệu.
  • Chứa schema, trong đó có table, view, volume, model, và function.

Ví dụ: Catalog có tên sales_data có thể chứa các schema như customer_info, order_details, product_inventory.

Schema

  • Là tập hợp các đối tượng cơ sở dữ liệu như bảng (table), chế độ xem (view), và hàm (function) trong một catalog.
  • Giúp tổ chức dữ liệu thành các nhóm logic và quản lý quyền truy cập chi tiết hơn.

Delta Table Bảng lưu trữ theo định dạng Delta Lake, cung cấp:

  • Giao dịch ACID (Atomicity, Consistency, Isolation, Durability).
  • Quản lý metadata mở rộng.
  • Xử lý dữ liệu hàng loạt và dữ liệu luồng thống nhất.
  • Time Travel: Truy vấn phiên bản trước của dữ liệu để kiểm tra hoặc phân tích lịch sử.

Data Table

  • Là bảng tiêu chuẩn để lưu trữ dữ liệu có cấu trúc trong Databricks.
  • Hỗ trợ các định dạng như Parquet, ORC, JSON, v.v.
  • Dùng để lưu trữ và truy vấn dữ liệu có cấu trúc phục vụ phân tích và báo cáo.

Workflow

  • Là trình tự công việc bao gồm nhiều tác vụ xử lý dữ liệu.
  • Có thể được định nghĩa qua giao diện UI hoặc lập trình.
  • Hỗ trợ điều phối pipeline dữ liệu, phân tích BI và tác vụ AI.

Magic Commands Cung cấp các lệnh đặc biệt trong notebook Databricks như:

  • %python: Chạy mã Python.
  • %sql: Chạy truy vấn SQL.
  • %md: Viết markdown.

Cluster trong Databricks

Cluster là tập hợp tài nguyên điện toán (VM) để chạy notebook và job Spark. Databricks cung cấp các loại cluster khác nhau để phù hợp với nhiều nhu cầu sử dụng:

Các loại Cluster:

  • Interactive Cluster: Dùng cho phân tích dữ liệu tự do (ad-hoc analysis).
  • Job Cluster: Dùng để chạy các job theo lịch trình.
  • High-Concurrency Cluster: Dùng cho nhiều người dùng truy cập cùng lúc.
  • Single-Node Cluster: Dùng cho thử nghiệm hoặc tải nhỏ.

Hy vọng thông tin trong bài viết này hữu ích đối với các bạn!

Bình luận

Bài viết tương tự

- vừa được xem lúc

So sánh Windows Azure Blob Storage và Amazon Simple Storage Service (S3)

Trong bài đăng viết này, chúng ta sẽ cùng nhau so sánh giữa Windows Azure Blob Storage và Amazon Simple Storage Service (S3) dựa trên quan điểm chức năng cốt lõi của chúng. Trong bài chia sẻ này, chúng ta sẽ tập trung vào các khái niệm cốt lõi, giá cả và so sánh tính năng giữa các blob containers và

0 0 131

- vừa được xem lúc

Tìm hiểu cơ bản về LUIS trong Microsoft Cognitive Services

Trong bài trước mình đã có giới thiệu sơ lược về QnA Maker - một dịch vụ lưu trữ ngôn ngữ tự nhiên trên nền tảng đám mây. Tuy nhiên để có thể sử dụng chatbot linh hoạt và với xu hướng càng thân thiện với người dùng, thì hôm nay mình giới thiệu thêm về LUIS.

0 0 40

- vừa được xem lúc

Tìm hiểu cơ bản về QnA Maker

QnA Maker là dịch vụ lưu trữ ngôn ngữ tự nhiên trên nền tảng đám mây (do microsoft cung cấp ). Không chỉ đơn thuần là lưu trữ, QnA Maker còn có thể thu thập nội dung, cách thức câu hỏi từng người dùng để phân tích và đưa ra gợi ý hay chọn câu trả lời phù hợp khi có nhiều câu trả lời trên cùng 1 nội

0 0 41

- vừa được xem lúc

Kinh nghiệm thi chứng chỉ AZ-900

Giới thiệu về bản thân. Xin chào các bạn, mình đang là 1 junior cloud engineer.

0 0 52

- vừa được xem lúc

Hướng dẫn cấu hình đăng nhập Cognito AWS thông qua OAuth2 Azure

Sơ lược về Cognito: Amazon Cognito là dịch vụ của Amazon Web Services cung cấp xác thực, ủy quyền và quản lý người dùng cho các ứng dụng web và di động của bạn. Người dùng có thể đăng nhập trực tiếp b

0 0 47

- vừa được xem lúc

Đừng lạc lối nữa! Azure Cognitive Search sẽ giúp bạn tìm đúng những gì bạn đang tìm kiếm

Mở đầu. Azure là một nền tảng đám mây thông minh, do chính Microsoft phát triển.

0 0 25