- vừa được xem lúc

MetaData là gì? MetaData cần thiết trong Data Warehouse không ?

0 0 26

Người đăng: Trưởng Nguyễn

Theo Viblo Asia

Metadata là dữ liệu về dữ liệu hoặc tài liệu về thông tin được người dùng yêu cầu. Trong Data Warehouse, metadata là một trong những khía cạnh thiết yếu.

Metadata bao gồm những điều sau:

  • Vị trí và mô tả của hệ thống kho và các thành phần.
  • Tên, định nghĩa, cấu trúc và nội dung của chế độ xem Data Warehouse và người dùng cuối.
  • Xác định các nguồn dữ liệu có thẩm quyền.
  • Các quy tắc tích hợp và chuyển đổi được sử dụng để điền dữ liệu.
  • Các quy tắc tích hợp và chuyển đổi được sử dụng để cung cấp thông tin đến các công cụ phân tích của người dùng cuối.
  • Thông tin đăng ký để cung cấp thông tin cho người đăng ký phân tích.
  • Các chỉ số được sử dụng để phân tích việc sử dụng và hoạt động của kho hàng.
  • Ủy quyền bảo mật, danh sách kiểm soát truy cập, v.v.

Metadata được sử dụng để xây dựng, duy trì, quản lý và sử dụng Data Warehouse. metadata cho phép người dùng truy cập để giúp hiểu nội dung và tìm dữ liệu.

Một số ví dụ về metadata là:

  • Danh mục thư viện có thể được coi là metadata. metadata thư mục bao gồm một số thành phần được xác định trước đại diện cho các thuộc tính cụ thể của tài nguyên và mỗi mục có thể có một hoặc nhiều giá trị. Các thành phần này có thể là tên của tác giả, tên của tài liệu, tên của nhà xuất bản, ngày xuất bản và các phương pháp mà nó thuộc về.
  • Bảng nội dung và chỉ mục trong sách có thể được coi là metadata cho sách.
  • Giả sử chúng ta nói rằng một mục dữ liệu về một người là 80. Điều này phải được xác định bằng cách lưu ý rằng đó là trọng lượng của người đó và đơn vị là kilôgam. Do đó, (trọng lượng, kilogam) là metadata về dữ liệu là 80.
  • Một ví dụ khác về metadata là dữ liệu về các bảng và số liệu trong một báo cáo như cuốn sách này. Một bảng (là một bản ghi) có tên (ví dụ: tiêu đề bảng) và có các tên cột của bảng có thể được coi là metadata. Các số liệu cũng có tiêu đề hoặc tên.

Tại sao metadata lại cần thiết trong Data Warehouse?

  • Đầu tiên, nó đóng vai trò như chất keo liên kết tất cả các phần của Data Warehouse.
  • Tiếp theo, nó cung cấp thông tin về nội dung và cấu trúc cho các nhà phát triển.
  • Cuối cùng, nó mở ra cánh cửa cho người dùng cuối và làm cho nội dung dễ nhận biết theo cách hiểu của họ.

Metadata giống như một trung tâm thần kinh. Các quy trình khác nhau trong quá trình xây dựng và quản lý Data Warehouse tạo ra các phần của metadata Data Warehouse. Một quy trình khác sử dụng các phần của metadata do một quy trình tạo ra. Trong Data Warehouse, metadata đảm nhận một vị trí quan trọng và cho phép giao tiếp giữa các phương pháp khác nhau. Nó hoạt động như một trung tâm thần kinh trong Data Warehouse.

Hình thể hiện vị trí của metadata trong Data Warehouse.

Các loại metadata

Metadata trong Data Warehouse chia thành ba phần chính:

  • Operational Metadata
  • Extraction and Transformation Metadata
  • End-User Metadata

Operational Metadata

Như chúng ta đã biết, dữ liệu cho Data Warehouse được lấy từ nhiều hệ thống hoạt động khác nhau của doanh nghiệp. Các hệ thống nguồn này bao gồm các cấu trúc dữ liệu khác nhau. Các phần tử dữ liệu được chọn cho Data Warehouse có độ dài trường và kiểu dữ liệu khác nhau.

Khi chọn thông tin từ hệ thống nguồn cho Data Warehouse, chúng tôi phân chia hồ sơ, kết hợp yếu tố tài liệu từ các tệp nguồn khác nhau và xử lý nhiều lược đồ mã hóa và độ dài trường. Khi chúng tôi cung cấp thông tin cho người dùng cuối, chúng tôi phải có khả năng liên kết thông tin đó lại với các tập dữ liệu nguồn. metadata hoạt động chứa tất cả thông tin này về các nguồn dữ liệu hoạt động.

Extraction and Transformation Metadata

Metadata trích xuất và chuyển đổi bao gồm dữ liệu về việc xóa dữ liệu khỏi hệ thống nguồn, cụ thể là tần suất trích xuất, phương pháp trích xuất và các quy tắc nghiệp vụ cho việc trích xuất dữ liệu. Ngoài ra, danh mục metadata này chứa thông tin về tất cả quá trình chuyển đổi dữ liệu diễn ra trong vùng dữ liệu.

End-User Metadata

Metadata người dùng cuối là bản đồ điều hướng của các Data Warehouse. Nó cho phép người dùng cuối tìm dữ liệu từ các Data Warehouse. metadata người dùng cuối cho phép người dùng cuối sử dụng thuật ngữ kinh doanh của họ và tìm kiếm thông tin theo những cách mà họ thường nghĩ về doanh nghiệp.

Sáng kiến trao đổi metadata

Sáng kiến trao đổi metadata được đề xuất nhằm đưa các nhà cung cấp trong ngành và người dùng lại với nhau để giải quyết nhiều vấn đề và vấn đề nghiêm trọng liên quan đến trao đổi, chia sẻ và quản lý metadata. Mục tiêu của tiêu chuẩn trao đổi metadata là xác định một cơ chế có thể mở rộng sẽ cho phép nhà cung cấp trao đổi metadata chuẩn cũng như mang theo metadata “độc quyền”. Các thành viên sáng lập đã nhất trí về các mục tiêu ban đầu sau:

  • Tạo cơ chế truy cập tiêu chuẩn độc lập với nhà cung cấp, do ngành xác định và được duy trì và các giao diện lập trình ứng dụng (API) cho metadata.
  • Cho phép người dùng kiểm soát và quản lý việc truy cập cũng như thao tác với metadata trong môi trường duy nhất của họ thông qua việc sử dụng các công cụ tuân thủ tiêu chuẩn trao đổi.
  • Người dùng được phép xây dựng các công cụ đáp ứng nhu cầu của họ và cũng sẽ ban hành
  • Blend chúng để điều chỉnh cho phù hợp với các cấu hình công cụ đó.
  • Cho phép các công cụ riêng lẻ thỏa mãn các yêu cầu metadata của chúng một cách tự do và hiệu quả trong nội dung của mô hình trao đổi.
  • Mô tả một cơ sở hạ tầng thực hiện đơn giản, sạch sẽ sẽ tạo điều kiện thuận lợi cho việc tuân thủ và tăng tốc độ áp dụng bằng cách giảm thiểu số lượng sửa đổi.

Để tạo ra một thủ tục và quy trình không chỉ để duy trì và thiết lập thông số kỹ thuật tiêu chuẩn trao đổi mà còn để cập nhật và mở rộng nó theo thời gian.

Khung tiêu chuẩn trao đổi metadata

Việc triển khai mô hình metadata chuẩn trao đổi giả định rằng bản thân metadata đó có thể được lưu trữ ở định dạng lưu trữ thuộc bất kỳ loại nào: tệp ASCII, bảng quan hệ, định dạng cố định hoặc tùy chỉnh, v.v.

Nó là một khuôn khổ dựa trên một khuôn khổ sẽ chuyển một yêu cầu truy cập thành chỉ mục trao đổi tiêu chuẩn.

Một số cách tiếp cận đã được đề xuất trong liên minh trao đổi metadata:

  • Procedural Approach
  • ASCII Batch Approach
  • Hybrid Approach

Trong cách procedural approach, giao tiếp với API được tích hợp trong công cụ. Nó cho phép mức độ linh hoạt cao nhất.

Trong phương pháp ASCII Batch approach, thay vì dựa vào định dạng tệp ASCII chứa thông tin của các mục metadata khác nhau và các yêu cầu truy cập được tiêu chuẩn hóa tạo nên mô hình metadata tiêu chuẩn trao đổi.

Trong cách Hybrid approach, nó tuân theo mô hình hướng dữ liệu.

Các thành phần của Khung chuẩn trao đổi metadata

Standard Metadata Model: Nó đề cập đến định dạng tệp ASCII, được sử dụng để đại diện cho metadata đang được trao đổi.

Standard access framework: mô tả số lượng hàm API tối thiểu.

Tool profile: được cung cấp bởi từng nhà cung cấp công cụ.

**The user configuration:**là một tệp giải thích các đường dẫn trao đổi hợp pháp cho metadata trong môi trường của người dùng.

Metadata Repository

Bản thân metadata được lưu trữ và kiểm soát bởi kho metadata. Phần mềm quản lý kho metadata có thể được sử dụng để ánh xạ dữ liệu nguồn đến cơ sở dữ liệu đích, tích hợp và chuyển đổi dữ liệu, tạo mã để chuyển đổi dữ liệu và di chuyển dữ liệu vào kho.

Lợi ích của Metadata Repository

  • Nó cung cấp một bộ công cụ để quản lý metadata trên toàn doanh nghiệp.
  • Nó loại bỏ và giảm thiểu sự không nhất quán, dư thừa và sử dụng không đầy đủ.
  • Nó cải thiện khả năng kiểm soát của tổ chức, đơn giản hóa việc quản lý và hạch toán tài sản thông tin.
  • Nó làm tăng sự phối hợp, hiểu biết, xác định và sử dụng các tài sản thông tin.
  • Nó thực thi các tiêu chuẩn phát triển CASE với khả năng chia sẻ và sử dụng lại metadata.
  • Nó thúc đẩy đầu tư vào các hệ thống kế thừa và sử dụng các ứng dụng hiện có.
  • Nó cung cấp một mô hình quan hệ cho các RDBMS không đồng nhất để chia sẻ thông tin.
  • Nó cung cấp công cụ quản trị dữ liệu hữu ích để quản lý tài sản thông tin của công ty với từ điển dữ liệu.
  • Nó làm tăng độ tin cậy, khả năng kiểm soát và tính linh hoạt của quá trình phát triển ứng dụng.

Nguồn: Internet

Để hiểu hơn cũng như tham khảo thêm các kiến thức về dữ liệu, mọi người có thể truy cập vào https://indaacademy.vn/blog/ nhé. Cảm ơn mọi người nhiều nhé. Hẹn mọi người vào kiến thức tiếp theo.

Bình luận

Bài viết tương tự

- vừa được xem lúc

Nhập môn lý thuyết cơ sở dữ liệu - Phần 2: Mô hình thực thể liên kết

**Chào các bạn, hôm nay mình tiếp tục viết tiếp phần 2 cho series Nhập môn lý thuyết cơ sở dữ liệu. Chắc hẳn qua bài trước các bạn tìm được lý do vì sao mình phải học môn này rồi chứ.

0 0 58

- vừa được xem lúc

Các vai trò chính trong Data Ecosystem - [Data Analyst Series]

Ngày nay, các tổ chức đang sử dụng dữ liệu để khám phá các cơ hội và mang lại lợi ích trong tương lai. Điển hình là tạo các mô hình trong các giao dịch tài chính để phát hiện gian lận, sử dụng các côn

0 0 36

- vừa được xem lúc

Tìm hiểu về Apache Spark

Ngày nay có rất nhiều hệ thống đang sử dụng Hadoop để phân tích và xử lý dữ liệu lớn. Ưu điểm lớn nhất của Hadoop là được dựa trên một mô hình lập trình song song với xử lý dữ liệu lớn là MapReduce, m

0 0 41

- vừa được xem lúc

Data Warehouse là gì? Top 7 ứng dụng quan trọng của kho dữ liệu

Data Warehouse là gì? Lợi ích và ứng dụng của kho dữ liệu Data Warehouse là gì? Với sự bùng nổ về mặt thông tin và dữ liệu như hiệu này thì đây luôn là những câu hỏi được rất nhiều bạn thắc mắc, đặc b

0 0 26

- vừa được xem lúc

Phân biệt: Database, Data Warehouse, Data Mart, Data Lake, Data Lakehouse, Data Fabric, Data Mesh

Chào mọi người,. Hôm nay, tiếp tục Series Phân tích dữ liệu kinh doanh, mình sẽ chia sẻ với mọi người những khái niệm phổ biến nhất liên quan về thiết kế hệ thống dữ liệu bên dưới nhé, vì khi làm phân

0 0 26

- vừa được xem lúc

Kỹ sư dữ liệu và lộ trình trở thành data engineer (DE) với 4 bước

Data Engineer hay còn gọi là kỹ sư dữ liệu là một trong những vị trí quan trọng trong lĩnh vực khoa học dữ liệu. Với sự phát triển của kỷ nguyên số, nhu cầu chuyển đổi số của các doanh nghiệp ngày càn

0 0 26