Metadata là dữ liệu về dữ liệu hoặc tài liệu về thông tin được người dùng yêu cầu. Trong Data Warehouse, metadata là một trong những khía cạnh thiết yếu.
Metadata bao gồm những điều sau:
- Vị trí và mô tả của hệ thống kho và các thành phần.
- Tên, định nghĩa, cấu trúc và nội dung của chế độ xem Data Warehouse và người dùng cuối.
- Xác định các nguồn dữ liệu có thẩm quyền.
- Các quy tắc tích hợp và chuyển đổi được sử dụng để điền dữ liệu.
- Các quy tắc tích hợp và chuyển đổi được sử dụng để cung cấp thông tin đến các công cụ phân tích của người dùng cuối.
- Thông tin đăng ký để cung cấp thông tin cho người đăng ký phân tích.
- Các chỉ số được sử dụng để phân tích việc sử dụng và hoạt động của kho hàng.
- Ủy quyền bảo mật, danh sách kiểm soát truy cập, v.v.
Metadata được sử dụng để xây dựng, duy trì, quản lý và sử dụng Data Warehouse. metadata cho phép người dùng truy cập để giúp hiểu nội dung và tìm dữ liệu.
Một số ví dụ về metadata là:
- Danh mục thư viện có thể được coi là metadata. metadata thư mục bao gồm một số thành phần được xác định trước đại diện cho các thuộc tính cụ thể của tài nguyên và mỗi mục có thể có một hoặc nhiều giá trị. Các thành phần này có thể là tên của tác giả, tên của tài liệu, tên của nhà xuất bản, ngày xuất bản và các phương pháp mà nó thuộc về.
- Bảng nội dung và chỉ mục trong sách có thể được coi là metadata cho sách.
- Giả sử chúng ta nói rằng một mục dữ liệu về một người là 80. Điều này phải được xác định bằng cách lưu ý rằng đó là trọng lượng của người đó và đơn vị là kilôgam. Do đó, (trọng lượng, kilogam) là metadata về dữ liệu là 80.
- Một ví dụ khác về metadata là dữ liệu về các bảng và số liệu trong một báo cáo như cuốn sách này. Một bảng (là một bản ghi) có tên (ví dụ: tiêu đề bảng) và có các tên cột của bảng có thể được coi là metadata. Các số liệu cũng có tiêu đề hoặc tên.
Tại sao metadata lại cần thiết trong Data Warehouse?
- Đầu tiên, nó đóng vai trò như chất keo liên kết tất cả các phần của Data Warehouse.
- Tiếp theo, nó cung cấp thông tin về nội dung và cấu trúc cho các nhà phát triển.
- Cuối cùng, nó mở ra cánh cửa cho người dùng cuối và làm cho nội dung dễ nhận biết theo cách hiểu của họ.
Metadata giống như một trung tâm thần kinh. Các quy trình khác nhau trong quá trình xây dựng và quản lý Data Warehouse tạo ra các phần của metadata Data Warehouse. Một quy trình khác sử dụng các phần của metadata do một quy trình tạo ra. Trong Data Warehouse, metadata đảm nhận một vị trí quan trọng và cho phép giao tiếp giữa các phương pháp khác nhau. Nó hoạt động như một trung tâm thần kinh trong Data Warehouse.
Hình thể hiện vị trí của metadata trong Data Warehouse.
Các loại metadata
Metadata trong Data Warehouse chia thành ba phần chính:
- Operational Metadata
- Extraction and Transformation Metadata
- End-User Metadata
Operational Metadata
Như chúng ta đã biết, dữ liệu cho Data Warehouse được lấy từ nhiều hệ thống hoạt động khác nhau của doanh nghiệp. Các hệ thống nguồn này bao gồm các cấu trúc dữ liệu khác nhau. Các phần tử dữ liệu được chọn cho Data Warehouse có độ dài trường và kiểu dữ liệu khác nhau.
Khi chọn thông tin từ hệ thống nguồn cho Data Warehouse, chúng tôi phân chia hồ sơ, kết hợp yếu tố tài liệu từ các tệp nguồn khác nhau và xử lý nhiều lược đồ mã hóa và độ dài trường. Khi chúng tôi cung cấp thông tin cho người dùng cuối, chúng tôi phải có khả năng liên kết thông tin đó lại với các tập dữ liệu nguồn. metadata hoạt động chứa tất cả thông tin này về các nguồn dữ liệu hoạt động.
Extraction and Transformation Metadata
Metadata trích xuất và chuyển đổi bao gồm dữ liệu về việc xóa dữ liệu khỏi hệ thống nguồn, cụ thể là tần suất trích xuất, phương pháp trích xuất và các quy tắc nghiệp vụ cho việc trích xuất dữ liệu. Ngoài ra, danh mục metadata này chứa thông tin về tất cả quá trình chuyển đổi dữ liệu diễn ra trong vùng dữ liệu.
End-User Metadata
Metadata người dùng cuối là bản đồ điều hướng của các Data Warehouse. Nó cho phép người dùng cuối tìm dữ liệu từ các Data Warehouse. metadata người dùng cuối cho phép người dùng cuối sử dụng thuật ngữ kinh doanh của họ và tìm kiếm thông tin theo những cách mà họ thường nghĩ về doanh nghiệp.
Sáng kiến trao đổi metadata
Sáng kiến trao đổi metadata được đề xuất nhằm đưa các nhà cung cấp trong ngành và người dùng lại với nhau để giải quyết nhiều vấn đề và vấn đề nghiêm trọng liên quan đến trao đổi, chia sẻ và quản lý metadata. Mục tiêu của tiêu chuẩn trao đổi metadata là xác định một cơ chế có thể mở rộng sẽ cho phép nhà cung cấp trao đổi metadata chuẩn cũng như mang theo metadata “độc quyền”. Các thành viên sáng lập đã nhất trí về các mục tiêu ban đầu sau:
- Tạo cơ chế truy cập tiêu chuẩn độc lập với nhà cung cấp, do ngành xác định và được duy trì và các giao diện lập trình ứng dụng (API) cho metadata.
- Cho phép người dùng kiểm soát và quản lý việc truy cập cũng như thao tác với metadata trong môi trường duy nhất của họ thông qua việc sử dụng các công cụ tuân thủ tiêu chuẩn trao đổi.
- Người dùng được phép xây dựng các công cụ đáp ứng nhu cầu của họ và cũng sẽ ban hành
- Blend chúng để điều chỉnh cho phù hợp với các cấu hình công cụ đó.
- Cho phép các công cụ riêng lẻ thỏa mãn các yêu cầu metadata của chúng một cách tự do và hiệu quả trong nội dung của mô hình trao đổi.
- Mô tả một cơ sở hạ tầng thực hiện đơn giản, sạch sẽ sẽ tạo điều kiện thuận lợi cho việc tuân thủ và tăng tốc độ áp dụng bằng cách giảm thiểu số lượng sửa đổi.
Để tạo ra một thủ tục và quy trình không chỉ để duy trì và thiết lập thông số kỹ thuật tiêu chuẩn trao đổi mà còn để cập nhật và mở rộng nó theo thời gian.
Khung tiêu chuẩn trao đổi metadata
Việc triển khai mô hình metadata chuẩn trao đổi giả định rằng bản thân metadata đó có thể được lưu trữ ở định dạng lưu trữ thuộc bất kỳ loại nào: tệp ASCII, bảng quan hệ, định dạng cố định hoặc tùy chỉnh, v.v.
Nó là một khuôn khổ dựa trên một khuôn khổ sẽ chuyển một yêu cầu truy cập thành chỉ mục trao đổi tiêu chuẩn.
Một số cách tiếp cận đã được đề xuất trong liên minh trao đổi metadata:
- Procedural Approach
- ASCII Batch Approach
- Hybrid Approach
Trong cách procedural approach, giao tiếp với API được tích hợp trong công cụ. Nó cho phép mức độ linh hoạt cao nhất.
Trong phương pháp ASCII Batch approach, thay vì dựa vào định dạng tệp ASCII chứa thông tin của các mục metadata khác nhau và các yêu cầu truy cập được tiêu chuẩn hóa tạo nên mô hình metadata tiêu chuẩn trao đổi.
Trong cách Hybrid approach, nó tuân theo mô hình hướng dữ liệu.
Các thành phần của Khung chuẩn trao đổi metadata
Standard Metadata Model: Nó đề cập đến định dạng tệp ASCII, được sử dụng để đại diện cho metadata đang được trao đổi.
Standard access framework: mô tả số lượng hàm API tối thiểu.
Tool profile: được cung cấp bởi từng nhà cung cấp công cụ.
**The user configuration:**là một tệp giải thích các đường dẫn trao đổi hợp pháp cho metadata trong môi trường của người dùng.
Metadata Repository
Bản thân metadata được lưu trữ và kiểm soát bởi kho metadata. Phần mềm quản lý kho metadata có thể được sử dụng để ánh xạ dữ liệu nguồn đến cơ sở dữ liệu đích, tích hợp và chuyển đổi dữ liệu, tạo mã để chuyển đổi dữ liệu và di chuyển dữ liệu vào kho.
Lợi ích của Metadata Repository
- Nó cung cấp một bộ công cụ để quản lý metadata trên toàn doanh nghiệp.
- Nó loại bỏ và giảm thiểu sự không nhất quán, dư thừa và sử dụng không đầy đủ.
- Nó cải thiện khả năng kiểm soát của tổ chức, đơn giản hóa việc quản lý và hạch toán tài sản thông tin.
- Nó làm tăng sự phối hợp, hiểu biết, xác định và sử dụng các tài sản thông tin.
- Nó thực thi các tiêu chuẩn phát triển CASE với khả năng chia sẻ và sử dụng lại metadata.
- Nó thúc đẩy đầu tư vào các hệ thống kế thừa và sử dụng các ứng dụng hiện có.
- Nó cung cấp một mô hình quan hệ cho các RDBMS không đồng nhất để chia sẻ thông tin.
- Nó cung cấp công cụ quản trị dữ liệu hữu ích để quản lý tài sản thông tin của công ty với từ điển dữ liệu.
- Nó làm tăng độ tin cậy, khả năng kiểm soát và tính linh hoạt của quá trình phát triển ứng dụng.
Nguồn: Internet
Để hiểu hơn cũng như tham khảo thêm các kiến thức về dữ liệu, mọi người có thể truy cập vào https://indaacademy.vn/blog/ nhé. Cảm ơn mọi người nhiều nhé. Hẹn mọi người vào kiến thức tiếp theo.