- vừa được xem lúc

Mô hình hoá dữ liệu: Data Warehouse Modeling

0 0 36

Người đăng: Trưởng Nguyễn

Theo Viblo Asia

Data Warehouse Modeling là quá trình thiết kế các lược đồ thông tin chi tiết và tóm tắt của kho dữ liệu. Mục tiêu của Data Warehouse Modeling là phát triển một lược đồ mô tả thực tế, hoặc ít nhất là một phần của thực tế, mà kho dữ liệu cần hỗ trợ.

Data Warehouse Modeling là một giai đoạn thiết yếu của việc xây dựng một kho dữ liệu vì hai lý do chính. Thứ nhất, thông qua lược đồ, khách hàng của kho dữ liệu có thể hình dung mối quan hệ giữa các dữ liệu kho để sử dụng chúng một cách dễ dàng hơn. Thứ hai, một lược đồ được thiết kế tốt cho phép xuất hiện cấu trúc kho dữ liệu hiệu quả, giúp giảm chi phí triển khai kho và nâng cao hiệu quả sử dụng.

Mô hình hóa dữ liệu trong kho dữ liệu khác với mô hình hóa dữ liệu trong các hệ thống cơ sở dữ liệu hoạt động. Chức năng chính của kho dữ liệu là hỗ trợ các quy trình DSS. Do đó, mục tiêu của Data Warehouse Modeling là làm cho kho dữ liệu hỗ trợ hiệu quả các truy vấn phức tạp về thông tin dài hạn.

Ngược lại, mô hình hóa dữ liệu trong các hệ thống cơ sở dữ liệu hoạt động nhắm mục tiêu hỗ trợ hiệu quả các giao dịch đơn giản trong cơ sở dữ liệu như truy xuất, chèn, xóa và thay đổi dữ liệu. Hơn nữa, kho dữ liệu được thiết kế cho khách hàng có kiến ​​thức thông tin chung về doanh nghiệp, trong khi hệ thống cơ sở dữ liệu hoạt động được các chuyên gia phần mềm hướng tới sử dụng nhiều hơn để tạo ra các ứng dụng riêng biệt.

Data Warehouse Modeling được minh họa trong sơ đồ đã cho. Bản thân dữ liệu trong kho cụ thể có một kiến ​​trúc cụ thể với sự nhấn mạnh vào các cấp độ tổng hợp khác nhau, như thể hiện trong hình: Bản ghi chi tiết hiện tại có tầm quan trọng trung tâm vì nó:

  • Phản ánh những diễn biến hiện tại nhất, thường là kích thích nhất.
  • Nó rất nhiều vì nó được lưu ở phương pháp thấp nhất của Mức độ chi tiết.
  • Nó luôn (gần như) được lưu trên ổ lưu trữ, truy cập nhanh nhưng tốn kém và khó quản lý. Older detail data được lưu trữ trong một số hình thức lưu trữ hàng loạt và nó không thường xuyên được truy cập và lưu giữ ở mức độ chi tiết phù hợp với dữ liệu chi tiết hiện tại.

Lightly summarized data là dữ liệu trích xuất từ ​​mức độ chi tiết thấp được tìm thấy ở mức độ chi tiết, hiện tại và thường được lưu trữ trên ổ lưu trữ. Khi xây dựng kho dữ liệu phải nhớ đơn vị thời gian được thực hiện qua quá trình tóm tắt cũng như các thành phần hoặc thuộc tính nào mà dữ liệu tóm tắt sẽ chứa.

Highly summarized data là dữ liệu nhỏ gọn và có sẵn trực tiếp và thậm chí có thể được tìm thấy bên ngoài nhà kho.

Metadata là phần tử cuối cùng của kho dữ liệu và thực sự có nhiều kích thước khác nhau, trong đó nó không giống như tệp được rút ra từ dữ liệu hoạt động, nhưng nó được sử dụng như:

  • Một thư mục để giúp điều tra viên DSS xác định vị trí các mục của kho dữ liệu.
  • Hướng dẫn ánh xạ bản ghi khi dữ liệu được thay đổi từ dữ liệu hoạt động sang môi trường kho dữ liệu.
  • Hướng dẫn về phương pháp được sử dụng để tóm tắt giữa dữ liệu hiện tại, chính xác và thông tin tóm tắt nhẹ và dữ liệu được tóm tắt cao, v.v. Tóm tắt nội dung

Vòng đời của Data Modeling

Trong phần này, chúng tôi xác định vòng đời của mô hình dữ liệu. Đây là một quá trình chuyển tiếp thẳng thắn về việc chuyển đổi các yêu cầu nghiệp vụ để hoàn thành các mục tiêu về lưu trữ, duy trì và truy cập dữ liệu trong các hệ thống CNTT. Kết quả là một mô hình dữ liệu logic và vật lý cho kho dữ liệu doanh nghiệp.

Mục tiêu của vòng đời mô hình hóa dữ liệu chủ yếu là tạo ra một khu vực lưu trữ thông tin kinh doanh. Khu vực đó đến từ các giai đoạn mô hình hóa dữ liệu logic và vật lý, như thể hiện trong Hình:

Conceptual Data Model

Mô hình dữ liệu khái niệm ghi nhận các mối quan hệ cấp cao nhất giữa các thực thể khác nhau.

Đặc điểm của mô hình dữ liệu khái niệm

  • Nó chứa các thực thể thiết yếu và các mối quan hệ giữa chúng.
  • Không có thuộc tính nào được chỉ định.
  • Không có khóa chính nào được chỉ định. Chúng ta có thể thấy rằng dữ liệu duy nhất được hiển thị qua mô hình dữ liệu khái niệm là các thực thể xác định dữ liệu và mối quan hệ giữa các thực thể đó. Không có dữ liệu nào khác, như được hiển thị thông qua mô hình dữ liệu khái niệm.

Logical Data Model

Logical Data Model xác định thông tin theo cấu trúc mà không cần quan tâm về mặt vật lý trong cơ sở dữ liệu. Mục tiêu chính của mô hình dữ liệu lôgic là ghi lại cấu trúc dữ liệu kinh doanh, quy trình, quy tắc và mối quan hệ bằng một chế độ xem duy nhất

Các loại Data Warehouse Modeling

Enterprise Warehouse Kho Doanh nghiệp thu thập tất cả các hồ sơ về các chủ thể trong toàn bộ tổ chức. Nó hỗ trợ tích hợp dữ liệu toàn công ty, thường từ một hoặc nhiều hệ thống hoạt động hoặc nhà cung cấp dữ liệu bên ngoài và nó có chức năng chéo trong phạm vi. Nó thường chứa thông tin chi tiết cũng như thông tin tóm tắt và có thể ước tính từ vài gigabyte đến hàng trăm gigabyte, terabyte hoặc hơn thế nữa.

Một kho dữ liệu doanh nghiệp có thể được thực hiện trên các máy tính lớn truyền thống, các siêu máy chủ UNIX hoặc các nền tảng kiến ​​trúc song song. Nó yêu cầu mô hình kinh doanh rộng rãi và có thể mất nhiều năm để phát triển và xây dựng.

Data Mart

Kho dữ liệu bao gồm một tập hợp con dữ liệu trong toàn công ty có giá trị đối với một tập hợp người dùng cụ thể. Phạm vi được giới hạn cho các đối tượng được chọn cụ thể. Ví dụ: siêu thị dữ liệu tiếp thị có thể hạn chế đối tượng của mình đối với khách hàng, các mặt hàng và doanh số bán hàng. Dữ liệu có trong các data mart có xu hướng được tóm tắt.

Data Marts được chia thành hai phần:

Data Mart độc lập: Data mart độc lập được lấy từ dữ liệu được thu thập từ một hoặc nhiều hệ thống hoạt động hoặc nhà cung cấp dữ liệu bên ngoài, hoặc dữ liệu nói chung cục bộ trong một bộ phận hoặc khu vực địa lý khác nhau.

Data Mart phụ thuộc: Các kho dữ liệu phụ thuộc được lấy chính xác từ kho dữ liệu của doanh nghiệp.

Virtual Warehouses

Kho dữ liệu ảo là một tập hợp các nhận thức về cơ sở dữ liệu hoạt động. Để xử lý truy vấn hiệu quả, chỉ một số tầm nhìn tóm tắt khả thi có thể được hiện thực hóa. Một kho ảo rất đơn giản để xây dựng nhưng cần có dung lượng dư thừa trên các máy chủ cơ sở dữ liệu đang hoạt động.

Cảm ơn mọi người đã dành thời gian để đọc bài viết. Hẹn gặp mọi người trong những bài viết tiếp theo!

Tham khảo thông tin KHÓA HỌC “PHÂN TÍCH DỮ LIỆU KINH DOANH” – ONLINE/OFFLINE tại https://indaacademy.vn/

Học viện đào tạo INDA là đơn vị dẫn đầu mảng Đào tạo kĩ năng Phân tích dữ liệu kinh doanh tại Việt Nam. Các khóa học Phân tích dữ liệu kinh doanh tại INDA sẽ được khai giảng định kỳ hàng tháng, mỗi lớp học thu hút +100 anh/chị học viên – là trung tâm đào tạo Phân tích dữ liệu kinh doanh duy nhất tại Việt Nam thu hút được đông đảo học viên mỗi lớp như vậy, đã mở 34 khóa học Public trên thị trường và là đối tác đào tạo phân tích dữ liệu cho các doanh nghiệp lớn tại Việt Nam.

Bình luận

Bài viết tương tự

- vừa được xem lúc

Nhập môn lý thuyết cơ sở dữ liệu - Phần 2: Mô hình thực thể liên kết

**Chào các bạn, hôm nay mình tiếp tục viết tiếp phần 2 cho series Nhập môn lý thuyết cơ sở dữ liệu. Chắc hẳn qua bài trước các bạn tìm được lý do vì sao mình phải học môn này rồi chứ.

0 0 68

- vừa được xem lúc

Các vai trò chính trong Data Ecosystem - [Data Analyst Series]

Ngày nay, các tổ chức đang sử dụng dữ liệu để khám phá các cơ hội và mang lại lợi ích trong tương lai. Điển hình là tạo các mô hình trong các giao dịch tài chính để phát hiện gian lận, sử dụng các côn

0 0 47

- vừa được xem lúc

Tìm hiểu về Apache Spark

Ngày nay có rất nhiều hệ thống đang sử dụng Hadoop để phân tích và xử lý dữ liệu lớn. Ưu điểm lớn nhất của Hadoop là được dựa trên một mô hình lập trình song song với xử lý dữ liệu lớn là MapReduce, m

0 0 52

- vừa được xem lúc

Data Warehouse là gì? Top 7 ứng dụng quan trọng của kho dữ liệu

Data Warehouse là gì? Lợi ích và ứng dụng của kho dữ liệu Data Warehouse là gì? Với sự bùng nổ về mặt thông tin và dữ liệu như hiệu này thì đây luôn là những câu hỏi được rất nhiều bạn thắc mắc, đặc b

0 0 35

- vừa được xem lúc

Phân biệt: Database, Data Warehouse, Data Mart, Data Lake, Data Lakehouse, Data Fabric, Data Mesh

Chào mọi người,. Hôm nay, tiếp tục Series Phân tích dữ liệu kinh doanh, mình sẽ chia sẻ với mọi người những khái niệm phổ biến nhất liên quan về thiết kế hệ thống dữ liệu bên dưới nhé, vì khi làm phân

0 0 39

- vừa được xem lúc

Kỹ sư dữ liệu và lộ trình trở thành data engineer (DE) với 4 bước

Data Engineer hay còn gọi là kỹ sư dữ liệu là một trong những vị trí quan trọng trong lĩnh vực khoa học dữ liệu. Với sự phát triển của kỷ nguyên số, nhu cầu chuyển đổi số của các doanh nghiệp ngày càn

0 0 36