1. Data modeling là gì?
Data model (mô hình dữ liệu) là sơ đồ về cách thức tổ chức, lưu trữ dữ liệu trong doanh nghiệp và các mối liên kết giữa các thông tin đó.
Ví dụ: mô hình dữ liệu của cửa hàng bán ô tô
- Ô tô: Hãng, năm sản xuất, màu sắc và kích thước của chiếc ô tô
- Khách hàng: họ tên, chứng minh thư, số điện thoại
- Mối quan hệ là Mua hàng (ngày mua, số lượng, thành tiền…) Data Modeling (mô hình hóa dữ liệu) là một quy trình phân tích các yêu cầu về lưu trữ dữ liệu và xác định các dữ liệu cần thiết trong quy trình kinh doanh, hoạt động của doanh nghiệp.
Mục đích của data modeling là tạo ra phương pháp hiệu quả nhất để lưu trữ thông tin, đông thời vẫn vẫn cung cấp các quy trình truy cập và báo cáo hoàn chỉnh. Các data model (mô hình dữ liệu) thường mang tính kỹ thuật nhưng (hầu hết) cũng được thiết kế đơn giản và trực quan, giúp những người dùng am hiểu kỹ thuật và cả những người không am hiểu về kỹ thuật dễ dàng nắm bắt các thuật ngữ cơ bản nhất. Nhờ các data model, mọi người trong doanh nghiệp của bạn đều có thể hiểu và làm việc với dữ liệu của bạn một cách hiệu quả hơn.
Các mô hình dữ liệu được xây dựng dựa trên nhu cầu của doanh nghiệp. Không có một mô hình dữ liệu cuối cùng, bởi chúng sẽ thay đổi tuỳ theo những biến động trong nhu cầu kinh doanh và quản lý vận hành. Các quy tắc và yêu cầu khi xây dựng mô hình sẽ được thống nhất thông qua phản hồi từ các bên liên quan, sau đó chuẩn hoá thành thước đo để thiết kế mô hình mới hoặc điều chỉnh mô hình sẵn có. >>> Đọc thêm:
KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP
KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP
LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU
DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DE? CÁC KỸ NĂNG CẦN THIẾT
2. Data modelling bao gồm những gì?
- Các loại thực thể, thuộc tính
- Mối quan hệ
- Quy tắc toàn vẹn
- Định nghĩa của các đối tượng đó Sau đó, điều này được sử dụng làm điểm bắt đầu cho thiết kế giao diện (database design) hoặc cơ sở dữ liệu.
3. Các loại Data Modelling
Chủ yếu có ba loại mô hình dữ liệu khác nhau: #1. Mô hình dữ liệu khái niệm (Conceptual data model) Mô hình dữ liệu khái niệm hay trong tiếng Anh còn được gọi là Conceptual data models là mô hình xác định những gì hệ thống chứa. Đối tượng dự kiến cho các mô hình dữ liệu khái niệm là phía kinh doanh của một tổ chức, doanh nghiệp. Mục đích của mô hình này là để tổ chức, phạm vi và xác định các khái niệm và quy tắc, quy trình kinh doanh. Khi mô hình dữ liệu khái niệm được tạo ra, nó có thể được điều chỉnh và chuyển thành mô hình dữ liệu logic.
#2. Mô hình dữ liệu logic (Logical data model) Mô hình dữ liệu logic hay trong tiếng Anh còn được gọi là Logical data models. Mô hình này xác định cách hệ thống sẽ được triển khai bất kể hệ quản lý cơ sở dữ liệu. Mô hình dữ liệu logic thường được tạo bởi kiến trúc sư dữ liệu và nhà phân tích kinh doanh. Mục đích chính của mô hình là phát triển bản đồ kỹ thuật của các quy tắc và cấu trúc dữ liệu. Mô hình dữ liệu logic sẽ làm cơ sở cho việc tạo ra một mô hình dữ liệu vật lý.
#3. Mô hình dữ liệu vật lý (Physical data model) Mô hình dữ liệu vật lý hay trong tiếng Anh còn được gọi là Physical data models là mô hình dành riêng cho ứng dụng và cơ sở dữ liệu sẽ được triển khai. Mô hình này mô tả cách hệ thống sẽ được triển khai bằng cách sử dụng một hệ thống quản lý cơ sở dữ liệu cụ thể. Mô hình này thường được tạo ra bởi chuyên viên quản trị dữ liệu và các nhà phát triển với mục đích chính là triển khai thực tế cơ sở dữ liệu.
4. Các dạng mô hình hóa dữ liệu phổ biến
4.1. Mô hình phân cấp – Hierarchical model
Mô hình dữ liệu này sử dụng hệ thống phân cấp để cấu trúc dữ liệu theo định dạng giống như mô hình cây. Tuy nhiên, việc truy xuất và truy cập dữ liệu khá khó khăn trong cơ sở dữ liệu phân cấp. Đây là lý do tại sao nó hiếm khi được sử dụng ngày nay.
4.2. Mô hình quan hệ – Relation model
Được đề xuất như là một thay thế cho mô hình phân cấp bởi một nhà nghiên cứu của IBM.
Ở đây dữ liệu được biểu diễn dưới dạng bảng. Nó làm giảm sự phức tạp và cung cấp một cái nhìn tổng quan rõ ràng về dữ liệu.
4.3. Mô hình hướng đối tượng – Object-oriented model
Data Modeliing này bao gồm một tập hợp các đối tượng, mỗi đối tượng có các tính năng và phương thức riêng.
Kiểu mô hình cơ sở dữ liệu này còn được gọi là mô hình cơ sở dữ liệu hậu quan hệ.
4.4. Mô hình mối quan hệ thực thể – Entity relationship model
Mô hình mối quan hệ thực thể, còn được gọi là mô hình ER, đại diện cho các thực thể và các mối quan hệ của chúng ở định dạng đồ họa.
Một thực thể có thể là bất cứ thứ gì – một khái niệm, một phần dữ liệu hoặc một đối tượng
4.5. Mô hình dữ liệu ngữ nghĩa – Semantic data model
Mô hình dữ liệu ngữ nghĩa (SDM) là mô tả cơ sở dữ liệu cấp cao dựa trên ngữ nghĩa và cấu trúc hình thức (mô hình cơ sở dữ liệu) cho cơ sở dữ liệu. Mô hình cơ sở dữ liệu này được thiết kế để nắm bắt nhiều ý nghĩa của môi trường ứng dụng hơn là khả năng có thể có với các mô hình cơ sở dữ liệu hiện đại.
4.6. Dimensional data model
Mô hình này được phát triển bởi Ralph Kimball và được thiết kế để tối ưu hóa tốc độ truy xuất dữ liệu cho các mục đích phân tích trong kho dữ liệu. Mô hình chiều dữ liệu Trong khi các mô hình quan hệ và ER nhấn mạnh đến khả năng lưu trữ hiệu quả, các mô hình chiều dữ liệu tăng khả năng dự phòng để giúp định vị thông tin nhằm mục đích báo cáo và truy xuất dễ dàng hơn. Mô hình này thường được sử dụng nhiều trên các hệ thống OLAP.
5. Lợi ích mà data modeling mang lại cho doanh nghiệp?
1. Cải thiện khả năng khám phá, tiêu chuẩn hóa và tài liệu hóa các nguồn dữ liệu.
Đảm bảo các đối tượng dữ liệu dành cho các database được trình bày một cách chính xác. Việc bỏ sót các dữ liệu có thể dẫn đến sai lệch thông số trong các báo cáo vào tạo ra các kết quả sai lệch.
2. Giúp doanh nghiệp có thể thiết kế và áp dụng database một cách hiệu quả
Khi doanh nghiệp có thể triển khai data modeling hiệu quả, thì các mô hình dữ liệu có thể giúp thiết kế các database chính xác hơn, hiệu quả hơn và logic hơn.
Data modeling cung cấp cho doanh nghiệp một bức tranh tổng thể về nền tảng dữ liệu và là nguyên liệu để tạo ra các database.
3. Quản lý doanh nghiệp hiệu quả hơn
Quản lý các nhóm mô hình dữ liệu, các quy trình, danh mục đầu tư và vòng đời của khách hàng, sản phẩm, hiệu quả Marketing giúp doanh nghiệp quản lý triệt để được các hoạt động trong công ty.
**4. Hỗ trợ nâng cấp BI của doanh nghiệp **
Nâng cấp BI của doanh nghiệp và giúp doanh nghiệp xác định các cơ hội mới, bằng việc mở rộng khả năng xử lý và lưu trữ, khả năng nắm bắt và các trách nhiệm về các nguồn dữ liệu trong công ty.
5. Tăng khả năng tích hợp trong hệ thống doanh nghiệp
Data modeling giúp hỗ trợ doanh nghiệp có thể tích hợp chặt chẽ hơn các hệ thống thông tin hiện có với các hệ thống mới được triển khai. Từ đó, giúp doanh nghiệp có được góc nhìn rộng hơn về trạng thái hiện tại của tổ chức.
6. Các quy tắc để ứng dụng data modeling hiệu quả
#1. Hiểu đúng và rõ ràng mục tiêu cuối cùng
Mục tiêu chính của mô hình hóa dữ liệu là trang bị và tạo lợi thế cạnh tranh, cũng như thúc đẩy KPI của doanh nghiệp. Để lập được mô hình dữ liệu hiệu quả, bạn cần phải biết chính xác nhu cầu của doanh nghiệp là gì.
Bạn cũng cần hiểu về các nhu cầu của doanh nghiệp để biết nên ưu tiên những nhu cầu nào và những nhu cầu nào không cần thiết.
Lời khuyên của INDA: Hiểu rõ các yêu cầu của tổ chức và sắp xếp dữ liệu của bạn đúng cách.
#2. Giữ cho các cấu trúc thật đơn giản và dễ hiểu khi doanh nghiệp phát triển
Mọi thứ sẽ vô cùng dễ dàng lúc ban đầu ban đầu, nhưng khi doanh nghiệp bắt đầu phát triển thì các dữ liệu sẽ trở nên nhiều hơn và nhiều thuộc tính hơn.
Đây là lý do tại sao bạn nên bắt đầu với các mô hình dữ liệu của bạn thật đơn giản và dễ hiểu. Khi bạn chắc chắn về các mô hình ban đầu của mình về độ chính xác, bạn có thể dần dần xây dựng và hệ thống nhiều bộ dữ liệu hơn.
Lời khuyên của INDA: Giữ mô hình dữ liệu của bạn đơn giản. Thực hành mô hình hóa dữ liệu tốt nhất ở đây là sử dụng một công cụ có thể bắt đầu nhỏ và có khả năng mở rộng quy mô khi cần thiết.
#3. Sắp xếp dữ liệu của bạn dựa trên fact, dimensions, filters, and order
Bạn có thể tìm thấy câu trả lời cho hầu hết các câu hỏi kinh doanh bằng cách sắp xếp dữ liệu của mình theo bốn yếu tố:
- Fact
- Dimensions
- Filters
- Order. Ví dụ. Giả sử rằng bạn điều hành bốn cửa hàng thương mại điện tử ở bốn địa điểm khác nhau trên. Bây giờ là cuối năm, và bạn muốn phân tích cửa hàng thương mại điện tử nào có doanh số cao nhất. Trong trường hợp như vậy, bạn có thể tổ chức dữ liệu của mình trong năm qua. Fact sẽ cung cấp dữ liệu bán hàng tổng thể của 1 năm qua, dimensions sẽ là vị trí cửa hàng, filter sẽ kéo dài 12 tháng và đơn hàng sẽ là cửa hàng hàng đầu theo thứ tự giảm dần order.
Bằng cách này, bạn có thể sắp xếp tất cả dữ liệu của mình đúng cách và định vị bản thân để trả lời một loạt các câu hỏi về chiến lược mà không phải đổ mồ hôi.
Lời khuyên của INDA: khuyến khích tổ chức dữ liệu của bạn đúng cách bằng cách sử dụng các bảng riêng lẻ cho các fact, dimensions để cho phép phân tích nhanh.
#4. Giữ những thứ cần thiết
Mặc dù bạn có thể muốn giữ tất cả dữ liệu mình thu thập được từ big data, nhưng đây là một việc không hề tốt!
Mặc dù lưu trữ không phải là vấn đề trong thời đại kỹ thuật số, nhưng hiệu suất của việc lưu trữ khối lượng lớn như vậy sẽ khiến doanh nghiệp tốn thêm nhiều chi phí.
Chỉ một phần nhỏ dữ liệu hữu ích là đủ để trả lời tất cả các câu hỏi liên quan đến kinh doanh.
Lời khuyên của INDA: Biết rõ khối lượng bộ dữ liệu bạn muốn giữ. Việc duy trì nhiều hơn những gì thực sự cần thiết làm lãng phí mô hình dữ liệu của bạn và dẫn đến các vấn đề về hiệu suất.
#5. Luôn kiểm tra chéo các mô hình trước khi tiếp tục các bước tiếp theo
Mô hình hóa dữ liệu là một dự án lớn, đặc biệt là khi bạn đang xử lý một lượng dữ liệu khổng lồ của doanh nghiệp. Đó chính là lý do mà bạn phải, bạn cần phải thận trọng trong các công việc này..
Luôn luôn kiểm tra chéo kỹ càng các mô hình dữ liệu của bạn trước khi tiếp tục các bước tiếp theo.
Ví dụ: nếu bạn cần chọn khóa chính để xác định đúng từng bản ghi trong tập dữ liệu, hãy đảm bảo rằng bạn đang chọn đúng thuộc tính. ID sản phẩm có thể là một thuộc tính như vậy. Do đó, ngay cả khi hai số đếm khớp nhau, ID sản phẩm của họ có thể giúp bạn phân biệt từng bản ghi. Tiếp tục kiểm tra nếu bạn đang đi đúng hướng. ID sản phẩm có giống nhau không?
Lời khuyên của INDA: kiểm tra chéo là cách tốt nhất để duy trì các mối quan hệ 1-1 hoặc 1-n. Mối quan hệ n-n chỉ giới thiệu sự phức tạp trong hệ thống.
#6. Hãy để dữ liệu phát triển Mô hình dữ liệu không bao giờ đứng yên, nó sẽ luôn mở rộng ra về cả mặt khối lượng và thuộc tính. Vậy nên, khi doanh nghiệp của bạn phát triển, bạn cần phải tùy chỉnh mô hình dữ liệu của bạn cho phù hợp với quy mô của doanh nghiệp.
Vì vậy, điều quan trọng là bạn phải giữ cho các mô hình dữ liệu được cập nhật theo thời gian, tốt nhất là theo thời gian thực.
Cách thực hành tốt nhất ở đây là lưu trữ các mô hình dữ liệu của bạn trong kho lưu trữ, để có thể dễ dàng quản lý và điều chỉnh dễ dàng khi cần thiết.
Lời khuyên của INDA: Các mô hình dữ liệu trở nên lỗi thời nhanh hơn bạn mong đợi. Bạn cần phải cập nhật chúng liên tục theo thời gian >>> Đọc thêm:
KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP
KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP
LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU
DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DE? CÁC KỸ NĂNG CẦN THIẾT