- vừa được xem lúc

11 bước để Triển khai kho dữ liệu (DWH)

0 0 34

Người đăng: Trưởng Nguyễn

Theo Viblo Asia

Để triển khai kho dữ liệu (Data warehouse) thành công thì chúng ta có thể tham khảo các bước làm dưới đây:

Quy trình triển khai kho dữ liệu

Step Task Deliverables
1 Cần xác định phạm vi dự án Định nghĩa phạm vi
2 Cần xác định nhu cầu kinh doanh Mô hình dữ liệu logic
3 Xác định các yêu cầu kho dữ liệu vận hành Mô hình lưu trữ dữ liệu vận hành
4 Mua hoặc phát triển các công cụ khai thác Công cụ và phần mềm trích xuất
5 Xác định các Yêu cầu dữ liệu Data Warehouse Mô hình dữ liệu chuyển tiếp
6 Tài liệu bị thiếu dữ liệu Danh sách dự án To Do
7 Bản đồ Lưu trữ dữ liệu vận hành vào Kho dữ liệu Bản đồ tích hợp dữ liệu D / W
8 Phát triển Thiết kế cơ sở dữ liệu Data Warehouse D / W Thiết kế cơ sở dữ liệu
9 Trích xuất dữ liệu từ kho dữ liệu vận hành Trích xuất dữ liệu D / W tích hợp
10 Tải dữ liệu Kho dữ liệu Khởi tạo dữ liệu tải
11 Bảo trì Data Warehouse Truy cập dữ liệu on-going và các tải tiếp theo

Để triển khai thành công thì bạn phải:

  • Quyết định một kế hoạch để kiểm tra tính nhất quán, chính xác và tính toàn vẹn của dữ liệu.
  • Kho dữ liệu phải được tích hợp tốt, được xác định rõ và đánh dấu thời gian.
  • Trong khi thiết kế Datwarhouse, đảm bảo bạn sử dụng đúng công cụ, theo sát vòng đời, quan tâm đến xung đột dữ liệu và sẵn sàng để học bạn là sai lầm của bạn.
  • Không bao giờ thay thế hệ thống hoạt động và báo cáo hiện tại.
  • Đừng dành quá nhiều thời gian cho việc trích xuất, làm sạch và tải dữ liệu.
  • Đảm bảo có sự tham gia của tất cả các bên liên quan, bao gồm cả nhân viên kinh doanh trong quá trình triển khai Datwarhouse.
  • Thiết lập rằng kho dữ liệu là một dự án chung / nhóm. Bạn không muốn tạo kho dữ liệu không hữu ích cho người dùng cuối.
  • Chuẩn bị một kế hoạch đào tạo cho người dùng cuối.

Ưu điểm của kho dữ liệu

  • Cho phép người dùng doanh nghiệp nhanh chóng truy cập dữ liệu quan trọng từ một số nguồn ở một nơi. Kho dữ liệu cung cấp thông tin phù hợp về các hoạt động đa chức năng khác nhau. Nó cũng hỗ trợ báo cáo và truy vấn đặc biệt.
  • Giúp tích hợp nhiều nguồn dữ liệu để giảm căng thẳng cho hệ thống sản xuất.
  • Giúp giảm tổng thời gian quay vòng để phân tích và báo cáo. Tái cấu trúc và tích hợp giúp người dùng dễ sử dụng hơn để báo cáo và phân tích
  • Cho phép người dùng truy cập dữ liệu quan trọng từ số lượng nguồn ở một nơi duy nhất. Do đó, nó giúp tiết kiệm thời gian lấy dữ liệu của người dùng từ nhiều nguồn.
  • Lưu trữ một lượng lớn dữ liệu lịch sử. Điều này giúp người dùng phân tích các khoảng thời gian và xu hướng khác nhau để đưa ra dự đoán trong tương lai.

Nhược điểm của kho dữ liệu

Không phải là một lựa chọn lý tưởng cho dữ liệu phi cấu trúc. Có thể bị lỗi thời tương đối nhanh Khó thực hiện thay đổi về kiểu và phạm vi dữ liệu, lược đồ nguồn dữ liệu, chỉ mục và truy vấn. Có vẻ dễ dàng, nhưng thực sự, nó quá phức tạp đối với người dùng trung bình. Mặc dù có những nỗ lực tốt nhất trong quản lý dự án, phạm vi dự án kho dữ liệu sẽ luôn tăng. Đôi khi người dùng kho sẽ phát triển các quy tắc kinh doanh khác nhau. Các tổ chức cần dành nhiều nguồn lực cho mục đích đào tạo và thực hiện. Tương lai của kho dữ liệu Thay đổi các ràng buộc quy định có thể hạn chế khả năng kết hợp nguồn dữ liệu khác nhau. Những nguồn khác nhau này có thể bao gồm dữ liệu phi cấu trúc rất khó lưu trữ. Khi kích thước của cơ sở dữ liệu tăng lên, các ước tính về những gì tạo nên một cơ sở dữ liệu rất lớn tiếp tục phát triển. Việc xây dựng và chạy các hệ thống kho dữ liệu luôn tăng kích thước là rất phức tạp. Các tài nguyên phần cứng và phần mềm có sẵn ngày hôm nay không cho phép giữ một lượng lớn dữ liệu trực tuyến.Dữ liệu đa phương tiện không thể dễ dàng thao tác dưới dạng dữ liệu văn bản, trong khi thông tin văn bản có thể được truy xuất bằng phần mềm quan hệ hiện có. Đây có thể là một chủ đề nghiên cứu.

Công cụ xây dựng kho dữ liệu

Có rất nhiều công cụ có sẵn trên thị trường. Đây là một số nổi bật nhất:

1. Google BigQuery: Google BigQuery được thiết kế như một kho dữ liệu thuần đám mây (cloud-native). Nó được xây dựng để giải quyết nhu cầu của các tổ chức theo định hướng dữ liệu trong xu hướng thế giới đám mây đầu tiên.

BigQuery là kho dữ liệu đám mây không máy chủ, có khả năng mở rộng cao và hiệu quả về chi phí trên GCP. Nó cho phép thực hiện các truy vấn siêu nhanh ở quy mô petabyte bằng cách sử dụng sức mạnh xử lý của cơ sở hạ tầng của Google. Vì không có cơ sở hạ tầng để khách hàng quản lý, họ có thể tập trung vào việc khám phá báo cáo hữu ích có ý nghĩa bằng cách sử dụng SQL quen thuộc mà không cần quản trị viên cơ sở dữ liệu. Nó cũng tiết kiệm vì họ chỉ trả tiền cho quá trình xử lý và lưu trữ mà họ sử dụng.

2. Oracle: Oracle là cơ sở dữ liệu hàng đầu trong ngành. Nó cung cấp một loạt các lựa chọn giải pháp kho dữ liệu cho cả tại chỗ và trên đám mây. Nó giúp tối ưu hóa trải nghiệm của khách hàng bằng cách tăng hiệu quả hoạt động. https://www.oracle.com/index.html

3. Amazon RedShift: Amazon Redshift là công cụ kho dữ liệu. Đây là một công cụ đơn giản và hiệu quả để phân tích tất cả các loại dữ liệu bằng cách sử dụng SQL tiêu chuẩn và các công cụ BI hiện có. Nó cũng cho phép chạy các truy vấn phức tạp đối với petabyte dữ liệu có cấu trúc, sử dụng kỹ thuật tối ưu hóa truy vấn. https://aws.amazon.com/redshift/?nc2=h_m1

>> Đọc thêm:

KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP

KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP

LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU

DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DATA ENGINEER? CÁC KỸ NĂNG CẦN THIẾT

KHOÁ HỌC BIGQUERY FOR DATA ANALYTICS / MACHINE LEARNING

Bình luận

Bài viết tương tự

- vừa được xem lúc

Nhập môn lý thuyết cơ sở dữ liệu - Phần 2: Mô hình thực thể liên kết

**Chào các bạn, hôm nay mình tiếp tục viết tiếp phần 2 cho series Nhập môn lý thuyết cơ sở dữ liệu. Chắc hẳn qua bài trước các bạn tìm được lý do vì sao mình phải học môn này rồi chứ.

0 0 68

- vừa được xem lúc

Các vai trò chính trong Data Ecosystem - [Data Analyst Series]

Ngày nay, các tổ chức đang sử dụng dữ liệu để khám phá các cơ hội và mang lại lợi ích trong tương lai. Điển hình là tạo các mô hình trong các giao dịch tài chính để phát hiện gian lận, sử dụng các côn

0 0 47

- vừa được xem lúc

Tìm hiểu về Apache Spark

Ngày nay có rất nhiều hệ thống đang sử dụng Hadoop để phân tích và xử lý dữ liệu lớn. Ưu điểm lớn nhất của Hadoop là được dựa trên một mô hình lập trình song song với xử lý dữ liệu lớn là MapReduce, m

0 0 52

- vừa được xem lúc

Data Warehouse là gì? Top 7 ứng dụng quan trọng của kho dữ liệu

Data Warehouse là gì? Lợi ích và ứng dụng của kho dữ liệu Data Warehouse là gì? Với sự bùng nổ về mặt thông tin và dữ liệu như hiệu này thì đây luôn là những câu hỏi được rất nhiều bạn thắc mắc, đặc b

0 0 35

- vừa được xem lúc

Phân biệt: Database, Data Warehouse, Data Mart, Data Lake, Data Lakehouse, Data Fabric, Data Mesh

Chào mọi người,. Hôm nay, tiếp tục Series Phân tích dữ liệu kinh doanh, mình sẽ chia sẻ với mọi người những khái niệm phổ biến nhất liên quan về thiết kế hệ thống dữ liệu bên dưới nhé, vì khi làm phân

0 0 39

- vừa được xem lúc

Kỹ sư dữ liệu và lộ trình trở thành data engineer (DE) với 4 bước

Data Engineer hay còn gọi là kỹ sư dữ liệu là một trong những vị trí quan trọng trong lĩnh vực khoa học dữ liệu. Với sự phát triển của kỷ nguyên số, nhu cầu chuyển đổi số của các doanh nghiệp ngày càn

0 0 36