- vừa được xem lúc

Hướng dẫn cài đặt Pentaho

0 0 29

Người đăng: Trưởng Nguyễn

Theo Viblo Asia

PENTAHO là gì?

Là công cụ Open Source, thành lập 2001 và sử dụng công cụ GUI để bạn xây dựng và vận hành ETL dữ liệu của mình - họ có phiên bản Community và phiên bản thương mại, và bạn có thể sử dụng Java để phát triển Engine của sản phẩm này. Đây là công cụ tương đối đầy đủ cho việc ETL, tổ chức Warehouse, và xây dựng các báo cáo phân tích BI. Phiên bản Community hiện đang có 13,500 Register

Trong bài viết này, mình chia sẻ cho các bạn về cách cài đặt công cụ Pentaho. Chà, tại sao Tích hợp dữ liệu Pentaho hay còn gọi là "Ấm siêu tốc"? Tích hợp dữ liệu Pentaho (PDI) là một công cụ ETL (Extract, Transform, Load) để quản lý các đường ống nhập dữ liệu. Khi chúng tôi tạo ra ngày càng nhiều dữ liệu qua nhiều nguồn và định dạng khác nhau, sẽ khó quản lý các đường ống dữ liệu để đưa ra quyết định tốt hơn.

PDI là một công cụ hữu ích để quản lý các đường ống như vậy một cách liền mạch. Tôi sẽ viết một loạt các blog giải thích quy trình end-to-end của việc tạo các đường dẫn nhập dữ liệu có thể định cấu hình để quản lý nhiều cấu trúc và định dạng dữ liệu. Chúng tôi sẽ bắt đầu với quá trình cài đặt trước và kết thúc với việc triển khai.

Pentaho sẽ gồm 2 phiên bản là Enterprise và Community. Ở bài viết này chúng ta sẽ cài đặt phiên bản Community.

Điều kiện máy tính

Bộ xử lý: Intel EM64T hoặc AMD64 Dual-Core

RAM: 8 GB với 2 GB dành riêng cho PDI - Nó cũng có thể hoạt động trên hệ thống RAM 4GB

Dung lượng đĩa: 20 GB trống sau khi cài đặt

Kích thước màn hình: 1280x 960 - Dễ dàng xem với PDI UI

[Clip Hướng dẫn chi tiết cài đặt chi tiết Pentaho](https://www.youtube.com/watch?v=u7COUgoLo6I)

Bước 1: Tải xuống PDI-CE từ liên kết SourceForge.

Phiên bản mới nhất của PDI là 9.3, bạn có thể tải xuống phiên bản ổn định mới nhất theo yêu cầu của mình. Tên tệp là "pdi-ce-9.3.0.0–428.zip".

Bước 2: Tải xuống và cài đặt Java

Tải xuống Java SE Development Kit 8 từ trang web chính thức . Vì PDI được xây dựng bằng Java như một ngôn ngữ lập trình ở back-end. Tải xuống phiên bản như trong hình ảnh bên dưới. Bạn sẽ được Oracle nhắc đăng ký với thông tin cơ bản.

Bước 3: Giải nén tệp pdi-ce-9.3.0.0–428.zip trong một thư mục thiết lập.

Bạn nên lưu trữ nó trong ổ đĩa không phải C (Vì kích thước của tệp lớn hơn 1GB). Tốt nhất nên tạo một thư mục "Ứng dụng " trong ổ đĩa "D" và lưu trữ tất cả các ứng dụng của bên thứ ba trong cùng một thư mục. Hãy cùng đi với cách tiếp cận ở đây. Không có tệp thực thi (.exe) mà chúng tôi cần chạy để cài đặt PDI, chỉ là trích xuất tệp .zip. Dễ dàng!

Bước 4: Việc cài đặt hoàn thành.

>>> Đọc thêm:

KHOÁ HỌC TRUY VẤN VÀ THAO TÁC DỮ LIỆU SQL TỪ CƠ BẢN ĐẾN NÂNG CAO

KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP

KHÓA HỌC DATA MODEL - THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP

LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU

DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DATA ENGINEER? CÁC KỸ NĂNG CẦN THIẾT

Bình luận

Bài viết tương tự

- vừa được xem lúc

Nhập môn lý thuyết cơ sở dữ liệu - Phần 2: Mô hình thực thể liên kết

**Chào các bạn, hôm nay mình tiếp tục viết tiếp phần 2 cho series Nhập môn lý thuyết cơ sở dữ liệu. Chắc hẳn qua bài trước các bạn tìm được lý do vì sao mình phải học môn này rồi chứ.

0 0 68

- vừa được xem lúc

Các vai trò chính trong Data Ecosystem - [Data Analyst Series]

Ngày nay, các tổ chức đang sử dụng dữ liệu để khám phá các cơ hội và mang lại lợi ích trong tương lai. Điển hình là tạo các mô hình trong các giao dịch tài chính để phát hiện gian lận, sử dụng các côn

0 0 47

- vừa được xem lúc

Tìm hiểu về Apache Spark

Ngày nay có rất nhiều hệ thống đang sử dụng Hadoop để phân tích và xử lý dữ liệu lớn. Ưu điểm lớn nhất của Hadoop là được dựa trên một mô hình lập trình song song với xử lý dữ liệu lớn là MapReduce, m

0 0 52

- vừa được xem lúc

Data Warehouse là gì? Top 7 ứng dụng quan trọng của kho dữ liệu

Data Warehouse là gì? Lợi ích và ứng dụng của kho dữ liệu Data Warehouse là gì? Với sự bùng nổ về mặt thông tin và dữ liệu như hiệu này thì đây luôn là những câu hỏi được rất nhiều bạn thắc mắc, đặc b

0 0 35

- vừa được xem lúc

Phân biệt: Database, Data Warehouse, Data Mart, Data Lake, Data Lakehouse, Data Fabric, Data Mesh

Chào mọi người,. Hôm nay, tiếp tục Series Phân tích dữ liệu kinh doanh, mình sẽ chia sẻ với mọi người những khái niệm phổ biến nhất liên quan về thiết kế hệ thống dữ liệu bên dưới nhé, vì khi làm phân

0 0 39

- vừa được xem lúc

Kỹ sư dữ liệu và lộ trình trở thành data engineer (DE) với 4 bước

Data Engineer hay còn gọi là kỹ sư dữ liệu là một trong những vị trí quan trọng trong lĩnh vực khoa học dữ liệu. Với sự phát triển của kỷ nguyên số, nhu cầu chuyển đổi số của các doanh nghiệp ngày càn

0 0 36