- vừa được xem lúc

Công phá Power BI | Thực hành thần tốc | Day 01

0 0 15

Người đăng: Nhân Nguyễn

Theo Viblo Asia

Power BI PL300 lab 1: Prepare Data in Power BI Desktop

Lab 1: Prepare Data in Power BI Desktop (Chuẩn bị dữ liệu trong Power BI Desktop)

Cập nhật theo giáo trình mới nhất của Microsoft, ngày 12/09/2023.

Bài hướng dẫn Lab 1: Prepare Data in Power BI Desktop (Chuẩn bị dữ liệu trong Power BI Desktop) là một bài thực hành nằm trong chuỗi bài luyện tập Power BI của Microsoft – tương đương với Lab 1 trong giáo trình của Datapot. Mục tiêu của chuỗi bài này là giúp học viên hiểu về các bước xử lý dữ liệu và từ đó thiết kế báo cáo trong Power BI.

Xuyên suốt chuỗi bài này, chúng ta sẽ sử dụng bộ dữ liệu của công ty Adventure Works – một công ty sản xuất và kinh doanh đồ thể thao mạo hiểm đa quốc gia – để xây dựng một giải pháp Power BI cho công ty này.

Datapot khuyến khích học viên thực hành các bài lab theo thứ tự sau để củng cố các kĩ năng cơ bản một cách tốt nhất:

  • Lab 1: Prepare Data in Power BI Desktop (Chuẩn bị dữ liệu trong Power BI Desktop)
  • Lab 2: Load Transformed Data in Power BI Desktop (Làm sạch và chuyển đổi dữ liệu trong Power BI Desktop)
  • Lab 3: Design a model in Power BI – Part 1 (Xây dựng Model trong Power BI – Phần 1)
  • Lab 3 nâng cao: Design a model in Power BI – Part 2 (Xây dựng Model trong Power BI – Phần 2)
  • Lab 4: Create DAX Calculations in Power BI Desktop (Tạo các phép tính DAX trong Power BI Desktop)
  • Lab 5: Create Advanced DAX Calculations in Power BI Desktop (Tạo các phép tính DAX nâng cao trong Power BI Desktop)
  • Lab 6: Design a report in Power BI Desktop – Part 1 (Thiết kế báo cáo trong Power BI Desktop – Phần 1)
  • Lab 7: Design a report in Power BI Desktop – Part 2 (Thiết kế báo cáo trong Power BI Desktop – Phần 2)
  • Lab 8: Perform Advanced Analytics with AI Visuals (Phân tích nâng cao với biểu đồ AI)
  • Lab 9: Create a Power BI Dashboard (Tạo dashboard trên Power BI)
  • Lab 10: Enforce Row-Level Security (Cài đặt Row-Level Security)

Chuẩn bị trước khi thực hành

Để bắt đầu thực hành chuỗi bài Lab này, chúng ta cần chuẩn bị:

Cài đặt Power BI Desktop – Hướng dẫn cài đặt Power BI Desktop – YouTube Database AdventureWorksDW2020 (Kết nối với SQL Server) 2 file ColorFormats.csv và ResellerSalesTargets.csv

Đối với học viên của Datapot, các bạn đã được cung cấp thông tin để kết nối đến SQL Server có chứa dataset AdventureWorksDW2020 và link download file. Các bạn đã đủ công cụ để bắt đầu thực hành 11 bài Lab.

Trong trường hợp các bạn chưa là học viên và tự thực hành, các bạn cần:

Sau khi hoàn thành, các bạn sẽ sử dụng server name để kết nối với Power BI Desktop:

Xác định mục tiêu của Lab 1

Lab 1 sẽ cung cấp giới thiệu về Power BI Desktop, cách để import dữ liệu và sử dụng các kĩ thuật xem trước dữ liệu để hiểu rõ hơn về đặc tính và chất lượng của nguồn dữ liệu. Sau khi thực hành lab, các bạn cần biết cách:

  • Mở và tạo file trên Power BI Desktop
  • Kết nối với các nguồn dữ liệu
  • Xem dữ liệu trên Power Query
  • Sử dụng tính năng Data Profiling trên Power Query

Thời lượng ước tính hoàn thành lab 1: 30 phút

Hướng dẫn thực hành chuẩn bị dữ liệu trong Power BI Desktop

Hướng dẫn bằng video:

Power BI Lab 01 - Youtube

Hướng dẫn từng bước:

Task 1: Tạo file Power BI Desktop, tùy chỉnh và lưu file

Mục tiêu

  • Trong quá trình thao tác trên Power BI, các bạn cần thường xuyên lưu file để tránh trường hợp máy tính gặp sự cố khiến mất file. Thao tác lưu file từ đầu sẽ giúp các bạn có thể Ctrl+S để lưu file nhanh trong quá trình làm việc.
  • Đồng thời thực hiện một số tùy chỉnh để phục vụ cho các buổi lab sau.

Với task này, chúng ta sẽ thực hiện như sau:

Bước 1: Mở Power BI Desktop: Tìm đến biểu tượng của Power BI Desktop như sau

Các bạn sẽ thấy một pop up hướng dẫn bắt đầu, các bạn có thể nhấn Get Started để đăng nhập bằng tài khoản Microsoft (không bắt buộc), sau đó nhấn X để thoát.

Bước 2: Click vào thẻ File -> Options and Settings -> Options.

Trong bước này, chúng ta sẽ tắt 2 lựa chọn tự động hỗ trợ tạo mối quan hệ giữa các bảng để phục vụ cho việc thực hành lab. Trên thực tế, 2 lựa chọn này tương đối hữu ích khi chúng ta xây dựng mô hình dữ liệu. Chúng ta sẽ được học thêm về cách tạo mối hệ trong bài lab sau.

Trong phần Current File -> Chọn Data Load -> Tìm mục Relationships và tắt 2 lựa chọn sau

  • Import relationships from data sources on first load
  • Autodetect new relationships after data is loaded

Nhấn OK.

Bước 3: Tiếp tục chọn thẻ File -> chọn Save.

Lưu file vào vị trí các bạn mong muốn.

Ngoài ra các bạn có thể lưu file bằng cách nhấn vào biểu tượng này trên thanh công cụ:

Task 2: Lấy dữ liệu từ SQL Server

Mục tiêu: Nắm được cách kết nối với SQL Server Database và import bảng vào Power Query.

Bước 1: Kết nối SQL server database

Trên thẻ Home -> Get Data -> SQL Server. Hoặc các bạn có thể nhấn vào biểu tượng SQL Server trong nhóm Data trên thẻ Home.

Trên cửa sổ SQL Server Database:

  • Đối với các bạn học viên Datapot: Nhập thông tin Server theo thông tin đã được cung cấp cho các bạn trên Teams và nhấn OK.

Chọn chế độ đăng nhập Database và nhập Username/Password đã được cung cấp cùng tên Server, sau đó nhấn Connect.

  • Đối với các bạn tự thực hành, các bạn sử dụng thông tin Server sau khi cài đặt xong SQL Server và SQL Server Management Studio. Nếu cài đặt mặc định thì tên server thường có dạng ComputerName\SQLEXPRESS. Chúng ta cũng tiến hành nhập thông tin server như trên -> Nhấn OK.

Chọn chế độ đăng nhập Windows và Chọn Use my current credentials -> Connect.

Sau khi kết nối thành công, chúng ta sẽ được đưa đến cửa sổ Navigator như sau:

Bước 2: Chọn bảng dữ liệu trong Database

Trong cửa sổ Navigator, chúng ta nhấn vào tên database AdventureWorksDW2020 để mở rộng:

Khi nhấn vào tên bảng bất kì, chúng ta có thể xem trước thông tin rút gọn của bảng đó (hiển thị trong phần bảng bên tay phải).

Chúng ta click vào ô vuông trước tên các bảng dữ liệu sau để chọn các bảng đó:

Nhấn Transform Data để hoàn thành bước 2 và chuyển sang giao diện Power Query Editor.

Task 3: Xem trước dữ liệu trong Power Query Editor

Mục tiêu của task này là giới thiệu về giao diện Power Query Editor, giúp chúng ta tìm hiểu và đánh giá dữ liệu, chuẩn bị cho bước clean và transform dữ liệu trong các buổi lab sau.

Bước 1: Trong cửa sổ Power Query Editor, chúng ta thấy khung giao diện Queries bên tay trái chứa 6 bảng truy vấn chúng ta đã lựa chọn.

Bước 2: Kiểm tra dữ liệu

Click vào tên truy vấn DimEmployee. Mỗi dòng trong truy vấn DimEmployee thể hiện thông tin của 1 nhân sự. Các bạn quan sát bảng dữ liệu và đưa ra một số nhận xét về bảng dữ liệu đó như: Số lượng cột, số lượng dòng, kiểu dữ liệu của cột, v.v… Công việc này được gọi là profiling data. Kéo thanh lăn theo chiều ngang để xem hết các cột trong bảng.

Để đánh giá chất lượng cột, chọn thẻ View, trong nhóm Data Preview, chọn Column Quality. Tính năng này cho phép chúng ta đánh giá tỷ lệ ô chứa dữ liệu có nghĩa, lỗi, hoặc ô không có dữ liệu trong cột.

Chúng ta thấy cột Position có 94% dữ liệu trống (null).

Tiếp tục chọn Column Distribution trong thẻ View:

Trong cột Position, chúng ta thấy có 4 giá trị khác nhau tồn tại (distinct), 1 giá trị chỉ xuất hiện duy nhất 1 lần (unique). Khi xem cột EmployeeKey, chúng ta thấy có 296 giá trị distinct và 296 giá trị unique.

Khi số lượng giá trị unique và distinct bằng nhau, điều này có nghĩa là cột đó chứa các giá trị duy nhất. Khi xây dựng mô hình, chúng ta cần sử dụng những bảng có cột chứa giá trị unique như vậy để tạo mối quan hệ một-nhiều. Kiến thức này sẽ được học kĩ hơn trong các bài học về xây dựng mô hình dữ liệu.

Trong khung giao diện Queries, chọn truy vấn DimEmployeeSalesTerritory. Mỗi dòng trong bảng này thể hiện một nhân sự và vùng kinh doanh mà nhân sự đó quản lý. Mỗi nhân sự có thể quản lý nhiều vùng khác nhau. Khi xây dựng mô hình với dữ liệu này, các bạn sẽ cần tạo mối quản hệ nhiều – nhiều.

Trong truy vấn DimProduct, mỗi dòng thể hiện một sản phẩm mà công ty đang bán. Kéo thanh lăn đến hết chiều ngang, quan sát cột DimProductSubcategory.

Cột này sẽ được sử dụng để thực hiện Join với các bảng khác, nội dung này sẽ được đề cập trong lab Load Data in Power BI Desktop.

Trong truy vấn DimReseller, mỗi dòng thể hiện thông tin một reseller. Các reseller sẽ được phân loại là đại lý bán, đại lý phân phối hoặc đại lý gia tăng giá trị sản phẩm. Chúng ta lại vào thẻ View, chọn Column Profile.

Nhấn vào header cột BusinessType và quan sát khung giao diện dưới cùng vừa hiện ra.

Quan sát các thông số cột trong khung Column Statistics và giá trị phân bổ trong khung Value Distribution. Chúng ta nhận thấy tuy đại lý được phân thành 3 nhóm nhưng trong cột BusinessType này lại có tới 4 nhóm. Nhóm đại lý warehouse đã bị nhập thành 2 nhóm riêng là Warehouse và Ware House. Khi di chuột tới nhóm này, nhận thấy có 5 dòng đang bị nhập nhầm.

Trong truy vấn DimSalesTerritory, mỗi dòng thể hiện một vùng kinh doanh (region), bao gồm cả Corporate HQ (tổng công ty). Mỗi region thuộc về một country, mỗi country thuộc về một group. Trong bài lab về Xây dựng mô hình dữ liệu, các bạn sẽ sử dụng thông tin này để tạo hierarchy.

Trong truy vấn FactResellerSales, mỗi dòng chứa thông tin của 1 sales order line. 1 order có thể có 1 hoặc nhiều sales order line.

Quan sát chất lượng của cột TotalProductCost, chúng ta nhận thấy có 8% số dòng bị trống. Việc cột này có các dòng bị trống là một vấn đề thuộc về phạm vi chất lượng dữ liệu. Để giải quyết vấn đề này, trong bài lab về Load Data in Power BI desktop, chúng ta sẽ dùng các bước chuyển đổi để điền đủ thông tin cho 8% dữ liệu bị trống này.

Task 4: Lấy dữ liệu từ file csv

Mình mỏi tay quá rồi nên các bạn quan tâm bấm dưới đây đọc nốt với nha 🫠😉

[...ĐỌC TIẾP - POWER BI LAB 1]

Xem ngay Lab 2: Load Transformed Data in Power BI Desktop (Làm sạch và chuyển đổi dữ liệu trong Power BI Desktop)

Chuỗi bài hướng dẫn thực hành Power BI PL300 Lab: https://datapot.vn/category/power-bi/power-bi-pl300-lab-video/

Bình luận

Bài viết tương tự

- vừa được xem lúc

Data bias trong phân tích dữ liệu

Hi các bạn, để tiếp tục chuỗi bài chia sẻ về nghiệp vụ của BA, hôm nay mình sẽ chia sẻ một chút về Data analysis (phân tích dữ liệu) - một kỹ thuật khá là rộng và cũng rất quan trọng với BA trong thời

1 0 113

- vừa được xem lúc

Data Mining - Khai phá dữ liệu - [Data Science Series]

I. Data Mining là gì. Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán. 1.

0 0 40

- vừa được xem lúc

Data Science, công việc hấp dẫn nhất thế kỷ 21 - [Data Science Series]

I. Data Science, công việc hấp dẫn nhất thế kỷ 21.

0 0 37

- vừa được xem lúc

Thao tác cơ bản với khung dữ liệu trong R (phần 1)

Giới thiệu. R là một ngôn ngữ lập trình bậc cao, nó được tạo ra với mục đích dành cho các công việc liên quan đến phân tích dữ liệu, thống kê và học máy.

0 0 32

- vừa được xem lúc

Thao tác cơ bản với khung dữ liệu trong R (phần 2)

Giới thiệu. R là một ngôn ngữ lập trình bậc cao, nó được tạo ra với mục đích dành cho các công việc phân tích dữ liệu, thống kê và học máy.

0 0 23

- vừa được xem lúc

Ngôn ngữ lập trình sử dụng trong Data Science - [Data Science Series]

Có một số lượng lớn các lựa chọn khi nói đến ngôn ngữ lập trình nói riêng và ngôn ngữ lập trình trong Data Science . Mỗi người đều có điểm mạnh và điểm yếu của riêng và sẽ không có ai trả lời đúng cho

0 0 28