Power BI PL300 lab 1: Prepare Data in Power BI Desktop
Lab 1: Prepare Data in Power BI Desktop (Chuẩn bị dữ liệu trong Power BI Desktop)
Cập nhật theo giáo trình mới nhất của Microsoft, ngày 12/09/2023.
Bài hướng dẫn Lab 1: Prepare Data in Power BI Desktop (Chuẩn bị dữ liệu trong Power BI Desktop) là một bài thực hành nằm trong chuỗi bài luyện tập Power BI của Microsoft – tương đương với Lab 1 trong giáo trình của Datapot. Mục tiêu của chuỗi bài này là giúp học viên hiểu về các bước xử lý dữ liệu và từ đó thiết kế báo cáo trong Power BI.
Xuyên suốt chuỗi bài này, chúng ta sẽ sử dụng bộ dữ liệu của công ty Adventure Works – một công ty sản xuất và kinh doanh đồ thể thao mạo hiểm đa quốc gia – để xây dựng một giải pháp Power BI cho công ty này.
Datapot khuyến khích học viên thực hành các bài lab theo thứ tự sau để củng cố các kĩ năng cơ bản một cách tốt nhất:
- Lab 1: Prepare Data in Power BI Desktop (Chuẩn bị dữ liệu trong Power BI Desktop)
- Lab 2: Load Transformed Data in Power BI Desktop (Làm sạch và chuyển đổi dữ liệu trong Power BI Desktop)
- Lab 3: Design a model in Power BI – Part 1 (Xây dựng Model trong Power BI – Phần 1)
- Lab 3 nâng cao: Design a model in Power BI – Part 2 (Xây dựng Model trong Power BI – Phần 2)
- Lab 4: Create DAX Calculations in Power BI Desktop (Tạo các phép tính DAX trong Power BI Desktop)
- Lab 5: Create Advanced DAX Calculations in Power BI Desktop (Tạo các phép tính DAX nâng cao trong Power BI Desktop)
- Lab 6: Design a report in Power BI Desktop – Part 1 (Thiết kế báo cáo trong Power BI Desktop – Phần 1)
- Lab 7: Design a report in Power BI Desktop – Part 2 (Thiết kế báo cáo trong Power BI Desktop – Phần 2)
- Lab 8: Perform Advanced Analytics with AI Visuals (Phân tích nâng cao với biểu đồ AI)
- Lab 9: Create a Power BI Dashboard (Tạo dashboard trên Power BI)
- Lab 10: Enforce Row-Level Security (Cài đặt Row-Level Security)
Chuẩn bị trước khi thực hành
Để bắt đầu thực hành chuỗi bài Lab này, chúng ta cần chuẩn bị:
Cài đặt Power BI Desktop – Hướng dẫn cài đặt Power BI Desktop – YouTube Database AdventureWorksDW2020 (Kết nối với SQL Server) 2 file ColorFormats.csv và ResellerSalesTargets.csv
Đối với học viên của Datapot, các bạn đã được cung cấp thông tin để kết nối đến SQL Server có chứa dataset AdventureWorksDW2020 và link download file. Các bạn đã đủ công cụ để bắt đầu thực hành 11 bài Lab.
Trong trường hợp các bạn chưa là học viên và tự thực hành, các bạn cần:
- Cài đặt SQL Server và SQL Server Management Studio
- Tải file dữ liệu (đuôi .bak) và 2 file ColorFormats.csv và ResellerSalesTargets.csv tại Trang chính thức Datapot
- Restore file .bak – Xem hướng dẫn tại đây.
Sau khi hoàn thành, các bạn sẽ sử dụng server name để kết nối với Power BI Desktop:
Xác định mục tiêu của Lab 1
Lab 1 sẽ cung cấp giới thiệu về Power BI Desktop, cách để import dữ liệu và sử dụng các kĩ thuật xem trước dữ liệu để hiểu rõ hơn về đặc tính và chất lượng của nguồn dữ liệu. Sau khi thực hành lab, các bạn cần biết cách:
- Mở và tạo file trên Power BI Desktop
- Kết nối với các nguồn dữ liệu
- Xem dữ liệu trên Power Query
- Sử dụng tính năng Data Profiling trên Power Query
Thời lượng ước tính hoàn thành lab 1: 30 phút
Hướng dẫn thực hành chuẩn bị dữ liệu trong Power BI Desktop
Hướng dẫn bằng video:
Hướng dẫn từng bước:
Task 1: Tạo file Power BI Desktop, tùy chỉnh và lưu file
Mục tiêu
- Trong quá trình thao tác trên Power BI, các bạn cần thường xuyên lưu file để tránh trường hợp máy tính gặp sự cố khiến mất file. Thao tác lưu file từ đầu sẽ giúp các bạn có thể Ctrl+S để lưu file nhanh trong quá trình làm việc.
- Đồng thời thực hiện một số tùy chỉnh để phục vụ cho các buổi lab sau.
Với task này, chúng ta sẽ thực hiện như sau:
Bước 1: Mở Power BI Desktop: Tìm đến biểu tượng của Power BI Desktop như sau
Các bạn sẽ thấy một pop up hướng dẫn bắt đầu, các bạn có thể nhấn Get Started để đăng nhập bằng tài khoản Microsoft (không bắt buộc), sau đó nhấn X để thoát.
Bước 2: Click vào thẻ File -> Options and Settings -> Options.
Trong bước này, chúng ta sẽ tắt 2 lựa chọn tự động hỗ trợ tạo mối quan hệ giữa các bảng để phục vụ cho việc thực hành lab. Trên thực tế, 2 lựa chọn này tương đối hữu ích khi chúng ta xây dựng mô hình dữ liệu. Chúng ta sẽ được học thêm về cách tạo mối hệ trong bài lab sau.
Trong phần Current File -> Chọn Data Load -> Tìm mục Relationships và tắt 2 lựa chọn sau
- Import relationships from data sources on first load
- Autodetect new relationships after data is loaded
Nhấn OK.
Bước 3: Tiếp tục chọn thẻ File -> chọn Save.
Lưu file vào vị trí các bạn mong muốn.
Ngoài ra các bạn có thể lưu file bằng cách nhấn vào biểu tượng này trên thanh công cụ:
Task 2: Lấy dữ liệu từ SQL Server
Mục tiêu: Nắm được cách kết nối với SQL Server Database và import bảng vào Power Query.
Bước 1: Kết nối SQL server database
Trên thẻ Home -> Get Data -> SQL Server. Hoặc các bạn có thể nhấn vào biểu tượng SQL Server trong nhóm Data trên thẻ Home.
Trên cửa sổ SQL Server Database:
- Đối với các bạn học viên Datapot: Nhập thông tin Server theo thông tin đã được cung cấp cho các bạn trên Teams và nhấn OK.
Chọn chế độ đăng nhập Database và nhập Username/Password đã được cung cấp cùng tên Server, sau đó nhấn Connect.
- Đối với các bạn tự thực hành, các bạn sử dụng thông tin Server sau khi cài đặt xong SQL Server và SQL Server Management Studio. Nếu cài đặt mặc định thì tên server thường có dạng ComputerName\SQLEXPRESS. Chúng ta cũng tiến hành nhập thông tin server như trên -> Nhấn OK.
Chọn chế độ đăng nhập Windows và Chọn Use my current credentials -> Connect.
Sau khi kết nối thành công, chúng ta sẽ được đưa đến cửa sổ Navigator như sau:
Bước 2: Chọn bảng dữ liệu trong Database
Trong cửa sổ Navigator, chúng ta nhấn vào tên database AdventureWorksDW2020 để mở rộng:
Khi nhấn vào tên bảng bất kì, chúng ta có thể xem trước thông tin rút gọn của bảng đó (hiển thị trong phần bảng bên tay phải).
Chúng ta click vào ô vuông trước tên các bảng dữ liệu sau để chọn các bảng đó:
Nhấn Transform Data để hoàn thành bước 2 và chuyển sang giao diện Power Query Editor.
Task 3: Xem trước dữ liệu trong Power Query Editor
Mục tiêu của task này là giới thiệu về giao diện Power Query Editor, giúp chúng ta tìm hiểu và đánh giá dữ liệu, chuẩn bị cho bước clean và transform dữ liệu trong các buổi lab sau.
Bước 1: Trong cửa sổ Power Query Editor, chúng ta thấy khung giao diện Queries bên tay trái chứa 6 bảng truy vấn chúng ta đã lựa chọn.
Bước 2: Kiểm tra dữ liệu
Click vào tên truy vấn DimEmployee. Mỗi dòng trong truy vấn DimEmployee thể hiện thông tin của 1 nhân sự. Các bạn quan sát bảng dữ liệu và đưa ra một số nhận xét về bảng dữ liệu đó như: Số lượng cột, số lượng dòng, kiểu dữ liệu của cột, v.v… Công việc này được gọi là profiling data. Kéo thanh lăn theo chiều ngang để xem hết các cột trong bảng.
Để đánh giá chất lượng cột, chọn thẻ View, trong nhóm Data Preview, chọn Column Quality. Tính năng này cho phép chúng ta đánh giá tỷ lệ ô chứa dữ liệu có nghĩa, lỗi, hoặc ô không có dữ liệu trong cột.
Chúng ta thấy cột Position có 94% dữ liệu trống (null).
Tiếp tục chọn Column Distribution trong thẻ View:
Trong cột Position, chúng ta thấy có 4 giá trị khác nhau tồn tại (distinct), 1 giá trị chỉ xuất hiện duy nhất 1 lần (unique). Khi xem cột EmployeeKey, chúng ta thấy có 296 giá trị distinct và 296 giá trị unique.
Khi số lượng giá trị unique và distinct bằng nhau, điều này có nghĩa là cột đó chứa các giá trị duy nhất. Khi xây dựng mô hình, chúng ta cần sử dụng những bảng có cột chứa giá trị unique như vậy để tạo mối quan hệ một-nhiều. Kiến thức này sẽ được học kĩ hơn trong các bài học về xây dựng mô hình dữ liệu.
Trong khung giao diện Queries, chọn truy vấn DimEmployeeSalesTerritory. Mỗi dòng trong bảng này thể hiện một nhân sự và vùng kinh doanh mà nhân sự đó quản lý. Mỗi nhân sự có thể quản lý nhiều vùng khác nhau. Khi xây dựng mô hình với dữ liệu này, các bạn sẽ cần tạo mối quản hệ nhiều – nhiều.
Trong truy vấn DimProduct, mỗi dòng thể hiện một sản phẩm mà công ty đang bán. Kéo thanh lăn đến hết chiều ngang, quan sát cột DimProductSubcategory.
Cột này sẽ được sử dụng để thực hiện Join với các bảng khác, nội dung này sẽ được đề cập trong lab Load Data in Power BI Desktop.
Trong truy vấn DimReseller, mỗi dòng thể hiện thông tin một reseller. Các reseller sẽ được phân loại là đại lý bán, đại lý phân phối hoặc đại lý gia tăng giá trị sản phẩm. Chúng ta lại vào thẻ View, chọn Column Profile.
Nhấn vào header cột BusinessType và quan sát khung giao diện dưới cùng vừa hiện ra.
Quan sát các thông số cột trong khung Column Statistics và giá trị phân bổ trong khung Value Distribution. Chúng ta nhận thấy tuy đại lý được phân thành 3 nhóm nhưng trong cột BusinessType này lại có tới 4 nhóm. Nhóm đại lý warehouse đã bị nhập thành 2 nhóm riêng là Warehouse và Ware House. Khi di chuột tới nhóm này, nhận thấy có 5 dòng đang bị nhập nhầm.
Trong truy vấn DimSalesTerritory, mỗi dòng thể hiện một vùng kinh doanh (region), bao gồm cả Corporate HQ (tổng công ty). Mỗi region thuộc về một country, mỗi country thuộc về một group. Trong bài lab về Xây dựng mô hình dữ liệu, các bạn sẽ sử dụng thông tin này để tạo hierarchy.
Trong truy vấn FactResellerSales, mỗi dòng chứa thông tin của 1 sales order line. 1 order có thể có 1 hoặc nhiều sales order line.
Quan sát chất lượng của cột TotalProductCost, chúng ta nhận thấy có 8% số dòng bị trống. Việc cột này có các dòng bị trống là một vấn đề thuộc về phạm vi chất lượng dữ liệu. Để giải quyết vấn đề này, trong bài lab về Load Data in Power BI desktop, chúng ta sẽ dùng các bước chuyển đổi để điền đủ thông tin cho 8% dữ liệu bị trống này.
Task 4: Lấy dữ liệu từ file csv
Mình mỏi tay quá rồi nên các bạn quan tâm bấm dưới đây đọc nốt với nha 🫠😉
[...ĐỌC TIẾP - POWER BI LAB 1]
Chuỗi bài hướng dẫn thực hành Power BI PL300 Lab: https://datapot.vn/category/power-bi/power-bi-pl300-lab-video/