- vừa được xem lúc

Data Analytics cho người mới bắt đầu như mình (Part 1)

0 0 36

Người đăng: Trung Đức

Theo Viblo Asia

Lời mở đầu

Thời gian này, do một vài lý do nên mình đang học về Data Science, vì vậy những bài viết trong thời gian này sẽ xoay quanh chủ để này. Trong các khóa học online, thì mình đang học dở về khóa "Learn data analytics for beginners" của SkillUp. Khóa này theo mình đánh giá tương đối hay, cho cái nhìn overview về Data analytics. Trong bài viết này, mình sẽ note lại để trao đổi cùng các bạn một vài nội dung đầu tiên của khóa học này (các bạn có thể thấy Part 1 trong tiểu đề bài viết của mình)

Data analytics là phân tích dữ liệu chứ gì nữa?

  • DA là quá trình kiểm tra và phân tích dữ liệu thô để phác thảo lên các biểu đồ, tìm kiếm nhiều thông tin từ dữ liệu và từ đó nâng cao chất lượng kinh doanh, sản phẩm, dịch vụ. Nó không chỉ sử dụng trong business mà còn trong khoa học và nghiên cứu để kiểm tra các mô hình và lý thuyết khoa học.
  • Nói một cách dễ hiểu nhất thì nó giúp bạn phân tích dữ liệu mà bạn có: trích xuất các thông tin hữu ích bằng khoa học.
  • Data analytics (DA) đóng một vai trò quan trọng trong việc đưa ra quyết định khoa học hơn, giúp các doanh nghiệp vận hành hiệu quả hơn với đa cách, đa chiều và đa dạng kỹ thuật
  • Các bạn đồng trang lứa với mình hồi còn là học sinh, chắc hẳn cứ nghe đến kế toán là nhìn thấy hình ảnh của những con người ghi chép lại các số liệu vào giấy tờ qua các bộ phim, trông rất chi là cồng kềnh và tẻ nhạt, mà có khi ông nào buồn ngủ điền thêm vài con số 0 là đi toi, xong có khi cũng không lần ra được. Nhờ sự phát triển công nghệ thì những công cụ tính toán như Excel dần chiếm ưu thế nhất là trong ngành kế toán, tuy nhiên phương pháp này được đánh giá là dễ dàng nhưng không giải quyết được đầy đủ vấn đề. Quản lý dòng tiền là hết sức quan trọng trong các doanh nghiệp, ngân hàng hay Startup, trong khi đó cách truyền thống rất khó để theo dõi, dẫn tới việc khó điều khiển
  • Theo như lời khuyên của thầy dạy khóa học này, để có thể nâng cao kỹ năng DA và dễ dàng đưa ra quyết định của mình, cần follow theo flow của quá trình DA trong quá trình phân tích dữ liệu của mình như sau
    • Định nghĩa mục tiêu của mình (goal)
    • Xác định các metrics phù hợp để đo lường
    • Thu thập và trích xuất dữ liệu từ nhiều nguồn
    • Khám phá và phân tích dữ liệu
    • Giải thích và trực quan hóa (visualize) dữ liệu
    • Suy luận từ dữ liệu để đưa ra quyết định

Vòng đời của Data analytics

  • Discovery: Tức là khai phá thông tin để về chủ thể business và đánh giá sự khả thi của tài nguyên hiện có liệu có đáp ứng được mục tiêu hay không
  • Data preparation: Thực hiện quá trình ELT (Extract, Load và Transform) đối với dữ liệu
  • Model planning: Xác định kỹ thuật và dữ liệu để có kế hoạch xây dựng mô hình với mục tiêu hiểu mối tương quan giữa các biến trong tập dữ liệu
  • Model building: Xây dựng và phát triển việc phân tích dữ liệu cho việc kiểm thử, huấn luyện và sản xuất
  • Communicate Results: Xác định những phát hiện quan trọng, những giá trị có ích cho business,
  • Operationalize: Bàn giao Final reports, code và các tài liệu kỹ thuật

Data analytics cũng chia làm một số types

Có 4 kiểu (kỹ thuật) Data Analytics, và chúng kết hợp lại có thể đưa ra câu trả lời cho mọi thứ doanh nghiệp cần

Descriptive Analytics: What happened?

  • Kỹ thuật này đưa ra nhiều thông tin từ quá khứ: ai, khi nào, ở đâu, …
  • Tập trung vào mô tả cái nhìn tổng quan của những sự thật (facts)
  • Mục đích là tóm tắt những thông tin tìm được và hiểu nó đang làm gì (trong quá khứ)
  • Có 2 kỹ thuật con: Data aggregation và Data mining
    • Data aggregation: Kỹ thuật tổng hợp thông tin, một số tools như MS EXcel, Matlab, …
    • Data mining: Quá trình phân loại, sắp xếp các tập hợp dữ liệu lớn để xác định các mẫu (pattern) và thiết lập các mối liên hệ nhằm giải quyết các vấn đề nhờ phân tích dữ liệu

Diagnostic Analytics: Why did this happen?

  • Kỹ thuật này tập trung vào dữ liệu trong quá khứ để trả lời cho câu hỏi tại sao điều đó lại xảy ra trong quá khứ
  • Một cái nhìn sâu vào gốc rễ của vấn đề để hiểu nguyên nhân của sự kiện nhưng có giới hạn về khả năng
  • Chỉ cung cấp sự hiểu biết về các mối quan hệ bình thường (tức là không sâu lắm ấy) và sự liên kết khi nhìn lại
  • Một số kỹ thuật có thể kế đến như drill down, data discovery, data mining and correlations

Predictive Analytics: What will happen?

  • Kỹ thuật này dự đoán xác suất về khả năng một sự việc xảy ra
  • Được xây dựng dựa trên giai đoạn mô tả phân tích sơ bộ để rút ra xác suất của các kết quả.
  • Ví dụ như khi bạn post một thứ gì đó lên Facebook hay Instagram, kỹ thuật này sẽ phân tích xem sự quan tâm hay tình cảm của bạn về 1 chủ đề là positive, negative hay neutral (bài toán dự đoán hành vi khách hàng)
  • Một số mô hình Machine Learning tiêu biểu trong kỹ thuật này như Random forest, SVM, …

Prescriptive Analytics: How can we make it happen?

  • Cung cấp giải pháp cho những dự đoán trong tương lai
  • Nó tạo ra và cập nhật các mối quan hệ giữa các hành động và kết quả bằng cách sử dụng các hệ thống phản hồi mạnh mẽ (feedback system)
  • Không chỉ hỗ trợ trong việc tối ưu hóa gợi ý trong quá trình đưa ra quyết định, nó còn giúp giảm thiểu rủi ro khi nhìn thấy sự phụ thuộc giữa các dự đoán phân tích có sẵn

Có thể các bạn sẽ lầm tưởng cần tuần tự theo các kỹ thuật trên, tuy nhiên không yêu cầu phải sử dụng tuần tự cả 4 kỹ thuật, thậm chí đa số các công ty nhảy thẳng tới Prescriptive Analytics. Nó là giai đoạn triển khai mới chớm nở và chưa nhiều hãng sử dụng hết sức mạnh của nó. Tuy nhiên với những tiến bộ trong phân tích dự đoán chắc chắn sẽ mở đường cho sự phát triển của nó.

Phân tích một bài toán nhỏ của ông lớn Amazon để hiểu hơn mấy cái lỹ thuyết tẻ nhạt trên nào

4 Kỹ thuật trên nghe lý thuyết quá, cùng mình phân tích một ví dụ sau để hiểu hơn nhé.

  • Sử dụng Diagnostic analytics, Amazon biết rằng trong năm ngoái, doanh thu ở West Coast tăng; khả năng lý do là tăng chi tiêu trong việc đào tạo bán hàng cho các giám đốc sales
  • Sử dụng Predictive Analytics, Amazon phân tích lịch sử mua hàng để xem xét các yếu tố khác nhau như giá cả, thời gian, thời tiết, thời điểm lễ hội, …; dựa vào đó có thể dự đoán răng năm sau doanh thu của West Coast sẽ tăng từ 10-12%, tuy nhiên làm thế nào để đạt được điều đó? (--> Descriptive analysis)
  • Sử dụng Description Analysis, Amazon phát hiện ra tốn khoảng 20 triệu $ cho việc đầu tư các khóa đào tạo sales khác nhau
  • Có thể đi thẳng tới Prescriptive analytics để tìm ra các khóa training nào thu lại lợi tức đầu tư tốt (Return on investment - ROI) và triển khai kế hoạch tối ưu hóa: những chương trình đào tạo nào sẽ bị loại bỏ, chương trình đào tạo nào được tiếp tục để tối đa hóa lợi nhuận

Một vài nội dung nhỏ khác

  • Một số lợi ích to lớn của Data Analytics:

    • Giúp định nghĩa ra khách hàng mục tiêu dựa vào một số thông tin như nơi khách hàng mua hàng, brands hay sản phầm mà người dùng tìm kiếm nhiều nhất
    • Sử dụng dữ liệu cho thương mại điện tử, bạn có thể quản lý đầu tư và dự đoán nhu cầu bằng cách xác định thời gian nào trong năm có lượng khách hàng mua sắm nhiều. Bạn có thể dựa vào cảm xúc hay phản hồi khách hàng về giá cả để tối ưu hóa mức giá cho sản phẩm
  • Một số công cụ Data Analytics tools: Power BI, Tableau, Logi, ... Trong đó mục tiêu sắp tới của mình sẽ là học về Power BI, các bạn cùng đón đọc nhé ^^

Lời kết

Mấy bài viết dạo này của mình nó toàn chữ là chữ thôi, nếu các bạn đọc được đến đây thì mong các bạn biết là mình hạnh phúc lắm. Nội dung bài viết là những ý mình chắt lọc được từ khóa học cũng như giải thích lại cho dễ hiều hơn (English sub nên nhiều cái cũng hơi khó hiểu chút), vì vậy mình cũng mong nhận được những nhận xét hay góp ý từ mọi người.

Bình luận

Bài viết tương tự

- vừa được xem lúc

Nhập môn lý thuyết cơ sở dữ liệu - Phần 1 : Tổng quan

# Trong bài viết này mình sẽ tập trung vào chủ đề tổng quan về Cơ sở dữ liệu. Phần 1 lý thuyết nên hơi chán các bạn cố gắng đọc nhé, chắc lý thuyết mới làm bài tập được, kiến thức còn nhiều các bạn cứ

0 0 110

- vừa được xem lúc

Nhập môn lý thuyết cơ sở dữ liệu - Phần 2: Mô hình thực thể liên kết

**Chào các bạn, hôm nay mình tiếp tục viết tiếp phần 2 cho series Nhập môn lý thuyết cơ sở dữ liệu. Chắc hẳn qua bài trước các bạn tìm được lý do vì sao mình phải học môn này rồi chứ.

0 0 68

- vừa được xem lúc

[Python Library Series] Pandas Tutorial for Beginners Part 2

Ở Part 1 chúng ta đã đi qua các bước hướng dẫn cách cài đặt Pandas, cách tạo và xem thông tin của một Dataframe. Như đã đề cập ở phần trước thì nội dung trong Part 2 này giúp chúng ta làm quen các tha

0 0 41

- vừa được xem lúc

Data Resource - A core component in Data Science

Dữ liệu ở đâu! Nên lấy dữ liệu từ nguồn nào để giải quyết vấn đề đặt ra? . Đó là câu hỏi của nhiều bạn khi bắt tay vào một dự án khoa học dữ liệu.

0 0 36

- vừa được xem lúc

Data Mining - Khai phá dữ liệu - [Data Science Series]

I. Data Mining là gì. Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán. 1.

0 0 40

- vừa được xem lúc

Data Science, công việc hấp dẫn nhất thế kỷ 21 - [Data Science Series]

I. Data Science, công việc hấp dẫn nhất thế kỷ 21.

0 0 37