- vừa được xem lúc

Data Sources - [Data Analyst Series]

0 0 31

Người đăng: Hoàng Đinh

Theo Viblo Asia

I. Data Sources

Data sources có thể là là data nội bộ hoặc data từ bên ngoài của tổ chức, chúng có thể là nguồn dữ liệu chính, phụ hoặc đến từ tổ chức thứ 3.

1. Primary data (dữ liệu chính)

Dữ liệu chính đề cập đến dữ liệu thu được trực tiếp từ nguồn của bạn. Nó có thể là từ source nội bộ như dữ liệu từ các ứng dụng tổ chức, CRM, nhân sự hoặc quy trình làm việc. Nó cũng có thể bao gồm dữ liệu bạn thu thập trực tiếp thông qua các cuộc khảo sát, phỏng vấn, thảo luận, quan sát.

2. Secondary data (dữ liệu phụ)

Dữ liệu phụ đề cập đến thông tin được lấy từ các nguồn hiện có, chẳng hạn như cơ sở dữ liệu bên ngoài, bài báo nghiên cứu, ấn phẩm, tài liệu training và internet, hồ sơ tài chính có sẵn dưới dạng dữ liệu công cộng. Nó có thể bao gồm dữ liệu được thu thập thông qua các cuộc khảo sát, phỏng vấn, thảo luận, quan sát được thực hiện bên ngoài.

3. Third-party data (dữ liệu bên thứ 3)

Dữ liệu của bên thứ ba là dữ liệu bạn đã mua từ các nhà tổng hợp thu thập dữ liệu từ nhiều nguồn khác nhau và kết hợp nó thành các bộ dữ liệu đầy đủ hoàn toàn cho mục đích bán dữ liệu.

II. Nguồn thu thập dữ liệu

Sau đây mình sẽ giới thiệu một số nguồn để thu thập dữ liệu

  • Database có thể là nguồn dữ liệu của primary data, second data và third-party data. Hầu hết các tổ chức có các ứng dụng nội bộ để quản lý quy trình, quy trình làm việc và khách hàng của họ.
  • Web là một nguồn dữ liệu phong phú có sẵn trong phạm vi công cộng.
  • Các trang social media như Facebook, Twitter, Google, YouTube. Instagram đang ngày càng được sử dụng nhiều hơn trong mục đích tìm nguồn dữ liệu và ý kiến của người dùng. Các doanh nghiệp đang sử dụng các nguồn dữ liệu này để có những insight cho tổ chức của mình.
  • Dữ liệu cảm biến được sản xuất bởi các thiết bị đeo được, tòa nhà thông minh, thành phố thông minh, điện thoại thông minh, thiết bị y tế, thậm chí các thiết bị gia dụng là một nguồn dữ liệu được sử dụng rộng rãi.
  • Trao đổi dữ liệu là nguồn dữ liệu của bên thứ 3 liên quan đến việc chia sẻ dữ liệu giữa các nhà cung cấp dữ liệu và người tiêu dùng dữ liệu, cá nhân, tổ chức và chính phủ có thể là nhà cung cấp dữ liệu và người tiêu dùng dữ liệu. Dữ liệu được trao đổi có thể bao gồm dữ liệu đến từ các ứng dụng kinh doanh, thiết bị cảm biến, hoạt động truyền thông xã hội, dữ liệu vị trí hoặc dữ liệu hành vi của người tiêu dùng.
  • Các cuộc khảo sát thu thập thông tin thông qua các câu hỏi được phân phối cho một nhóm người được chọn. Ví dụ: đánh giá sự quan tâm của các khách hàng hiện tại trong việc chi tiêu cho một phiên bản cập nhật của sản phẩm. Khảo sát có thể thông qua web hoặc dựa trên giấy.
  • Dữ liệu điều tra dân số cũng là một nguồn thường được sử dụng để thu thập dữ liệu hộ gia đình, chẳng hạn như sự giàu có và thu nhập hoặc dữ liệu dân số, ví dụ.
  • Các cuộc phỏng vấn là nguồn để thu thập dữ liệu. Ví dụ, một cuộc phỏng vấn được thực hiện để hiểu những thách thức hàng ngày mà một giám đốc dịch vụ khách hàng phải đối mặt. Các cuộc phỏng vấn có thể được thông qua web hoặc quan sát trực tiếp.
  • Các nghiên cứu bao gồm giám sát người tham gia trong một môi trường cụ thể hoặc trong khi thực hiện một nhiệm vụ, công việc cụ thể. Ví dụ, quan sát người dùng điều hướng một trang web thương mại điện tử để đánh giá. Họ có thể dễ dàng tìm thấy sản phẩm và thực hiện dữ liệu mua hàng từ các cuộc khảo sát, phỏng vấn, quan sát. Các nghiên cứu có thể có sẵn dưới dạng dữ liệu chính, phụ và bên thứ 3.
  • Thảo luận nhóm là kỹ thuật thu thập dữ liệu phổ biến nhất trong nghiên cứu định tính. Các dữ liệu được thu thập thông qua một cuộc thảo luận giữa một nhóm đối tượng nghiên cứu dưới sự dẫn dắt của người điều khiển chương trình (moderator). Yêu cầu cần có của một moderator như sau: Có khả năng quan sát và kỹ năng tiếp xúc Hướng mục tiêu vào dàn bài thảo luận Có khả năng dẫn dắt và là người biết lắng nghe. Xóa bỏ các thành kiến, đồng cảm và khuyến khích các thành viên khác đưa ra ý kiến.

Nguồn dữ liệu chưa bao giờ năng động và đa dạng như ngày nay. Việc bổ sung dữ liệu chính của bạn với các nguồn dữ liệu phụ và bên thứ 3 có thể giúp bạn khám phá các vấn đề và giải pháp theo những cách mới và có ý nghĩa.

Tham khảo từ khoá học Data Analyst của IBM

Bình luận

Bài viết tương tự

- vừa được xem lúc

Data bias trong phân tích dữ liệu

Hi các bạn, để tiếp tục chuỗi bài chia sẻ về nghiệp vụ của BA, hôm nay mình sẽ chia sẻ một chút về Data analysis (phân tích dữ liệu) - một kỹ thuật khá là rộng và cũng rất quan trọng với BA trong thời

1 0 113

- vừa được xem lúc

Data Mining - Khai phá dữ liệu - [Data Science Series]

I. Data Mining là gì. Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán. 1.

0 0 41

- vừa được xem lúc

Data Science, công việc hấp dẫn nhất thế kỷ 21 - [Data Science Series]

I. Data Science, công việc hấp dẫn nhất thế kỷ 21.

0 0 38

- vừa được xem lúc

Thao tác cơ bản với khung dữ liệu trong R (phần 1)

Giới thiệu. R là một ngôn ngữ lập trình bậc cao, nó được tạo ra với mục đích dành cho các công việc liên quan đến phân tích dữ liệu, thống kê và học máy.

0 0 32

- vừa được xem lúc

Thao tác cơ bản với khung dữ liệu trong R (phần 2)

Giới thiệu. R là một ngôn ngữ lập trình bậc cao, nó được tạo ra với mục đích dành cho các công việc phân tích dữ liệu, thống kê và học máy.

0 0 23

- vừa được xem lúc

Ngôn ngữ lập trình sử dụng trong Data Science - [Data Science Series]

Có một số lượng lớn các lựa chọn khi nói đến ngôn ngữ lập trình nói riêng và ngôn ngữ lập trình trong Data Science . Mỗi người đều có điểm mạnh và điểm yếu của riêng và sẽ không có ai trả lời đúng cho

0 0 28