- vừa được xem lúc

Data Repository - [Data Analyst Series]

0 0 28

Người đăng: Hoàng Đinh

Theo Viblo Asia

Data Repository là một thuật ngữ chung được sử dụng để chỉ nơi lưu trữ dữ liệu đã được thu thập, tổ chức và cô lập để nó có thể được sử dụng cho các hoạt động kinh doanh hoặc khai thác để báo cáo và phân tích dữ liệu. Nó có thể là một cơ sở hạ tầng cơ sở dữ liệu nhỏ hoặc lớn với một hoặc nhiều cơ sở dữ liệu để quản lý và lưu trữ các bộ dữ liệu. Trong bài viết này, mình sẽ cung cấp một cái nhìn tổng quan về các loại Data Repository khác nhau

I. Databases - Cơ sở dữ liệu

Cơ sở dữ liệu là một tập hợp dữ liệu hoặc thông tin, được thiết kế để lưu trữ, tìm kiếm và truy xuất và sửa đổi dữ liệu một hệ thống quản lý cơ sở dữ liệu, hoặc DBMS, là một tập hợp các chương trình tạo và duy trì cơ sở dữ liệu. Nó cho phép bạn lưu trữ, sửa đổi và trích xuất thông tin từ cơ sở dữ liệu bằng cách sử dụng một chức năng gọi là truy vấn. Ví dụ: nếu bạn muốn tìm khách hàng đã không hoạt động từ sáu tháng trở lên, khi đó bạn sẽ sử dụng chức năng truy vấn, hệ thống quản lý cơ sở dữ liệu sẽ lấy dữ liệu của tất cả khách hàng từ database đã không hoạt động trong sáu tháng trở lên. Mặc dù Database và DBMS khác nhau, tuy nhiên các thuật ngữ thường được sử dụng thay thế cho nhau. Có nhiều loại cơ sở dữ liệu khác nhau. Một số yếu tố ảnh hưởng đến việc lựa chọn cơ sở dữ liệu, chẳng hạn như kiểu dữ liệu và cấu trúc, cơ chế truy vấn, yêu cầu độ trễ, tốc độ giao dịch và độ lớn dữ liệu, ở đây mình sẽ giới thiệu hai loại cơ sở dữ liệu chính là cơ sở dữ liệu liên quan và không quan hệ.

1. RDBMS - cơ sở dữ liệu quan hệ

Cơ sở dữ liệu quan hệ, còn được gọi là RDBMS, xây dựng dựa trên các nguyên tắc tổ chức của các tệp phẳng, với dữ liệu được tổ chức thành một định dạng bảng với các hàng và cột theo cấu trúc và lược đồ được xác định rõ. Tuy nhiên, không giống như các tệp phẳng, RDBMS được tối ưu hóa cho các hoạt động dữ liệu và truy vấn liên quan đến nhiều bảng và khối lượng dữ liệu lớn hơn nhiều. Ngôn ngữ truy vấn có cấu trúc, hoặc SQL, là ngôn ngữ truy vấn tiêu chuẩn cho cơ sở dữ liệu quan hệ.

2. NoSQL - cơ sở dữ liệu phi quan hệ

Cơ sở dữ liệu phi quan hệ, còn được gọi là NoSQL. Các cơ sở dữ liệu phi quan hệ đã xuất hiện để đáp ứng với khối lượng, tính đa dạng và tốc độ mà dữ liệu được tạo ra ngày nay, chủ yếu bị ảnh hưởng bởi những tiến bộ trong điện toán đám mây, Internet of things và sự phát triển social media. Được xây dựng để tối ưu tốc độ, tính linh hoạt và quy mô lớn, cơ sở dữ liệu phi quan hệ cho phép lưu trữ dữ liệu theo kiểu không có lược đồ hoặc không có ràng buộc. NoSQL được sử dụng rộng rãi để xử lý dữ liệu lớn.

2. Data Warehouse

Kho dữ liệu hoạt động như một kho lưu trữ trung tâm hợp nhất thông tin đến từ các nguồn khác nhau và hợp nhất thông qua quy trình trích xuất, chuyển đổi và tải, còn được gọi là quy trình ETL (Extract - Transform - Load), thành một cơ sở dữ liệu toàn diện cho phân tích và trí thông minh kinh doanh. Ở cấp độ cao, quy trình ETL giúp bạn trích xuất dữ liệu từ các nguồn dữ liệu khác nhau, chuyển đổi dữ liệu thành trạng thái sạch và có thể sử dụng và tải dữ liệu vào Data Warehouse của doanh nghiệp. Liên quan đến Data Warehouse là các khái niệm về Data Mart và Data Lake, mình sẽ đề cập sau.

Tham khảo từ khoá học Data Analyst của IBM

Bình luận

Bài viết tương tự

- vừa được xem lúc

Data bias trong phân tích dữ liệu

Hi các bạn, để tiếp tục chuỗi bài chia sẻ về nghiệp vụ của BA, hôm nay mình sẽ chia sẻ một chút về Data analysis (phân tích dữ liệu) - một kỹ thuật khá là rộng và cũng rất quan trọng với BA trong thời

1 0 113

- vừa được xem lúc

Data Mining - Khai phá dữ liệu - [Data Science Series]

I. Data Mining là gì. Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán. 1.

0 0 40

- vừa được xem lúc

Data Science, công việc hấp dẫn nhất thế kỷ 21 - [Data Science Series]

I. Data Science, công việc hấp dẫn nhất thế kỷ 21.

0 0 37

- vừa được xem lúc

Thao tác cơ bản với khung dữ liệu trong R (phần 1)

Giới thiệu. R là một ngôn ngữ lập trình bậc cao, nó được tạo ra với mục đích dành cho các công việc liên quan đến phân tích dữ liệu, thống kê và học máy.

0 0 32

- vừa được xem lúc

Thao tác cơ bản với khung dữ liệu trong R (phần 2)

Giới thiệu. R là một ngôn ngữ lập trình bậc cao, nó được tạo ra với mục đích dành cho các công việc phân tích dữ liệu, thống kê và học máy.

0 0 23

- vừa được xem lúc

Ngôn ngữ lập trình sử dụng trong Data Science - [Data Science Series]

Có một số lượng lớn các lựa chọn khi nói đến ngôn ngữ lập trình nói riêng và ngôn ngữ lập trình trong Data Science . Mỗi người đều có điểm mạnh và điểm yếu của riêng và sẽ không có ai trả lời đúng cho

0 0 28