Tag Data engineer
Tìm kiếm bài viết trong Tag Data engineer
So sánh điểm khác nhau giữa ETL và ELT
Trong một thế giới bùng nổ của dữ liệu, các tổ chức đang đối mặt với một lượng thông tin khổng lồ và nhu cầu quản lý những thông tin giá trị từ dữ liệu này càng ngày càng tăng. Do đó các Data Engineer
0 0 0
SQL Và Một Số Câu Hỏi Thường Gặp
1. INNER JOIN, LEFT JOIN, RIGHT JOIN, and FULL OUTER JOIN in SQL. . .
0 0 6
Triển vọng và mức lương của Data Engineer
Trong thời đại mà dữ liệu thúc đẩy sự đổi mới và đưa ra quyết định mang tính bước ngoặt trong doanh nghiệp, vai trò của Data Engineer chưa bao giờ quan trọng như thời điểm hiện tại. Trong thời đại chu
0 0 7
Những điều cần biết về Analytics Engineer
Chúng ta đều biết rằng ngành khoa học dữ liệu liên tục phát triển kéo theo các chức danh và vai trò công việc liên tục được tăng thêm. Trong những ngày đầu, hầu hết các vai trò trong ngành đều đi kèm
0 0 7
Sử Dụng AWS Glue Data Catalog và Athena Để Đơn Giản Hóa Quản Lý và Truy Vấn Dữ Liệu
Giới Thiệu Về AWS Glue Data Catalog và AWS Athena. Trong lĩnh vực phân tích dữ liệu hiện đại, khả năng tổ chức và truy vấn dữ liệu một cách hiệu quả là yếu tố then chốt.
0 0 7
[Data Science] Dựng Apache Airflow phiên bản cực nhẹ ở local với Docker Compose
Đã có bao giờ bạn tự hỏi rằng khi dựng Airflow ở local hay home server cho mục đích học tập và testing DAG, vậy thì làm gì mà lại ngốn nhiều RAM và CPU dữ vậy trời? Mới đây thôi, mình vừa thử mang lên
0 0 7
Vai Trò và Tầm Quan Trọng của "Indexes" Trong Tối Ưu Hóa Truy vấn Cơ Sở Dữ Liệu
1 Khái quát về Index. Các Index rất quan trọng trong các hệ thống cơ sở dữ liệu vì chúng nâng cao đáng kể hiệu quả xử lý truy vấn.
0 0 9
Hash-Distributed Table, Round-Robin Table, Replicated Table - Azure Synapse Service
1. Has-Distributed Tables. 1.1 Định nghĩa.
0 0 8
Sơ Lược Về Azure Synapse Service
Giới thiệu. Azure Synapse Service, trước đây được gọi là kho dữ liệu Azure SQL (Azure SQL Data Warehouse), là một dịch vụ phân tích tích hợp, toàn diện do Microsoft Azure cung cấp.
0 0 8
Setting Up and Using Spark Operator with Kubernetes
Spark Operator is a Kubernetes Operator designed for Spark. It aims to define and execute Spark applications as easily as other workloads on Kubernetes by using and managing Kubernetes custom resource
0 0 6
APACHE BEAM - Tóm tắt về Apache Beam
APACHE BEAM LÀ GÌ. . Là open-source. Là một mô hình lập trình thống nhất để xác định và thực thi các luồng xử lý dữ liệu (data processing pipelines).
0 0 8
Hadoop Architecture, Data Lake, and Apache Spark
Hadoop là gì và nó hoạt động như thế nào. . YARN - Cluster Resource Manager. .
0 0 7
Hướng dẫn cài đặt sử dụng databricks
Databricks là một nền tảng mạnh mẽ và linh hoạt cho phân tích dữ liệu và máy học, và nó đã trở thành một công cụ quan trọng trong lĩnh vực khoa học dữ liệu. Databricks cung cấp phiên bản cộng đồng miễ
0 0 19
[DBT] Kết Nối DBT Với Big Query
Lời mở đầu. Ở bài trước - Giới thiệu DBT - mình đã đề cập đến việc dùng dbt kết nối và làm việc với các data platform khác.
0 0 25
Cái nhìn tổng thể về các công nghệ và công cụ hàng đầu trong Data Engineering
Trong thế giới số hóa hiện đại ngày nay, không có gì quan trọng hơn việc hiểu và khai thác dữ liệu. Data Engineering, một lĩnh vực nổi bật trong ngành khoa học dữ liệu, đã trở thành trung tâm của nhiề
0 0 20
Bài viết về Airflow cho người mới như mình
Mở đầu. Lướt dạo một vòng thì bài viết Airflow trên Viblo cũng có một số bài tương đối chi tiết như Tất tần tật về Airflow (P1) của anh Hoàng hay Một số điểm cần lưu ý khi sử dụng Airflow - Phần 1 của
0 0 22
Cứ thực hành Airflow dễ hiểu và đơn giản đã, chưa làm gì phức tạp cả
Mở đầu. Tiếp nối bài viết chỉ toàn lý thuyết Bài viết về Airflow cho người mới như mình thì chúng ta đi ngay tới bài thực hành này thôi.
0 0 27
ETL vs ELT không đơn giản chỉ là LT và TL?
Giới thiệu. Một trong những việc mà những người làm việc với Data cần làm, đặc biệt là Data Engineering, cần quan tâm đó là việc trích xuất dữ liệu từ nhiều nguồn, đổ về một chỗ (Data Warehouse, Data
0 0 16
Thảo luận về performance của Pandas: Pandas 2.0 liệu có đột phá?
Đây là bài viết tản mạn. Bình thường, ngay khi công cụ này có vấn đề, chúng ta liền tìm sang một công cụ khác.
0 0 14
Cùng thiết lập Multi Node Cluster trong Hadoop 2.x nào!
Trong bài viết trước của mình, mình đã giới thiệu về Hadoop và các thành phần của Hadoop. Hadoop là một hệ sinh thái mã nguồn mở được sử dụng để lưu trữ và xử lý dữ liệu lớn.
0 0 24