Tag Data engineer

Tìm kiếm bài viết trong Tag Data engineer

So sánh điểm khác nhau giữa ETL và ELT

Trong một thế giới bùng nổ của dữ liệu, các tổ chức đang đối mặt với một lượng thông tin khổng lồ và nhu cầu quản lý những thông tin giá trị từ dữ liệu này càng ngày càng tăng. Do đó các Data Engineer

0 0 0

- vừa được xem lúc

SQL Và Một Số Câu Hỏi Thường Gặp

1. INNER JOIN, LEFT JOIN, RIGHT JOIN, and FULL OUTER JOIN in SQL. . .

0 0 6

- vừa được xem lúc

Triển vọng và mức lương của Data Engineer

Trong thời đại mà dữ liệu thúc đẩy sự đổi mới và đưa ra quyết định mang tính bước ngoặt trong doanh nghiệp, vai trò của Data Engineer chưa bao giờ quan trọng như thời điểm hiện tại. Trong thời đại chu

0 0 7

- vừa được xem lúc

Những điều cần biết về Analytics Engineer

Chúng ta đều biết rằng ngành khoa học dữ liệu liên tục phát triển kéo theo các chức danh và vai trò công việc liên tục được tăng thêm. Trong những ngày đầu, hầu hết các vai trò trong ngành đều đi kèm

0 0 7

- vừa được xem lúc

Sử Dụng AWS Glue Data Catalog và Athena Để Đơn Giản Hóa Quản Lý và Truy Vấn Dữ Liệu

Giới Thiệu Về AWS Glue Data Catalog và AWS Athena. Trong lĩnh vực phân tích dữ liệu hiện đại, khả năng tổ chức và truy vấn dữ liệu một cách hiệu quả là yếu tố then chốt.

0 0 7

- vừa được xem lúc

[Data Science] Dựng Apache Airflow phiên bản cực nhẹ ở local với Docker Compose

Đã có bao giờ bạn tự hỏi rằng khi dựng Airflow ở local hay home server cho mục đích học tập và testing DAG, vậy thì làm gì mà lại ngốn nhiều RAM và CPU dữ vậy trời? Mới đây thôi, mình vừa thử mang lên

0 0 7

- vừa được xem lúc

Vai Trò và Tầm Quan Trọng của "Indexes" Trong Tối Ưu Hóa Truy vấn Cơ Sở Dữ Liệu

1 Khái quát về Index. Các Index rất quan trọng trong các hệ thống cơ sở dữ liệu vì chúng nâng cao đáng kể hiệu quả xử lý truy vấn.

0 0 9

- vừa được xem lúc

Hash-Distributed Table, Round-Robin Table, Replicated Table - Azure Synapse Service

1. Has-Distributed Tables. 1.1 Định nghĩa.

0 0 8

- vừa được xem lúc

Khái Quát về Severless SQL Pools

Giới Thiệu. .

0 0 8

- vừa được xem lúc

Sơ Lược Về Azure Synapse Service

Giới thiệu. Azure Synapse Service, trước đây được gọi là kho dữ liệu Azure SQL (Azure SQL Data Warehouse), là một dịch vụ phân tích tích hợp, toàn diện do Microsoft Azure cung cấp.

0 0 8

- vừa được xem lúc

Setting Up and Using Spark Operator with Kubernetes

Spark Operator is a Kubernetes Operator designed for Spark. It aims to define and execute Spark applications as easily as other workloads on Kubernetes by using and managing Kubernetes custom resource

0 0 6

- vừa được xem lúc

APACHE BEAM - Tóm tắt về Apache Beam

APACHE BEAM LÀ GÌ. . Là open-source. Là một mô hình lập trình thống nhất để xác định và thực thi các luồng xử lý dữ liệu (data processing pipelines).

0 0 8

- vừa được xem lúc

Hadoop Architecture, Data Lake, and Apache Spark

Hadoop là gì và nó hoạt động như thế nào. . YARN - Cluster Resource Manager. .

0 0 7

- vừa được xem lúc

Hướng dẫn cài đặt sử dụng databricks

Databricks là một nền tảng mạnh mẽ và linh hoạt cho phân tích dữ liệu và máy học, và nó đã trở thành một công cụ quan trọng trong lĩnh vực khoa học dữ liệu. Databricks cung cấp phiên bản cộng đồng miễ

0 0 19

- vừa được xem lúc

[DBT] Kết Nối DBT Với Big Query

Lời mở đầu. Ở bài trước - Giới thiệu DBT - mình đã đề cập đến việc dùng dbt kết nối và làm việc với các data platform khác.

0 0 25

- vừa được xem lúc

Cái nhìn tổng thể về các công nghệ và công cụ hàng đầu trong Data Engineering

Trong thế giới số hóa hiện đại ngày nay, không có gì quan trọng hơn việc hiểu và khai thác dữ liệu. Data Engineering, một lĩnh vực nổi bật trong ngành khoa học dữ liệu, đã trở thành trung tâm của nhiề

0 0 20

- vừa được xem lúc

Bài viết về Airflow cho người mới như mình

Mở đầu. Lướt dạo một vòng thì bài viết Airflow trên Viblo cũng có một số bài tương đối chi tiết như Tất tần tật về Airflow (P1) của anh Hoàng hay Một số điểm cần lưu ý khi sử dụng Airflow - Phần 1 của

0 0 22

- vừa được xem lúc

Cứ thực hành Airflow dễ hiểu và đơn giản đã, chưa làm gì phức tạp cả

Mở đầu. Tiếp nối bài viết chỉ toàn lý thuyết Bài viết về Airflow cho người mới như mình thì chúng ta đi ngay tới bài thực hành này thôi.

0 0 27

- vừa được xem lúc

ETL vs ELT không đơn giản chỉ là LT và TL?

Giới thiệu. Một trong những việc mà những người làm việc với Data cần làm, đặc biệt là Data Engineering, cần quan tâm đó là việc trích xuất dữ liệu từ nhiều nguồn, đổ về một chỗ (Data Warehouse, Data

0 0 16

- vừa được xem lúc

Thảo luận về performance của Pandas: Pandas 2.0 liệu có đột phá?

Đây là bài viết tản mạn. Bình thường, ngay khi công cụ này có vấn đề, chúng ta liền tìm sang một công cụ khác.

0 0 14

- vừa được xem lúc

Cùng thiết lập Multi Node Cluster trong Hadoop 2.x nào!

Trong bài viết trước của mình, mình đã giới thiệu về Hadoop và các thành phần của Hadoop. Hadoop là một hệ sinh thái mã nguồn mở được sử dụng để lưu trữ và xử lý dữ liệu lớn.

0 0 24