Tag Apache Spark

Tìm kiếm bài viết trong Tag Apache Spark

04/10/2024 - vừa được xem lúc 16/07/2025

Chiến Lược Thực Thi Lệnh JOIN Trong Apache Spark

Lời mở đầu. JOIN là một trong những lệnh cơ bản nhưng đồng thời cũng là quan trọng nhất khi làm việc với dữ liệu bằng SQL.

0 0 13

09/09/2024 - vừa được xem lúc 16/07/2025

Delta Lake with Apache Spark

Delta Lake with Apache Spark. . . Source (en): https://karlchris.

0 0 9

07/06/2024 - vừa được xem lúc 02/08/2025

Setting Up and Using Spark Operator with Kubernetes

Spark Operator is a Kubernetes Operator designed for Spark. It aims to define and execute Spark applications as easily as other workloads on Kubernetes by using and managing Kubernetes custom resource

0 0 19

07/06/2024 - vừa được xem lúc 16/07/2025

Resilient Distributed Datasets (RDDs) trong Apache Spark

Resilient Distributed Datasets (RDDs) là một cấu trúc dữ liệu cơ bản và quan trọng trong Apache Spark, cho phép xử lý dữ liệu phân tán trên các cụm máy tính một cách linh hoạt và hiệu quả. Đây là một

0 0 18

06/06/2024 - vừa được xem lúc 22/07/2025

Giới Thiệu về Apache Spark

#data engineering

Định nghĩa Spark Dataframes. Spark Dataframes là các bộ thu thập dữ liệu phân tán được sắp xếp thành các columns, tương tự như bảng trong cơ sở dữ liệu quan hệ (Relational database) hoặc bảng tính.

0 0 18

04/06/2024 - vừa được xem lúc 02/08/2025

Hadoop Architecture, Data Lake, and Apache Spark

Hadoop là gì và nó hoạt động như thế nào. . YARN - Cluster Resource Manager. .

0 0 16

03/06/2024 - vừa được xem lúc 16/07/2025

DataFrames trong Apache Spark

DataFrames là một khái niệm quan trọng trong Apache Spark, cung cấp một cách linh hoạt và hiệu quả để làm việc với dữ liệu dưới dạng bảng có cấu trúc, tương tự như trong cơ sở dữ liệu quan hệ. 1.

0 0 19

03/06/2024 - vừa được xem lúc 16/07/2025

Datasets trong Apache Spark

Dataset là một khái niệm quan trọng trong Apache Spark, cung cấp một lớp trừu tượng hóa dữ liệu phân tán với các tính năng của cả RDDs và DataFrames. Datasets kết hợp tính linh hoạt của RDDs với sự tố

0 0 17

03/06/2024 - vừa được xem lúc 16/07/2025

Spark SQL trong Apache Spark

Spark SQL là một thành phần quan trọng của Apache Spark, cung cấp một cách tiếp cận linh hoạt và hiệu quả để thực hiện các truy vấn và biến đổi dữ liệu bằng ngôn ngữ SQL trên dữ liệu phân tán trong Sp

0 0 18

03/06/2024 - vừa được xem lúc 16/07/2025

Thư viện MLlib trong Apache Spark

MLlib là một thư viện machine learning được tích hợp sẵn trong Apache Spark, cung cấp một loạt các công cụ và thuật toán machine learning để xây dựng và triển khai các mô hình trên dữ liệu phân tán. D

0 0 16

03/06/2024 - vừa được xem lúc 16/07/2025

Spark Streaming trong Apache Spark

#Spark Streaming

Spark Streaming là một thành phần quan trọng của Apache Spark, cho phép xử lý dữ liệu trực tiếp và liên tục từ nhiều nguồn khác nhau như Kafka, Flume, Kinesis, hoặc socket TCP/IP. 1.

0 0 19

03/06/2024 - vừa được xem lúc 16/07/2025

Apache Spark #1: kiến thức cơ bản về nền tảng của Apache Spark

#Spark Streaming

Apache Spark là một nền tảng phân tích dữ liệu mạnh mẽ và phổ biến trong lĩnh vực Big Data. Được phát triển bởi Apache Software Foundation, Spark cung cấp một cách tiếp cận linh hoạt để xử lý dữ liệu

0 0 18

26/04/2024 - vừa được xem lúc 02/08/2025

ZeroOps with Auto Remediation for K8S

#Google Kubernetes Engine

TL;DR. Trong quá trình vận hành K8s (mà thực ra chỉ là GKE) với vai trò là SRE, mình có phát triển 1 vài tool nhỏ để phục vụ công việc của mình.

0 0 40

19/01/2024 - vừa được xem lúc 31/07/2025

Xử lý dữ liệu phân tán sử dụng Apache Spark và SageMaker

#Amazon Web Services (AWS)

Apache Spark là một công cụ phân tích hợp nhất để xử lý dữ liệu quy mô lớn. Spark framework thường được sử dụng trong luồng học máy để chuyển đổi dữ liệu hoặc kỹ thuật đặc trưng trên quy mô lớn.

0 0 26

03/08/2023 - vừa được xem lúc 16/07/2025

An Introduction to Delta Lake and Performance Testing Data Processing with Apache Spark - Part 1

Giới thiệu về Delta Lake. Delta Lake là một lớp lưu trữ mã nguồn mở, mang đến giao dịch ACID (đề cập bên dưới), bảo vệ schema và xử lý khối công việc dữ liệu lớn.

0 0 34

20/07/2022 - vừa được xem lúc 01/08/2025

Tìm hiểu về Apache Spark

Ngày nay có rất nhiều hệ thống đang sử dụng Hadoop để phân tích và xử lý dữ liệu lớn. Ưu điểm lớn nhất của Hadoop là được dựa trên một mô hình lập trình song song với xử lý dữ liệu lớn là MapReduce, m

0 0 62

22/03/2022 - vừa được xem lúc 02/08/2025

Spark - Distributed ML model with Pandas UDFs

#Machine Learning

#Jupyter Notebook

Hình ảnh mình mượn tại đây nhé Cat&Doc. Why.

0 0 44

25/02/2022 - vừa được xem lúc 01/08/2025

Tổng hợp bài viết giới thiệu về Hadoop và Spark thông qua khái niệm cơ bản và thực hành

#KhaiButDauXuan

Hadoop. Hadoop là framework dựa trên 1 giải pháp tới từ Google để lưu trữ và xử lý dữ liệu lớn.

0 0 244

30/06/2021 - vừa được xem lúc 02/08/2025

Tổng quan về Apache Spark cho hệ thống Big Data

Apache Spark in-memory clusters đang là sự chú ý của nhiều doanh nghiệp trong việc ứng dụng công nghệ vào phân tích và xử lý dữ liệu nhanh chóng. Bài viết này tôi sẽ trình bày một cách tổng quan nhất

0 0 173

25/03/2021 - vừa được xem lúc 01/08/2025

Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 2)

Các bạn chưa đọc phần 1 thì có thể đọc tại đây nha : Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 1). Ghi dữ liệu ra file parquet sử dụng Spark.

0 0 61

24/03/2021 - vừa được xem lúc 20/07/2025

Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 1)

Định dạng text là một định dạng vô cùng phổ biến cả trên HDFS hay bất cứ đâu. Dữ liệu file text được trình bày thành từng dòng, mỗi dòng có thể coi như một bản ghi và đánh dấu kết thúc bằng kí tự "" (

0 0 46

1
2