Tag Apache Spark
Tìm kiếm bài viết trong Tag Apache Spark
Chiến Lược Thực Thi Lệnh JOIN Trong Apache Spark
Lời mở đầu. JOIN là một trong những lệnh cơ bản nhưng đồng thời cũng là quan trọng nhất khi làm việc với dữ liệu bằng SQL.
0 0 0
Delta Lake with Apache Spark
Delta Lake with Apache Spark. . . Source (en): https://karlchris.
0 0 2
Setting Up and Using Spark Operator with Kubernetes
Spark Operator is a Kubernetes Operator designed for Spark. It aims to define and execute Spark applications as easily as other workloads on Kubernetes by using and managing Kubernetes custom resource
0 0 6
Resilient Distributed Datasets (RDDs) trong Apache Spark
Resilient Distributed Datasets (RDDs) là một cấu trúc dữ liệu cơ bản và quan trọng trong Apache Spark, cho phép xử lý dữ liệu phân tán trên các cụm máy tính một cách linh hoạt và hiệu quả. Đây là một
0 0 8
Giới Thiệu về Apache Spark
Định nghĩa Spark Dataframes. Spark Dataframes là các bộ thu thập dữ liệu phân tán được sắp xếp thành các columns, tương tự như bảng trong cơ sở dữ liệu quan hệ (Relational database) hoặc bảng tính.
0 0 8
Hadoop Architecture, Data Lake, and Apache Spark
Hadoop là gì và nó hoạt động như thế nào. . YARN - Cluster Resource Manager. .
0 0 7
DataFrames trong Apache Spark
DataFrames là một khái niệm quan trọng trong Apache Spark, cung cấp một cách linh hoạt và hiệu quả để làm việc với dữ liệu dưới dạng bảng có cấu trúc, tương tự như trong cơ sở dữ liệu quan hệ. 1.
0 0 9
Datasets trong Apache Spark
Dataset là một khái niệm quan trọng trong Apache Spark, cung cấp một lớp trừu tượng hóa dữ liệu phân tán với các tính năng của cả RDDs và DataFrames. Datasets kết hợp tính linh hoạt của RDDs với sự tố
0 0 7
Spark SQL trong Apache Spark
Spark SQL là một thành phần quan trọng của Apache Spark, cung cấp một cách tiếp cận linh hoạt và hiệu quả để thực hiện các truy vấn và biến đổi dữ liệu bằng ngôn ngữ SQL trên dữ liệu phân tán trong Sp
0 0 8
Thư viện MLlib trong Apache Spark
MLlib là một thư viện machine learning được tích hợp sẵn trong Apache Spark, cung cấp một loạt các công cụ và thuật toán machine learning để xây dựng và triển khai các mô hình trên dữ liệu phân tán. D
0 0 8
Spark Streaming trong Apache Spark
Spark Streaming là một thành phần quan trọng của Apache Spark, cho phép xử lý dữ liệu trực tiếp và liên tục từ nhiều nguồn khác nhau như Kafka, Flume, Kinesis, hoặc socket TCP/IP. 1.
0 0 9
Apache Spark #1: kiến thức cơ bản về nền tảng của Apache Spark
Apache Spark là một nền tảng phân tích dữ liệu mạnh mẽ và phổ biến trong lĩnh vực Big Data. Được phát triển bởi Apache Software Foundation, Spark cung cấp một cách tiếp cận linh hoạt để xử lý dữ liệu
0 0 8
ZeroOps with Auto Remediation for K8S
TL;DR. Trong quá trình vận hành K8s (mà thực ra chỉ là GKE) với vai trò là SRE, mình có phát triển 1 vài tool nhỏ để phục vụ công việc của mình.
0 0 23
Xử lý dữ liệu phân tán sử dụng Apache Spark và SageMaker
Apache Spark là một công cụ phân tích hợp nhất để xử lý dữ liệu quy mô lớn. Spark framework thường được sử dụng trong luồng học máy để chuyển đổi dữ liệu hoặc kỹ thuật đặc trưng trên quy mô lớn.
0 0 13
An Introduction to Delta Lake and Performance Testing Data Processing with Apache Spark - Part 1
Giới thiệu về Delta Lake. Delta Lake là một lớp lưu trữ mã nguồn mở, mang đến giao dịch ACID (đề cập bên dưới), bảo vệ schema và xử lý khối công việc dữ liệu lớn.
0 0 22
Tìm hiểu về Apache Spark
Ngày nay có rất nhiều hệ thống đang sử dụng Hadoop để phân tích và xử lý dữ liệu lớn. Ưu điểm lớn nhất của Hadoop là được dựa trên một mô hình lập trình song song với xử lý dữ liệu lớn là MapReduce, m
0 0 51
Spark - Distributed ML model with Pandas UDFs
Hình ảnh mình mượn tại đây nhé Cat&Doc. Why.
0 0 32
Tổng hợp bài viết giới thiệu về Hadoop và Spark thông qua khái niệm cơ bản và thực hành
Hadoop. Hadoop là framework dựa trên 1 giải pháp tới từ Google để lưu trữ và xử lý dữ liệu lớn.
0 0 232
Tổng quan về Apache Spark cho hệ thống Big Data
Apache Spark in-memory clusters đang là sự chú ý của nhiều doanh nghiệp trong việc ứng dụng công nghệ vào phân tích và xử lý dữ liệu nhanh chóng. Bài viết này tôi sẽ trình bày một cách tổng quan nhất
0 0 164
Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 2)
Các bạn chưa đọc phần 1 thì có thể đọc tại đây nha : Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 1). Ghi dữ liệu ra file parquet sử dụng Spark.
0 0 49
Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 1)
Định dạng text là một định dạng vô cùng phổ biến cả trên HDFS hay bất cứ đâu. Dữ liệu file text được trình bày thành từng dòng, mỗi dòng có thể coi như một bản ghi và đánh dấu kết thúc bằng kí tự "" (
0 0 35