Tag Big Data
Tìm kiếm bài viết trong Tag Big Data
Research on association rules
Lời mở đầu. Với sự phát triển của công nghệ thông tin thì khối lượng dữ liệu lưu trữ ngày càng lớn, và giữa những lượng dữ liệu khổng lồ đó lại ẩn chứa một số thông tin được coi là chìa khóa dẫn đến t
0 0 1
Job Counting: Bài Toán Hóc Búa Mà Uber Giải Quyết "Trong Tích Tắc"
Trên là một câu hỏi rất hay về việc xử lý lượng dữ liệu vô cùng lớn và có nhiều giải pháp được các bạn trong cộng đồng đưa ra. Chung bài toán gần như vậy, nay chúng ta cùng tìm hiểu bài toán tại Uber,
0 0 6
Setting Up and Using Spark Operator with Kubernetes
Spark Operator is a Kubernetes Operator designed for Spark. It aims to define and execute Spark applications as easily as other workloads on Kubernetes by using and managing Kubernetes custom resource
0 0 4
APACHE BEAM - Tóm tắt về Apache Beam
APACHE BEAM LÀ GÌ. . Là open-source. Là một mô hình lập trình thống nhất để xác định và thực thi các luồng xử lý dữ liệu (data processing pipelines).
0 0 5
[Data Warehouse] Kiến Thức Tổng Quan Về Data Warehouse (Kho Dữ Liệu)
Lời mở đầu. Bài này là mình dịch và sửa lại từ một bài viết thấy khá hay, chi tiết và đầy đủ.
0 0 24
Tìm Hiểu Về Hadoop
Mở Đầu. Hiện nay, dữ liệu được tạo ra một cách nhanh chóng và liên tục, từ các ứng dụng trực tuyến, thiết bị di động, máy tính cá nhân, các bộ cảm biến và nhiều nguồn khác.
0 0 13
An Introduction to Delta Lake and Performance Testing Data Processing with Apache Spark - Part 1
Giới thiệu về Delta Lake. Delta Lake là một lớp lưu trữ mã nguồn mở, mang đến giao dịch ACID (đề cập bên dưới), bảo vệ schema và xử lý khối công việc dữ liệu lớn.
0 0 18
Giải thích và Ứng dụng của PySpark.sql.Window trong Xử lý Dữ liệu phân tán
Giới thiệu. Trong việc xử lý dữ liệu phân tán và tính toán song song, PySpark là một trong những công cụ phổ biến và mạnh mẽ nhất. Trong PySpark, pyspark.sql.
0 0 11
Khai thác hiệu quả sức mạnh của Big Data cho doanh nghiệp
. Big Data đóng một vai trò quan trọng trong việc hỗ trợ các doanh nghiệp thu thập một khối lượng lớn các dữ liệu của người dùng. Từ đó, các doanh nghiệp có thể triển khai các kế hoạch marketing hiệu
0 0 13
Hadoop thì có liên quan gì tới Big Data?
Ở nội dung các bài viết trước, mình có giới thiệu qua về nội dung khóa học Data Science Fundamental và Data Analytics Fundamental để làm những bước đệm cho việc học về Data Science nói chung. Chắc hẳn
0 0 14
Xử lý luồng dữ liệu trong Apache Kafka và Apache Flink
Giới thiệu. Trong bài viết này chúng ta sẽ xây dựng một luồng tiếp nhận và xử lý dữ liệu live với Apache kafka và Apache Flink.
0 0 26
Spark - Distributed ML model with Pandas UDFs
Hình ảnh mình mượn tại đây nhé Cat&Doc. Why.
0 0 29
Tổng hợp bài viết giới thiệu về Hadoop và Spark thông qua khái niệm cơ bản và thực hành
Hadoop. Hadoop là framework dựa trên 1 giải pháp tới từ Google để lưu trữ và xử lý dữ liệu lớn.
0 0 229
[Phần 1] Aerospike bạn đã biết gì chưa?
Nếu đã từng nghe đến Redis (Remote Dictionary Server) thì chắc hẳn mọi người đã hiểu nó là gì đúng không ? Aerospike cũng vậy, nhưng Aerospike là cái gì, tại sao nó lại "cũng vậy" và có gì thú vị mà t
0 0 35
Apache Kafka - Producer - Gửi message đến Kafka bằng kafka-python
Overview. Understand how to produce message and send to the Kafka topic. Architecture. .
0 0 60
Những kênh youtube dành cho lập trình viên cực hay
Đối với các những ai đang học và làm việc trong lĩnh vực công nghệ thông tin, để trở thành một lập trình viên chuyên nghiệp là điều đáng mơ ước. Để thực hiện được điều đó, bắt buộc bạn phải luôn cập n
0 0 35
Tổng quan về Apache Spark cho hệ thống Big Data
Apache Spark in-memory clusters đang là sự chú ý của nhiều doanh nghiệp trong việc ứng dụng công nghệ vào phân tích và xử lý dữ liệu nhanh chóng. Bài viết này tôi sẽ trình bày một cách tổng quan nhất
0 0 161
Khám phá từng ngõ ngách Apache Druid - Phần 1
1. Giới thiệu. Trước khi đi vào nội dung chính mình muốn kể 1 câu chuyện sau:. .
0 0 526
Blockchain dưới con mắt làng Vũ Đại 4.0
Mở bài. Hey nhô các bạn, lại là mình đây .
0 0 47
Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 2)
Các bạn chưa đọc phần 1 thì có thể đọc tại đây nha : Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 1). Ghi dữ liệu ra file parquet sử dụng Spark.
0 0 47
Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 1)
Định dạng text là một định dạng vô cùng phổ biến cả trên HDFS hay bất cứ đâu. Dữ liệu file text được trình bày thành từng dòng, mỗi dòng có thể coi như một bản ghi và đánh dấu kết thúc bằng kí tự "" (
0 0 33