Tag Big Data
Tìm kiếm bài viết trong Tag Big Data
Cài Đặt Cluster KAFKA sử dụng KRAFT
Giới Thiệu. Theo cách cài đặt Apache Kafka truyền thống thì chúng ta phải cài đặt thêm cụm ZooKeeper để thực hiện các công việc quan trọng như lưu trữ metadata, quản lý broker, kiểm soát các topic và
0 0 2
👨💻 Top Freelancer Platforms and Useful Tips To Get High-Paying Jobs 💸
1. Top Freelancer Platforms ️✨. Here are some of the top freelancer platforms for IT and software jobs, where developers, designers, and IT professionals can find remote work opportunities:. .
0 0 6
👨💻 Top Freelancer Platforms and Useful Tips To Get High-Paying Jobs 💸
1. Top Freelancer Platforms. Here are some of the top freelancer platforms for IT and software jobs, where developers, designers, and IT professionals can find remote work opportunities:. .
0 0 3
💻 Common Kafka Commands and Core Concepts 📨
1. Quick Setup. We can quickly start Kafka using Docker Compose Follow Quick Setup Guide, and to test Kafka setup with the CLI (Command Line Interface), follow these steps:. .
0 0 4
Hành Trình Phát Triển Hạ Tầng Kỹ Thuật của Facebook: Từ Khởi Nguồn Đến Hệ Thống Phân Tán Toàn Cầu
Bài viết này khám phá hành trình phát triển hạ tầng kỹ thuật của Facebook từ những ngày đầu khi còn là một hệ thống tập trung đơn giản, đến khi trở thành một nền tảng phân tán toàn cầu với hệ thống No
0 0 5
"Thợ xây" tìm hiểu về Big Data từ con số "0"
Để tìm hiểu một vấn đề mới và chưa trải bao giờ điều đầu tiên mình luôn cố gắng nhìn vấn đề đó tổng quan nhất và tìm kiếm động lực nào để khiến thế giới công nghệ có hẳn một lĩnh vực riêng cho nó, bài
0 0 4
Research on association rules
Lời mở đầu. Với sự phát triển của công nghệ thông tin thì khối lượng dữ liệu lưu trữ ngày càng lớn, và giữa những lượng dữ liệu khổng lồ đó lại ẩn chứa một số thông tin được coi là chìa khóa dẫn đến t
0 0 8
Job Counting: Bài Toán Hóc Búa Mà Uber Giải Quyết "Trong Tích Tắc"
Trên là một câu hỏi rất hay về việc xử lý lượng dữ liệu vô cùng lớn và có nhiều giải pháp được các bạn trong cộng đồng đưa ra. Chung bài toán gần như vậy, nay chúng ta cùng tìm hiểu bài toán tại Uber,
0 0 12
Setting Up and Using Spark Operator with Kubernetes
Spark Operator is a Kubernetes Operator designed for Spark. It aims to define and execute Spark applications as easily as other workloads on Kubernetes by using and managing Kubernetes custom resource
0 0 8
APACHE BEAM - Tóm tắt về Apache Beam
APACHE BEAM LÀ GÌ. . Là open-source. Là một mô hình lập trình thống nhất để xác định và thực thi các luồng xử lý dữ liệu (data processing pipelines).
0 0 8
[Data Warehouse] Kiến Thức Tổng Quan Về Data Warehouse (Kho Dữ Liệu)
Lời mở đầu. Bài này là mình dịch và sửa lại từ một bài viết thấy khá hay, chi tiết và đầy đủ.
0 0 30
Tìm Hiểu Về Hadoop
Mở Đầu. Hiện nay, dữ liệu được tạo ra một cách nhanh chóng và liên tục, từ các ứng dụng trực tuyến, thiết bị di động, máy tính cá nhân, các bộ cảm biến và nhiều nguồn khác.
0 0 16
An Introduction to Delta Lake and Performance Testing Data Processing with Apache Spark - Part 1
Giới thiệu về Delta Lake. Delta Lake là một lớp lưu trữ mã nguồn mở, mang đến giao dịch ACID (đề cập bên dưới), bảo vệ schema và xử lý khối công việc dữ liệu lớn.
0 0 24
Giải thích và Ứng dụng của PySpark.sql.Window trong Xử lý Dữ liệu phân tán
Giới thiệu. Trong việc xử lý dữ liệu phân tán và tính toán song song, PySpark là một trong những công cụ phổ biến và mạnh mẽ nhất. Trong PySpark, pyspark.sql.
0 0 18
Khai thác hiệu quả sức mạnh của Big Data cho doanh nghiệp
. Big Data đóng một vai trò quan trọng trong việc hỗ trợ các doanh nghiệp thu thập một khối lượng lớn các dữ liệu của người dùng. Từ đó, các doanh nghiệp có thể triển khai các kế hoạch marketing hiệu
0 0 17
Hadoop thì có liên quan gì tới Big Data?
Ở nội dung các bài viết trước, mình có giới thiệu qua về nội dung khóa học Data Science Fundamental và Data Analytics Fundamental để làm những bước đệm cho việc học về Data Science nói chung. Chắc hẳn
0 0 18
Xử lý luồng dữ liệu trong Apache Kafka và Apache Flink
Giới thiệu. Trong bài viết này chúng ta sẽ xây dựng một luồng tiếp nhận và xử lý dữ liệu live với Apache kafka và Apache Flink.
0 0 29
Spark - Distributed ML model with Pandas UDFs
Hình ảnh mình mượn tại đây nhé Cat&Doc. Why.
0 0 33
Tổng hợp bài viết giới thiệu về Hadoop và Spark thông qua khái niệm cơ bản và thực hành
Hadoop. Hadoop là framework dựa trên 1 giải pháp tới từ Google để lưu trữ và xử lý dữ liệu lớn.
0 0 234
[Phần 1] Aerospike bạn đã biết gì chưa?
Nếu đã từng nghe đến Redis (Remote Dictionary Server) thì chắc hẳn mọi người đã hiểu nó là gì đúng không ? Aerospike cũng vậy, nhưng Aerospike là cái gì, tại sao nó lại "cũng vậy" và có gì thú vị mà t
0 0 42
Apache Kafka - Producer - Gửi message đến Kafka bằng kafka-python
Overview. Understand how to produce message and send to the Kafka topic. Architecture. .
0 0 65