- vừa được xem lúc

Blog#262: Caching: Luôn làm chúng ta phải đau đầu khi thiết kế hệ thông

0 0 10

Người đăng: NGUYỄN ANH TUẤN

Theo Viblo Asia

Mình có tạo 1 series để trả lời những câu hỏi mà các bạn đã liên lạc và hỏi mình. Vì câu hỏi khá nhiều nên mình sẽ trả lời dần dần và add vào series này nè.

Bạn nào muốn liên hệ trực tiếp mình để hỏi về roadmap qua Nhật làm Dev hoặc BrSE thì contact mình qua zalo nhé: 0379302361 hoặc Facebook nhé.

Hi, I'm Tuan, a Full-stack Web Developer from Tokyo 😊. Follow my blog to not miss out on useful and interesting articles in the future.

1. Giới thiệu về Caching

1.1. Định nghĩa

Caching là một khái niệm không xa lạ trong lĩnh vực IT, đặc biệt là trong việc thiết kế hệ thống. Có thể hiểu đơn giản, Caching là quá trình lưu trữ dữ liệu tạm thời ở một nơi nào đó để sau này khi cần dùng, ta có thể truy cập nhanh hơn.

1.2. Lợi ích của Caching

Caching mang lại nhiều lợi ích khá to lớn. Một trong những lợi ích quan trọng nhất đó là giảm thiểu thời gian tải và giảm tải cho server. Caching cũng giúp tăng hiệu suất và khả năng mở rộng của hệ thống bằng cách giảm bớt việc truy vấn dữ liệu từ nguồn gốc, thay vào đó là truy vấn từ cache nhanh hơn. Điều này không chỉ tăng tốc độ truy cập dữ liệu mà còn giảm tải cho hệ thống chính.

1.3. Ví dụ thực tế

Một ví dụ điển hình cho việc sử dụng cache là trình duyệt web. Khi bạn truy cập một trang web, trình duyệt sẽ lưu các tệp tin tĩnh như hình ảnh, CSS, JavaScript vào cache. Khi bạn truy cập lại trang web đó, thay vì tải lại toàn bộ nội dung, trình duyệt sẽ tải từ cache, giúp tăng tốc độ tải trang.

2. Cấu trúc của Cache

2.1. Cache trong bộ nhớ

Cache trong bộ nhớ, hay còn gọi là in-memory cache, là dạng cache được lưu trữ trực tiếp trong RAM của máy chủ. Do được lưu trữ trên RAM nên tốc độ đọc và ghi dữ liệu rất nhanh. Redis và Memcached là hai hệ thống cache in-memory phổ biến.

2.2. Cache trên đĩa

Cache trên đĩa là dạng cache lưu trữ dữ liệu trên ổ đĩa cứng. Tốc độ đọc và ghi chậm hơn cache in-memory, nhưng có thể lưu trữ lượng dữ liệu lớn hơn và không bị mất khi máy chủ tắt điện.

2.3. So sánh giữa Cache trong bộ nhớ và trên đĩa

Cache trong bộ nhớ Cache trên đĩa
Tốc độ Nhanh Chậm
Dung lượng Giới hạn Lớn
Độ bền Mất khi tắt máy Lưu trữ lâu dài

3. Cách hoạt động của Caching

3.1. Cache Hit

Cache hit xảy ra khi dữ liệu cần truy vấn được tìm thấy trong cache. Trường hợp này mang lại hiệu suất cao nhất do không cần truy vấn tới nguồn gốc.

3.2. Cache Miss

Trái lại với cache hit, cache miss xảy ra khi dữ liệu cần truy vấn không có trong cache. Khi đó, hệ thống sẽ phải truy vấn tới nguồn gốc, gây ra độ trễ và tăng tải cho hệ thống chính. Dữ liệu lấy từ nguồn gốc sau đó sẽ được lưu vào cache để phục vụ cho những truy vấn sau.

3.3. Cache Eviction

Cache eviction là quá trình loại bỏ dữ liệu ra khỏi cache khi cache đầy. Có nhiều thuật toán cache eviction như LRU, LFU, FIFO, mà chúng ta sẽ thảo luận ở phần sau.

4. Các loại Cache phổ biến

4.1. CDN (Content Delivery Network)

CDN là một mạng lưới các máy chủ được đặt rải rác khắp nhiều địa điểm trên thế giới. CDN lưu trữ và phân phối nội dung tới người dùng gần nhất, giúp tăng tốc độ tải trang và giảm tải cho máy chủ gốc.

4.2. Reverse Proxy

Reverse Proxy hoạt động như một người trung gian, nhận yêu cầu từ client và chuyển tiếp tới máy chủ gốc. Dữ liệu trả về từ máy chủ gốc sẽ được lưu vào reverse proxy để phục vụ cho những yêu cầu sau.

4.3. Database Cache

Database Cache là dạng cache được lưu trữ trực tiếp trên cơ sở dữ liệu. Dữ liệu thường được truy cập sẽ được lưu trong database cache để tăng tốc độ truy vấn.

4.4. Bảng so sánh giữa các loại Cache

CDN Reverse Proxy Database Cache
Tốc độ Nhanh Nhanh Trung bình
Dung lượng Lớn Tuỳ thuộc vào cấu hình Tuỳ thuộc vào cấu hình
Phạm vi sử dụng Toàn cầu Local Local

5. Các thuật toán Cache phổ biến

5.1. LRU (Least Recently Used)

LRU là một thuật toán cache eviction phổ biến. LRU loại bỏ dữ liệu ít được truy cập nhất trong một khoảng thời gian nhất định để nhường chỗ cho dữ liệu mới.

5.2. LFU (Least Frequently Used)

LFU là thuật toán loại bỏ dữ liệu ít được truy cập nhất. LFU khá hiệu quả khi có một số dữ liệu được truy cập một cách thường xuyên.

5.3. FIFO (First In First Out)

FIFO là thuật toán loại bỏ dữ liệu theo thứ tự chúng được thêm vào cache. Dữ liệu đến trước sẽ ra trước, giống như hàng đợi ở siêu thị.

5.4. Bảng so sánh giữa các thuật toán Cache

LRU LFU FIFO
Độ phức tạp Trung bình Cao Thấp
Hiệu suất Tốt với dữ liệu thường xuyên truy cập Tốt với dữ liệu truy cập đều Tốt với dữ liệu truy cập ngẫu nhiên
Nhược điểm Không tốt với dữ liệu truy cập ngẫu nhiên Khó thực hiện, không tốt với dữ liệu truy cập ngẫu nhiên Không tốt với dữ liệu thường xuyên truy cập

6. Cách tối ưu hóa hiệu suất của Cache

6.1. Chọn đúng loại Cache

Mỗi loại cache có những ưu điểm và nhược điểm riêng, nên phải chọn loại phù hợp với yêu cầu của hệ thống. Ví dụ, CDN phù hợp với việc phân phối nội dung toàn cầu, còn database cache phù hợp với việc tăng tốc độ truy vấn cơ sở dữ liệu.

6.2. Tăng kích thước Cache

Kích thước cache càng lớn thì khả năng lưu trữ dữ liệu càng cao, giảm khả năng cache miss. Tuy nhiên, cần cân nhắc vì cache lớn cũng tốn nhiều tài nguyên hơn.

6.3. Sử dụng đúng thuật toán

Thuật toán cache eviction phù hợp sẽ giúp tối ưu hóa hiệu suất cache. Chọn thuật toán dựa trên đặc điểm truy cập dữ liệu của hệ thống.

6.4. Ví dụ thực tế

Facebook sử dụng thuật toán LRU để quản lý cache của mình. Khi một người dùng truy cập Facebook, những bài viết, hình ảnh mà họ xem sẽ được lưu vào cache. Khi họ quay lại, những nội dung đó sẽ được lấy từ cache nhanh chóng.

7. Thách thức và khuyến nghị khi sử dụng Cache

7.1. Cache Invalidation

Cache invalidation là vấn đề khi dữ liệu gốc thay đổi nhưng cache vẫn giữ phiên bản cũ, dẫn đến việc trả lại dữ liệu không chính xác. Để khắc phục, ta cần đặt thời gian hết hạn cho các mục cache hoặc cập nhật cache mỗi khi dữ liệu gốc thay đổi.

7.2. Cache Penetration

Cache penetration xảy ra khi nhiều yêu cầu truy cập vào một mục không tồn tại trong cache, làm giảm hiệu suất của hệ thống. Để tránh điều này, ta có thể lưu "null" hoặc một giá trị tương đương trong cache để biểu thị rằng mục đó không tồn tại.

7.3. Cache Poisoning

Cache poisoning là tình huống một kẻ tấn công cố gắng thay đổi hoặc làm hỏng dữ liệu trong cache. Để bảo vệ, hệ thống cần thực hiện kiểm tra an ninh kỹ càng và chỉ cho phép những yêu cầu đáng tin cậy được cập nhật cache.

7.4. Cache Stampede

Cache stampede xảy ra khi nhiều yêu cầu cùng lúc truy cập vào một mục cache đang hết hạn, làm tăng áp lực lên hệ thống. Để tránh điều này, ta có thể sử dụng các kỹ thuật như "lock" mục cache khi cập nhật hoặc cài đặt thời gian hết hạn ngẫu nhiên cho các mục cache.

8. Kết luận

8.1. Tổng kết lại về Caching

Caching là một kỹ thuật quan trọng giúp tăng hiệu suất của hệ thống bằng cách lưu trữ và truy cập lại dữ liệu từ một nguồn gần hơn và nhanh hơn. Mặc dù vậy, việc sử dụng cache không phải lúc nào cũng đơn giản và đòi hỏi phải cân nhắc kỹ lưỡng về loại cache, kích thước cache, thuật toán cache, cũng như việc xử lý các vấn đề phát sinh.

8.2. Những lưu ý khi sử dụng Caching

Khi sử dụng cache, bạn cũng cần chú ý đến việc cập nhật và hủy cache khi dữ liệu gốc thay đổi. Đồng thời, hãy cẩn thận với các vấn đề an ninh như cache poisoning và luôn kiểm soát tốt việc truy cập vào cache của bạn.

8.3. FAQs

1. Caching có thể giúp tăng tốc độ của bất kỳ ứng dụng nào không? - Có, caching có thể giúp tăng tốc độ của nhiều loại ứng dụng bằng cách giảm thời gian truy cập dữ liệu. Tuy nhiên, mức độ cải thiện phụ thuộc vào cách thức sử dụng cache và loại dữ liệu cần truy cập.

2. Caching có thể gây ra vấn đề gì không? - Caching có thể gây ra vấn đề nếu dữ liệu trong cache không được cập nhật khi dữ liệu gốc thay đổi (cache invalidation), hoặc khi cache không được bảo vệ đúng cách và bị tấn công (cache poisoning).

3. Tôi nên lưu trữ bao nhiêu dữ liệu trong cache? - Số lượng dữ liệu cần lưu trữ trong cache phụ thuộc vào khả năng lưu trữ của bạn và nhu cầu truy cập dữ liệu. Một quy tắc chung là lưu trữ những dữ liệu được truy cập thường xuyên nhất.

4. Tôi nên sử dụng thuật toán cache nào? - Việc chọn thuật toán cache phụ thuộc vào yêu cầu của ứng dụng của bạn. Một số thuật toán phổ biến bao gồm LRU (Least Recently Used), LFU (Least Frequently Used) và FIFO (First In First Out).

5. Tôi có thể tạo ra cache của riêng mình không, hay nên sử dụng một giải pháp cache sẵn có? - Bạn có thể tạo ra cache của riêng mình nếu có đủ kiến thức và kỹ năng. Tuy nhiên, việc sử dụng một giải pháp cache sẵn có thường là lựa chọn tốt hơn do đã được kiểm thử kỹ càng và có thể tiết kiệm thời gian và công sức.

And Finally

As always, I hope you enjoyed this article and got something new. Thank you and see you in the next articles!

If you liked this article, please give me a like and subscribe to support me. Thank you. 😊


Mình có tạo 1 series để trả lời những câu hỏi mà các bạn đã liên lạc và hỏi mình. Vì câu hỏi khá nhiều nên mình sẽ trả lời dần dần và add vào series này nè. Link tham khảo: https://viblo.asia/s/chuyen-muc-tra-loi-cau-hoi-cuoc-song-dev-tai-nhut-bon-PwlVmR7Z45Z

Bạn nào muốn liên hệ trực tiếp mình để hỏi về roadmap qua Nhật làm Dev hoặc BrSE thì contact mình qua zalo nhé: 0379302361 hoặc Facebook nhé.

Bình luận

Bài viết tương tự

- vừa được xem lúc

Caching đại pháp 2: Cache thế nào cho hợp lý?

Caching rất dễ. Mình không nói đùa đâu, caching rất là dễ. Ai cũng có thể làm được chỉ sau 10 phút đọc tutorial. Nó cũng giống như việc đứa trẻ lên 3 đã có thể cầm bút để vẽ vậy.

0 0 114

- vừa được xem lúc

Instagram - Thiết Kế Hệ Thống có gì hay? ?

Thiết Kế Hệ Thống tương tự Instagram có khó? và những điều cần lưu ý. Xin chào, mình là Khanh Ney, 1 Backend Developer chính hiệu sùng bái các vị Vua và mang tư duy của các vị Vua giải quyết vấn đề với DIY (Do it Yourself).

0 0 33

- vừa được xem lúc

Caching đại pháp 3: Vấn đề và cách giải quyết

Vấn đề không tự sinh ra cũng không tự mất đi, nó chỉ chuyển từ dạng này sang dạng khác, hoặc từ chỗ này sang chỗ khác. Đó là cách mọi thứ hoạt động.

0 0 112

- vừa được xem lúc

Performance Optimization 106: Caching - con đường lắm chông gai

Con đường vươn tới những hệ thống tải cao đầy chông gai và cỏ dại. Caching luôn là một con đường chông gai bởi vì nó không có hồi kết.

0 0 83

- vừa được xem lúc

[Redis] - Giải pháp xử lý 300 triệu bản ghi với Redis

Đây là câu chuyện về 1 lần chuyển đổi hệ thống của Instagram. .

0 0 24

- vừa được xem lúc

[Redis] - 7 sai lầm thường gặp khi làm việc với Redis.

1. Không sử dụng mật khẩu.

0 0 25