Tag cuda

Tìm kiếm bài viết trong Tag cuda

- vừa được xem lúc

[NVIDIA Tools] Bài 12: Compute - Memory Bound Phần 2

Ở bài trước chúng ta đã sử dụng SoL để xác định liệu code của chúng có bị memory/compute bound hay không thì ở bài này mình sẽ hướng dẫn các bạn 1 phương pháp khác để xác định là roofline chart. Roofl

0 0 1

- vừa được xem lúc

[NVIDIA Tools] Bài 11: Compute - Memory Bound Phần 1

Khi nói về performance trong 1 đoạn code thì chúng ta sẽ xem xét 2 khái niệm chính là memory và compute. Vậy memory và compute là gì mà lại quan trọng như vậy.

0 0 1

- vừa được xem lúc

[GPU in AI] Bài 3: RAPIDS trong việc xử lí data

Ở bài 2 chúng ta đã đề cập đến việc xử dụng RAPIDS trong việc xử lí và phân tích data bằng GPU thì ở bài viết này mình sẽ hướng dẫn cách dùng. cuDF.

0 0 7

- vừa được xem lúc

[GPU in AI] Bài 2: RAPIDS và những điều cần biết

Ngày nay data ngày một nhiều dẫn đến việc ETL (Extract, Transform, Load) hay còn gọi là phân tích và xử lí data ( data analyis) ngày một phức tạp và tốn nhiều thời gian nên NVIDIA đã tạo nên RAPIDS gi

0 0 8

- vừa được xem lúc

[GPU in AI] Bài 1: Lời mở đầu

Ngày nay, với sự phát triển nhanh chóng của AI khiến nhu cầu sử dụng ngày càng tăng, dẫn đến việc dữ liệu ngày càng phong phú và các tác vụ ngày càng đa dạng. Điều này khiến các bài toán về Machine-Le

0 0 7

- vừa được xem lúc

[NVIDIA Tools] Bài 10: Bandwidth - Throughput - Latency

Ở bài viết này mình sẽ giới thiệu 3 khái niệm rất quan trọng trong việc profiling là Bandwidth - Throughput - Latency. Bandwidth - Throughput - Latency.

0 0 9

- vừa được xem lúc

[NVIDIA Tools] Bài 9: Occupancy Phần 2

Ở phần 1 mình đã giới thiệu occupancy thì ở phần 2 mình sẽ đi sâu hơn về occupancy trong việc cải thiện achieved occupancy. Trước khi đi vào bài học mình xin giải thích 2 khái niệm khá quan trọng tron

0 0 7

- vừa được xem lúc

[Lập trình song song] Bài 13: Shared memory

Ở bài viết này mình sẽ giới thiệu các bạn cách dùng shared memory trên GPU bằng cuda, trước khi đọc bài viết này thì hãy xem qua bài viết Các bộ nhớ trong GPU. Shared memory.

0 0 9

- vừa được xem lúc

[NVIDIA Tools] Bài 8: Occupancy

Ở bài 7 mình đã đề cập đến vấn đề: làm sao để chọn ra số thread phù hợp thì ở bài viết này mình sẽ chia sẽ 1 cách khá phổ biến để xác định - ở đây sẽ có nhiều bạn thắc mắc là tại sao chúng ta không đơ

0 0 11

- vừa được xem lúc

[NVIDIA Tools] Bài 7:Warp Scheduler

Ở trong bài Synchronization - Asynchronization mình có nhắc đến khái niệm latency hiding, một khái niệm rất thường thấy khi nhắc về cuda và khi nói đến latency hiding là sẽ nói đến always keep thread

0 0 11

- vừa được xem lúc

[NVIDIA Tools] Bài 6: Global Memory Coalescing

Global memory là bộ nhớ lớn nhất NHƯNG cũng là chậm nhất ở GPU vậy nên ở bài viết này chúng ta sẽ phân tích những yếu tố nào dẫn đến "low performance" cũng như cách khác phục chúng. .

0 0 9

- vừa được xem lúc

[NVIDIA Tools] Bài 5: NVIDIA Compute Sanitizer Phần 2

Ở bài viết này mình sẽ viết tiếp về cách sử dụng NVIDIA Compute Sanitizer, hãy đọc những bài này: NVIDIA Compute Sanitize phần 1, Data Hazard trước khi đọc bài viết này. NVIDIA Compute Sanitizer.

0 0 9

- vừa được xem lúc

[Lập trình song song] Bài 12: Atomic function

Ở bài này mình sẽ giới thiệu các bạn một cái built in function khá là xịn trong cuda, và 1 lưu ý là hãy đọc các bài này Data Hazard và Synchronization - Asynchronization trước khi đọc bài viết này. At

0 0 12

- vừa được xem lúc

[Lập trình song song] Bài 11: Data Hazard

Khi chúng ta nhắc đến song song chúng ta sẽ nhắc tới hiện tượng data hazard, 1 bug khiến chúng ta khá là đau đầu khi fix vì đây là lỗi về mặt logic NHƯNG bây giờ chúng ta đã có công cụ NVIDIA Compute

0 0 12

- vừa được xem lúc

[NVIDIA Tools] Bài 4: NVIDIA Compute Sanitizer Phần 1

Ở bài viết này mình sẽ hướng dẫn các bạn sử dụng NVIDIA Compute Sanitizer, 1 công cụ rất tuyệt vời để hỗ trợ cho các bạn mới bắt đầu về cuda. .

0 0 16

- vừa được xem lúc

[NVIDIA Tools] Bài 3: Cuda toolkit - Cuda driver

Trước khi sử dụng các công cụ của Nvidia trong việc profile thì chúng ta phải có kiến thức về nguyên lí hoạt động của cuda nên ở bài mình sẽ đề cập tới 2 khái niệm thường được nhắc đến khi nói về cuda

0 0 13

- vừa được xem lúc

[Lập trình song song] Bài 10: Streaming

Ở bài này mình sẽ hướng dẫn các bạn 1 kĩ thuật để optimize 1 chương trình trong cudaC ( kĩ thuật này cũng khá đơn giản nhưng sẽ tốt hơn nếu các bạn đã đọc qua bài Pinned memory và Async-Sync ). Stream

0 0 20

- vừa được xem lúc

[Lập trình song song] Bài 9: Pinned memory

Ở baì viết này mình sẽ nói về khái niệm pinned memory - xin lưu ý là nó sẽ liên quan tới bài tiếp theo ( streaming ) nên sẽ rất tốt nếu các bạn nắm được kiến thức ở bài này. .

0 0 15

- vừa được xem lúc

[Lập trình song song] Bài 8 : Unified memory

Ở bài này mình sẽ giới thiệu về Unified memory - có thể nói Unified memory là 1 bước đột phá lớn vào thời kì cuda 6.0.

0 0 13

- vừa được xem lúc

[NVIDIA Tools] Bài 2: Cài đặt Nsight system - Nsight compute

Ở bài viết này mình sẽ hướng dẫn các bạn cách cài đặt Nsight system và Nsight compute và nó sẽ dễ 1 cách bất ngờ nên yên tâm nha. .

0 0 12

- vừa được xem lúc

How to Set Up Deep Learning with Nvidia, CUDA, CUDAToolkit, cuDNN on Ubuntu 22.04

Installing cuDNN on Linux. 1. Prerequisites. Update the System.

0 0 13