CUDA Toolkit 是 NVIDIA 提供的一套用于开发高性能计算应用程序的工具和库。它支持多种编程语言,包括 C、C++、Fortran 和 Python。
安装步骤
以下是使用 CUDA Toolkit 的基本步骤:
- 下载并安装 CUDA Toolkit:下载链接
- 设置环境变量:确保 CUDA Toolkit 的路径已添加到系统的环境变量中。
- 编写 CUDA 程序:使用 C、C++、Fortran 或 Python 等语言编写程序。
- 编译和运行程序:使用
nvcc
或其他编译器编译程序,并运行。
示例代码
以下是一个简单的 CUDA 程序示例,用于计算两个矩阵的乘积:
#include <stdio.h>
#include <cuda_runtime.h>
__global__ void matrixMul(float* A, float* B, float* C, int width) {
int row = blockIdx.y * blockDim.y + threadIdx.y;
int col = blockIdx.x * blockDim.x + threadIdx.x;
float value = 0;
for (int i = 0; i < width; ++i) {
value += A[row * width + i] * B[i * width + col];
}
C[row * width + col] = value;
}
int main() {
// ... 省略初始化和分配内存的代码 ...
// 调用 kernel
dim3 threadsPerBlock(16, 16);
dim3 numBlocks((width + threadsPerBlock.x - 1) / threadsPerBlock.x,
(width + threadsPerBlock.y - 1) / threadsPerBlock.y);
matrixMul<<<numBlocks, threadsPerBlock>>>(d_A, d_B, d_C, width);
// ... 省略释放内存和清理资源的代码 ...
return 0;
}
资源和文档
更多关于 CUDA Toolkit 的信息和文档,请访问 NVIDIA 官方网站:CUDA Toolkit 文档