CUDA Toolkit 是 NVIDIA 提供的一套用于开发高性能计算应用程序的工具和库。它支持多种编程语言,包括 C、C++、Fortran 和 Python。

安装步骤

以下是使用 CUDA Toolkit 的基本步骤:

  1. 下载并安装 CUDA Toolkit下载链接
  2. 设置环境变量:确保 CUDA Toolkit 的路径已添加到系统的环境变量中。
  3. 编写 CUDA 程序:使用 C、C++、Fortran 或 Python 等语言编写程序。
  4. 编译和运行程序:使用 nvcc 或其他编译器编译程序,并运行。

示例代码

以下是一个简单的 CUDA 程序示例,用于计算两个矩阵的乘积:

#include <stdio.h>
#include <cuda_runtime.h>

__global__ void matrixMul(float* A, float* B, float* C, int width) {
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;

    float value = 0;
    for (int i = 0; i < width; ++i) {
        value += A[row * width + i] * B[i * width + col];
    }
    C[row * width + col] = value;
}

int main() {
    // ... 省略初始化和分配内存的代码 ...

    // 调用 kernel
    dim3 threadsPerBlock(16, 16);
    dim3 numBlocks((width + threadsPerBlock.x - 1) / threadsPerBlock.x,
                   (width + threadsPerBlock.y - 1) / threadsPerBlock.y);
    matrixMul<<<numBlocks, threadsPerBlock>>>(d_A, d_B, d_C, width);

    // ... 省略释放内存和清理资源的代码 ...

    return 0;
}

资源和文档

更多关于 CUDA Toolkit 的信息和文档,请访问 NVIDIA 官方网站:CUDA Toolkit 文档