欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

go 语言闭包 go 语言 Cuda

最编程 2024-04-08 12:18:04
...



目录

  • 一、前言
  • 二、CUDA背景知识
  • 三、用GPU输出Hello World
  • 四、总结
  • 五、参考



一、前言

  • 在计算密集型应用中,往往有很多并行数据的程序段,我们期望使用特殊架构的硬件加速器提升这部分程序段的执行速度,GPU可以说是最为常见的硬件加速器。今天介绍我们学习新的编程语言时都会写的一个程序Hello world!——CUDA版

二、CUDA背景知识

  • CUDA是一种通用的并行计算平台和编程模型,它利用NVIDIA GPU中的并行计算引擎能更有效地解决复杂的计算问题。CUDA C是标准ANSI C的一个扩展,它带有的少数语言扩展功能使异构编程成为可能,同时也能用过API来管理设备、内存和其他任务。
  • 一个CUDA程序包含了以下两部分的混合。
  • 在CPU上运行的主机代码
  • 在GPU上运行的设备代码
  • NVIDIA 的CUDA nvcc编译器在编译过程中将设备代码从主机代码中分离出来。主机代码是标准的C代码,使用C编译器进行编译。设备代码,也就是核函数,是用扩展的带有标记数据并行函数关键字的CUDA C语言编写的。设备代码通过nvcc进行编译。在链接阶段,在内核程序调用和显示GPU设备操作中添加CUDA运行时库。
  • nvcc编译器以LLVM开源编译系统为基础的。

本文在Linux上进行演示。

三、用GPU输出Hello World

  1. 检查环境和硬件是否正确安装。
    首先检查是否安装了NVIDIA加速卡。
ls -l /dev/nv*

go语言闭包 go语言 cuda_内核函数


代表存在加速卡。或者使用nvidia-smi指令查看是否有NVIDIA加速卡,可以看到当前使用的机器上装有一个Tesla V100加速卡。

go语言闭包 go语言 cuda_CUDA_02

接下来检查nvcc编译器是否正确安装。

nvcc -V

不出意外应该会输出类似的提示????

go语言闭包 go语言 cuda_go语言闭包_03


如果提示bash: nvcc: command not found,说明你的编译器没有安装或者正确安装,参考这里进行安装

  1. 到这里就可以写我们的第一个CUDA 程序了。
    我们编写一个C语言程序输出Hello World,代码如下:
#include<stdio.h>
	int main(void){
	    // hello from cpu
	    printf("Hello World From CPU!\n");
	    return 0;
	}

将代码保存至hello.cu中,然后使用nvcc编译器编译,并执行生成的可执行文件。

go语言闭包 go语言 cuda_CUDA_04


接下来编写一个内核函数,命名为helloFromGPU,用它来输出字符串Hello World from GPU !

__global__ void helloFromGPU(void){
	    printf("Hello World From GPU!\n");
	}

修饰符__global__告诉编译器这个函数会从CPU上调用在GPU上执行。用下面的代码启动内核函数。

helloFromGPU<<<1, 10>>>();

三重尖括号代表从主线程到设备端代码的调用。一个内核函数通过一组线程来执行所有线程执行相同的代码。尖括号中的参数是执行配置,用来说明使用多少线程执行内核函数,上面我们使用10个GPU线程被调用。
Hello World完整程序的如下所示:

#include<stdio.h>
	
	__global__ void helloFromGPU(void){
	    printf("Hello World From GPU!\n");
	}
	
	
	int main(void){
	    // hello from cpu
	    printf("Hello World From CPU!\n");
	
	    // hello from gpu
	    helloFromGPU<<<1, 10>>>();
	    cudaDeviceReset();
	
	    return 0;
	}

函数cudaDeviceReset()用来显式地释放和清空当前进程中与当前设备有关的所有资源。

使用nvcc编译完整版代码,并执行生成的可执行文件,结果如下:

go语言闭包 go语言 cuda_c语言_05


该程序自CPU端输出一条语句,GPU端输出十条语句,其中每个线程输出一条,可以*调整尖括号中的参数,看看会有什么变化。


四、总结

以上就是新手的第一个CUDA C程序了,只是简单实现了主机端调用设备端代码 ,GPU最强的计算还没使用呢,之后的博客再对比多核CPU和GPU的计算性能差异。
如果本文能给你带来帮助的话,点个赞鼓励一下作者吧!

五、参考

[1] 《CUDA C编程入门》