深入了解浮点计算--CPU 和 GPU 计算能力的计算方法
随着国家大力发展数字经济,算力的提升和普惠变得越来越重要。在数字化时代,算力已成为推动科技发展和创新的关键要素。它不仅仅是衡量计算机处理速度的标准,还涉及计算机系统或设备执行计算任务的能力、数据处理能力以及解决复杂计算问题的能力。那么算力到底是什么呢?
简单了解算力
算力(Computational Power)在计算机科学和计算领域中是一个重要概念,它指的是计算机系统或设备执行数值计算和处理任务的能力。提升算力意味着可以更快地执行复杂的计算任务,从而提高计算的效率和性能。简单来说,算力决定了计算机处理信息的速度和效率,直接影响我们使用电子设备的体验,例如网页加载速度和游戏流畅度等。
在数字经济时代,算力是新的生产力,为加强数字*建设、激活数据要素潜能以及实现各行各业的数字化转型提供了动力。据中国信息通信研究所的测算,每投入1元的算力,可以带动3至4元的经济产出。算力的提升对经济具有巨大的影响力。根据统计数据显示,每提高一个算力指数点,可以带动数字经济增长 0.36% 和 GDP 增长 0.17%。
那算力大小具体是如何衡量的呢?这里就必须提及浮点运算,接下来我们来了解下浮点运算这个概念。
什么是浮点运算
算力最基本的计量单位是 FLOPS,英文 Floating-point Operations Per Second,即每秒执行的浮点运算次数。浮点运算其实就是带小数的加减乘除运算。
举个例子:1.1+2.2 就是典型的浮点运算,估计你已经心算出结果是 3.3 了。不过对计算机来说,这个问题并不简单。我们知道,计算机是以 0 和 1 构成的二进制数字进行运算的,比如在基础的二进制里,1 就是 1,2 就变成了 “10”,3 是 “11”,这也带来一个问题:计算机能够处理的数字只有整数。其实,0.1 可以看成是1除以10的结果,我们想让计算机计算一个带小数点的数字,只要告诉 CPU 这是一个被 1 后面加了多少个 0 整除的整数就行了。这样一来,计算机在处理小数点的时候,就多了好几个运算步骤。浮点运算的速度也就成了衡量计算机性能的标准。
算力的计量单位,除了 FLOPS,从小到大还有:
- KFLOPS(每秒1000次浮点运算,10^3)
- MFLOPS(每秒1百万次,10^6)
- GFLOPS(每秒10亿次,10^9)
- TFLOPS(每秒1万亿次,10^12)
- PFLOPS(每秒1000万亿次,10^15)
- EFLOPS(每秒100亿亿次,10^18)
浮点数
浮点数的浮点就是指它的小数点的位置是可以是漂浮不定的。这怎么理解呢?其实,浮点数是采用科学计数法的方式来表示的,例如十进制小数 1.234,用科学计数法表示,可以有多种方式:
1.234 = 1.234 * 10^0
1.234 = 12.34 * 10^-1
1.234 = 123.4 * 10^-2
...
用这种科学计数法的方式表示小数时,小数点的位置就变得漂浮不定了。使用同样的规则,对于二进制数,我们也可以用科学计数法表示,也就是说把基数 10 换成 2 即可。那浮点数如何表示数字?其实浮点数是采用科学计数法来表示一个数字的,它的格式可以写成这样:
V = (-1)^S * M * R^E
其中各个变量的含义如下:
- S:符号位,取值 0 或 1,决定一个数字的符号,0 表示正,1 表示负
- M:尾数,用小数表示,例如前面所看到的 1.234 * 10^0,1.234 就是尾数
- R:基数,表示十进制数 R 就是 10,表示二进制数 R 就是 2
- E:指数,用整数表示,例如前面看到的 10^-1,-1 即是指数
如果我们要在计算机中,用浮点数表示一个数字,只需要确认这几个变量即可。
举个例子:将十进制数 0.125 转换为浮点数,我们可以使用二进制浮点数表示。
- 符号位(S):由于数字为正数,所以 S = 0。
- 尾数(M):将小数部分转换为二进制。0.125 的二进制表示为 0.001。
- 基数(R):对于二进制数,R = 2。
- 指数(E):确定指数的值。将 0.125 转换为科学计数法形式可得 0.125 = 1.0 * 2^-3。因此,指数 E = -3。
- 代入公式:V = (-1)^S * M * R^E
将以上值代入公式可得:
V = (-1)^0 * 0.001 * 2^-3 = 0.001 * 0.125
运算结果为 0.000001。因此十进制数 0.125 在二进制浮点数表示下为 0.000001。
计算机中使用有限的连续字节来保存浮点数,而 IEEE 754标准定义了三种常见的浮点数格式:单精度、双精度和扩展双精度,它们适用于不同的计算需求。一般来说,单精度适合一般计算,双精度适合科学计算,扩展双精度适合高精度计算。一个遵循 IEEE 754标准的系统必须支持单精度类型(强制类型),最好也支持双精度类型(推荐类型),而扩展双精度类型则是可选的。
单精度浮点数(FP32)
单精度浮点数格式(英语:single-precision floating-point format)是一种数据类型,在计算机存储器中占用 4 个字节(32 bits),利用 “浮点”(浮动小数点)的方法,可以表示一个范围很大的数值。在 IEEE 754-2008 的定义中,32-bit base 2 格式被正式称为 binary32 格式。这种格式在 IEEE 754-1985 被定义为 single,即单精度。需要注意的是,在更早的一些计算机系统中,也存在着其他 4 字节的浮点数格式。
第 1 位表示正负,中间 8 位表示指数,后 23 位储存有效数位(有效数位是 24 位)。第一位的正负号 0 代表正,1 代表负。中间八位共可表示 2^8 = 256 个数,指数可以是二补码;或 0 到 255,0 到 126 代表 -127 到 -1,127 代表零,128-255 代表 1-128。有效数位最左手边的 1 并不会储存,因为它一定存在(二进制的第一个有效数字必定是1)。换言之,有效数位是 24 位,实际储存 23 位。
举个例子:要将十进制数 0.125 转换为单精度浮点数(32 位)。
遵循 IEEE 754 标准的表示方法,可以按照以下步骤进行转换:
- 符号位(Sign):由于数字为正数,所以符号位为 0。
- 尾数(Fraction):将小数部分转换为二进制。0.125 的二进制表示为 0.001。
- 指数(Exponent):指数的偏移量为 127。由于 0.125 可以表示为 1.0 × 2^(-3),指数为 -3。加上偏移量后,实际指数为 -3 + 127 = 124。将 124 转换为二进制得到 01111100。
- 组合位:将符号位、指数位和尾数位组合在一起,得到单精度浮点数的二进制表示。
最终的二进制表示为:0 01111100 00100000000000000000000
双精度浮点数(FP64)
双精度浮点数(Double Precision Floating Point),也称为 FP64,是一种浮点数数据类型,用于在计算机中表示和进行高精度的浮点数运算。FP64 使用 64 个比特位(8 个字节)来表示一个浮点数,其中 1 位用于表示符号位(正负号),11 位用于表示指数,52 位用于表示尾数。
双精度浮点数的表示形式同样采用科学计数法,即 ±M × 2^E,其中 M 为尾数,E 为指数。通过使用更多的指数位和尾数位,FP64 相对于单精度浮点数能够表示更广范围和更高精度的数值。
举个例子:将十进制数 0.125 转换为双精度浮点数(64位)。
遵循 IEEE 754 标准的表示方法,可以按照以下步骤进行转换:
- 符号位(Sign):由于数字为正数,所以符号位为 0。
- 尾数(Fraction):将小数部分转换为二进制。0.125 的二进制表示为 0.001。
- 指数(Exponent):指数的偏移量为 1023。由于 0.125 可以表示为 1.0 × 2^(-3),指数为 -3。加上偏移量后,实际指数为 -3 + 1023 = 1020。将 1020 转换为二进制得到 01111111100。
- 组合位:将符号位、指数位和尾数位组合在一起,得到双精度浮点数的二进制表示。
最终的二进制表示为:0 01111111100 0010000000000000000000000000000000000000000000000000
双精度浮点数的取值范围约为 ±4.9 × 10^-324 到 ±1.8 × 10^308,并提供大约 15 到 16 位有效数字的精度。相比于单精度浮点数,双精度浮点数能够处理更大范围的数值和提供更高的精度,适用于对精确性要求较高的计算任务。
双精度浮点数常用于科学计算、工程应用、金融分析和高性能计算等领域。它在这些领域中被广泛用于处理实数数据,如数值模拟、大规模计算、天文学、物理学和工程计算等。
然而,需要注意的是,双精度浮点数的存储空间和计算开销相对于单精度浮点数更高。在某些情况下,如果对精度要求不高或者计算资源有限,可以考虑使用单精度浮点数进行计算,以提高计算效率和节省内存消耗。
浮点数的舍入
由于浮点数计算过程中丢失了精度,浮点运算的性质与数学运算有所不同。任何有效数上的运算结果,通常都存放在较长的寄存器中,当结果被放回浮点格式时,必须将多出来的比特丢弃。IEEE 标准列出 4 种不同的方法:
- 舍入到最接近:舍入到最接近,在一样接近的情况下偶数优先(Ties To Even,这是默认的舍入方式):会将结果舍入为最接近且可以表示的值,但是当存在两个数一样接近的时候,则取其中的偶数(在二进制中是以0结尾的)。
- 朝 +∞ 方向舍入:会将结果朝正无限大的方向舍入。
- 朝 -∞ 方向舍入:会将结果朝负无限大的方向舍入。
- 朝 0 方向舍入:会将结果朝 0 的方向舍入。
单、双精度的应用场景
单精度浮点数通常应用在需要较高计算速度的场景,例如嵌入式系统和移动设备。在这些应用中,对于一些实时性要求较高的任务,如图形渲染、音视频处理等,单精度浮点数能够提供足够的精度,并且在存储和计算上更加高效,能够满足实时性和资源限制的需求。此外,单精度浮点数也广泛应用于科学研究和工程领域中的数值计算,包括求解方程、模拟物理过程等。在这些领域中,单精度浮点数的精度已经足够满足大部分的计算需求,同时可以提高计算速度和节省存储空间。
双精度浮点数主要应用于需要更高精度的场景,如科学计算、工程计算、金融分析等。在这些领域中,对计算结果的精确性要求较高,需要更多的有效数字来表示和处理实数。双精度浮点数能够提供更高的精度和更大的表示范围,能够处理更复杂和精细的计算任务。在科学计算中,如天文学、数值模拟等领域,双精度浮点数常常用于求解复杂的数学模型和算法,以获得更准确的结果。在金融分析中,双精度浮点数可以处理更大的数值范围和更高的精度,确保计算结果的准确性和可靠性。
总之,选择单精度还是双精度浮点数应根据具体应用的需求来决定,需要权衡计算速度、精度要求和资源限制等因素。单精度浮点数适用于对计算速度要求较高且精度要求不是特别严格的场景,而双精度浮点数适用于对精度要求更高的科学计算和工程领域。
CPU 和 GPU 的算力计算
目前服务器的算力主要包括 CPU 和 GPU 等不同芯片产生的算力。那具体到每台服务器的算力,究竟如何计算呢?
CPU 的算力计算
我们以 CPU 的双精度浮点运算能力(FP64)为例,单个 CPU 的算力,与 CPU 核心的个数、频率、单时钟周期浮点计算能力 3 个因素有关。
单 CPU 算力 = CPU 核数 * 单核主频 * 单周期浮点计算能力
以 Intel Cascade Lake 架构的 Xeon Platinum 8280 为例,该 CPU 具有 28 个核心,主频为 2.7GHz,并支持 AVX512 指令集。根据提供的信息,我们可以计算出该 CPU 的双精度浮点运算能力(FP64)。
首先,计算单个 CPU 核心的单周期浮点计算能力:
单周期浮点计算能力 = 512bit * 2FMA * 2M/A / 64bit = 32 FLOPS/Cycle
然后,计算单个 CPU 核心的峰值浮点运算能力:
单个 CPU 核心的峰值浮点运算能力 = 单周期浮点计算能力 * 主频 = 32 FLOPS/Cycle * 2.7 GHz
最后,计算整个 CPU 的峰值浮点运算能力:
单 CPU 算力 = CPU 核数 * 单个 CPU 核心的峰值浮点运算能力 = 28 cores * 单个CPU核心的峰值浮点运算能力
根据提供的数据,计算得到:
单个 CPU 核心的峰值浮点运算能力 = 32 FLOPS/Cycle * 2.7 GHz = 86.4 GFLOPS
单 CPU 算力 = 28 cores * 86.4 GFLOPS = 2.4192 TFLOPS
因此,以 Intel Cascade Lake 架构的 Xeon Platinum 8280 为例,该 CPU 的理论峰值双精度浮点性能为 2.4192 TFLOPS。
注:该计算是理论值,实际性能可能受到多种因素(如指令级并行性、内存访问延迟等)的影响。
GPU 的算力计算
GPU 的算力与上面的计算方法类似。单个 GPU 算力也是与核心个数、频率、单时钟周期能力 3 个因素有关。
以 NVIDIA Volta 架构的 V100 为例,该 GPU 拥有 2560 个双精度浮点核心(FP64 cores),主频为 1.530GHz。
根据提供的信息,我们可以计算出该 GPU 的双精度浮点运算能力(FP64)。
首先,计算单个 GPU 核心的单周期浮点计算能力:
单周期浮点计算能力 = 64bit * 1FMA * 2M/A / 64bit = 2 FLOPS/Cycle
然后,计算单个 GPU 核心的峰值浮点运算能力:
单个 GPU 核心的峰值浮点运算能力 = 单周期浮点计算能力 * 主频 = 2 FLOPS/Cycle * 1.530 GHz
最后,计算整个 GPU 的峰值浮点运算能力:
单 GPU 算力 = GPU 核数 * 单个 GPU 核心的峰值浮点运算能力 = 2560 cores * 单个 GPU 核心的峰值浮点运算能力
根据提供的数据,计算得到:
单个 GPU 核心的峰值浮点运算能力 = 2 FLOPS/Cycle * 1.530 GHz = 3.060 GFLOPS
单 GPU 算力 = 2560 cores * 3.060 GFLOPS = 7833 GFLOPS = 7.833 TFLOPS
因此,以 NVIDIA Volta 架构的 V100 为例,该 GPU 的理论峰值双精度浮点性能为 7.833 TFLOPS。
注:该计算是理论值,实际性能可能受到多种因素(如内存带宽、功耗限制等)的影响。
聊了这么多,相信大家对 CPU、GPU 的算力计算和浮点运算都有了一定的了解,虽然看起来比较复杂,其实还是比较好理解的。大家也可以收藏下这篇内容,以备不时之需。
近期,又拍云与厚德云联合推出了全新的 GPU 产品,新用户注册即可免费体验 RTX4090 GPU。您可以通过一键搭建 CUDA、Stable Diffusio n等开发环境,轻松快捷地体验强大的 GPU 算力,有兴趣的同学点击阅读原文即可免费体验 RTX4090 GPU。
传送门:
RTX4090 GPU免费体验
上一篇: [模式识别] 学习笔记 (5) >>> [潜在函数,贝叶斯分类器] [未完成
下一篇: 机器学习 p 值计算 p 值计算示例 - 备选假设也很重要:当 p 值为 0.05 时,如果备选假设出现的概率很高,则相关错误率至少为 12%,而如果备选假设几乎不会出现,则相关错误率至少为 76%。
推荐阅读
-
深入了解浮点计算--CPU 和 GPU 计算能力的计算方法
-
windows下进程间通信的(13种方法)-摘 要 本文讨论了进程间通信与应用程序间通信的含义及相应的实现技术,并对这些技术的原理、特性等进行了深入的分析和比较。 ---- 关键词 信号 管道 消息队列 共享存储段 信号灯 远程过程调用 Socket套接字 MQSeries 1 引言 ---- 进程间通信的主要目的是实现同一计算机系统内部的相互协作的进程之间的数据共享与信息交换,由于这些进程处于同一软件和硬件环境下,利用操作系统提供的的编程接口,用户可以方便地在程序中实现这种通信;应用程序间通信的主要目的是实现不同计算机系统中的相互协作的应用程序之间的数据共享与信息交换,由于应用程序分别运行在不同计算机系统中,它们之间要通过网络之间的协议才能实现数据共享与信息交换。进程间通信和应用程序间通信及相应的实现技术有许多相同之处,也各有自己的特色。即使是同一类型的通信也有多种的实现方法,以适应不同情况的需要。 ---- 为了充分认识和掌握这两种通信及相应的实现技术,本文将就以下几个方面对这两种通信进行深入的讨论:问题的由来、解决问题的策略和方法、每种方法的工作原理和实现、每种实现方法的特点和适用的范围等。 2 进程间的通信及其实现技术 ---- 用户提交给计算机的任务最终都是通过一个个的进程来完成的。在一组并发进程中的任何两个进程之间,如果都不存在公共变量,则称该组进程为不相交的。在不相交的进程组中,每个进程都独立于其它进程,它的运行环境与顺序程序一样,而且它的运行环境也不为别的进程所改变。运行的结果是确定的,不会发生与时间相关的错误。 ---- 但是,在实际中,并发进程的各个进程之间并不是完全互相独立的,它们之间往往存在着相互制约的关系。进程之间的相互制约关系表现为两种方式: ---- (1) 间接相互制约:共享CPU ---- (2) 直接相互制约:竞争和协作 ---- 竞争——进程对共享资源的竞争。为保证进程互斥地访问共享资源,各进程必须互斥地进入各自的临界段。 ---- 协作——进程之间交换数据。为完成一个共同任务而同时运行的一组进程称为同组进程,它们之间必须交换数据,以达到协作完成任务的目的,交换数据可以通知对方可以做某事或者委托对方做某事。 ---- 共享CPU问题由操作系统的进程调度来实现,进程间的竞争和协作由进程间的通信来完成。进程间的通信一般由操作系统提供编程接口,由程序员在程序中实现。UNIX在这个方面可以说最具特色,它提供了一整套进程间的数据共享与信息交换的处理方法——进程通信机制(IPC)。因此,我们就以UNIX为例来分析进程间通信的各种实现技术。 ---- 在UNIX中,文件(File)、信号(Signal)、无名管道(Unnamed Pipes)、有名管道(FIFOs)是传统IPC功能;新的IPC功能包括消息队列(Message queues)、共享存储段(Shared memory segment)和信号灯(Semapores)。 ---- (1) 信号 ---- 信号机制是UNIX为进程中断处理而设置的。它只是一组预定义的值,因此不能用于信息交换,仅用于进程中断控制。例如在发生浮点错、非法内存访问、执行无效指令、某些按键(如ctrl-c、del等)等都会产生一个信号,操作系统就会调用有关的系统调用或用户定义的处理过程来处理。 ---- 信号处理的系统调用是signal,调用形式是: ---- signal(signalno,action) ---- 其中,signalno是规定信号编号的值,action指明当特定的信号发生时所执行的动作。 ---- (2) 无名管道和有名管道 ---- 无名管道实际上是内存中的一个临时存储区,它由系统安全控制,并且独立于创建它的进程的内存区。管道对数据采用先进先出方式管理,并严格按顺序操作,例如不能对管道进行搜索,管道中的信息只能读一次。 ---- 无名管道只能用于两个相互协作的进程之间的通信,并且访问无名管道的进程必须有共同的祖先。 ---- 系统提供了许多标准管道库函数,如: pipe——打开一个可以读写的管道; close——关闭相应的管道; read——从管道中读取字符; write——向管道中写入字符; ---- 有名管道的操作和无名管道类似,不同的地方在于使用有名管道的进程不需要具有共同的祖先,其它进程,只要知道该管道的名字,就可以访问它。管道非常适合进程之间快速交换信息。 ---- (3) 消息队列(MQ) ---- 消息队列是内存中独立于生成它的进程的一段存储区,一旦创建消息队列,任何进程,只要具有正确的的访问权限,都可以访问消息队列,消息队列非常适合于在进程间交换短信息。 ---- 消息队列的每条消息由类型编号来分类,这样接收进程可以选择读取特定的消息类型——这一点与管道不同。消息队列在创建后将一直存在,直到使用msgctl系统调用或iqcrm -q命令删除它为止。 ---- 系统提供了许多有关创建、使用和管理消息队列的系统调用,如: ---- int msgget(key,flag)——创建一个具有flag权限的MQ及其相应的结构,并返回一个唯一的正整数msqid(MQ的标识符); ---- int msgsnd(msqid,msgp,msgsz,msgtyp,flag)——向队列中发送信息; ---- int msgrcv(msqid,cmd,buf)——从队列中接收信息; ---- int msgctl(msqid,cmd,buf)——对MQ的控制操作; ---- (4) 共享存储段(SM) ---- 共享存储段是主存的一部分,它由一个或多个独立的进程共享。各进程的数据段与共享存储段相关联,对每个进程来说,共享存储段有不同的虚拟地址。系统提供的有关SM的系统调用有: ---- int shmget(key,size,flag)——创建大小为size的SM段,其相应的数据结构名为key,并返回共享内存区的标识符shmid; ---- char shmat(shmid,address,flag)——将当前进程数据段的地址赋给shmget所返回的名为shmid的SM段; ---- int shmdr(address)——从进程地址空间删除SM段; ---- int shmctl (shmid,cmd,buf)——对SM的控制操作; ---- SM的大小只受主存限制,SM段的访问及进程间的信息交换可以通过同步读写来完成。同步通常由信号灯来实现。SM非常适合进程之间大量数据的共享。 ---- (5) 信号灯 ---- 在UNIX中,信号灯是一组进程共享的数据结构,当几个进程竞争同一资源时(文件、共享内存或消息队列等),它们的操作便由信号灯来同步,以防止互相干扰。 ---- 信号灯保证了某一时刻只有一个进程访问某一临界资源,所有请求该资源的其它进程都将被挂起,一旦该资源得到释放,系统才允许其它进程访问该资源。信号灯通常配对使用,以便实现资源的加锁和解锁。 ---- 进程间通信的实现技术的特点是:操作系统提供实现机制和编程接口,由用户在程序中实现,保证进程间可以进行快速的信息交换和大量数据的共享。但是,上述方式主要适合在同一台计算机系统内部的进程之间的通信。 3 应用程序间的通信及其实现技术 ---- 同进程之间的相互制约一样,不同的应用程序之间也存在竞争和协作的关系。UNIX操作系统也提供一些可用于应用程序之间实现数据共享与信息交换的编程接口,程序员可以通过自己编程来实现。如远程过程调用和基于TCP/IP协议的套接字(Socket)编程。但是,相对普通程序员来说,它们涉及的技术比较深,编程也比较复杂,实现起来困难较大。 ---- 于是,一种新的技术应运而生——通过将有关通信的细节完全掩盖在某个独立软件内部,即底层的通讯工作和相应的维护管理工作由该软件内部来实现,用户只需要将通信任务提交给该软件去完成,而不必理会它的具体工作过程——这就是所谓的中间件技术。 ---- 我们在这里分别讨论这三种常用的应用程序间通信的实现技术——远程过程调用、会话编程技术和MQSeries消息队列技术。其中远程过程调用和会话编程属于比较低级的方式,程序员参与的程度较深,而MQSeries消息队列则属于比较高级的方式,即中间件方式,程序员参与的程度较浅。 ---- 4.1 远程过程调用(RPC)
-
轻松掌握GPU技术:了解显卡、显存、计算能力和能效管理的关键点