苹果自家CPU为何如此强大?
大家都知道苹果有两大自研芯片系列:面向手机iPhone的A系列(最新款是A16)和面向 MacBook Air、Mac Mini、MacBook Pro、iMac 甚至 iPad Pro芯片的M系列,在性能上分别吊打移动领域王者高通骁龙和PC领域的老牌霸主英特尔/AMD。苹果是因为什么样的勇气,让自研CPU这么强?
“捅破天”的A16仿生处理器
苹果每年9月都会举办新品发布会,最亮眼的便是最新iPhone系列发布。苹果正在依靠配置和设计差异给新品“分层”,今年的iPhone 14系列沿用了上代iPhone的A15仿生处理器,虽然A15性能也算强劲,但果粉很难忽略它是“上代芯片”的事实,iPhone 14 Pro系列上的A16仿生处理器才是“王炸”。
当我们谈论“新iPhone配置升级”,我们主要在谈论什么?显然,最重要的是芯片和拍照。iPhone 14 Pro系列上的A16仿生处理器,性能参数了解一下:
- 采用台积电4nm工艺制程,功耗相比A15降低20%,过去大家诟病的发热情况应该也能极大改善(参考高通骁龙8+ Gen1);
- 集成了160亿个晶体管,采用6核*处理器、5核图形处理器;A16的6核CPU相比A15的性能提升了42%,GPU性能提升了35%,显存带宽提升50%;
- NPU拥有16个核心,可实现每秒17万亿次运算……
▲图源:Apple官网
博主钟文泽对iPhone 14 Pro系列的A16仿生芯片测试结果如下:
- 在Geekbench 5中,A16仿生芯片单核1875分,多核5454分,A15仿生芯片单核成绩1731,多核成绩4758。从成绩来看,A16对比上一代A15芯片,虽然有点“挤牙膏”式创新的嫌疑,但遥遥领先安卓阵营,堪称“捅破天”。
- 作为对比,安卓阵营骁龙8+单核成绩不到1400分,多核成绩在4300分左右。
此外,A16搭载先进的图像信号处理器,驱动四合一像素传感器带来广阔的创作空间,其搭载的神经网络引擎运算能力接近每秒17万亿次,可逐颗像素分析并优化照片。值得注意的是,苹果A16芯片拥有安全隔区,守护用户的面容ID数据、通讯录等个人信息安全。
性能炸裂的M1 & M2系列
苹果自研 M1 芯片于2020 年末发布,它被塞进了 MacBook Air、Mac Mini、MacBook Pro、iMac 甚至 iPad Pro 里。之后,以 M1 芯片为构架基础的 M1 Pro 与 M1 Max 全面替代了之前苹果笔记本里的 CPU。在很多性能测试跑下来,不到 1/3 的功耗即可获得与传统电脑同样的性能,让消费者大赞。2022 年 3 月发布的 M1 系列的最高型号 M1 Ultra,性能与 Intel 刚刚发布的 12900K 桌面处理器不分伯仲。
M1芯片在执行任务时有哪些优势?
苹果是从 2004 年起把自家笔记本的 CPU 从 IBM 的 Power 系列换到了 Intel 的酷睿系列,原因是 Intel 的 CPU 的性能功耗比远超过 IBM。2020 年,苹果又完全舍弃 Intel,用上了自己的 CPU,原因如出一辙,自研 CPU M1系列在性能功耗上比 Intel 好一大截。
本质上,苹果 M1 系列 CPU 与 Intel 酷睿系列和AMD 的 Zen3 系列,构架上高度类似,但为什么 M1 会强那么多?
CPU 在执行任务时,会遵循“取指令 - 指令译码 - 指令执行 - 对内存的读取 - 结果写回”这 5 个步骤进行。
- “取指令”这个步骤中,取来的指令会放在一级缓存里,所以如果一级缓存够大,就有利于 CPU 提高性能。M1 的一级缓存是 192 KB,比 Intel 和 AMD 的 32 KB 大了 5 倍。
- “指令译码”是将外部指令翻译成 CPU 可以看懂的语言。数量上,M1 设置了 8 个解码器,Intel 酷睿是 5 个,AMD Zen3是 4 个。这 3 款 CPU 内部都运行 RISC指令(精简指令集,每一条的长度、执行时间固定,不能太复杂,如果要完成复杂动作,需要堆叠多条 RISC 指令)。而苹果M1输入 CPU 的指令 RISC 指令,Intel 酷睿和 AMD Zen3是 X86 指令(CISC指令,复杂指令集,长度不固定、执行时间也不固定,可用一条指令执行较复杂的任务,而不用堆叠好多条)。显而易见,Intel 和 AMD 的 CPU 比苹果M1多出一道把 CISC 翻译成 RICS的手续,耗能、耗时间。
- “指令执行”的执行单元越多,速度越快,整体性能越高。以浮点运算这个当今对性能影响最直接的指标来看,M1、Intel 和 AMD 规划了一样多的资源,2 个 256 bit 的执行单元。但寄存器(临时存放整数和浮点部分的单元), M1 更强,是一个 354 + 384 的结构,而 Intel 是 180 + 168,AMD 是 192 + 168。
- 苹果M1 规划了巨大的二级缓存资源,每个核心都布设了 3 MB 的二级缓存。Intel 是每核心 1.25 MB,AMD 是每核心 0.5 MB。二级缓存大,意味着有更多的将被使用的指令可以提前预备好,送进 CPU 的速度更快。M1通过集成更大的缓存降低延迟,而传统CPU靠读取内存条,速度自然就满了。
- 苹果M1拉大了与传统CPU内存带宽上的差距。M1 Ultra 可以达到 800 GB/s,M1 Pro 和M1是 200 GB,而 Intel 和 AMD 大约只能有 50 GB/s - 60 GB/s。于是,在高清视频剪辑这种每秒都有几十 GB 实时数据传递的任务里,苹果笔记本的处理效率就非常高。
- 当我们在2022 年 6 月 7 日,苹果在 WWDC 发布会上发布了自己的 M2 处理器。相比 M1 处理器的那次发布会来说,M2 的影响要小得多。但我们还是可以从 M2 的应用和介绍中,看出苹果公司的产品思路和半导体行业的突破方向。
M2处理器的规格和背后的含义
今年6月,苹果在 WWDC (全球开发者大会)上发布了自研的 M2 处理器。M2 采用台积电第二代 5nm 工艺,从 N5 工艺升级到 N5P 工艺,在相同的功耗下,第二代比第一代性能强 5%。
这种提升算大还是算小呢?2012 年之前,设计功耗相同的情况下,下一代产品性能提升 25% - 50%;即便在后来性能挤牙膏的年代,下一代比上一代性能提升 10% 是一个及格的门槛。是什么因素让苹果有勇气将不到及格门槛的提升,当作下一代产品发布?
勇气来自 M2 处理器的晶体管数量。M2 的晶体管数量是 200 亿, M1 是 160 亿,数量上提升了 25%。再叠加工艺上 5% 的提升,综合起来性能比 M1 提升了 18%。
神经引擎的数量,M1 和 M2 都是 16 个核心,但 M2 的速度快了 40%,提升较大,很可能与频率的提升有关。
新增加的 40 亿个晶体管都增加在哪里了呢?主要是两方面 —— 图形核心从 8 个增加到 10 个,提升了 25%;内存从 16GB 提升到 24GB。因此,M2 实际上就是扩大版的 M1。
苹果的发布会上还提到了,M2 和最新的其他品牌的 10 核心 CPU 相比,在 15 瓦功耗下,性能是对方的 1.9 倍。而如果对比峰值性能,那个 10 核 CPU 功耗在 30 瓦时释放的性能,对 M2 来说,只需要不到 8 瓦就能实现。听起来好像是 M2 优势炸裂,但实质上这些优势主要源于 M1 的性能提升,M2 相比 M1 来说,只有微小的改进,也就是由那 5% 的工艺改进带来的提升。而前一代处理器 M1 在能耗表现上为什么那么出色,一是 M 系列处理器不计成本的堆料,从而获得了超级性能,二是在指令翻译过程中利用格式统一的优点节省了大量能耗。
苹果处理器为什么敢不计成本地堆料?
Intel 和 AMD 的CPU一直以来都在比拼最高性能,有时甚至不惜让功耗增加一倍换来性能 10% 左右的提升。这就导致了一种现象的出现,内置Intel/AMD CPU 内核的笔记本,插上电源和不插电源的时候,性能会相差 30% - 40%。在插上电源时,系统按最大性能运行;而只用电池续航时,系统会强制 CPU 和 GPU 以低频、低压运行,性能巨幅下降。
使用 M1 构架的苹果笔记本完全不存在这样的设定,用电池和用电源时的性能都完全一样,可以不用带电源适配器,办公一整天也绝对保证续航。
CPU 的性能优劣,并不是靠在某个环节上猛堆料实现的。因为计算过程是一条流水线,线上任何一点的瓶颈都决定了 CPU 的最大性能。M1 比传统 CPU 好就好在,它在任何环节都堆了猛料。
一分钱一分货,苹果M1 堆料的结果就是,这颗 CPU 的成本要比 Intel 和 AMD 的贵上几倍到十几倍。业内分析,M1 Ultra 的制造成本在 350 美元左右,而 Intel 和 AMD * CPU 的成本也就只有几十美元。
为什么苹果敢做这么贵的 CPU ?本质是因为苹果卖整机而不卖 CPU。
如果 Intel 和 AMD 的CPU制造成本就要 350 美元的话,研发成本假设按 50 美元/颗计算,总成本就是 400 美元,售价估计直奔 2000 美元。而今天市场上,最畅销的CPU 型号的售价普遍在 200 - 400 美元之间。所以,Intel 和 AMD 都不会规划那么豪华的构架。
苹果高价位只卖整机,5000 - 8000 美元一台,在最关键部件分配 350 美元成本是合理的。
苹果处理器的发展方向
WWCD发布会上还透露,M2 的进阶款,也就是 M2 Pro、M2 Max 会在之后量产,而且工艺会提升到 3nm。台积电给出的参照是,3nm 对应的N3工艺,它在同功耗下的性能比 N5P 提升 10% - 15%。仅从这一点看,就已经是比较可观的提升了。
只卖成品笔记本、平板或者手机的苹果,可以通过M1构架的不断堆叠,堆 2 倍、堆 3 倍、堆 7 倍,从移动端到笔记本再到台式机再到一体机,各种平台通用。通过大幅度地使用一款基础产品,通过扩大规模来平移到各个产品之中,进一步压缩研发费用,这一点也只有苹果可以做到。
我们是否可以期待苹果的 M 系列处理器的飞跃式的提升吗?答案似乎是否定的。预测在苹果的有生之年,处理器的提升将会一直是稳步小幅的态势。今后的 M2、M3、M4 相比前一代的提升,大约都会与M2较M1的提升类似,成品状态下最多提升 25%。当前的苹果自研CPU是根据自身需求高度定制化的,其他厂商已经全都不能满足苹果的要求了。而自研的处理器从 2020 年量产后,就马上应用到苹果几乎全部的主力产品。目前,其他处理器在功耗比上大幅超越苹果的可能性几乎没有,苹果即没有市场需求也缺乏自身动力来推动处理器性能大幅提升。
半导体行业的突破
从苹果 M2 映射出的半导体行业工艺改进对处理器性能提升的作用变得越来越小了。在 2012 年之前的五十多年里,整个行业基本遵循摩尔定律,维持每 18 个月晶体管密度提升 100% 的速度。而 2020 年之后,最好情况是每 18 个月提升 30%,未来,这个提升的速度今后还会越来越慢。留给传统材料的半导体在工艺上可改进的空间已经不多了。
以台积电为例,从 2020 年末量产 5nm 到 2022 年末量产 3nm,24 个月里,晶体管密度从 1.73 亿 / 平方毫米提升到 2.9 亿 / 平方毫米,相当于每 18 个月提升 29%。按台积电的规划,2nm 会在 2025 年末量产,相比于 3nm 的 2022 年末正好是 36 个月,2nm 的晶体管密度是 4.9 亿 / 平方毫米。从 3nm 升级到 2nm 的速度,相当于每 18 个月提升 34%。这是全球半导体工艺水准最好的台积电的水平,三星和英特尔的速度低于30%。
半导体行业飞跃式的突破,只有在换用其他材料做处理器的开关管后才能发生。我们期待新一代半导体材料为行业带来突破。
下一篇: 对比分析:A15架构和M1的异同
推荐阅读
-
Windows 兼容性为何如此强大?
-
苹果自家CPU为何如此强大?
-
OPPO自家研发的芯片,比苹果A15还强大!
-
神经网络推理加速入门--GPU 为何如此强大
-
聊天GPT为何突然变得如此强大?华人博士万字长文深度拆解GPT-3.5能力的由来(2)
-
三分钟带你了解手机内部硬件-主要影响手机性能的有以下几点 CPU - *处理器(手机中的大脑) CPU 是计算思考以及处理事物的。 比如:我们日常玩手机,什么最重要?毫无疑问是手机打开软件很流畅,使用各种功能不卡。 这就是CPU的性能,那什么影响 CPU 的因素有哪些? 架构 架构是 CPU 的基础,对于处理器的整体性能起到了决定性的作用,不同架构的处理器同主频下,性能差距可以达到2-5倍。可见架构的重要性。 那么什么是架构呢? 打个比方,架构就是一栋楼的框架。至于最终楼什么样子,就由处理器的厂商决定了,但是有一点,如果说这栋楼房的结构设计出来容纳多少人,那么最后建好的房子也要在这个范围内。同理,如果使用相同架构的处理器,那么本质上不会有太大的区别。 看一下主流手机的架构 处理器对比.jpg 从上图可见:高通 和 苹果都是自主设计,所以说它们牛还是有一定的道理的。不同的架构, 性能和功耗也是不同的。架构决定了 主频、核心数、带宽等和运算量直接相关的东西。目前很多手机打广告都是说 多少核的机器。但是并不是说核越多性能就越强,你没看见,苹果双核就能吊打高通和联发科吗? 制程 制程 专指:事物运作程序的处理过程。常指手机芯片框架的运算速度量。 简单的说就是电路板中电路与电路之间的距离,目前已经发展到纳米级别。 制程越小,可以向芯片中塞入更多的晶体管,随之而来的好处还有:降低电量和成本、散热。 制程数的确定 这里有人要问,为什么制程的数字是这些,而不是别的数字,比如有28nm,为什么没有29nm? 这其实是有一定规律的。根据早期国际半导体蓝图规划,由五个在相关领域较为发达的国家共同制定,约定下一代制程要在上一代基础上做到晶体管数量不变,芯片面积缩小一半。由这一关系可以算出前一代制程要比后一代大√2倍,所以能算出后一代大概数值。纵观整个处理器制程变化,除了少部分特殊的外,都遵循着这一规则。 近代制程的发展 2014 年底,三星宣布了世界首个 14nm FinFET 3D 晶体管进入量产,标志着半导体晶体管进入 3D 时代。发展到今天,三星拥有了四代 14nm 工艺,第一代是苹果 A9 上面的 FinFET LPE(Low Power Early),第二代则是用在猎户座 骁龙 820 和骁龙 625 上面的 FinFET LPP(Low Power Plus)。第三代是 FinFET LPC,第四代则是目前的 FinFET LPU。至于 10nm 工艺,三星则更新到了第三代(LPE/LPP/LPC)。 目前为止,三星已经将 70000 多颗第一代 LPE(低功耗早期)硅晶片交付给客户。三星自家的猎户座 8895,以及高通的骁龙 835,都采用这种工艺制造,而 10nm 第二代 LPP 版和第三代 LPU 版将分别在年底和明年进入批量生产。 手机芯片市场上已经进入了 10nm、7nm 处理器的白热化竞争阶段,而 14/16nm 制程的争夺也不过是一两年前的事。 总线位宽 总线位宽决定输入/输出设备之间一次数据传输的信息量,用位(bit)表示,如总线宽度为8位、16位、32位和64位。