来自英特尔的阴霾

浏览：次发布日期：2025-08-18

　　这样的担忧并非无中生有，因为市场上有很多证据。回顾20世纪90年代，个人电脑主板需要借助多种外置扩展卡，才能完成例如声音处理、网络连接和打印控制等功能。然而随着英特尔持续提升CPU的性能，这些曾经依赖独立硬件的功能逐渐被整合进了主板之中。这让那些曾经生产声卡、网卡和打印卡的厂商退出了历史舞台。

　　到了90年代末，显卡是当时唯一一个还没有被整合进主板的硬件。但是显卡公司忧心忡忡：自己会不会成为下一个被英特尔整合的目标？

　　作为显卡公司的另外一方，英特尔高层对此充满自信，他们始终笃信一个清晰的发展路线：通过不断缩小晶体管的尺寸，同时增加晶体管的数量，从而提升CPU的计算性能。这一信念主要源于两大定律的支撑。

　　第一条是广为人知的摩尔定律，由英特尔联合创始人戈登·摩尔（Gordon Moore）在1965年提出。他最初预测，集成电路中晶体管的数量每年翻一番，后来在1975年将其修正为每两年翻一番。摩尔定律的核心思想是，随着晶体管的尺寸不断变小，数量不断增加，处理器的速度可以不断提升。晶体管是计算机处理器中最基础的电子元件，类似电路中的“开关”，处理器就靠着无数个晶体管的“开关”协作，实现了复杂的计算。处理器的性能和晶体管的数量和尺寸密切相关。简单来说就是，如果我们能在一块处理器内塞入更多、更小的晶体管，这个处理器的计算能力通常就更强。

　　很多年来，芯片行业通过不断微缩晶体管尺寸，使更多更小的晶体管得以集成到一块芯片上，从而持续推动处理器性能的提升。这种技术路线，一直被芯片行业视为黄金法则，并被众多厂商坚定遵循。英特尔公司曾长期相信，通过不断提升单个处理器的计算性能，便能够满足大多数用户的计算需求。然而，英伟达的工程师尼科尔斯（John Nickolls）敏锐地预见，这种技术路线年失效。原因在于，虽然新一代的光刻机可以制造出宽度仅为100个原子的晶体管，但在如此微观的尺度下，晶体管的导电性将会受到影响，导致电流泄漏到周边电路中，并最终限制计算机运行速度的进一步提升。

　　尼科尔斯在2003年初给黄仁勋写了一封信，阐述了这个观点。在信中，尼科尔斯运用电学原理，解释了为何英特尔在半导体行业的长期霸主地位即将终结。黄仁勋后来回忆道：“虽然我们公司已经预见到这种趋势，但尼科尔斯的观点让我确信摩尔定律真的已经走到了尽头。他的远见卓识为我们今天的辉煌成就奠定了重要基础。”

　　英特尔也很快意识到了晶体管微缩面临的极限。为了继续提升CPU性能，他们改变了策略，从提升单核性能，转向在一块CPU芯片中集成多个计算核心的新架构，我们可以把它叫做多核架构。多核架构的概念简单来说就是在一块芯片中加入多个独立的核心，每个核心可以独立处理任务，但共享高速缓存和内存。这样就能够有效提升处理器在并行计算任务中的效率。

　　天博体育平台怎么样

　　简单来说，之前的CPU只有一个核心，因此只会“一心一用”地处理一个任务，干完一件事再接着干下一件事。专业上称之为“串行单任务处理”。如果有了多个核心，这些核心就可以独立地同时工作，这个就叫做“并行”。我们举个例子。假设你是一家奶茶店的老板，雇了一名店员负责为顾客制作奶茶。刚开始，一名店员可以很好地应付所有订单。但到了高峰期，订单一下子多了，这名店员开始忙不过来，那怎么办？

　　第一种方法是让这名店员加快速度，比如更快地搅拌、更快地加入小料、更快地封口。这种方式，就相当于我们之前提到的“在一块处理器内塞入更多、更小的晶体管”能达到的效果。然而，这种方式终究会遇到极限：店员的速度不可能无限提升，当接近某个极限后，就很难再提高了。

　　第二种方法是再招几名店员。这些店员协同工作，从而提高整体效率。例如，当订单数量很多的时候，这些订单会分给不同的店员，这样每个人只需要处理少量订单，就能满足要求了。

　　在2004年，英特尔正式宣布其多核处理器的发展计划，并在2005年推出了首款双核处理器。2006年，他们推出了基于酷睿（Core）架构的CPU，标志着CPU从单核性能导向转向多核架构的全面过渡，后来又推出了四核处理器。许多人可能认为，只需要不断增加CPU的核心数量，CPU性能就能无限接近于理论线性提升。然而，过了几年以后，人们很快发现多核性能提升的效果远远低于预期。多核CPU的发展再次遭遇瓶颈。

　　其中的原因，正是源于程序中不可并行部分的限制。这个问题可以用阿姆达尔定律（Amdahls Law）来解释。这个定律指出，即使任务中有部分工作可以被并行化处理，那些无法并行的串行部分仍会限制整体的性能提升。串行部分占比越高，即使增加再多的资源，性能提升幅度依然会大幅受限。我们来举个例子。

　　家里准备好了面和饺子馅，准备包100个饺子。假设一个人需要2小时完成。那么如果让4个人同时包，能否缩短到半小时（1/4时间），如果让8个人同时包，能否缩短到15分钟呢？显然答案是否定的。包饺子这项任务实际上可以大致分解为两个环节：擀饺子皮和包馅。包馅是可以并行的任务，多个人围在一起包馅，一人一双筷子，彼此之间互不干扰，整体效率自然会翻倍。

　　但如果家里只有一根擀面杖，那么擀饺子皮只能由一个人来做，这个任务就无法并行了。你很容易想象这样一个场景：一个人吭哧吭哧地擀饺子皮，包馅的一群人在旁边眼巴巴地等着。这就是为什么包饺子的效率不一定能随着人数增加而提高。因为这个任务存在一个不能并行化的环节：擀饺子皮。这个环节就成为卡点。

来自英特尔的阴霾(图1)

　　对于多核CPU而言也是如此：假设某个程序有90%的工作可以并行，但剩下10%的工作无法并行。即使配备64核CPU处理这段程序，理论加速比也只有8.76倍，而不是理想状态下的64倍。串行任务的限制，使得核心数量增加的边际收益逐渐递减。阿姆达尔定律的存在，使得CPU性能增速大幅放缓，每年的性能改进被限制在几个百分点之内。而与此同时，游戏玩家对画面效果的追求却在快速提升，渲染所需的算力需求呈指数级增长。无论是单核CPU，还是多核CPU，在面对大规模渲染任务时都显得力不从心。

　　那么，为什么显卡能在渲染任务中大幅超越CPU呢？答案可以归结为两个字：专用。CPU是计算机的大脑，设计上需要处理系统中各种复杂且多样的工作。比如，运行操作系统，执行程序，管理硬件，等等。为了完成这些繁杂的任务，CPU被设计为功能全面的通用处理器，包含大量的硬件组件。而图像渲染任务是一个非常固定的任务。图像渲染过程中，将三维模型转换为二维图像需要经历诸如顶点着色、光栅化、像素着色等步骤，这些步骤本质上是大量的矩阵计算。这些计算都有高度并行性，这意味着每个顶点、像素都可以单独计算，彼此之间几乎没有依赖。

　　而“多面手”CPU并非为这种任务设计，即使通过多核架构将工作分配给多个核心，CPU仍需花费大量时间完成线程调度、任务划分、数据同步和缓存一致性维护等工作。这些额外的操作会迅速增加运行成本，削弱多核架构的效率，进而使其在渲染任务中表现不佳。那么思路就很简单：我们在设计中扔掉那些对于渲染没有用的硬件和相应的软件，为渲染任务量身定制一个处理器架构。这就是显卡。显卡放弃了通用设计而专注于图像渲染。从架构上，显卡摒弃了通用处理器中那些对渲染任务无用的硬件，完全针对图像渲染来设计架构和布置计算单元。此外，我们会在后面介绍，这些计算单元的数量远远超过CPU的核心数量，加上相应的硬件配套（更高的内存带宽等），可以将渲染任务高效并行化。大幅缩小串行部分在整体任务中的比例，大大降低了阿姆达尔定律的影响。

　　这种架构被称为领域专用型架构。与CPU所采用的通用处理器架构相比，它放弃了对非渲染任务的灵活性支持，却换来了在图像渲染上的极致性能。英伟达想明白了这一点，开始在显卡这条道路上狂奔。那么下一步，就是如何提升显卡的性能。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　汪明荃甩380万账单打脸罗家英！抗癌28年AA制婚姻：钱债易算，情债难量

　　因水厂故障长沙部分区域停水，雨花环卫出动40辆洒水车解停水之急：“只要还有区域没水，我们就一直送”

　　NVIDIA从未发布的Titan Ada：用的竟是6×8Pin转双16Pin！最高可达900W

　　vivo Vision探索版混合现实头显搭载Micro-OLED屏，双目8K分辨率

上一篇：英特尔驱动新功能：支持分配 87% 内存给核显作显存
下一篇：收下这份硬件指南助你畅快“打瓦” 返回列表

天博（体育中国）官方网站

首页

关于天博体育

产品中心

天博新闻

技术服务

工程案例

联系天博

来自英特尔的阴霾