天博(体育中国)官方网站

来自英特尔的阴霾-天博体育官方入口
天博体育官方入口
 
 

来自英特尔的阴霾

浏览:次    发布日期:2025-08-18

  这样的担忧并非无中生有,因为市场上有很多证据。回顾20世纪90年代,个人电脑主板需要借助多种外置扩展卡,才能完成例如声音处理、网络连接和打印控制等功能。然而随着英特尔持续提升CPU的性能,这些曾经依赖独立硬件的功能逐渐被整合进了主板之中。这让那些曾经生产声卡、网卡和打印卡的厂商退出了历史舞台。

  到了90年代末,显卡是当时唯一一个还没有被整合进主板的硬件。但是显卡公司忧心忡忡:自己会不会成为下一个被英特尔整合的目标?

  作为显卡公司的另外一方,英特尔高层对此充满自信,他们始终笃信一个清晰的发展路线:通过不断缩小晶体管的尺寸,同时增加晶体管的数量,从而提升CPU的计算性能。这一信念主要源于两大定律的支撑。

  第一条是广为人知的摩尔定律,由英特尔联合创始人戈登·摩尔(Gordon Moore)在1965年提出。他最初预测,集成电路中晶体管的数量每年翻一番,后来在1975年将其修正为每两年翻一番。摩尔定律的核心思想是,随着晶体管的尺寸不断变小,数量不断增加,处理器的速度可以不断提升。晶体管是计算机处理器中最基础的电子元件,类似电路中的“开关”,处理器就靠着无数个晶体管的“开关”协作,实现了复杂的计算。处理器的性能和晶体管的数量和尺寸密切相关。简单来说就是,如果我们能在一块处理器内塞入更多、更小的晶体管,这个处理器的计算能力通常就更强。

  很多年来,芯片行业通过不断微缩晶体管尺寸,使更多更小的晶体管得以集成到一块芯片上,从而持续推动处理器性能的提升。这种技术路线,一直被芯片行业视为黄金法则,并被众多厂商坚定遵循。英特尔公司曾长期相信,通过不断提升单个处理器的计算性能,便能够满足大多数用户的计算需求。然而,英伟达的工程师尼科尔斯(John Nickolls)敏锐地预见,这种技术路线年失效。原因在于,虽然新一代的光刻机可以制造出宽度仅为100个原子的晶体管,但在如此微观的尺度下,晶体管的导电性将会受到影响,导致电流泄漏到周边电路中,并最终限制计算机运行速度的进一步提升。

  尼科尔斯在2003年初给黄仁勋写了一封信,阐述了这个观点。在信中,尼科尔斯运用电学原理,解释了为何英特尔在半导体行业的长期霸主地位即将终结。黄仁勋后来回忆道:“虽然我们公司已经预见到这种趋势,但尼科尔斯的观点让我确信摩尔定律真的已经走到了尽头。他的远见卓识为我们今天的辉煌成就奠定了重要基础。”

  英特尔也很快意识到了晶体管微缩面临的极限。为了继续提升CPU性能,他们改变了策略,从提升单核性能,转向在一块CPU芯片中集成多个计算核心的新架构,我们可以把它叫做多核架构。多核架构的概念简单来说就是在一块芯片中加入多个独立的核心,每个核心可以独立处理任务,但共享高速缓存和内存。这样就能够有效提升处理器在并行计算任务中的效率。

  天博体育平台怎么样

  简单来说,之前的CPU只有一个核心,因此只会“一心一用”地处理一个任务,干完一件事再接着干下一件事。专业上称之为“串行单任务处理”。如果有了多个核心,这些核心就可以独立地同时工作,这个就叫做“并行”。我们举个例子。假设你是一家奶茶店的老板,雇了一名店员负责为顾客制作奶茶。刚开始,一名店员可以很好地应付所有订单。但到了高峰期,订单一下子多了,这名店员开始忙不过来,那怎么办?

  第一种方法是让这名店员加快速度,比如更快地搅拌、更快地加入小料、更快地封口。这种方式,就相当于我们之前提到的“在一块处理器内塞入更多、更小的晶体管”能达到的效果。然而,这种方式终究会遇到极限:店员的速度不可能无限提升,当接近某个极限后,就很难再提高了。

  第二种方法是再招几名店员。这些店员协同工作,从而提高整体效率。例如,当订单数量很多的时候,这些订单会分给不同的店员,这样每个人只需要处理少量订单,就能满足要求了。

  在2004年,英特尔正式宣布其多核处理器的发展计划,并在2005年推出了首款双核处理器。2006年,他们推出了基于酷睿(Core)架构的CPU,标志着CPU从单核性能导向转向多核架构的全面过渡,后来又推出了四核处理器。许多人可能认为,只需要不断增加CPU的核心数量,CPU性能就能无限接近于理论线性提升。然而,过了几年以后,人们很快发现多核性能提升的效果远远低于预期。多核CPU的发展再次遭遇瓶颈。

  其中的原因,正是源于程序中不可并行部分的限制。这个问题可以用阿姆达尔定律(Amdahls Law)来解释。这个定律指出,即使任务中有部分工作可以被并行化处理,那些无法并行的串行部分仍会限制整体的性能提升。串行部分占比越高,即使增加再多的资源,性能提升幅度依然会大幅受限。我们来举个例子。

  家里准备好了面和饺子馅,准备包100个饺子。假设一个人需要2小时完成。那么如果让4个人同时包,能否缩短到半小时(1/4时间),如果让8个人同时包,能否缩短到15分钟呢?显然答案是否定的。包饺子这项任务实际上可以大致分解为两个环节:擀饺子皮和包馅。包馅是可以并行的任务,多个人围在一起包馅,一人一双筷子,彼此之间互不干扰,整体效率自然会翻倍。

  但如果家里只有一根擀面杖,那么擀饺子皮只能由一个人来做,这个任务就无法并行了。你很容易想象这样一个场景:一个人吭哧吭哧地擀饺子皮,包馅的一群人在旁边眼巴巴地等着。这就是为什么包饺子的效率不一定能随着人数增加而提高。因为这个任务存在一个不能并行化的环节:擀饺子皮。这个环节就成为卡点。

来自英特尔的阴霾(图1)

  对于多核CPU而言也是如此:假设某个程序有90%的工作可以并行,但剩下10%的工作无法并行。即使配备64核CPU处理这段程序,理论加速比也只有8.76倍,而不是理想状态下的64倍。串行任务的限制,使得核心数量增加的边际收益逐渐递减。阿姆达尔定律的存在,使得CPU性能增速大幅放缓,每年的性能改进被限制在几个百分点之内。而与此同时,游戏玩家对画面效果的追求却在快速提升,渲染所需的算力需求呈指数级增长。无论是单核CPU,还是多核CPU,在面对大规模渲染任务时都显得力不从心。

  那么,为什么显卡能在渲染任务中大幅超越CPU呢?答案可以归结为两个字:专用。CPU是计算机的大脑,设计上需要处理系统中各种复杂且多样的工作。比如,运行操作系统,执行程序,管理硬件,等等。为了完成这些繁杂的任务,CPU被设计为功能全面的通用处理器,包含大量的硬件组件。而图像渲染任务是一个非常固定的任务。图像渲染过程中,将三维模型转换为二维图像需要经历诸如顶点着色、光栅化、像素着色等步骤,这些步骤本质上是大量的矩阵计算。这些计算都有高度并行性,这意味着每个顶点、像素都可以单独计算,彼此之间几乎没有依赖。

  而“多面手”CPU并非为这种任务设计,即使通过多核架构将工作分配给多个核心,CPU仍需花费大量时间完成线程调度、任务划分、数据同步和缓存一致性维护等工作。这些额外的操作会迅速增加运行成本,削弱多核架构的效率,进而使其在渲染任务中表现不佳。那么思路就很简单:我们在设计中扔掉那些对于渲染没有用的硬件和相应的软件,为渲染任务量身定制一个处理器架构。这就是显卡。显卡放弃了通用设计而专注于图像渲染。从架构上,显卡摒弃了通用处理器中那些对渲染任务无用的硬件,完全针对图像渲染来设计架构和布置计算单元。此外,我们会在后面介绍,这些计算单元的数量远远超过CPU的核心数量,加上相应的硬件配套(更高的内存带宽等),可以将渲染任务高效并行化。大幅缩小串行部分在整体任务中的比例,大大降低了阿姆达尔定律的影响。

  这种架构被称为领域专用型架构。与CPU所采用的通用处理器架构相比,它放弃了对非渲染任务的灵活性支持,却换来了在图像渲染上的极致性能。英伟达想明白了这一点,开始在显卡这条道路上狂奔。那么下一步,就是如何提升显卡的性能。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  汪明荃甩380万账单打脸罗家英!抗癌28年AA制婚姻:钱债易算,情债难量

  因水厂故障长沙部分区域停水,雨花环卫出动40辆洒水车解停水之急:“只要还有区域没水,我们就一直送”

  NVIDIA从未发布的Titan Ada:用的竟是6×8Pin转双16Pin!最高可达900W

  vivo Vision探索版混合现实头显搭载Micro-OLED屏,双目8K分辨率