新闻动态
ag九游会官网100 个token-九游会J9·(china)官方网站-真人游戏第一品牌
(原标题:这个餐盘一样大的芯片,卓越GPU)
要是您但愿不错经常碰头,接待标星保藏哦~
起原:内容编译自nextplatform,谢谢。
就在几个月前,晶圆级诡计前驱 Cerebras Systems 还自大说,在运行由 Meta Platforms 创建的开源 Llama 3.1 基础模子时,将其少数几个 WSE-3 引擎一语气在一谈,不错卓越基于 Nvidia“Hopper”H100 GPU 的 Nvidia GPU 实例。
咫尺,正如软件工程师终于赶上硬件功能时平素发生的那样,Cerebras 再次吹嘘说,在运行最新的 Llama 3.2 模子时,其推感性能上风更大。8 月至 10 月时间,AI 推感性能的飞跃是浩瀚的,提高了 3.5 倍,它拉开了 Cerebras CS-3 系统在腹地或由 Cerebras 或其金主妥洽伙伴 Group 42运营的云中运行的差距。
与 AI 试验比拟,AI 推理市集边界更大,而且在许多方面齐更容易攻克,而 Nvidia 基本上照旧锁定了 AI 试验市集。要是你想知谈为什么 Cerebras 等了这样久才插足推理市集,谜底很通俗:该公司过甚因循者但愿在向华尔街倾销该公司的初度公开募股时讲一个大故事。AI 试验是一个振作的大问题,但宇宙上大广泛组织齐莫得资源来试验我方的模子,他们将寻找性能最高、本钱最低的推理来部署他们的 AI 利用门径。
咫尺,基于 Artificial Analysis 完成的 Llama 3.2 70B 基准测试以及公有云上 GPU 实例、平素会提高性能的专用 GPU 云以及竞争敌手 Groq 和 SambaNova Systems 的非 GPU 系统的订价公开数据,Cerebras 似乎照实在 AI 推理竞赛中成功。
在这一轮推理基准比较中,Cerebras 专注于对仅在 Llama 3.2 70B 模子上运行的推理进行更新,顾名想义,该模子有 700 亿个参数。在 16 位数据离别率下有 700 亿个参数,仅加载这些参数就需要 140 GB 内存,而每个 WSE-3 引擎只好 44 GB 的片上 SRAM 内存,因此仅加载 Llama 70B 模子的参数并留出一些内存来运行它们就需要三个多少许的 WSE-3 引擎和四个 CS-3 系统节点。(咱们在 3 月份对 WSE-3 引擎和 CS-3 系统进行了长远计划。)
CS-3 节点与晶圆上的结构互连,晶圆上的结构是 CS-3 架构的一部分,由其 SwarmX 蚁合堆栈不休。每个 WSE-3 晶圆的额定速率为 125 千万亿次浮点运算(由晶圆上的 900,000 个张量中枢驱动),在其 44 GB 的 SRAM 块上具有 21 PB/秒的总带宽,并为 SwarmX 蚁合提供 214 PB/秒的总带宽。
Cerebras 在 AI 推理方面所展现出的性能飞跃平素需要一两年的时辰,但这并不稀薄。Nvidia 的 GPU 硬件和软件很好地阐述了这一旨趣。一般来说,自 Pascal 以来的每一代新 GPU 齐仅基于硬件就为 AI 责任负载提供了纯粹 2 倍的性能。而到下一代硬件问世时,软件堆栈的性能照旧提高了 4 到 5 倍,使旧硬件的性能提高了 8 到 10 倍。然后,软件调度和调优历程在新硬件上再次运转。
策动词,字据 Cerebras 炫夸的数字,Nvidia 过甚 GPU 妥洽伙伴最佳运转进行调度。因为他们在性能和价钱方面齐受到了打击。让咱们来望望这些数字。
字据东谈主工智能分析,Llama 3.2 70B 推理的性能如下:
早在 8 月份,Cerebras 运行 Llama 3.1 70B 时每秒可推送 450 个token,而 9 月份,使用早期版块的 Llama 3.2 70B 时,每秒可推送 589 个token。通过这些调度和优化,Cerebras 的软件工程师约略在 8 月份使用的 CS-3 互连的相通四个节点上将其推送到惊东谈主的每秒 2,100 个token。这是软件改造的 4.7 倍——这是 Nvidia 在两年内终了的。
咫尺,要么是 Cerebras 软件工程师莫得作念出喜悦,因此他们约略在要津时刻逾额完成任务——斯科特先生会感到无比自重——要么他们取得了浩瀚而出人预料的冲破。Cerebras 并莫得炫夸。但 Cerebras 居品营销总监、前 Nvidia GeForce 居品司理 James Wang 告诉The Next Platform,这可能是咱们在 CS-3 处理器上不错期待的大部分性能升迁。
趁机说一句,早在 8 月份,Cerebras 在运行 Llama 3.1 8B 模子时每秒就能产生 1,800 个令牌,因此不管该公司对其推理堆栈作念出何种变调,它齐能以高于昔时 8B 的速率提供 70B 的推理,这意味着推理速率不错提高 17% 阁下,从而愈加准确。
关于 Cerebras 来说,攻击的是,字据 Artificial Analysis 网罗的数据,其 Llama 3.2 70B 性能比在各式云上使用“Hopper” H100 GPU 的八路 HGX 节点朝上 8 倍到 22 倍,这些节点仅运行 3B 参数数目。请看一看:
望望这些基准测试的准确度相反会很意思意思。但 Cerebras 不错运行密度高 23.3 倍的模子,速率可提高 8 倍到 22 倍——上图炫夸的数据中,平均速率快 13.2 倍——字据咱们的诡计,这是 308 倍的乘法推感性能上风。
要是将 Cerebras 云霄每个token的订价与 Nvidia Hopper 云霄 GPU 节点进行比较,Cerebras 在这里仍然具有上风:
咱们不知谈购买 Nvidia Hopper 系统和 Cerebras CS-3 系统的东谈主是否反馈了这种价钱相反。是以要防御。但咱们不错作念一些诡计来查验。
据咱们了解,从 G42 上安设的 Condor Galaxy 超等诡计机的参议来看,576 个 CS-3 节点的本钱约为 9 亿好意思元,即每个节点 156 万好意思元。带有 CPU 主机、主内存、闪存和蚁合适配器的 H100 HGX 节点的本钱可能约为 37.5 万好意思元。关于四台 CS-3 机器,每令牌每秒的本钱为 2,976 好意思元。
在公有云上,Llama 3.1 或 3.2 型号的性能并不高,性价比辞别不大。要是您将上述性能图表中的云实例性能平均化,并将其看成 Llama 3.2 70B 推感性能的推测圭臬,您将得回每秒 45.9 个令牌,即每秒每个令牌 8,170 好意思元。
因此,在购买铁矿石时,Cerebras 和云霄 Hoppers 之间的性价比相反为 2.75 倍,但租用铁矿石时,性价比相反为 5.2 倍,这似乎意味着 Cerebras 在出租容量时圆寂惨重。出租容量和出售容量之间的这种相反不是一种交易模式,而是一家初创公司试图诠释我方不雅点的亏本销售。但这是否可捏续还有待不雅察。要找到谜底,Cerebras 将不得不提高其销售和分娩以镌汰硬件采购本钱,而作念到这少许的独一纪律是让许多东谈主感意思,并在短期内因云而蒙受圆寂。
除了 Nvidia 和 AMD 以外,总共加快器供应商齐在作念相同的事情,因为他们在云霄销售容量。
押注数据中心推理来鼓舞 Cerebras 的收入流(实验上亦然总共 AI 初创公司的收入流)很容易。推理运转越来越像试验,需要更多时辰进行诡计,需要更多诡计才调更好地进行推理。此图表阐述了想路链推理和代理 AI 将奈何鼓舞更密集的推理:
通过加多 10 倍到 100 倍的诡计量来进行推理,Cerebras 不错运转得回豪阔的数目来镌汰其 WSE-3 引擎和 CS-3 系统的价钱。
咱们想知谈,亦然许多潜在的 Cerebras 客户想知谈的是,CS-3 系统奈何运行 Llama 3.2 405B 模子,顾名想义,该模子有 4050 亿个参数,况且在推理测试中的准确性比 70B、8B 和 3B 模子高得多。
“咱们实足不局促 405B,”王说。“事实上,咱们咫尺正在建议 405B,我刚刚参加的会议即是参议何时建议这个问题、以何种景况建议。是以你不错确定地说,咱们行将在 405B 边界发布一些内容。”
字据咱们的诡计,加载这个大型 Llama 3.2 模子中的 4050 亿个参数需要 810 GB 的内存,这意味着加载这些参数至少需要 18.4 个 WSE-3 引擎。为了便于参议,咱们将其称为 20 个引擎。这是一个价值 3125 万好意思元的集群,但至少您无须使用果然用于 AI 试验而不是推理的 MemoryX 内存集群。咱们想知谈将 20 个 CS-3 节点互连以运行如斯大型的推理引擎对性能的影响。
“咱们平素被问到这个问题:要是你在多个晶圆上运行,你的带宽不是受限的吗?”王承认。“咱们将模子拆分红多个层,以适宜这些不同的晶圆,节点间带宽条目稀罕低——纯粹是咱们实验可用硬件带宽的 5%。果然需要带宽的是张量并行。这即是 Nvidia 必须作念 NVLink 和 NVSwitch 的原因,对咱们来说,这部分在咱们的晶圆结构上责任。是以咱们不局促更大的模子。事实上,咱们很期待它们。咱们照实必须对内存进行一些优化,这样咱们就无须使用太多的系统。”
按照咱们的目标,Cerebras 需要 3D 垂直缓存来延迟其诡计晶圆的内存,就像昨天一样。咱们实足折服 WSE-3 诡计引擎不是诡计受限,而是 SRAM 容量受限。与其收缩晶圆晶体管来制造 WSE-4,不如但愿它不错再行加工晶圆上的芯片,在芯片下方或上方领有多个 SRAM 堆栈,就像 AMD 在其 Epyc CPU 的 X 版块上使用 3D V-Cache(上图)以及在 Instinct MI300X 和 MI300A GPU 上使用 Infinity Cache(下图)一样。逸想情况下,每个 SRAM 堆栈可能会提供荒谬的 60 GB SRAM,天然咱们在这里作念梦,但为什么不有三四个 SRAM 堆栈呢?假定模子将需要更多的内存容量和带宽。
Cerebras 架构中照旧有豪阔的延迟空间用于 AI 试验,但更多的 SRAM 可能有助于试验和推理。
关于 CS-3 机器,企业客户不错选择 24 TB 和 36 TB 的 MemoryX 内存(一种用于晶圆上 SRAM 的缓存),而超大边界和云构建者不错选择 120 TB 和 1,200 TB,这为企业边界的高端提供了 4800 亿和 7200 亿个参数的存储,为超大边界和云构建者提供了 2.4 万亿或 24 万亿个参数。攻击的是,总共这些 MemoryX 内存齐不错孤独于诡计进行延迟——这是任何 GPU 以致 Nvidia 的 Grace-Hopper 超等芯片搀杂芯片齐无法作念到的,后者也具有静态内存成立。
https://www.nextplatform.com/2024/10/25/cerebras-trains-llama-models-to-leap-over-gpus/
半导体杰作公众号保举
专注半导体边界更多原创内容
柔柔环球半导体产业动向与趋势
*免责声明:本文由作家原创。著作内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或因循,要是有任何异议,接待策动半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3927内容,接待柔柔。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
可爱咱们的内容就点“在看”共享给小伙伴哦ag九游会官网