2026-02-19 17:38 点击次数:194

21世纪什么最贵?大多数公司始料未及,最贵的正本是算力,是数万好意思元也“一芯难求”的GPU。
OpenAI首创东谈主Sam Altman也曾预言,算力将成为一种新的货币。客岁,Gartner预测2026年的公共AI支拨预测将达到2.52万亿好意思元,其中光是基础设施就需要增多4010亿好意思元的干涉,相称于英伟达三年多的营收。
算力的破耗不错分为两部分,西宾也曾是最崇高的支拨。但跟着大模子嵌进搜索、告白、推选、客服、游戏等高频场景,推理逐渐取代西宾,占据更大的成本。IDC预测,2026年,推理算力的糜费占比将会擢升到62.2%,西宾算力则镌汰到37.8%。
AI需要交易化,企业便需要更高性价比的算力,不然吃力开拓的交易模式,终末全喂饱了英伟达。联系词,GPU遵命的传统架构在践诺运算时有不小的数据搬运成本,在大边界及时生成任务中会产生更多破耗,何况制形成本也在抑制飞腾。
于是,挑战者抑制出现,并抛出新的念念法:若是,咱们毋庸GPU的架构呢?
一、寻找GPU以外的可能性
GPU出身于图形渲染年代,并走时算能力隆起,通用能力强。但这种多功能性用来支捏AI,就成了历史职守,难以郁勃Token旯旮成本捏续镌汰的需求。
这是索罗斯“反身性”表面在算力边界的罢了:GPU“不测”允洽了AI的需求,早期AI依赖GPU并助推后者阛阓扩大乃至完全占有,联系词当算力需求发展到一定阶段,GPU架构又扫尾了AI效能的提高。早期的聘请也许仅仅阿谁期间的贯通偏差,但它又形成了自后的因果轮回,直到有新的架构能冲突这种怪圈。
{jz:field.toptypename/}比较之下,非GPU阶梯能更好地针对AI需求作念定制化,ASIC(专用集成电路)因此崛起。这条路上的著名企业罪戾累累,华为、谷歌、博通、百度、寒武纪……不论选定何种架构、打造何种家具,都是为了AI的降本增效。
2025年11月,谷歌发布Gemini 3,性能跑赢了OpenAI被阛阓录用厚望的GPT 5.1。Gemini 3基于谷歌自研芯片TPU西宾,高盛推算其单元token推理成本下落约70%,在后发要求下追平了英伟达GB200 NVL72的成本。
客岁,Anthropic便晓示要选定最多100万张TPU,11月又有音信称Meta研讨将部分AI基础设施移动至谷歌TPU。就连英伟达股价,也因此受到影响。
但ASIC有一个自然短板:既然是定制,那么就难以匹配还在捏续更新的AI算法和架构需求,而贪图一个架构需要很长的周期,一朝算法变更,芯片就有可能落后。“芯模协同”,关于AI生态的构建敬爱要紧。
客岁的上海世界东谈主工智能大会上,就有不少国产芯片厂商额外强调这少许。DeepSeek动作开源之光,也得到了国产芯片厂商的鼎力适配。其V4版块发布在即,很快又要接近适配节点。
既要高性能,又要强适配,有莫得一种方针,能让芯片和数据算法更好地协同,高效允洽模子的进化?
不仅有,而且还得到了英伟达的变相招供。
客岁末,英伟达不测斥资约200亿好意思元,取得Groq学问产权的非独家授权,并将其主要东谈主物一举收入囊中。
Groq由谷歌TPU早期团队成员创立,他们基于可重构数据流门径打造了LPU(Language Processing Unit,话语措置单元)家具,适配开源模子后展现的推理成本远低于GPU。
而果真兼并时刻,“北京四大明星芯片公司”之一的清微智能,也基于可重构芯片(RPU)上风拿下超20亿元C轮融资,国度大基金二期、京能集团、京国瑞等多层级国资密集入场。咱们从行业了解到,清微智能畴昔一年估值翻了三倍过剩,接近190亿元,现在正在筹备Pre-IPO轮融资,为最终上市作念准备。
“可重构数据流”为什么这样特有,能在大洋两岸同期受到超等成本们的认不错致追捧?谜底是架构——它不再以凹凸请示的通用措置器为中心,而是先看要措置的数据流长什么样,再让硬件围绕数据流去重构我方的电路拓扑。浅显来说,软件界说硬件:
传统GPU存在“内存墙、效能墙、互联墙”问题,因为诱骗数据的“旗头”和搬运数据的“职工”要抑制地疏通信息,徒增成本。ASIC决策把搬运经由变成了固定活水线,效能提高了,不外每次需求一改就要再行定制活水线。而RPU决策是凭据数据算法的需求界说活水线,念念要什么传送面貌,便不错朝阿谁标的重构。
用清微智能首创东谈主王博的比方,这是在芯片里搭了一张充满“电子谈岔”的铁路网。传统芯片是一条单线铁路,火车只可沿既定轨谈跑;可重构数据流芯片则在每个节点都埋了谈岔,今天把这些“小有计划器”连成卷积活水线,未来又重连成扎眼光模块专用旅途,践诺完一段蚁集就擦除设立,十几纳秒内切成另一种拓扑。
内容上,它把要领驱动硬件变成数据驱动硬件,让数据在芯片里面节点之间胜利流动,尽量少绕回显存列队。这对参数海量、考查模式高度限定的大模子尤其友好——每少绕一次路,背后都是成本弧线被向下拉了一段。
于是,算力产业领有了一个具备各异化特征的“第二阵营”,尝试在蛮力堆砌GPU以外找前途。以清微智能为代表的创业公司,正在给大模子算力问题写出“第二解”。
二、太平洋两岸的可重构竞赛:清微智能领衔中国式创新
可重构的想法并不极新,紧要的是它有了产业化的能力。Groq把话语推理抽象成LPU,适配开源模子后的推理效能一鸣惊东谈主,SambaNova也在用RDU与整机决策作念企业阛阓。
在这股潮水中,清微智能动作稀缺的新架构算力芯片企业,自联系词然上演了一个新变装:中国并非只可在GPU干线上作念跟班者,在刚刚怒放的第二条算力支流上,咱们领有一支能拿得入手的原土队伍。它脱胎于清华大学微电子学院商榷后果,如今正在为中国的芯模协同孝敬力量。
在端侧,清微早期用TX5系列家具考证了这条路并非说梅止渴。一颗责任功耗不到2毫瓦的语音芯片,让门锁、音箱、手机保捏长年待机凝听情状;多款视觉与语音终局芯片被装进录像头、手机、IoT建立里,累计出货超三千万颗。这些看似不起眼的家具,在较长的链路中完成了可重构架构的可靠性和器具链压力测试。
而真确让清微智能具备“爆棚”后劲的,是面向云霄阛阓的TX8高算力芯片。它把“数据流+可重构”胜利作念到大面积裸片上,并配上一种不同于GPU的互联面貌——C2C算力网格。
传统GPU集群的旅途是“PCIe—网卡—交换机—网卡—PCIe”,每加一层节点就多一层蔓延和拥塞。清微聘请在芯片之间胜利织网,让多卡互联更接近板上直连。这样一来,在千卡边界内不错削减大都崇高交换机投资,同期把大模子西宾/推理中最容易触顶的“互联墙”压薄一层。
搭载TX81的REX1032训推一体做事器,在同等功耗下不错承载万亿参数模子部署,单机跑DeepSeekR1/V3级别模子无需“缩水版”;整机决策测算下来,比同类GPU家具空洞成本低约一半,能效比擢升约三倍。
IDC统计清晰,2025年上半年,清微在国产非GPU(含可重构、ASIC)加快卡销量中位列第六,进入原土算力第一梯队。
现在,清微智能如故为多地智算中心打造了“实战装备”。黑龙江、浙江、安徽、北京等地不绝上线千卡边界集群,新疆双河的中树云智算中心则在首期工程中胜利选定可重构架构,成为“东数西算”和算力出海的紧要节点之一。
在软件与生态上,清微一方面在众智FlagOS上作念到特殊适配,与寒武纪、昆仑芯、摩尔线程、昇腾、中科海光比肩为边界内的“六脉神剑”;另一方面选定“三层兼容”策略——表层CUDA API级兼容,中层深度押注OpenAI主推的Triton编译器并与智源共建生态,底层用RISC‑V替代PTX,为开荒者预留充足“压榨性能”的空间。
这些看似琐碎的工程聘请,针对的是新架构影响的客户移动成本、录用与支捏可靠性等问题。太多AI芯片创业公司倒在这一关,而清微智能在可重构数据流这条支流上,领先完成了从可用到可边界部署的跃迁,为中国算力产业探得了一方独处、有后劲的世界。
三、从“补课生”到“解题东谈主”:高阶国产替代的第二条路
王博也曾示意,“比较短平快的仿制阶梯,聘请新架构实现‘换谈超车’才是真确的高阶国产替代。”清微智能押注畴昔3到5年的算力立异,实施“研发一代、储备一代、开释一代”的技能政策。
在这个过程中,清微智能扭转了算力问题的维度:不作念英伟达的“补课生”,而是在另一条技颖慧线上,成为“解题东谈主”。
这条路的难度少许不低,它意味着几件事要同期发生:
第一,要给与万古刻的生态随意,只可靠性能、能效、成本上的权贵上风来对消移动成本。王博给客户的下一阶段欢跃是“5倍性价比”:把采购、运维和性能举座算进来,让不转平台显得更亏。这会提高对架构、互联、存储、系统贪图每一层的要求,但也会提高中国算力发展的天花板。
第二,要在非GPU赛谈上尽快走完从“单点突破”到“系统决策”的闭环。可重构不是一颗孤苦孤身一人芯片,它要和3D存储、Chiplet、晶圆级架构等前沿标的咬合,形成一棵有延展性的技能树。清微计议中的TX83,就尝试把可重构算力网格与晶圆级芯片聚积,为“后GPU期间”的大边界集群预留历练场。
第三,要承认算力问题已从芯片问题升级为系统问题。在大边界推理场景下,算力产业需要可永恒演进的举座,撑捏哄骗。此时,若是基座完全由国外家具来搭建,咱们的哄骗将进一步形成依赖。而清微智能则在押一条畴昔十年中国算力不再完全锁死在GPU帝国里的技能阶梯。
这条路固然不保证到手,GPU也不会被“第二阵营”颠覆。但从产业角度,它至少已留住两个里程碑:
一是把中国在新一代算力架构上的时刻点,第一次对皆到公共兼并批玩家。
王博也曾回想过,芯片技能发展有一个“类摩尔定律”:20年,架构更新一次。畴昔在CPU、GPU、存储、接口程序上,咱们果真老是在别东谈主定完标的后才运行追;这一次,在TPU、LPU刚刚从论文走向家具的时刻窗口,RPU也由中国工程师以不异节律作念成了可出货的工业品。
二是让国度层面在算力上多了一条真确可选之路。当GPU供应出现风险、单一世态的议价能力高得离谱时,如故被初步跑通的新架构,会成为“火种”。
把视角再拉远少许,若是畴昔十年AI真能逃避上一轮“隆冬”的运道,很可能不是因为模子的灵巧颠覆了东谈主类念念象,而是低成本大边界哄骗更正了东谈主类的分娩面貌。在如斯精深的期间旋律中,站在中国产业的支流上,契机亦然无尽的。清微智能被期间赋予的稀缺性,最终将以算力红利的花式,反哺于中国产业。
起原:松果财经