2026 年 2 月 21 日,一家名为 Taalas 的芯片初创公司正式揭开面纱,发布了它的第一款产品:一颗将 Meta 的 Llama 3.1 8B 大语言模型几乎完整“刻进”硅片的推理芯片 HC1。按照该公司公布的数据,这颗芯片在单用户场景下可以跑到 17,000 tokens/s 的输出速度,大约是目前市面上最快竞品 Cerebras 的近 9 倍,是 Nvidia Blackwell 架构 GPU 的近 50 倍。构建成本据称只有同等 GPU 方案的二十分之一,功耗低一个数量级。
图丨TaalasHC1(来源:Taalas)
不过这颗芯片的局限也非常明显,那就是它只能跑 Llama 3.1 8B。要想换个模型?就只能再造一颗芯片。
这是 AI 芯片行业迄今为止最激进的专用化尝试,没有之一。
当前主流的推理部署依赖 GPU,尤其是 Nvidia 的 H100/H200 和最新的 Blackwell 系列。GPU 的优势在于通用性和成熟的软件生态,但它的架构天然存在一个瓶颈:计算单元和存储单元是分离的。模型的参数存储在 HBM(High Bandwidth Memory,高带宽内存)中,计算核心每次运算都需要从 HBM 搬运数据,这个搬运过程消耗大量能量和时间。
为了缓解这个问题,整个行业在先进封装、3D 堆叠、液冷散热、高速互联等方向上投入了巨大的工程资源。Nvidia 的 GB200 NVL72 机柜级系统就是这种路线的极致体现:72 颗 GPU 通过 NVLink 互联,单机柜功耗接近 120 kW,需要液冷支持,造价以百万美元计。
(来源:Taalas)
Taalas 的做法是把这套复杂性连根拔掉。
他们的核心思路可以概括为三个词:全面专用化、存算合一、极度简化。HC1 芯片采用 Mask ROM(掩模只读存储器)工艺将模型权重直接编码在芯片的金属互连层中,和计算逻辑共存于同一块硅片上,不再需要外部 DRAM 或 HBM。芯片上保留了一小块 SRAM(Static Random-Access Memory,静态随机存取存储器),用于存放 KV Cache(键值缓存,Transformer 推理时缓存历史注意力信息的数据结构)和 LoRA(Low-Rank Adaptation,低秩适配)微调权重,提供有限的灵活性,但整体架构的可编程性几乎为零。
据报道,HC1 基于台积电 N6 工艺制造,芯片面积 815 mm²,接近光罩极限(reticle limit),单颗芯片即可容纳完整的 8B 参数模型。功耗约 250W,10 块 HC1 板卡装进一台服务器总功耗约 2.5 kW,可以在标准风冷机架中运行。这和动辄数十千瓦、必须上液冷的 GPU 服务器差别很大。
Taalas 的 CEO Ljubisa Bajic 是 Tenstorrent 的联合创始人,曾担任该公司的 CEO 和 CTO。Tenstorrent 是 AI 芯片领域另一家知名初创企业,走的是基于 RISC-V 架构的可编程 AI 加速器路线,后来由芯片行业传奇人物 Jim Keller 接任 CEO 并继续发展。Bajic 离开 Tenstorrent 后大约在 2023 年中创立了 Taalas,走了一条和 Tenstorrent 几乎完全相反的路:不追求通用性,而是把专用化推到极端。目前,Taalas 团队规模约 25 人,累计融资超过 2 亿美元,但据 Bajic 本人披露,第一款产品实际只花费了约 3000 万美元。
图丨LjubisaBajic(来源:Tenstorrent)
Taalas 的芯片定制流程借鉴了 2000 年代早期结构化 ASIC(Application-Specific Integrated Circuit,专用集成电路)的思路。结构化 ASIC 通过固化门阵列和硬化 IP 模块,只修改互连层来适配不同工作负载,在成本和性能上介于 FPGA(Field-Programmable Gate Array,现场可编程门阵列)和全定制 ASIC 之间。
Taalas 的做法类似但更进一步:每次为新模型定制芯片时只需更换两层掩模,这两层掩模同时决定模型权重的编码和数据在芯片内部的流动路径。Bajic 表示,从拿到一个新模型到生成 RTL(Register Transfer Level,寄存器传输级描述)大约只需要一周的工程工作量,整个从模型到芯片的周期目标是两个月。
这个两个月的周转速度如果能稳定实现,意味着什么?意味着当一个模型在生产环境中被验证有效、用户粘性足够高、预计至少运行一年时,Taalas 可以在较短时间内为它制造专用硅片,以远低于 GPU 的成本和功耗来提供推理服务。Bajic 承认,这种模式要求客户对某个特定模型做出至少一年的承诺,“肯定有很多人不愿意,但会有人愿意”。
那么,这种极端专用化能扩展到更大的模型吗?Taalas 给出了他们对 DeepSeek R1 671B 的模拟数据。671B 参数的模型需要大约 30 颗芯片协同工作,每颗芯片承载约 20B 参数(采用 MXFP4 格式,并将 SRAM 分离到独立芯片以提高密度)。30 颗芯片意味着 30 次增量流片,但 Bajic 指出由于每次只改两层掩模,增量流片成本并不高。
模拟结果显示,这套 30 芯片系统在 DeepSeek R1 上可以达到约 12,000 tokens/s/user,而当前 GPU 最优水平大约在 200 tokens/s/user。推理成本约 7.6 美分/百万 token,不到 GPU 吞吐优化方案的一半。
这些数字当然还停留在模拟阶段。实际多芯片系统面临的互联、同步、良率等工程挑战不可小觑,30 颗大面积芯片协同工作的验证复杂度也是指数级增长的。Bajic 自己也提到,因为芯片完全不可编程,“出错的余地基本为零”,唯一能建立信心的方法就是在流片前对整个模型进行完整的仿真——如何在合理时间内完成 30 颗芯片的联合仿真,本身就是一个巨大的工程问题。Taalas 声称已经建立了可以在大规模计算集群上运行的仿真流程来应对。
还有一个值得关注的细节是,HC1 使用了自定义的 3-bit 基础数据类型进行激进量化,结合 3-bit 和 6-bit 参数,会带来相对于标准量化模型的质量损失。Taalas 对此并未回避,承认模型在质量基准测试中会有退化。他们的第二代硅平台 HC2 将采用标准 4-bit 浮点格式以改善这一问题。第二款产品预计是一个中等规模的推理模型,计划今年春季在实验室完成,随后接入推理服务。基于 HC2 平台的前沿大模型则计划冬季部署。
当前 AI 推理芯片市场大致可以按专用化程度排列成一个光谱:一端是 Nvidia GPU 这样的高度通用方案;中间是 Groq、Cerebras、SambaNova 等,它们设计了针对 LLM 推理优化的定制架构,但仍保留可编程性,能运行多种模型;Etched 更往前走一步,专门针对 Transformer 架构设计芯片,牺牲部分灵活性换效率;而 Taalas 直接站在了最末端,把一个特定模型焊死在硅片里。
(来源:Gemini生成)
这种极端策略的风险很明显。AI 领域模型迭代速度极快,去年的前沿模型今年可能就被淘汰。如果一颗芯片只能跑一个模型,而那个模型在芯片寿命结束前就过时了,投资就打了水漂。这也是 Bajic 所说的“为什么之前没人敢走到这个角落”。但他认为随着行业成熟,总有一些模型在实际业务中被长期使用。Taalas 产品副总裁 Paresh Kharya(此前曾在 Nvidia 长期任职)也对 EE Times 表示,对于在重要业务场景中运行的模型,用户粘性可能持续一年甚至更久。
商业模式上 Taalas 还在摸索。Kharya 透露了几种可能方向:自建基础设施运行开源模型并提供 API 推理服务;直接向客户出售芯片;或者与模型开发者合作,为他们的模型定制专用芯片供其自有推理基础设施使用。哪种模式最终能跑通,取决于市场对这种极端专用化方案的接受程度。
不过从纯技术角度来说,Taalas 的方案确实触及了一个被主流路线忽略的设计空间。存算分离带来的带宽墙(memory wall)是当前推理硬件的核心瓶颈,而 Taalas 通过将权重以 Mask ROM 形式与计算逻辑同层集成,从根本上消除了这个瓶颈。代价是灵活性的彻底丧失,但如果应用场景允许这种刚性,换来的性能和成本优势是实打实的。
Bajic 还透露,Taalas 能用单个晶体管同时存储 4-bit 模型参数并完成乘法运算。他拒绝透露更多,但确认计算仍然是全数字的。如果属实,这意味着 Taalas 在电路层面实现了一种极为高效的存内计算(Compute-in-Memory)机制,虽然不同于学术界讨论较多的模拟存内计算方案,但目标一致:让数据就地参与运算,不再搬来搬去。
硬接线芯片还带来了一个意想不到的副产品:软件栈的极度简化。Bajic 说“软件作为一个东西基本消失了”,公司只有一个工程师负责软件栈,而且这人还兼顾其他工作。对比当前 GPU 推理系统中 vLLM、TensorRT-LLM、PagedAttention 等复杂软件优化层的工程投入,这种简化几乎是降维式的。当然,这种简化是以极端硬件专用化为前提的,不具有一般性。
Bajic 在博客中用 ENIAC 到晶体管的演化做类比,暗示当前以 GPU 数据中心为核心的 AI 基础设施可能只是早期的“笨重原型”,未来终将被更高效的方案取代。这个类比有一定道理,但也不宜过度引申。GPU 数据中心的“暴力”不仅仅是硬件层面的,它背后是整个 CUDA 软件生态、成熟的开发工具链和庞大的工程师社区。颠覆硬件容易,颠覆生态难。Taalas 的芯片或许在特定场景下拥有压倒性的性能和成本优势,但要成为主流路线的替代方案,需要的远不止一颗跑得快的芯片。
不过,Taalas 可能也从未打算成为“替代方案”。Kharya 表示:“模型最优硅片不会取代满是 GPU 的大型数据中心,但它会适合某些应用。”
参考资料:
1.https://taalas.com/the-path-to-ubiquitous-ai/
2.https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed/