Etched, Groq 和 Taalas: 几家 LLM 芯片创业公司
最近看到了几家LLM芯片创业公司的新闻。
- Etched, 创始团队最草根(三个辍学生)、最能融资。虽然还没有实际成品做出来,但已经融到5亿多美元。
- Groq, 成立于神经网络刚刚开始火起来的2016年,在2019年流片了第一块芯片,恰好在射中了2022年火起来的LLM的靶子,最后得到善终(NVIDIA同意以200亿美元收购)
- Taalas, Tenstorrent联合创始人和两个前员工的员工创立。最年轻、融资最少,但已经做了一款芯片。
三家公司的成立背景
Etched 成立于2022年,由三名 Harvard 辍学生 Gavin Uberti(CEO)、Chris Zhu、Robert Wachen 创立,总部位于硅谷 Cupertino。公司在2023年3月完成540万美元种子轮,最大单笔融资为2026年1月的约5亿美元(估值约50亿)。其核心产品 Sohu 芯片计划采用 TSMC 4nm 工艺,定位为 transformer 专用 ASIC,截至目前尚无公开的流片或客户交付信息。
Groq 成立于2016年,由前 Google 工程师 Jonathan Ross(CEO)和 Douglas Wightman 创立,总部位于硅谷 Mountain View。公司2017年获得1000万美元种子投资,最大单笔融资为2025年9月的7.5亿美元(估值69亿)。其第一代 LPU 芯片于2019年推出(GlobalFoundries 14nm),2024年上线 GroqCloud 商用 API 平台,但下一代 4nm 芯片尚未量产。
Ross 曾参与 Google TPU 项目的早期工作,是 TPU 论文(共75位作者)的作者之一及多项相关专利的发明人。2025年12月,NVIDIA 以约200亿美元达成非独占技术许可协议,收购 Groq 资产,Ross 将加入 NVIDIA。
Taalas 成立于2023年8月,总部位于加拿大多伦多,由 Ljubisa Bajic(CEO)、Drago Ignjatovic(CTO)、Lejla Bajic(COO)创立,三人均从 Tenstorrent 离职后创业。公司2023年9月完成1200万美元首轮融资,最大单笔融资为2026年2月的1.69亿美元,累计约2.19亿。首颗芯片 HC1(TSMC 6nm)于2026年2月发布,针对 Llama 3.1 8B 优化;计划2026年底前以 HC2 架构运行 frontier 级模型。团队仅约24人,首颗芯片开发成本约3000万美元。
Bajic 是 Tenstorrent 的联合创始人,此前在 AMD 和 NVIDIA 担任架构师,2022年与 Jim Keller 互换CEO/CTO职位后离开 Tenstorrent。
Etched Sohu 芯片
Etched 说自己的Sohu 芯片比Nvidia的B200快一个数量级。 之所以能达到这样的性能,是因为GPU是通用芯片。为了支持多种 AI 架构(CNN、RNN、SSM 等)必须保留大量可编程性硬件,这导致在跑 transformer 时存在巨大的资源浪费。Sohu 只支持transformer架构,所以可以做到很高的性能。
GPU架构有多浪费呢? Etched在招聘导向的推荐文(“Why You Should Join Etched”)当中给出了几个依据。我们来欣赏一下他们给出的理由:
- GPU 用于矩阵乘的资源利用率只有极小的一部分。 其他的大部分资源都用来实现通用可编程了,有巨大的提升空间。
“H100 有 800 亿晶体管,如果把所有的晶体管都用来只做FP16的MAC单元,那么得到的性能将是25,440 TFLOPS, 是现在H100的990 TFLOPS的快30倍。因此,GPU在芯片资源的利用率上只有3%,绝大多数资源都被浪费在了实现通用可编程性上。” —— Etched 招聘文
- GPU 跑LLM的时候性能和根据带宽算出来应当有的性能严重不相符。例如,以H100的带宽计算, Lamma 70B 理论上应当只需要9ms延迟,而实际上Nvidia实际花费了109ms来完成time-to-first-token。
“H100 有3.9TB带宽。因此,一个4 H100的系统加载一个70B的模型只需要 70 / (3900 * 4) = ~4.5 ms, 额外计算的时间再算一个4.5ms,那么总计应当只需要9ms。而实际上Nvidia花费了109ms。” —— Etched 招聘文
- GPU 不擅长于跑大Batch Size,因此它是Memory Bandwidth Bound的。
“GPU当batch size 超过32-64的时候性能急剧恶化。 对于矩阵操作,GPU只有30%的利用率。但Sohu能优化到90%。“。
Etched 认为这些东西都归根于GPU是为通用并行计算优化的,因此有巨大的负担。Sohu 芯片则专注于transformer架构,并且利用了计算的特点(如确定性的数据流、attention操作特化、通过割舍掉f64模块来节省面积等)。Sohu想到了用近似和定值硬件来优化性能。Sohu已经 申请了大量专利,但是这些细节暂时不能公开。
“Believe us, they’ve filed lots of patents.”
“We’ve gone into the weeds with them and while we can’t share the details on their progress, two things are clear: they’re pretty far along and they’ve been exceptionally rigorous about verifying Sohu’s performance/functionality.”
Etched, 顾名思义,他们计划阉割掉传统通用计算中用不上的硬件资源,它的叙事逻辑是:
- LLM 推理对于GPU上是Memory Bound的任务,这是因为GPU不能处理大batch size。
- Etched通过优化调度能使得它能跑上千的batch size,因此工况变成了变成了Compute Bound。
- 在这个基础上,Etched通过把GPU由于为了支持通用计算导致的97%的硅浪费节省回来,从而得到了10~20倍高于B200、H100的性能。
参考信息:
- New fast transformer inference ASIC — Sohu by Etched (LessWrong)
- Etched scores $120M for an ASIC built for transformer models (The Register)
- Why You Should Join Etched (Substack)
核查
Extraordinary claims require extraordinary evidence. (超凡的论断需要超凡的证据) —— Carl Sagan
如果有人声称通过“去掉不需要的东西”就能获得 10-20 倍提升,那隐含的前提是 baseline 浪费了 90-95% 的资源。而对于一个被数千亿美元市场压力持续优化了十多年的产品(NVIDIA GPU for AI inference),这个前提本身就极度不可信。
NVIDIA 不可能不知道 transformer 是主流负载。他们已经在 H100 上加了 Transformer Engine,Tensor Core 从 Volta 开始迭代了四代,整个芯片的平衡点就是顶着 GEMM 跑满来调的。说他们”浪费了一个数量级”,等于说整个行业里最有经验、最有资源的团队在最核心的优化目标上犯了一个数量级的错误,而三个辍学生看到了。这不是不可能,但需要一个极其强力的解释——比如发现了一种全新的计算原理、一种绕过内存墙的方法、或者一种根本性不同的数据流组织方式。
而且, 考虑到做AI加速的不只有NV一家,但从性能上看没有人做到了显著优于NV。 这等于说包括NV在内的所有主要玩家(包括AMD、Google、Meta等)都犯了同样错误。
而 Etched 给出的理由恰恰全是“去掉不需要的东西”这种减法叙事。减法能给你边际改善(20-30%),但几乎不可能给你数量级跳跃。数量级跳跃需要乘法叙事——你做了什么根本性不同的事情,而不仅仅是少做了什么。
此外,Etched并没有公开它的核心技术和架构设计,但已有的信息当中也有一些值得商榷:
“H100 只有 3.3% 的晶体管用于矩阵乘法”——这是误导性数字。 只有MAC的硬件是不可能工作的,哪怕是专有加速器也不行。 矩阵乘法服务的 register file、shared memory、cache、memory controller 等基础设施本身就要消耗大量的晶体管。
GPU 上没有传统意义的分支预测。 GPU 采用 SIMT 执行模型,在每个 SM 内,控制流被 warp(32 个 thread)复用,并不存在 CPU 那样的分支预测器和乱序执行引擎。虽然 warp divergence 会带来一些效率损失,但控制流开销本身就很小,且被大量线程共享。删除这部分能回收的面积远没有 Etched 暗示的那么大。
FP64 单元面积有限。 H100 每个 SM 包含 4 组执行单元,每组有 16 个 FP64 单元、16 个 INT32 单元和 32 个 FP32 单元。FP64 峰值算力 60 TFLOPS,仅占 FP16 Tensor Core 峰值 ~990 TFLOPS 的约 6%,对应的面积占比自然也不大。删掉 FP64 确实能回收一些面积,但绝不是数量级的改善。
CUTLASS 已经能接近 90% 利用率。 GPU用上wgmma指令之后,可以接近全部 Tensor Core 算力。NVIDIA 工程师在设计 H100 时,各方面参数本来就是顶着 GEMM 跑满来调的。Etched 声称 GPU 只有 30% 利用率,对于优化良好的 GEMM kernel 来说是严重低估。
大 Batch 优化并非 Sohu 独有优势。 增加 batch size 提高了 arithmetic intensity,使计算更接近 compute-bound——这对所有架构都成立,并非 Etched 的专利。更关键的是,KV cache 才是真正的带宽杀手:KV cache 加载的数据复用与 batch size 无关。 考虑到Sohu 只有 144GB HBM3E,带宽约为 B200 的 0.75 倍—— 很难理解在KV Cache带宽需求无法降低的情况下,仅靠增加计算单元如何实现 20 倍于 H100 的性能。
Groq 芯片
在我们介绍Groq是如何“为了LLM优化”之前,请务必先看一眼Groq芯片的发展时间线。
| 时间 | Groq | LLM 领域 |
|---|---|---|
| 2016 | Groq 成立,开始设计芯片 | 深度学习刚火,主流是 CNN/RNN |
| 2017 | 获得种子投资 | Transformer 论文发表(Attention Is All You Need) |
| 2018-2019 | 芯片流片(GF 14nm) | GPT-1/GPT-2,但还没有大规模商用 |
| 2020 | ISCA 论文发表,芯片叫 TSP(Tensor Streaming Processor) | GPT-3 发布,但还没出圈 |
| 2021-2022 | 商业化推广,主打通用 AI 推理 | ChatGPT 发布(2022.11),LLM 爆发 |
| 2023 | 芯片改名叫 LPU(Language Processing Unit) | LLM 全面主流化 |
你会看到,Groq目前只有一款芯片,这块芯片是2019年流片回来的,然而让所有人看到LLM的巨大价值的ChatGPT的出现还要等到三年之后。这意味着Groq对它 Language Process Unit 的一切解读都是马后炮。让我们带着愉快的心情来欣赏Groq如何对着为CNN大行其道的时代设计的芯片发明一个新的叙事。
Groq的核心特点是没有DRAM —— 所有的数据都放在SRAM上,他们的芯片有230MB+的SRAM。如果这还不够,他们还可以多个芯片连成一个整体,通过Plesiochronous精确协调时钟当成一个大芯片来使用。die-to-die的带宽在512GB/s的水平,而SRAM的带宽是它的160倍(80TB/s)。
在Groq在2016~2019年间开始设计芯片的时候,他们看到的是ResNet之类的图像分类网络,这些神经网络一方面权重远远小于今天的大模型,另一方面也没有KV Cache这类持久性的存储需求。因此,Groq团队的思路很可能是: 造一个拥有足够大的SRAM的芯片,把一切的weight 和 action 全部存下。不需要追求大batch size,反正SRAM的带宽是足够高的(80TB/s)。
但是,当LLM出现之后,情况就完全不同了。LLM的权重远远大于图像分类网络,例如,Lamma 70B 需要140GB的容量。一个芯片的SRAM是不够的,Groq凑齐了576块芯片连成一个整体来凑足了容量。但KV Cache依然是一个麻烦。我们可以轻易算出KV Cache所需要的容量:现有的LLM通常一个token所需要的KV Cache在100KB~1MB的范围内。Lamma 70B大致在320KB/token的水平, 因此100k token就需要32GB,用SRAM存储压力会非常大。在这个节点上,Groq的一些设计达成了局部的自洽:
- Groq每次只服务一个用户 (batch size=1)。对于一个用户,一个序列的处理结束之后,整个KV Cache全部丢弃掉,然后再处理下一个用户。这是使用SRAM存储一切的刚性需求,但是反过来说,也迫使流水线并行不可行(没有容量的余裕来缓存多个用户的KV Cache)。
- Groq采用大规模Tensor Parallel并行,这个规模从576到更大规模都有可能。但是这种超大规模的Tensor Parallel 需要所有的芯片速度具有高度确定性和一致性。为此:
- 他们设计了一个非常精确的Plesiochronous协调机制,使得所有芯片的时钟完全同步。(理论上能生成一个一棵跨越 10,440 片芯片的生成树,根节点是时间基准,逐级同步).
- 在架构层面,他们的芯片没有任何动态延迟的部件(恰好,这里是没有DRAM的),所有的计算延迟都可以精确预排。因此所有芯片的进度可以以cycle级别的精度达成一致。
- 在传输层面,他们采用前向纠错(FEC)而非重传来处理传输错误,避免引入非确定性延迟。
- Groq依赖Speculative Decoding来增加计算资源的有效利用率。Speculative Decoding不需要增加额外的KV Cache需求(因为是同一个用户),但只要预测命中,依然能等比例的提升推理的吞吐量。他们发现这个利用率能提升6x。
最终的成品只能在 Batch Size=1 的工况下和 Nvidia 的 GPU 比较——这并不是商业上最实际的工况。根据 NVIDIA 官方数据,8×H100 跑 Llama 2 70B(FP8)在 batch=1 下约 75 tok/s,而 576 片 Groq 约 300 tok/s —— Groq 快了约 4 倍,但用了 72 倍的芯片。更关键的是,GPU 可以通过 batching 大幅提升吞吐:单块 H100 在 batch=64 下就能达到约 460 tok/s(Cerebrium 测试),已经超过 576 片 Groq 的总吞吐。SemiAnalysis 的分析认为,在吞吐优化场景下 Nvidia 的每美元性能至少高出一个数量级。
很难理解Nvidia是处于什么考虑以200亿美元收购Groq。
参考资料:
- Bojie Li: Groq Inference Chips Analysis
- SemiAnalysis: Groq Inference Tokenomics
- Groq Blog: Inside the LPU
- ArtificialAnalysis.ai Benchmark
Taalas 芯片
todo