三家公司的成立背景

Etched 成立于2022年，由三名 Harvard 辍学生 Gavin Uberti（CEO）、Chris Zhu、Robert Wachen 创立，总部位于硅谷 Cupertino。公司在2023年3月完成540万美元种子轮，最大单笔融资为2026年1月的约5亿美元（估值约50亿）。其核心产品 Sohu 芯片计划采用 TSMC 4nm 工艺，定位为 transformer 专用 ASIC，截至目前尚无公开的流片或客户交付信息。

Groq 成立于2016年，由前 Google 工程师 Jonathan Ross（CEO）和 Douglas Wightman 创立，总部位于硅谷 Mountain View。公司2017年获得1000万美元种子投资，最大单笔融资为2025年9月的7.5亿美元（估值69亿）。其第一代 LPU 芯片于2019年推出（GlobalFoundries 14nm），2024年上线 GroqCloud 商用 API 平台，但下一代 4nm 芯片尚未量产。

Ross 曾参与 Google TPU 项目的早期工作，是 TPU 论文（共75位作者）的作者之一及多项相关专利的发明人。2025年12月，NVIDIA 以约200亿美元达成非独占技术许可协议，收购 Groq 资产，Ross 将加入 NVIDIA。

Taalas 成立于2023年8月，总部位于加拿大多伦多，由 Ljubisa Bajic（CEO）、Drago Ignjatovic（CTO）、Lejla Bajic（COO）创立，三人均从 Tenstorrent 离职后创业。公司2023年9月完成1200万美元首轮融资，最大单笔融资为2026年2月的1.69亿美元，累计约2.19亿。首颗芯片 HC1（TSMC 6nm）于2026年2月发布，针对 Llama 3.1 8B 优化；计划2026年底前以 HC2 架构运行 frontier 级模型。团队仅约24人，首颗芯片开发成本约3000万美元。

Bajic 是 Tenstorrent 的联合创始人，此前在 AMD 和 NVIDIA 担任架构师，2022年与 Jim Keller 互换CEO/CTO职位后离开 Tenstorrent。

Etched Sohu 芯片

Etched 说自己的Sohu 芯片比Nvidia的B200快一个数量级。之所以能达到这样的性能，是因为GPU是通用芯片。为了支持多种 AI 架构（CNN、RNN、SSM 等）必须保留大量可编程性硬件，这导致在跑 transformer 时存在巨大的资源浪费。Sohu 只支持transformer架构，所以可以做到很高的性能。

GPU架构有多浪费呢？ Etched在招聘导向的推荐文（“Why You Should Join Etched”）当中给出了几个依据。我们来欣赏一下他们给出的理由：

GPU 用于矩阵乘的资源利用率只有极小的一部分。其他的大部分资源都用来实现通用可编程了，有巨大的提升空间。

“H100 有 800 亿晶体管，如果把所有的晶体管都用来只做FP16的MAC单元，那么得到的性能将是25,440 TFLOPS，是现在H100的990 TFLOPS的快30倍。因此，GPU在芯片资源的利用率上只有3%，绝大多数资源都被浪费在了实现通用可编程性上。” —— Etched 招聘文
GPU 跑LLM的时候性能和根据带宽算出来应当有的性能严重不相符。例如，以H100的带宽计算， Lamma 70B 理论上应当只需要9ms延迟，而实际上Nvidia实际花费了109ms来完成time-to-first-token。

“H100 有3.9TB带宽。因此，一个4 H100的系统加载一个70B的模型只需要 70 / (3900 * 4) = ~4.5 ms，额外计算的时间再算一个4.5ms，那么总计应当只需要9ms。而实际上Nvidia花费了109ms。” —— Etched 招聘文
GPU 不擅长于跑大Batch Size，因此它是Memory Bandwidth Bound的。

“GPU当batch size 超过32-64的时候性能急剧恶化。对于矩阵操作，GPU只有30%的利用率。但Sohu能优化到90%。“。

Etched 认为这些东西都归根于GPU是为通用并行计算优化的，因此有巨大的负担。Sohu 芯片则专注于transformer架构，并且利用了计算的特点（如确定性的数据流、attention操作特化、通过割舍掉f64模块来节省面积等）。Sohu想到了用近似和定值硬件来优化性能。Sohu已经申请了大量专利，但是这些细节暂时不能公开。

“Believe us, they’ve filed lots of patents.”

“We’ve gone into the weeds with them and while we can’t share the details on their progress, two things are clear: they’re pretty far along and they’ve been exceptionally rigorous about verifying Sohu’s performance/functionality.”

Etched，顾名思义，他们计划阉割掉传统通用计算中用不上的硬件资源，它的叙事逻辑是:

LLM 推理对于GPU上是Memory Bound的任务，这是因为GPU不能处理大batch size。
Etched通过优化调度能使得它能跑上千的batch size，因此工况变成了变成了Compute Bound。
在这个基础上，Etched通过把GPU由于为了支持通用计算导致的97%的硅浪费节省回来，从而得到了10~20倍高于B200、H100的性能。

参考信息:

核查

Extraordinary claims require extraordinary evidence. （超凡的论断需要超凡的证据） —— Carl Sagan

如果有人声称通过“去掉不需要的东西”就能获得 10-20 倍提升，那隐含的前提是 baseline 浪费了 90-95% 的资源。而对于一个被数千亿美元市场压力持续优化了十多年的产品（NVIDIA GPU for AI inference），这个前提本身就极度不可信。

NVIDIA 不可能不知道 transformer 是主流负载。他们已经在 H100 上加了 Transformer Engine，Tensor Core 从 Volta 开始迭代了四代，整个芯片的平衡点就是顶着 GEMM 跑满来调的。说他们”浪费了一个数量级”，等于说整个行业里最有经验、最有资源的团队在最核心的优化目标上犯了一个数量级的错误，而三个辍学生看到了。这不是不可能，但需要一个极其强力的解释——比如发现了一种全新的计算原理、一种绕过内存墙的方法、或者一种根本性不同的数据流组织方式。

而且，考虑到做AI加速的不只有NV一家，但从性能上看没有人做到了显著优于NV。这等于说包括NV在内的所有主要玩家（包括AMD、Google、Meta等）都犯了同样错误。

而 Etched 给出的理由恰恰全是“去掉不需要的东西”这种减法叙事。减法能给你边际改善（20-30%），但几乎不可能给你数量级跳跃。数量级跳跃需要乘法叙事——你做了什么根本性不同的事情，而不仅仅是少做了什么。

此外，Etched并没有公开它的核心技术和架构设计，但已有的信息当中也有一些值得商榷：

“H100 只有 3.3% 的晶体管用于矩阵乘法”——这是误导性数字。 只有MAC的硬件是不可能工作的，哪怕是专有加速器也不行。矩阵乘法服务的 register file、shared memory、cache、memory controller 等基础设施本身就要消耗大量的晶体管。

GPU 上没有传统意义的分支预测。 GPU 采用 SIMT 执行模型，在每个 SM 内，控制流被 warp（32 个 thread）复用，并不存在 CPU 那样的分支预测器和乱序执行引擎。虽然 warp divergence 会带来一些效率损失，但控制流开销本身就很小，且被大量线程共享。删除这部分能回收的面积远没有 Etched 暗示的那么大。

FP64 单元面积有限。 H100 每个 SM 包含 4 组执行单元，每组有 16 个 FP64 单元、16 个 INT32 单元和 32 个 FP32 单元。FP64 峰值算力 60 TFLOPS，仅占 FP16 Tensor Core 峰值 ~990 TFLOPS 的约 6%，对应的面积占比自然也不大。删掉 FP64 确实能回收一些面积，但绝不是数量级的改善。

CUTLASS 已经能接近 90% 利用率。 GPU用上wgmma指令之后，可以接近全部 Tensor Core 算力。NVIDIA 工程师在设计 H100 时，各方面参数本来就是顶着 GEMM 跑满来调的。Etched 声称 GPU 只有 30% 利用率，对于优化良好的 GEMM kernel 来说是严重低估。

大 Batch 优化并非 Sohu 独有优势。 增加 batch size 提高了 arithmetic intensity，使计算更接近 compute-bound——这对所有架构都成立，并非 Etched 的专利。更关键的是，KV cache 才是真正的带宽杀手：KV cache 加载的数据复用与 batch size 无关。考虑到Sohu 只有 144GB HBM3E，带宽约为 B200 的 0.75 倍—— 很难理解在KV Cache带宽需求无法降低的情况下，仅靠增加计算单元如何实现 20 倍于 H100 的性能。

Groq 芯片

在我们介绍Groq是如何“为了LLM优化”之前，请务必先看一眼Groq芯片的发展时间线。

时间	Groq	LLM 领域
2016	Groq 成立，开始设计芯片	深度学习刚火，主流是 CNN/RNN
2017	获得种子投资	Transformer 论文发表（Attention Is All You Need）
2018-2019	芯片流片（GF 14nm）	GPT-1/GPT-2，但还没有大规模商用
2020	ISCA 论文发表，芯片叫 TSP（Tensor Streaming Processor）	GPT-3 发布，但还没出圈
2021-2022	商业化推广，主打通用 AI 推理	ChatGPT 发布（2022.11），LLM 爆发
2023	芯片改名叫 LPU（Language Processing Unit）	LLM 全面主流化

你会看到，Groq目前只有一款芯片，这块芯片是2019年流片回来的，然而让所有人看到LLM的巨大价值的ChatGPT的出现还要等到三年之后。这意味着Groq对它 Language Process Unit 的一切解读都是马后炮。让我们带着愉快的心情来欣赏Groq如何对着为CNN大行其道的时代设计的芯片发明一个新的叙事。

Groq的核心特点是没有DRAM —— 所有的数据都放在SRAM上，他们的芯片有230MB+的SRAM。如果这还不够，他们还可以多个芯片连成一个整体，通过Plesiochronous精确协调时钟当成一个大芯片来使用。die-to-die的带宽在512GB/s的水平，而SRAM的带宽是它的160倍（80TB/s）。

在Groq在2016~2019年间开始设计芯片的时候，他们看到的是ResNet之类的图像分类网络，这些神经网络一方面权重远远小于今天的大模型，另一方面也没有KV Cache这类持久性的存储需求。因此，Groq团队的思路很可能是：造一个拥有足够大的SRAM的芯片，把一切的weight 和 action 全部存下。不需要追求大batch size，反正SRAM的带宽是足够高的（80TB/s）。

但是，当LLM出现之后，情况就完全不同了。LLM的权重远远大于图像分类网络，例如，Lamma 70B 需要140GB的容量。一个芯片的SRAM是不够的，Groq凑齐了576块芯片连成一个整体来凑足了容量。但KV Cache依然是一个麻烦。我们可以轻易算出KV Cache所需要的容量：现有的LLM通常一个token所需要的KV Cache在100KB~1MB的范围内。Lamma 70B大致在320KB/token的水平，因此100k token就需要32GB，用SRAM存储压力会非常大。在这个节点上，Groq的一些设计达成了局部的自洽：

Groq每次只服务一个用户 (batch size=1)。对于一个用户，一个序列的处理结束之后，整个KV Cache全部丢弃掉，然后再处理下一个用户。这是使用SRAM存储一切的刚性需求，但是反过来说，也迫使流水线并行不可行（没有容量的余裕来缓存多个用户的KV Cache）。
Groq采用大规模Tensor Parallel并行，这个规模从576到更大规模都有可能。但是这种超大规模的Tensor Parallel 需要所有的芯片速度具有高度确定性和一致性。为此：
1. 他们设计了一个非常精确的Plesiochronous协调机制，使得所有芯片的时钟完全同步。（理论上能生成一个一棵跨越 10,440 片芯片的生成树，根节点是时间基准，逐级同步）.
2. 在架构层面，他们的芯片没有任何动态延迟的部件（恰好，这里是没有DRAM的），所有的计算延迟都可以精确预排。因此所有芯片的进度可以以cycle级别的精度达成一致。
3. 在传输层面，他们采用前向纠错（FEC）而非重传来处理传输错误，避免引入非确定性延迟。
Groq依赖Speculative Decoding来增加计算资源的有效利用率。Speculative Decoding不需要增加额外的KV Cache需求（因为是同一个用户），但只要预测命中，依然能等比例的提升推理的吞吐量。他们发现这个利用率能提升6x。

最终的成品只能在 Batch Size=1 的工况下和 Nvidia 的 GPU 比较——这并不是商业上最实际的工况。根据 NVIDIA 官方数据，8×H100 跑 Llama 2 70B（FP8）在 batch=1 下约 75 tok/s，而 576 片 Groq 约 300 tok/s —— Groq 快了约 4 倍，但用了 72 倍的芯片。更关键的是，GPU 可以通过 batching 大幅提升吞吐：单块 H100 在 batch=64 下就能达到约 460 tok/s（Cerebrium 测试），已经超过 576 片 Groq 的总吞吐。SemiAnalysis 的分析认为，在吞吐优化场景下 Nvidia 的每美元性能至少高出一个数量级。

很难理解Nvidia是处于什么考虑以200亿美元收购Groq。

参考资料:

Taalas 芯片

todo

Etched, Groq 和 Taalas: 几家 LLM 芯片创业公司

三家公司的成立背景

Etched Sohu 芯片

核查

Groq 芯片

Taalas 芯片