自动驾驶的三道思考题

发布于:2026-03-10 · #自动驾驶

上一次写博客至少是五年前了。重新开始提起笔时,我发现我们的世界多了一个物种:AI。

传统写作的隐含假设是“知识的获取成本高”。 在这个假设下,技术文章的价值主要是压缩信息:作者把分散的知识搜集、整理、解释给读者。但AI让这个假设失效了。当读者可以随时向AI提问并获得针对性的、时效性的回答时,“罗列已有技术知识”这种写作的边际价值趋近于零。

我们写的任何技术总结,在发表的那一刻就开始过时 —— 读者自己问AI可能得到比你的文章更新、更针对其具体需求的回答。

所以,我们不妨放弃这个职责。我们人类以后只提出问题如何?—— 我们用思维实验敲敲打打,遴选出(我们认为)最重要的那几个问题;如果尝试对这些问题的回答会将人导向愈发清晰的道路(“不然还能怎样嘞?”),并让人辨识出一个领域现在最核心的几个要素,那么这些问题就是成功的。

至于问题的答案,我们大可以让读者自己思考后,交给他最信赖的AI来给出。

而我们要做的事情,只剩下在所有的问题中识别出哪些是artifact,而哪些是不可回避的。


下面是三个自动驾驶相关的问题:

题目一:感知与决策的关系

设想你正在驾车通过一个视线被建筑遮挡的 T 字路口,你无法看到横向道路上是否有来车。

(a) 作为人类驾驶员,你通常会怎么做?请具体描述你的行为序列。

(b) 现在设想你在设计一个自动驾驶系统。你有两种选择:

  • 方案 A:系统先完成所有感知(收集传感器数据、识别周围物体),然后将感知结果交给决策模块去规划行动。感知和决策是两个独立的阶段,信息单向流动。
  • 方案 B:系统的决策模块可以反过来“指挥”感知模块——例如,命令车辆缓慢前移以获得更好的视野,然后根据新的感知结果再做决策。

请分析这两种方案各自的优势和代价。特别地,如果选择方案 A,你放弃了什么能力?如果选择方案 B,系统设计会变得复杂在哪里?

(c) 如果你被告知“工业界目前几乎所有量产的自动驾驶系统都选择了方案 A(或其近似)”,你觉得这是为什么?这一选择意味着系统必须对“信息是否足够”做出什么样的隐含假设?


题目二:世界的可预测性

你正在高速公路上以 100 km/h 的速度行驶,需要变道超越前方的慢车。旁边车道后方有一辆车正在接近。

(a) 请考虑以下三种对“旁边那辆车未来行为”的建模方式,并为每一种给出一个它适用的具体驾驶场景,以及一个它会失效的场景:

  1. 确定性模型:假设那辆车将以当前速度匀速直线行驶。
  2. 随机模型:假设那辆车的未来轨迹服从某个概率分布(例如,有 80% 的概率保持车速,20% 的概率加速)。
  3. 博弈模型:假设那辆车的驾驶员会观察到你的变道意图,并据此调整自己的行为(可能让你,也可能加速不让你)。

(b) 在上述三种模型中,哪一种的计算成本最低?哪一种最能反映真实驾驶中的交互?如果一个系统必须在 0.1 秒内给出决策,这对模型的选择会产生什么影响?如果一个系统必须根据这个模型进行 100 次决策,这对模型的选择会产生什么影响?

(c) 有人提出第四种建模方式——对抗模型:假设旁边的车会采取对你最不利的行动(即 worst case)。请讨论:在什么场景下这种极端保守的假设是合理的?它在日常驾驶中会导致什么问题?


题目三:目标的表达

你要从上海开车去一个你从未去过的苏州郊区农家乐。导航软件告诉你总路程约 100 公里。

(a) 请思考这趟旅程中,你在不同阶段依赖的“导航信息”有什么不同:

  • 在上海市区高楼间的高架上
  • 下了高速后在苏州郊区的乡间田边小路上
  • 最后 500 米,导航显示“到达目的地附近”,但你看不到农家乐的招牌

对于每个阶段,请描述:你依赖什么信息来确定“下一步往哪开”?这个“下一步目标”是用什么方式表达的(一个坐标?一个方向?一个参照物?一条指令?)

(b) 现在假设你要设计一个自动驾驶系统来完成同样的旅程。如果你打算用“GPS 绝对坐标”作为所有层级向下级发命令的统一目标表达方式(即:从顶层的“最终目的地坐标”到底层的“下一个 0.1 秒车辆应该到达的坐标”),这个方案在哪些阶段会遇到困难?困难的根源是什么?

(c) 基于你在 (a) 和 (b) 中的分析,你认为系统是否可以用一种统一的“语言”来表达所有层级的目标?如果不能,这对系统的整体架构意味着什么?


附加思考(选做)

回顾你对以上三道题的回答。这三个问题的答案之间是否存在依赖关系?

例如:如果你对第一题的回答改为“允许主动感知”(方案 B),那么第二题中对世界建模的需求会怎么变化?第三题中目标的表达方式又会受到什么影响?

请尝试画一张简图,展示这三个设计选择之间的相互制约关系。