自动驾驶的三道思考题

上一次写博客至少是五年前了。重新开始提起笔时，我发现我们的世界多了一个物种：AI。

传统写作的隐含假设是“知识的获取成本高”。在这个假设下，技术文章的价值主要是压缩信息：作者把分散的知识搜集、整理、解释给读者。但AI让这个假设失效了。当读者可以随时向AI提问并获得针对性的、时效性的回答时，“罗列已有技术知识”这种写作的边际价值趋近于零。

我们写的任何技术总结，在发表的那一刻就开始过时 —— 读者自己问AI可能得到比你的文章更新、更针对其具体需求的回答。

所以，我们不妨放弃这个职责。我们人类以后只提出问题如何？—— 我们用思维实验敲敲打打，遴选出（我们认为）最重要的那几个问题；如果尝试对这些问题的回答会将人导向愈发清晰的道路（“不然还能怎样嘞？”），并让人辨识出一个领域现在最核心的几个要素，那么这些问题就是成功的。

至于问题的答案，我们大可以让读者自己思考后，交给他最信赖的AI来给出。

而我们要做的事情，只剩下在所有的问题中识别出哪些是artifact，而哪些是不可回避的。

下面是三个自动驾驶相关的问题:

题目一：感知与决策的关系

设想你正在驾车通过一个视线被建筑遮挡的 T 字路口，你无法看到横向道路上是否有来车。

(a) 作为人类驾驶员，你通常会怎么做？请具体描述你的行为序列。

(b) 现在设想你在设计一个自动驾驶系统。你有两种选择：

请分析这两种方案各自的优势和代价。特别地，如果选择方案 A，你放弃了什么能力？如果选择方案 B，系统设计会变得复杂在哪里？

(c) 如果你被告知“工业界目前几乎所有量产的自动驾驶系统都选择了方案 A（或其近似）”，你觉得这是为什么？这一选择意味着系统必须对“信息是否足够”做出什么样的隐含假设？

你正在高速公路上以 100 km/h 的速度行驶，需要变道超越前方的慢车。旁边车道后方有一辆车正在接近。

(a) 请考虑以下三种对“旁边那辆车未来行为”的建模方式，并为每一种给出一个它适用的具体驾驶场景，以及一个它会失效的场景：

(b) 在上述三种模型中，哪一种的计算成本最低？哪一种最能反映真实驾驶中的交互？如果一个系统必须在 0.1 秒内给出决策，这对模型的选择会产生什么影响？如果一个系统必须根据这个模型进行 100 次决策，这对模型的选择会产生什么影响？

(c) 有人提出第四种建模方式——对抗模型：假设旁边的车会采取对你最不利的行动（即 worst case）。请讨论：在什么场景下这种极端保守的假设是合理的？它在日常驾驶中会导致什么问题？

你要从上海开车去一个你从未去过的苏州郊区农家乐。导航软件告诉你总路程约 100 公里。

(a) 请思考这趟旅程中，你在不同阶段依赖的“导航信息”有什么不同：

对于每个阶段，请描述：你依赖什么信息来确定“下一步往哪开”？这个“下一步目标”是用什么方式表达的（一个坐标？一个方向？一个参照物？一条指令？）

(b) 现在假设你要设计一个自动驾驶系统来完成同样的旅程。如果你打算用“GPS 绝对坐标”作为所有层级向下级发命令的统一目标表达方式（即：从顶层的“最终目的地坐标”到底层的“下一个 0.1 秒车辆应该到达的坐标”），这个方案在哪些阶段会遇到困难？困难的根源是什么？

(c) 基于你在 (a) 和 (b) 中的分析，你认为系统是否可以用一种统一的“语言”来表达所有层级的目标？如果不能，这对系统的整体架构意味着什么？

回顾你对以上三道题的回答。这三个问题的答案之间是否存在依赖关系？

例如：如果你对第一题的回答改为“允许主动感知”（方案 B），那么第二题中对世界建模的需求会怎么变化？第三题中目标的表达方式又会受到什么影响？

请尝试画一张简图，展示这三个设计选择之间的相互制约关系。