下载客户端

科技感拉满！AI深入全运会，解锁人机共生新图景

2025-12-04 14:10

来源：澎湃新闻·澎湃号·湃客

听全文

不久前刚刚结束的第十五届全运会，已经成为一场“AI 赋能体育”的沉浸式展演：从火炬传递的无人驾驶车到赛场内外的AI机器人“多面手”，人工智能正以精准、高效、协同的特质，重构赛事服务的每一个环节。

在无人驾驶方面，来自小马智行Robotaxi凭AI算法与34个传感器零误差护送火种，实现了全运会首次无人火炬传递；此外，广州还集结了超过300辆自动驾驶车（含L4级巴士、乘用车及环卫装备），车路云AI协同保障出行与场馆清洁。

在具身机器人方面,“夸父”借5G-A与AI视觉完成火炬接力，赛场内人形机器人递奖牌、机器狗收器材，安保机器人也在实时巡逻。

AI自动驾驶与AI机器人看似分属 “出行” 与 “服务” 两大场景，实则共享人工智能的底层技术逻辑，都是 “具身智能”在物理世界的落地。

接下来，让我们进一步了解AI的新应用吧。

日本的初创企业“图灵”，计划在2030年销售1万辆L5级自动驾驶汽车。它在自动驾驶汽车上搭载了多个摄像头，由高级AI处理来自摄像头的信息，并通过训练判断机制（相当于人类大脑做决策）来下达准确的驾驶指令，从而进行自动驾驶。

AI如何支撑起自动驾驶？背后对应的技术原理如下。

大语言模型功不可没

“图灵”在AI之中选择了大语言模型（Large Language Model，LLM），使用的是由美国特斯拉公司创始人埃隆·马斯克等人成立的AI研究机构“OpenAI”提供的“GPT-3.5”，也就是人们平时进行文本摘要、编写程序、生成图像等任务的人工智能。大语言模型是“高度精准的单词推测机器”，能够学习海量文本，对人类说的话也会像联想游戏一样，输出与其密切相关的单词。

和ChatGPT同样，“图灵”首先向GPT-3.5传递如“你是自动驾驶用的AI”一类的英文文字，使其作为自动驾驶AI工作。通过语音识别，将乘车人口头下达的“向黄色锥桶前进”等具体的驾驶指令，转换成文本并输入到GPT-3.5中。

图为“图灵”在2023年6月14日实施行驶测试的情景，应用大语言模型（GPT-3.5）的车辆成功完成了自动驾驶。人对着麦克风说的话，通过语音识别转换成对大语言模型的指令（提示），大语言模型以此为基础来确定行动，并实际开动了车辆。

图为输入语音提示后，大语言模型根据这一提示决定了要采取的行动，无视交通引导员的指令而驶向黄色锥桶。

实现自动驾驶不可或缺的功能

具体来说，如何利用大语言模型来实现自动驾驶呢？图灵认为，要想实现自动驾驶，必须具备“四种功能”“三种学习”“两种模型”和“一个系统”。

AI识别的行驶途中发现的标志

AI识别的行驶途中发现的路标

上图为AI识别的行驶途中发现的标志和路标，分为交通标志“traffic sign”、文字“text”、路标的图标“symbol”三类，并用自然语言表示各自表示的内容，例如禁止进入的标志，就是“No entry”。这是因为通过“图像-自然语言学习”，把标志等的图像，和其所表示的内容转换成语言后的文本，给结合起来了。

从自动驾驶领域延伸到机器人领域，我们同样能看到AI技术发挥的巨大作用，机器人技术正借助AI迅速进化。

DrEureka是美国公司英伟达（Nvidia）于2024年5月发布的AI，是一个创新性研究的范例，它使机器人能够以柔软而精确的方式执行动作。传统上，让机器人通过真实设备开展各种训练以学习动作，需要耗费大量时间和成本。因此，大多数研究都采用了从仿真到现实（sim-to-real）的方法，即在计算机虚拟空间中训练机器人，随后将其应用到现实世界中。然而，仅仅在虚拟空间中进行训练是难以完全应对现实世界的复杂环境的，这一直是一个挑战。为了解决这个问题，DrEureka采用了一种新方法，即在虚拟空间中随机改变物理参数（如摩擦系数和重力等）来进行学习。这种方法通过从大量动作中筛选出最佳动作，使机器人在现实世界中可以灵活地执行动作。

图为在四足机器人行走的实验中，即使在类似瑜伽球等不稳定的物体上，机器人也能灵活行走并保持平衡。

推动机器人技术进化的AI技术之一，就是如GPT这样的大语言模型。大语言模型扮演着机器人“大脑”的角色，不仅能理解人类的指令，而且能规划完成这些指令所需的具体操作。例如，在接到“请从架子上取来餐具”的指令时，机器人可以规划出一整套动作，包括移步至架子、准确抓取餐具、再将其带回。

另一项关键技术，就是视觉语言模型（VLM）。它也是一种AI，能够通过分析大量数据来学习图像与语言之间的关系，进而识别出与特定词语相匹配的物体。例如，一台装备了视觉语言模型的机器人，当接到“请从架子上取来餐具”这一指令时，它能够识别出环境中的架子，并向其移动。视觉语言模型还被应用于图像生成AI等领域，能够根据人类的指令生成多样化的图像。