下载客户端

AIGC周报｜AI：王者菜鸟，等我开团；将人P入任意场景；AudioGPT、RoboGPT来了

2023-04-30 19:35

来源：澎湃新闻·澎湃号·湃客

AIGC（AI Generated Content）即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT，以及 Dall·E 2、Stable Diffusion 等文生图模型，都属于 AIGC 的典型案例，它们通过借鉴现有的、人类创造的内容来快速完成内容创作。

“新晋流量”ChatGPT的背后，AIGC是“昙花一现”？还是将引领人工智能进入新的时代？「AIGC 周报」将从【技术前瞻】【企业动态】【政策法规】【专家观点】带你快速跟进 AIGC 世界。

01 技术前瞻

AI：王者菜鸟，等我开团

近年来，AI 研究者越来越多地将 Dota2、王者荣耀等 MOBA 游戏用于游戏 AI 的研究中，且已经在人类水平的基础之上开发了各种 AI 系统。然而，这些 AI 系统大多在游戏中被设计为与人类竞争的角色，而并非被用于探索如何与人类合作。

该研究首次尝试观察 MOBA 游戏中的人机协作，通过设计一个高效、可解释的基于元命令通信的框架（MCC），使人类和 AI 代理能够通过显式通信进行协作，从而在 MOBA 游戏中实现有效的人-机协作。

MCC 框架由两个关键模块组成：

（1）一个可解释的通信协议，即 Meta-Command，弥合人-机之间的通信鸿沟；

（2）一个元命令值估计器，即 Meta-Command Selector，为每个代理选择有价值的元命令，以实现有效的人-机协作。

基于《王者荣耀》的实验证明，MCC 代理可以与人类队友进行合理的协作，甚至可以推广到与不同级别和数量的人类队友的协作中。下面的视频展示了基于 MCC 的游戏场景，分别为“人向 AI”（H2A）以及 “AI 向人”（A2H）发送元命令的案例。

论文链接：

https://arxiv.org/abs/2304.11632

ChatVideo，请你描述下视频中摩托车的外观

大多数现有的深度视频模型只能完成特定的任务，且输入输出空间固定、泛化能力差，难以在真实场景中部署。该研究提出的一种原型系统——ChatVideo，结合 ChatGPT 和 ViFM（视频基础模型）的功能，该系统实现了多模态和多功能的视频理解。

具体而言，ChatVideo 建立在以 Tracklet 为中心的范式上，其中 Tracklet 被视为分析视频内容的基本单元，代表一个个连贯的物体或运动模式，并使用各种 ViFM 为外观、运动等属性做标注，从而实现有效的视频理解。

上传一个视频后，ChatVideo 首先检测其中的所有轨迹，并识别它们的类型、外观、动作等；然后，将它们存储在数据库中，在用户输入诸如 “这个视频中有多少人” 的问题后，数据库管理器将其转换为查询语句，并从上述数据库中检索有用信息；最后，ChatGPT 对查询结果进行总结，并将其细化为自然语言描述。

该研究证明了这一系统在解决各种视频相关问题和场景方面的有效性，以及在视频内容推荐和在线教育等现实应用中的潜力。

论文链接：

https://arxiv.org/abs/2304.14407

将多个ChatGPT联合起来：更多大脑更多智慧

基于对话的语言模型，具有与用户交互的能力，能完成一系列由定制指令提示的具有挑战性的任务，被认为是 AI 领域的一个巨大里程碑。然而，即使像 ChatGPT 这样出色的语言模型仍然有改进的空间。

如下图，ChatGPT 对同一问题的回答不一致，无法像人类一样进行思考。

该研究提出了 ChatLLM 网络，允许多个基于对话的语言模型进行交互，提供反馈，并一起思考。

具体而言，尽管 ChatGPT 可能对同一问题具有不同的观点，但通过 ChatGPT 整合这些不同的观点，ChatLLM 网络系统可以更客观、更全面地进行决策。

此外，为更新网络内的 ChatGPT，研究人员还设计了一种基于语言的反馈机制（效果类似于反向传播）。

基于两个数据集的实验表明，ChatLLM 网络在解决上述问题方面表现得更好。

论文链接：

https://arxiv.org/abs/2304.12998

将人P入任意场景

给定一张标有区域的场景图像和一个人物图像，AI模型可以将人物插入场景中，同时在给定场景上下文的情况下推断出一组逼真的姿势。

该研究采用了自监督学习的方法，通过学习将人物重新定位到视频片段中完成这一任务。研究人员在 240 万个视频片段的数据集上训练了一个大规模的扩散模型，该模型在遵守场景上下文的同时产生了各种可能的姿势。

研究人员的方法不仅可以推断逼真的人物外貌和更自然的人物-场景交互，而且还能在不需要预先给定条件的情况下生成逼真的人物和场景，并支持交互式编辑。

下图展示了给定一个有蒙版的场景图像（第一行）和一个参考人物（第一列），模型可以成功地将该人物插入场景图像中，在给定场景上下文的情况下推断出可能的姿势，适当地放置人物，并协调插入。当没有给定一个参考人物的图像时，模型可以部分地完成一个人物（最后一列），也可以虚构一个人物（最后一行）。

量化评估表明，该方法比之前方法合成的人物外貌更逼真，人物-场景交互更自然。

论文链接：

https://arxiv.org/abs/2304.14406

眼见“不为实”：AI虚假照片能被识别吗？

照片是人类记录他们在日常生活中所经历的事情的一种方式，通常被认为是值得信赖的信息来源。然而，人们越来越担心 AI 技术的发展可能会产生假照片，这可能会造成混乱并降低对照片的信任。

该研究旨在回答，目前最先进的基于 AI 技术的视觉内容生成模型，是否能持续欺骗人类的眼睛并传达虚假信息的问题。

通过对五十名参与者进行高质量的定量研究，研究团队发现，人类在 38.7% 的情况下无法区分真实照片和 AI 生成的假照片。研究还发现，一个人的背景，如他们的性别、年龄和对 AIGC 的了解程度，并不显著影响他们区分 AI 生成的图像和真实照片的能力。

然而，研究团队也观察到，AI 生成的图像中往往存在某些缺陷，这些缺陷是人们区分真实和虚假照片的重要线索。他们希望，这一研究可以提高人们对 AI 生成的图像的潜在风险的认识，并鼓励进一步的研究以防止虚假信息的传播。

从积极的角度来看，如果 AI 生成的图像得到适当的使用和监管，它们有可能彻底改变各个行业，为人类创造一个更美好的未来。

论文链接：

https://arxiv.org/abs/2304.13023

AudioGPT：玩转语音、音乐和声音

大型语言模型在各种领域和任务中表现出非凡的能力，挑战了我们对学习和认知的理解。尽管最近取得了成功，但目前的LLMs没有能力处理复杂的音频信息或进行口语对话。

在这项工作中，研究团队提出了一个名为 AudioGPT 的多模式人工智能系统，该系统对大型语言模型进行了补充：

（1）基础模型来处理复杂的音频信息并解决众多的理解和生成任务；

（2）输入/输出接口（ASR、TTS）来支持口语对话。

随着评估人类意图理解和与基础模型合作的多模态大型语言模型的需求不断增加，研究团队概述了原则和过程，并从一致性、能力和稳健性方面测试了 AudioGPT。

实验结果证明，AudioGPT 在解决多轮对话中的语音、音乐、声音理解与生成等人工智能任务方面的能力，使人类能够以前所未有的轻松方式创造丰富多样的音频内容。

论文链接：

https://arxiv.org/abs/2304.12995

RoboGPT：让人类更信任机器

在人工智能时代，随着机器人越来越多地参与到人类生活的各个方面，人类机器人协作变得越来越重要。然而，人类操作者对机器人的信任问题仍然是一个重要的问题，主要是由于人类和机器人之间缺乏足够的语义理解和沟通。

ChatGPT等大型语言模型（LLMs）的出现，为开发一种互动的、可交流的、强大的人类-机器人协作方法提供了机会。

该研究探讨了ChatGPT对人机协作装配任务中信任的影响。研究人员设计了一个名为RoboGPT的机器人控制系统，使用ChatGPT来控制一个7自由度的机械臂，帮助人类操作者取、放工具，而人类操作者可以使用自然语言与机械臂交流，并控制它。

实验表明，在机器人中加入ChatGPT可以显著提高人类与机器人合作的信任度，这可以归因于机器人能够更有效地与人类沟通。

此外，ChatGPT理解人类语言的细微差别并作出适当反应的能力，有助于建立更自然和直观的人机互动。

论文链接：

https://arxiv.org/abs/2304.12529

02 企业动态

微软AI设计工具推出公测版

据财联社报道，4 月 27 日，微软的 AI 设计工具 Microsoft Designer 推出了一版公开预览版。Microsoft Designer 于去年 10 月发布，是一款类似 Canva 的在线平面设计工具，可以生成演示文稿、海报、数字明信片、邀请函、图形等设计，并在社交媒体和其他渠道上分享。Microsoft Designer 搭载了 OpenAI 的 DALL-E 2，可以根据用户输入的任意文字指令，生成相关内容。

在公测版本期间，这一工具将是免费的，并且用户可以直接在微软 Edge 浏览器的侧边栏中进入。若这款应用程序全面推出，它将包含在 Microsoft 365 的个人和家庭订阅中，并为非订阅用户提供“部分”免费功能。

OpenAI：很快将推出ChatGPT企业版订阅服务

4 月 25 日，OpenAI 在官网发布公告，表示公司正在开发新的“ChatGPT Business”订阅服务，供那些希望掌控数据的专业人士以及寻求管理终端用户的企业使用。至于企业最担心的泄密风险，OpenAI 的新功能做了针对性的处理。当使用者“关闭聊天记录”后，与机器人的对话将不再保存到历史会话列表中，OpenAI 也不会使用其中的数据训练和改进 ChatGPT 的模型。

参考链接：

https://openai.com/blog/new-ways-to-manage-your-data-in-chatgpt

Hugging Face发布开源聊天机器人，对标ChatGPT

据科创板日报报道，人工智能初创公司 Hugging Face 发布一款开源 AI 聊天机器人 HuggingChat，对标 ChatGPT。HuggingChat 可以完成与 ChatGPT 类似的任务，反应速度与 GPT-3.5-turbo 相当。目前，用户可以通过网络界面测试 HuggingChat，也可以通过使用 Hugging Face 的 API 将这款 AI 聊天机器人集成到其他应用程序和服务中。

阿里“千问”大模型：为机器人注入灵魂？

据科创板日报报道，4 月 27 日，在第六届数字中国建设峰会上，阿里巴巴董事会主席兼 CEO 张勇透露，阿里云工程师正在实验将千问大模型接入工业机器人，在钉钉对话框输入一句人类语言，可远程指挥机器人工作。

阿里云当天发布的一个演示视频，展现了这一实验成果。“我渴了，找点东西喝吧。”工程师通过钉钉对话框向机器人发出指令后，千问大模型立即理解了指令内容并回答，“好的，我找找有什么喝的。”随后，千问大模型在后台自动编写了一组代码发给机器人，机器人开始识别周边环境，从附近的桌上找到一瓶水，并自动完成移动、抓取、配送等一系列动作，顺利递送给工程师。

张勇表示，“制造业是 AI 大模型的重要战场，未来 10 年最大的机会就在于云、AI 与物理世界机器的融合，机器人取水只是第一步，未来能与人直接对话的智能机器人，将改变整个工厂的形态。”

普华永道：将向生成式AI投资10亿美元

据华尔街日报，普华永道计划在未来三年内向旗下美国业务的生成式 AI 技术投资 10 亿美元，与微软和 OpenAI 合作，使其税收、审计和咨询服务的各个方面实现自动化。这家会计和咨询巨头表示，多年投资计划包括为招聘更多的 AI 相关员工和培训现有员工的 AI 能力提供资金，同时瞄准 AI 软件制造商进行潜在收购。

03 政策法规

欧盟为生成式AI提出新的版权规则

欧洲议会成员同意将人工智能法案推进到下一阶段，即三方会议。根据提案，人工智能工具将根据其感知风险级别进行分类：从最低到有限、高和不可接受。令人担忧的领域可能包括生物识别监控、传播错误信息或歧视性语言。

虽然高风险工具不会被禁止，但使用它们的人需要在操作中保持高度透明。部署生成式 AI 工具（例如 ChatGPT 或图像生成器 Midjourney）的公司还必须披露用于开发其系统的任何受版权保护的材料。据熟悉讨论的消息人士称，该条款是在过去两周内拟定的。

参考链接：

https://www.reuters.com/technology/eu-lawmakers-committee-reaches-deal-artificial-intelligence-act-2023-04-27/

可能改变生成式AI的安迪·沃霍尔版权案

科技媒体 WIRED 报道，今年春天，美国最高法院将对安迪·沃霍尔视觉艺术基金会诉戈德史密斯一案作出裁决，该案将决定沃霍尔基于戈德史密斯摄影作品创作的一系列图像，在《版权法》的合理使用原则下，是否已经足以被称作“新作品”。

WIRED 表示，“合理使用”原则依赖于法官在评估作品是“变革性的”，还是仅仅是复制时考虑的四个标准：作品的目的和特征、作品的性质、从原始作品中获取的数量以及新作品对潜在市场的影响。

目前，图片生成式 AI 开发公司 Midjourney、Stability AI 等正在面临艺术家的起诉，认为这些公司开发的工具在未经许可的情况下窃取艺术家的作品来训练他们的模型。对于这些指控，这三家公司都提出了驳回动议，声称人工智能生成的图像与他们训练过的作品几乎没有相似之处，艺术家也没有具体说明哪些作品受到了侵权。

安迪·沃霍尔版权案的核心在于“合理使用”，即法院必须判定，沃霍尔的作品是对戈德史密斯作品的重大改造，并应当受到保护，还是侵犯了版权。这对于当下版权法如何适用于生成式 AI 有着至关重要的参考意义。

参考链接：

https://www.wired.com/story/andy-warhol-fair-use-prince-generative-ai/

04 专家观点

亚马逊云科技陈晓建：生成式AI浪潮才刚开始

据科创板日报报道，亚马逊云科技大中华区产品部总经理陈晓建表示，“云计算的价值在于推动生成式AI的普惠化……在通用模型的基础上，发展适合自己场景的细分行业模型，这是大模型未来的发展格局。”

陈晓建认为，并不能单纯从规模、参数来判断模型的价值。“不少小模型也具备了相当好的能力，以非常少的资源就可以进行单机部署。未来这一两年内，会看到更多并非特别大的模型，但在某些能力上表现优秀。”

周鸿祎谈“万模大战”：目前没有一家能够遥遥领先、一统江湖

对于目前行业热议的“万模大战”，周鸿祎认为，各家大模型能力相差无几，目前没有一家能够遥遥领先、一统江湖，最后能够胜出的决定性因素是“场景”，拥有场景的公司才能在未来的大模型产业竞争中占据领先地位。周鸿祎表示，发展大模型的关键是“六大”，即大数据、大标注、大算力、大算法、大模型、大流量，其中最重要的是大流量，大模型只有在用户不断使用和反馈下，才能不断改进。

思科：AI软件让网络钓鱼诈骗更难防

思科警告称，OpenAI的ChatGPT等AI软件将使网络钓鱼诈骗更难被发现，并力促企业采用新的防御措施。大约80%的计算机系统非法访问是通过网络钓鱼进行，黑客通过网络钓鱼向人们发送电子邮件或文本，诱使他们打开恶意链接。思科安全与协作部门负责人Jeetu Patel表示，人工智能工具可以快速定制这些信息，吸引更多人参与黑客的计划，“攻击将变得更加定制化”。

华泰证券：AI大模型落地有望推动座舱人机主动式交互时代到来

智能座舱配置性价比较高，已经成为车企的核心竞争点之一，随着座舱硬件规模化装车，蔚小理、岚图、极狐等新势力开始注重座舱多模态交互，通过集成语音/手势/触控打造智能化差异体验。华泰证券认为AI大模型的落地，将加速赋能座舱语音助手向“AI智能管家”升级，有望推动座舱人机主动式交互时代的到来。目前投资机会建议率先关注视听触硬件投资机会。

原标题：《AIGC周报｜AI：王者菜鸟，等我开团；将人P入任意场景；AudioGPT、RoboGPT来了》

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报