下载客户端

从Manus看AI Agent演进之路

2025-04-24 16:09

来源：澎湃新闻·澎湃号·湃客

听全文

原创谨欣数据可视化 AntV

Manus 的爆火

“首款”通用 AI Agent 产品

2025年3月6日，由中国创业公司 Monica 发布号称首款通用 AI Agent 产品—— Manus[1] 引爆了科技圈。❝

Manus 是一款通用型 AI 助手，能将想法转化为行动：不止于思考，更注重成果。Manus 擅长处理工作与生活中的各类任务，在你安心休息的同时，一切都能妥善完成。❞从官网发布视频和推广案例来看，使用 Manus 的流程大概分为以下几步：

step1. 让用于决策的大模型根据用户需求，生成任务列表，并将这些事情写在一个note pad里

step2. 通过一些 API 或互联网搜索，像人一样自动查询浏览器上的相关内容，抓取有用信息

step3. 结合信息帮用户总结，自动生成一些图表、程序或文件，产出结果

听起来步骤跟我们日常使用 LLM 搜问题没有区别啊，那 Manus 牛在哪里呢？

对于用户来说，当页面上展示出 Manus 通过一长串思维链和工具调用，自动的加速读取文档、访问不同网站、搜索信息，最终输出一个无比完整、专业的结果时，让用户第一次感受到了 AI 正在虚拟世界中充当机器人帮其完成一系列任务的潜力，给了用户一个非常丝滑的体验，于是用户们纷纷开始感叹AI 真的能帮人类做事情了。

从官方网站展示以及用户自发展示的使用用例来看，Manus 这个「智能助理」，主要在以下几个方面有效地提升用户工作效率：

Manus 官网用例展示

研究类：帮用户做某个方面知识的深入研究

生活类：生活小助手，如：

旅行规划：整合旅行信息、创建定制旅行手册

票务管家：帮用户预订合适的火车票、机票

数据分析类：帮用户分析海量数据并总结，如：

股票分析：深入分析股票走势

面试助手：在多份简历中筛选出最合适的人选

辅助供应商采购：找到最适合用户需求的供应商，作为真正公平的代理为用户服务教育类：帮用户深入学习一个未知的知识

生产力类：

教育内容创建：为中学教师创建视频演示材料，解释复杂概念，帮助教师更有效地教学

创业公司列表整理：访问相关网站识别符合条件的公司，并将其整理成表格

创意工具类：实现互动游戏、专业提词器、剧本创作等创意性工作

由于 Manus 处于内测阶段，仅以邀请码形式开放使用，一度让邀请码在二手平台内炒到数万人民币，无数开发者、投资人和从业人员排着队等测评。

褒贬不一的测评声音

在经历出圈的热潮后，不少拿到测评码的用户实际操作后发现，使用 Manus 的效果却比期待中差了不少，如：部分数据调用搜索引擎时搜索不通、交付的结果并不如理想预期等。业内对 Manus 的评价也从最开始一边倒的追捧，变得有了越来越多质疑和批评的声音。

对Manus的争议一方面来自于这个团队并没有非常强的技术能力，大模型用的是 Antropic 的 Claude，之后与阿里通义千问合作，被质疑是“套壳”产品，并没有较强的框架和技术的壁垒。而且公司打出的营销话术——“世界上第一个通用 AI agent”，明显也不太属实。加上各种媒体和自媒体早期夸张的修饰用词，反而引发了不少人对 Manus 激进营销的反感。

但是在这些质疑声中，一些从业者也表明看到了非常积极的一面。他们认为 Manus 在产品交互上给用户带来的第一眼惊艳体验确实做得可圈可点。毕竟这年头创业，做出一款 demo 是比较容易的，但是想要推出一款好产品却非常难。Manus 作为创业公司在做推广时，高调大胆一些并没有什么不好。

而更加让人振奋的是，Manus 虽然不够好，却仿佛让人看到了 AI 应用爆发前夕的黎明曙光。有业内人士表示，对于 AI 初代产品，应该保有所谓的“阈值”概念，即到达真正的 AGI（通用人工智能）之前，也许不可能存在完全不出错的通用 AI Agent。但在这个过程中，用户的需求会经历从简单到复杂的变化，最终发生量变到质变的演进，但这需要时间和耐心。

不要沉迷技术底层

2025年初，DeepSeek-V3 和 R1 横空出世，全球 AI 界仿佛被投下了一颗“技术核弹”。DeepSeek 的技术在范式上实现巨大突破，能够在较小的算力资源支持下，获得可以和美国最高性能模型相媲美的表现，尤其在推理方面表现亮眼，这打破了此前人工智能领域大模型企业「无限扩张算力就可以无限获得领先、没有算力就永远无法追赶」的发展逻辑。这不仅是一场技术的突破，更是一场对硅谷科技霸权的挑战。

DeepSeek-R1跟其他模型的性能比较

DeepSeek 的横空出世告诉了大家，原来大模型还可以用这种路径来实现，而不完全是按原来的那种暴力堆叠算力的路径来实现。而不完美的 Manus 又何尝不是一个创新的产品呢？它告诉所有 AI 应用从业者，不要沉迷于技术底层，你要做的是提供一个完整度高的产品，先让用户都用起来。Manus 作为一个现象级的产品至少给了一个非常清晰的信号：

大模型底座能力已经相对强大，基于大模型底座只需推出一个完成度高的产品，用户和市场的接受度就会非常高。

从 ChatGPT 发布以来，大模型百花齐放，经过近些年的发展，一些 AI 从业者和投资人表示目前技术对于推出 AI 应用来说已经快要 ready 了。那么 AI Agent 技术在过去几年如何发展的？突破哪些技术上的瓶颈？现在已经可以做到什么样的事情了？接下来需要突破的壁垒是什么呢？带着这些问题，我们来看看 AI Agent 技术发展史。

AI Agent 技术发展史

在详细介绍发展史之前，先来了解下 AI Agent 的定义：

AI Agent（人工智能代理）简单来说是一种能够感知环境、进行决策和执行动作的智能实体。与传统的人工智能相比，AI Agent 具备独立思考和调用工具逐步完成目标的能力。

例如：当要求 AI Agent 帮助下单外卖时，它可以自主调用应用程序、选择餐品、提交订单并完成支付，而无需人为指定每一步操作。

AI Agent 的主要能力组成部分

AI Agent 的主要能力组成部分包括：

逻辑推理能力和行动能力（Planning）

子任务分解：将复杂的任务拆解为更小的、可管理的子目标，以便高效处理。

反思与完善：通过对历史行为的自我批评和反思，从错误中学习并优化后续操作，提升任务完成质量。

记忆能力和上下文理解（Memory）

短期记忆：用于上下文学习，帮助模型记住最近的对话或信息。

长期记忆：通过外部向量存储和检索，提供保留和召回长期信息的能力。

工具使用能力（Tools）

AI Agent 可以调用外部 API 获取额外信息，例如：实时数据计算、代码执行能力或专有信息源的访问权限。

针对上述三种能力，我们来具体看看过去几年 AI 生态圈是如何一步步发展的。

第一章推理 Planning：让 AI 能“思考”和“行动”

首先 AI Agent 需要有很强的逻辑能力，因为最终在执行多步动作或是帮用户执行任务时，Agent 需要去整理清楚决策思路，如：应该使用哪些工具、有了工具之后如何取获取信息、得到信息之后应该去做哪些操作，所以推理能力是 Agent 最重要的能力之一。

2022年10月：ReAct 推理技术发布

就在 ChatGPT 上线前一个多月，2022年10月普林斯顿与 Google Brain 合作的团队提出了 ReAct 框架的论文[2]，该框架是一个将推理行为与大语言模型 LLMs 相结合通用的范例。

ReAct（在语言模型中协同推理与行动）框架论文

ReAct 规范简单来说，就是让 AI 在回答问题的同时，能够去执行一些步骤，不仅仅只是“动动嘴皮子”。具体来讲的话，ReAct 做的事情其实更加偏向于提示词工程（Prompt Engineering），它想通过设定一些不同提示词，能够让大语言模型按照一定的格式去输出。比如：

第一步：观察现在的情况是怎么样的，理解用户的需求是什么

第二步：在观察的基础上再去思考一下你下一步要去做什么

第三步：确定下一步动作后，目前手上有1、2、3三种工具，自己决策为了帮用户解决问题，你会选择何种工具

第四步：确定工具后执行 function call 或 API 获取到相关信息

第五步：.....

百宝箱平台上常用的角色提示词模板

所以，目前所有 AI Agent 的整体构架都是从这篇论文开始的。然而当时的最先进模型 GPT-3.5 的能力相对有限，使得 AI Agent 的逻辑推理能力并不出彩，错误率非常高。

2023年3月14号：GPT-4上线

ChatGPT 上线几个月后，2023 年 3 月 14 号，GPT-4大模型就上线了，比之前的3.5版本模型更强，理解能力、推理能力、回答质量都大幅度提升。

各模型在总结性能上的「平均正确回答频率」能力对比

2023年3月23日：ChatGPT 插件功能 Plugin 发布

一周之后，ChatGPT 插件功能发布，允许大模型 LLM 调用外部工具并且开发 APP，这让 AI Agent 的开发者们兴奋不已。在插件工具发布前，ChatGPT 只能做一些对话或生成一些文本。插件发布后，用户就可以让 ChatGPT 去搜索互联网、连接不同的数据库或者使用一些工具，进而有了完成一系列复杂任务的可能，整个社区都沸腾了。

OpenAI 发布 ChatGPT 支持插件功能的 Twitter

所以在2023年年初，AI Agent 技术的三大要素的第一步 Planning 就已经搭建好了，逻辑推理能力得到了显著的提升，也可以接各种外部的 API、调用外部工具来完成任务，那么接下来开发者生态进入到了技术发展的第二章。

第二章记忆 Memory：让 Al 有更强的“记忆”能力

GPT-4 刚开始时候大概只有 4096 个token，这在现在看来是非常少的，相当于跟大模型“沟通”时大概就只能给到它 3000 多个英文单词让其理解。对用户来说挺难受的，因为无法给大模型提供更多好的信息和数据，稍微长一些的文本或数据就超出限制了，大模型无法更好的执行任务。

2023年5月11日：Claude 大模型支持 100K token（上下文窗口）

到了 2023 年 5 月时，OpenAI 最大的这个竞争对手 Anthropic 公司发布了 Claude 大模型，这个模型一开始就得到社区开发者非常关注的原因是，跟 ChatGPT 相比，可接受的 token 数量有100 多倍的提升，即 AI Agent 可以在更多信息的基础上去进行思考和决策了！所以说 Claude 大模型 5 月份的发布在技术史上也属于里程碑式的进步。

Claude模型处理界面支持长文本

Dify宣布与Antropic合作主打100k token

2023年6月13日：OpenAI 发布 Function Calling & GPT 大模型支持 16k token

紧接着 Claude 模型发布一个月后，OpenAI 也做出了在这一方向上的技术迭代，发布函数调用function calling，引入 JSON 模式和 1.6 万 token 的上下文窗口。这让 AI Agent 更加可靠的调用外部API，比如说查天气、自动填表等等任务。

2023年11月21日： Claude 2.1 大模型支持 200k 上下文

紧接着，2023年11月21号，Anthropic 的 Claude 2.1 版本又进一步把剩下文窗口扩展到了 20 万个 token，相当于 AI 可以一次性记住一整本教科书的内容，思考能力也出现大大的提升，这意味着能够进一步扩大大模型的记忆能力，优化推理和决策过程。

2024年的2月：Google 发布 Gemini 1.5 大模型支持百万级 token

24年初，大模型支持的上下文窗口的 token 数扩展到了百万级别。至此，这个 AI Agent 发展必备的第二个技术壁垒 Memory 的限制也完全的被打破了，对于开发者来说就不是大问题了，直接进入下一章。

第三章工具 Tools：让 AI 开始“动手”

时间到了 2023 年年底，前两个技术壁垒的突破让 LLM 大语言模型充当虚拟世界的机器人这件事情变得更加可行，时机成熟时一些初创公司开始在硅谷生态圈活跃了起来。

2023年12月：Simular 发布AI Agent Demo

23年12月底时，一个叫 Simular AI[3] 的公司发布了他们的第一个 Agent 使用 demo，它应该是业界第一个在发布会上公布让大模型去控制人的电脑的 AI Agent 公司，这一点也算得上是技术的跃升。

2024月10月：Claude 大模型增加 Computer use功能

一年以后，2024 年 10月 Claude 大模型发布了 Computer Use 功能，进一步支持 AI Agent 对控制的计算，让 AI 更像一个真正的可以行动起来的智能助手。可以看出，开发者社区或初创社区的行动都比大公司要早很多。

2024年年底：吴恩达教授公开主题演讲 AI, Agents and Applications

AI 圈备受关注的吴恩达教授在2024年年底，关于 AI Agent 的演讲彻底燃起了技术圈和非技术圈人们对于AI Agent的期待和热情。❝

就技术趋势而言，我最感兴趣的是 Agent AI 的工作流，如果你问我最需要关注的人工智能技术是什么？我会说是 Agent AI。

———知名人工智能专家吴恩达在2024年年底的演讲❞

“2025年将成为 AI Agent 应用的元年的预测”这样的标题开始出现在各大媒体头版上。

但是说实话，虽然各种各样的 AI Agent 应用 demo 早就在全球开发者社群当中屡见不鲜了。但在 Manus 出现之前，大部分 AI Agent 创业公司主要还是聚焦于企业级 toB 的应用，而非直接面向消费者级的 toC 应用，为什么会出现如此差异？这中间的难点在哪里呢？

AI Agent 的四代技术与 AI OS

其实上文提到 AI Agent 技术发展中的逻辑推理能力、上下文记忆能力和工具调用能力，在某种程度上来说，还属与Single Agent（单独智能体）的技术迭代过程。但是要让 AI Agent 真正发展起来，既要做到主流化规模化，就需要实现多个智能体Multi-Agent（多智能体）之间的通信互联。

当不同的 AI Agent 在不同的设备、不同的机房之间去做计算和联动，这才有机会能够推动上亿级别用户的应用。而这里就存在一个难点，需要一个通用的标准化协议适配范式。

让我们结合AI Agent 技术发展历史来具体看下 AI Agent 技术更新的定义：

【已实现】第一阶段：Single Agent（单独智能体）

AI Agent 拥有 Planning、Memory、Tools，中间有大模型 LLM 的驱动。

【已实现】第二阶段：Multi-agent（单机）

Agent 中的 Planning 部分拥有逻辑推理和调度的能力，比如：要实现一个复杂任务，用户可以写很多 prompt，把复杂任务拆成很多个子任务，让各个 Agent 之间去通信，但此时的复杂仍是在一个单进程内完成的。像 LangGraph[4]、CrewAI[5]和微软推出的 AutoGen[6] 都已实现多个 Agent 在一个单机上的库之间通信。

【探索中】第三阶段：Agent实现不同设备、不同机房之间联动（MCP协议）

如果要支持上亿级别用户的应用，肯定需要一个能在不同设备、不同机房间数据联动和流通的架构，这就是我们目前依然处在尝试中的 Agent 第三阶段架构。这个阶段尝试解决的问题是：很多网站或者工具并不支持AI Agent 的调用（目前很多网站和服务都会有“反机器人/anti-bot”的设置）。

在 Manus 的测评案例中，我们也会发现 AI Agent 在执行任务时，也会经常访问不了很多数据来源而导致任务失败。所以在这个阶段中，我们需要去打造一个通用协议来解决这个问题，才能够去支持 AI Agent 与外界的联动。

目前很多公司包括 Antropic 在做协议适配上的尝试，2024年11月初，Antropic 推出了“模型上下文协议”（Model Context Protocol 简称MCP）协议，旨在统一大语言模型与外部数据源和工具之间的通信协议，MCP 的主要目的在于解决当前 AI 模型因数据孤岛限制而无法充分发挥潜力的难题。

形象一点来说，Antropic 将 MCP 协议称之为“AI 应用的USB-C端口”，支持将大模型直接连到数据源。此前，企业和开发者要把不同数据接入 AI 系统，都得单独开发对接方案，而MCP做的就是提供一个「通用协议」来解决这个问题。

【待突破】第四阶段：端云一体化的分布式 Agent 网络与互联协议

然而 MCP 解决了第三代技术的问题，还有最后一个的问题：目前 AI Agent 应用大规模爆发的壁垒，是真正统一的 Agent 和 Agent 间的协议通信标准与分布式计算，就像如今的安卓与iOS一样，我们也需要一个全球大家承认且通用的 AI OS。

结语

Manus 或许不够完美，但正如初代 iPhone 的问世——粗糙的触控体验与缺失的功能并未掩盖其划时代的意义。技术发展史告诉我们，颠覆性创新往往诞生于“不完美”与“高期待”的张力之中。当全球开发者以 Manus 为起点，持续攻克多个智能体协同、跨平台协议、动态环境适应等难题时，那个“智能体如水电般融入生活”的未来，或许比想象中更近。

参考文档

如何评价中国团队发布的通用型 AI Agent 产品 Manus？会成为下一个爆款吗？[7]

读懂AI Agent：基于大模型的人工智能代理[8]

2025年Deepseek冲击波：AI+赋能加速市场聚势重构[9]

吴恩达(Dr. Andrew Ng) 主题演讲：AI, Agents and Applications --「前瞻 AI Agents，颠覆未來想像」论坛[10]

一文看懂：MCP(大模型上下文协议)[11]

AI Agent爆发前的黎明：Manus不够好，但天快亮了[12]

Reference

[1]

Manus: https://manus.im/[2]

ReAct 框架的论文: https://arxiv.org/abs/2210.03629[3]

Simular AI: https://www.simular.ai/agent-s2[4]