Manus 爆火,AI Agent 的春天来了?
要说 AI 圈内这两天讨论度最高的产品,当属 Monica 公司的 3 月 5 日发布的 Manus,一些自媒体甚至称它是继 DeepSeek 之后,又一个震惊全球的中国 AI 产品,还给它扣上了“国运级产品”的帽子。据说现在一个 Manus 的内测邀请码已经炒到了5万了。
作为一款新型通用 AI Agent,Manus 的爆火到底是因为它的技术创新?还是场景创新?又或者单纯媒体炒作或者Monica公司过度营销的结果?以及从 Manus 的爆火事件中我们能学到什么?本文我们就来讨论一下这些问题。
先声明,到现在为止我从没有用过 Manus,也没有 Manus 的注册邀请码。目前我对 Manus 的了解主要通过看官方的发布的视频和文档和网上的一些“Manus 会话回放”,以及我自己对于 AI Agent 技术的了解。
# 一、什么是 AI Agent?
# 1. 简单定义
AI Agent(人工智能代理)就像是一个超级智能的小机器人助手。它可以感知周围的环境(就像它有眼睛、耳朵一样),然后根据它感知到的信息来决定做什么,并且采取行动。
比如说,你可以把它想象成一个智能管家。这个管家能够看到家里的各种情况,比如温度、湿度,还能知道你有没有回家,然后它会根据这些情况做出决定,像如果温度高了就打开空调,你回家了就帮你开灯。
# 2. 组成部分
感知模块: 这是它的 “感觉器官”。它可以接收各种数据,比如文本、图像、声音等。例如,一个语音助手类型的 AI Agent,它的感知模块就是麦克风,通过麦克风接收你说的话,把语音信号转变成它能理解的文字。
决策模块: 这是它的 “大脑”。当它感知到信息后,会在这里思考接下来要做什么。还是以语音助手为例,它收到你说 “播放音乐” 的文字信息后,决策模块会想办法找到音乐播放软件,然后告诉这个软件开始播放音乐。
执行模块: 这是它的 “手脚”。它会按照决策模块的指令去做实际的事情。在播放音乐的例子中,执行模块就会和音乐播放软件进行交互(调用工具),让软件真正开始播放音乐。
# 二、AI Agent 级别
我让 DeepSeek 仿照智能驾驶的分级方式给 AI Agent 设计三个级别。DeepSeek 给出的结果如下:
# 1. 任务向导应型
这是最简单的级别。它主要是用预先编程好的流程来完成特定的任务。比如,一个把生成论文的 AI Agent,你只要输入一个主题,它就能给你生成一篇10000字的专业论文。
目前我们常见的 Coze 和 Dify搭建出来的智能体都在这个级别,虽然你可以搭建出可以处理复杂问题的工作流 AI Agent,但是它也只能解决某一个或者一类问题,因为AI的所有执行流程都是你在工作流都是预先设定好的。
# 2. 目标导向型
这个级别的 Agent 有明确的目标,具备自主规划与执行能力。 它可以自己指定目标,并且一步一步实现目标。OpenAI DeepResearch
以及本文的主角 Manus 都属于这一类。
比如,用户让 Agent 出一个中国银发经济的调研报告,Agent 会自己先规划一个任务清单,然后再一步一步去执行和确认,最后得出一份完整的报告,下面是 Manus 生成的任务清单。
# 3. 自主学习型
这是最高级别的 Agent。它不仅能够根据目标做出决策和行动,还可以不断学习和自我完善。它会从过去的经验中学习,不断调整自己的策略和行为。
例如,一个先进的图像识别 AI Agent,它一开始可能只能识别一些常见的物体,如猫、狗、汽车等。但是随着它不断处理新的图像,并且通过和正确的标签(这些标签告诉它图像里到底是什么)对比学习,它能够不断提高自己识别的准确性,甚至可以识别出一些它以前从未见过的物体类别或者更细微的物体特征。
# 三、Manus 的核心卖点
业界把 Manus 吹的神乎其神,Coze 的死忠粉可能不乐意了,他们可能会说,就这么简单的一个事情,我用 Coze 或者 Dify 搭建一个工作流业可以分分钟做到。的确,从理论上来说,Manus 能做的事情用 Coze 也能做到,但是Manus 和 Coze 最核心的区别是:Coze 的工作流需要人来搭建,本质上是人来指挥 AI 一步一步完成目标的。所以每个 Coze 工作流只能解决特定的任务。比如你没法让一个写研究报告的 Coze AI Agent 去生个一个播客,也没办法让一个生成播客的 AI Agent 去生成视频脚本。但是这些 Manus 都能做,因为 Manus 具备自主规划与执行能力,也就是说它自己可以设计工作流。
我在用一个更通俗的比喻来帮助大家理解:Manus 和 Coze 的区别,就如同 DeepSeek-R1 和 GPT-4o 的区别。 你用 GPT-4o 能否达到 DeepSeek-R1 的效果呢?当然可以,只要你每次给 GPT-4o 输入提示词的时候都加上专业的思维链信息。这样也能得到 DeepSeek-R1 的效果,但是问题是且不说每次都加上思维链提示词很麻烦,更大的问题是我们普通人很难写出那么专业的思维链提示词。关于 DeekSeep-R1 是如何具备推理能力的,可以看下我之前写一篇文 章DeepSeek-R1 核心技术解读 (opens new window),链接我贴在本文末尾了。
所以用户体验的角度上看,Manus 做的事情跟 DeepSeek-R1 基本差不多,就是省去了用户的思考过程。 我们只要跟 Mans 说自己想要什么就行了,至于怎么达成这个目标,让 Manus 自己去折腾,然后我们坐等结果就好。如果说 Coze Agent 只是一个工具的话,那么 Manus 相当于真的是你的一个助手了,它会自己思考和决策,而不用你事事耳提面命,你会觉得它更像人。
最后一个问题,自主规划与执行能力 OpenAI 的 DeepResearch 也能有,甚至能力可能比 Manus 还要强一些(号称“博士级” Aent),那么 Manus 跟 OpenAI 的 DeepResearch (类似的还有 Gork3 ,秘塔搜索,Perplexity 的 DeepResearch功能) 有什么本质区别呢?
我个人觉得 Manus 相对 OpenAI 的 DeepResearch 有两个优势:
- Manus 的执行过程全程透明,用户能够看到 AI 整个决策和执行过程。而 OpenAI 的DeepResearch 整个执行过程是在后台完成的。
- Manus 具备动态纠错功能,简单来说就是,在 Agent 执行任务的过程中,用户可以随时跟他互动,比如你让一个筛选简历的 Agent 去处理100份简历,你可以在它处理完50份之后,在临时导入10份简历给它说“把这10份也处理一下”,而不用重新开启一个任务。或者你可以临时修改简历筛选的标准,Agent 会按照新的标准继续执行。你看,这是不是像你的一个牛马下属,啥事都可以扔给它。
# 四、Manus 有创新吗?
这是一个值得争议的问题,如果你是一个 AI 应用开发者,你应该一眼就能看出 Manus 背后大概的技术实现,其实就是利用大模型作为一个决策中心(Agent 的决策模块)做任务编排,利用大模型的函数调用(Function_call
) 来调用外部工具(Agent的执行模块)来完成任务。所以很多开发者都认为,Manus 本质是“乐高式组装”而非底层创新。
如果你常年混迹在 AI 开源圈内,那么你还会发现 Manus 这个项目似曾相识?
没错,Manus 跟 2023年在 Github 风靡一时的开源项目 AutoGPT 的产品设计模式很相似,都是给大模型的大脑安装上手和脚。
这个项目在 GitHub 上斩获了 172K 的星标。成为 2023年Github开源项目新榜排名第一。
AutoGPT 功能非常强大,内置实现了很多插件,我23年的时候还给他们的浏览器插件修复了一个Bug,不过AutoGPT需要在命令行终端使用,使用体验不怎么好,不过我看现在的官方文档(README)貌似现在有界面了,但我还没有测试。
同类开源项目 AgentGPT 也收割了 33K 星标,这个功能虽然不如 AutoGPT 强大,但是它部署更容易一些,而且有GUI的界面:
你只要输入你的任务名称,然后填写任务目标,然后启动任务就好,Agent 会自动规划 Task 然后逐项执行。
你可能会问,为什么这两个产品都没有火起来呢,现在除了圈内开发者,很多估计都不知道这两个项目。原因是产品体验很不好,一个是产品使用体验很差,操作不方便不说,任务还经常莫名其妙中断了。其二是任务结果也很不理想,质量不高。
至于原因,我想到的有两个,一个是因为他们决策模式和任务调度算法问题,另一个重要原因是那个时候大模型的能力还不够强,任务编排水平太低。
Manus 的开发人员充分发挥了现有AI大模型,虚拟机以及大量云端服务优势, 很好地解决了这两个问题。不过 Manus 目前貌似内置的工具不够多,我从他们的宣传视频,以及网友分享的操作演示回放中发现主要就用到了浏览器,文本编辑器,以及代码执行器。像 AI 绘图,AI 视频工具都没有,所以目前 Manus 只能生成柱形图,条形图等这种统计类的图片,因为这些图片是可以通过代码生成的(主要是 SVG 图片和 Python 生成的简单png图形),但是你没法让 Manus 给你生一幅服装设计图,房屋装修图等。
另外,还有两个小知识想要分享给大家,一个 Manus 的实现并没有用到大家喜欢的 DeepSeek-R1,原因很简单,AI Agent 依赖于大模型的函数调用功能,而目前 DeepSeek-R1 并不支持这个功能。
另一个是在就在昨天(3月7日),几个程序员用了3个小时复刻了 Manus 的核心功能,并且开源了,这个项目开源不到24小时,就在 Github 上斩获了 12K 的星标。
我第一时间拉了代码跑了一下,实话说,总体感觉没比 AutoGPT 强上多少,核心功能虽然实现了,但是离产品化还差上十万八千里。只能说,这泼天的流量被他们接住了,期待社区开发者能把这个项目继续完善。项目源码地址我放在文末了,有兴趣的小伙伴可以去看看。
# 五、搞基建还是搞装修?
每次新技术革命都会伴随着出现两拨人:搞基建的和搞装修的。
搞基建的是搞基础设施建设的,前期需要投入大量的人力物力,一般只有大厂家才有资格参与游戏。而搞装修的投入就少很多,三五个人就可以成立一个工程队。
互联网时代,搞基建的铺设光缆,搞装修的开发互联网产品。
移动互联网时代,搞基建的研发手机和操作系统,搞装修的开发 App。
云计算时代,搞基建的建设机房提供云计算服务,搞装修则开发云原生应用。
那么现在 AI 时代,如果说搞基建的是那些提供大模型算力的厂家,那么搞装修的自然就是我们这些 AI 应用的开发者。
如果说ChatGPT 和 DeepSeek 的爆火,让大家看到了底层技术领先带来了巨大的优势和经济效益,那么这次 Manus 的出圈,则让我们意识到,技术成熟后,更重要的往往不是技术原理上的突破创新,而是将成熟的技术组合起来,进行工程优化,最终实现产品化和商业化,也就是大家常说的“模式创新”。
历史不止一次证明,搞基建和搞装修都是有前途的,比如中国电信和阿里巴巴,京东商城。又比如小米手机和腾讯微信,你没法简单的说谁比谁更赚钱,只要你找到了适合自己的赛道,你都可能成为最后的赢家。不过总体而言,我觉得99%的人还是适合搞装修,毕竟搞基建的投入太大,而且最后往往是九死一生,赢者通吃的局面,而搞装修的确有可能白花齐放。
# 六、总结
Manus 的爆火是技术突破、精准定位与传播策略共同作用的结果。市场对“真正能干活”的 AI 助手的迫切需求, 则放大了这一创新的影响力。
Manus 的核心卖点是:它是第一个具备动态纠错能力的可商用的通用 AI Agent。
- **通用:**是因为它具全链路的自主规划和执行任务的能力。
- **可商用:**是因为它具有良好的用户体验,可交付。
- **动态纠错:**是因为它允许用户在它执行任务的过程中动态调整需求。
Manus 的爆火还提醒我们,技术成熟后,更重要的往往不是技术原理上的突破创新,而是将成熟的技术组合起来,进行工程优化,最终实现产品化和商业化。 这是我们广大做 AI 应用开发人员的机会,只要你有好的创意,能真正为用户解决需求,不用担心技术问题,因为每次大模型技术的突破都会成为我们的助力。
# 七、参考链接
- AgentGPT 体验地址:https://agentgpt.reworkd.ai/zh (opens new window)
- AutoGPT:https://github.com/Significant-Gravitas/AutoGPT (opens new window)
- OpenManus 开源地址:https://github.com/mannaandpoem/OpenManus (opens new window)
- DeepSeek-R1 核心技术解读:https://mp.weixin.qq.com/s/vKl3gzfthMZGIl-T01OvHA (opens new window)
本站博文如非注明转载则均属作者原创文章,引用或转载无需申请版权或者注明出处,如需联系作者请加微信: geekmaster01