AI Agent革命:大模型主导的自主进化 | 我相信模型本身

01
本文是对于AI Agent(智能体)发展方向的分析、探讨与预测,观点基于过往多篇对于AI Agent产品(Deep Research、Manus、Cursor等)的体验、拆解与思考。同时,我也会站在AI应用前沿领域对于该方面的思考进行参考,参考文章置于文末。
观点(02-第8点-更客观的观点):
- 模型即产品:未来AI Agent的核心竞争力将围绕大模型展开,现有的AI应用产品、工具集成方式存在被颠覆的可能且可能性极大。
- 主流通用型AI Agent不应受限于工作流(Workflow),不需要也不能被ReAct等框架束缚。
- 强化学习、单独为任务微调将成为AI Agent进化关键技术,其实也是大模型能力提升的关键。
- 大模型公司占据领先优势:OpenAI、DeepSeek、Anthropic、Google、X等大模型公司在AI Agent发展中具有绝对的主导权。
02
解释与其他观点:
-
本文中的AI应用更多的是指AI Agent方向,基于目前大多数AI初创公司将产品称为AI Agent。但实际上(依据AI Agent的严格定义,参见第4点),大部分所谓的Ageng属于工作流(workflow),这一论断来自于现有的AI Agent工具整合方式依赖严格的结构化流程与预定义的工具调用模式(前几篇文章拆解OpenManus与挖掘Cursor工具时提到,现在的Agent所使用的工具,其定义与实现方式都是由开发人员编写实现的)。
-
需要澄清:颠覆的是主流通用型Agent的产品形态、用户体验、生态格局而不是公司。因为,大模型公司(OpenAI、DeepSeek、Anthropic、Google、X等)在这方面具有绝对的领先优势(模型即产品的认知后文会作解释与分析)。
-
需要承认:目前的工具集成方式是AI Agent发展的早期阶段所必需的。这正是技术总是由复杂过渡到简单的,计算机的演变就是如此。
-
一个较严格的定义:
AI agent为集成了感知、推理、决策、执行与反馈机制的自主或半自主智能系统,通过对外部环境进行实时数据采集与信息融合,利用机器学习、深度学习、符号推理及强化学习等多种先进技术构建知识库和决策模型,从而在复杂、多变的任务环境中实现从数据处理到目标导向行为执行的完整闭环,并通过持续自我优化和与人类或其他智能体的高效交互,达到预设目标与适应环境变化的综合智能化表现。
-
为了避免被颠覆的可能,AI创业公司无疑需要技术壁垒。然而,壁垒的构建需要在较短时间内通过强化学习等关键技术训练现有的所谓的AI Agent。这一观点源于Manus团队的”Less Structure, More Intelligence"与DeepSeek团队将强化学习技术带到新的高度。
-
DeepSeek、Qwen、Llama等开源基座大模型将成为AI创业公司突围的关键变量(与模型厂商深度合作的创业公司例外)。同时,需要垂直领域额外的行业数据进行额外后训练(尤以强化学习为主)。 很遗憾,创业公司将非常艰难。越深入了解OpenAI,越能体会到以模型为驱动的自主型Agent一定是技术导向的,而非工程导向。
-
关于强化学习,AI Agent通过强化学习能够在与环境的交互中获取反馈,并基于奖励信号调整自身策略,从而在非结构化或弱监督的任务中实现最优行为。这里,强化学习等技术将让AI Agent减少人工规则的依赖、优化决策过程、具备高自主性、能够完成垂直领域的特定需求。
更客观的观点总结诠释:
大模型确实是AI Agent未来的趋势,但工具集成不会立即消失,而是可能与模型能力结合,形成过渡形态。
结构化流程(工作流Agent)在需要高可靠性和可控性的领域仍不可或缺。
未来AI Agent可能需要在自主性与结构化之间找到平衡,既能灵活适应环境,又能满足特定场景的可靠性需求。
大模型公司主导通用Agent市场,但创业公司可凭借开源模型和垂直领域创新突围。
03
这一部分,我会给出一些支撑以上观点的事实的分析,也有一些不一样的观点。
1.大模型厂商的领先地位(OpenAI的4o image generation与Deep Research,Gemini、Grok也是如此,不额外补充):
今日凌晨(3.26),OpenAI推出了4o的图像生成功能,面向所有用户。这并不是简单的生成图片模型。据效果展示,这一图片生成能力远超基于文生图模型构建的工作流等。我这里不展示效果了,X上已经炸锅了...
非常遗憾,就是这样,大模型厂商可能任意一个功能的发布就会击倒创业公司的努力。
从Gemini到GPT4o的图像能力,工程改进上的图像工作流已经无法抗拒模型能力上的降维打击了。
这是OpenAI继Deep Research的又一震撼性的Agent产品,我们目前不清楚它使用了什么工具。但是一定很少,因为,DR的工具只有两个(OpenManus十几个工具)。
Deep Research:

这一Agent,OpenAI在其系统提示词(system prompt,可以搜索到,非常简洁)中只定义了browser和python两个工具,甚至没有规定他该如何完成任务(这在工作流Agent中是规划好的)。那么为什么DR会这么强大呢?
Deep Research团队曾接受过访谈,我选取了对话中的一些核心思路(这些认知就是对上述观点的证述):
在加入OpenAI之前,我在一家创业公司工作时也尝试过构建agent。当时采用的是现在互联网上最常见的方式:构建一个操作图(operational graphs),其中某些节点是语言模型,让语言模型决定下一步操作,但整体的操作序列逻辑是由人类定义的。
这种方式确实可以快速构建原型,但在现实世界中很快就会遇到问题。因为很难预测模型可能遇到的所有场景,也很难考虑到所有可能的决策分支。
——完全由模型自身驱动
——不要将硬性规则编码到模型中
我们总认为自己写的代码比模型更聪明,但随着领域发展,模型往往能找到比人类更好的解决方案。
强化学习以及在模型基础上进行微调,很可能是构建最强大agent的关键部分。
视频链接:
强烈推荐:https://www.youtube.com/watch?v=bNEvJYzoa8A
2. 关于现在的Agent产品,拆解他们,其实只是工作流。
Cursor(从Cursor出发:对于Agent更好的理解与运用)都做过拆解讲述,这里不展开。
Claude 3.7其实也是第一点的有力支撑。而这一模型的推出,证明了他们在做Coding Agent相关产品,初级形态为Claude Code,但通过命令行的形式绝对不是终极形态。3.5/3.7在编程能力上的突出表现也显示着Anthropic专门在代码方面的突出优化(RL、微调)。
而且,国外一些开发者发现:3.7在Claude Code中的表现强于在Cursor中的表现。我也有同样的体会。在Cursor中深入使用3.7,我甚至觉得不如3.5,危。
Coding Agent最后一定不是现在Cursor、Windsurf等这样的利用工具读取代码库并进行相关代码生成、文件处理等,而是能够自己管理整个代码仓库。
写到这里,MCP似乎突然失去了一定的意义。为模型提供工具?为什么不把工具内嵌在模型中并打包进行训练呢?
不过,按照这样的思路进行下去,安全与否会是很大的问题。(关于MCP这部分只是写作时的突发灵感,不够严谨,会做额外探索补充)
3. 工作流Agent真的不行吗?创业公司一点机会都没了吗?
如果是高度重复、自动化的流程,其实工作流Agent足够了。那我这样说不是自证矛盾了吗?(与否认工作流Agent),并不是,我在02强调了,工具集成的Agent是主流通用Agent的早期阶段,前者一定会被后者颠覆,靠的就是上面提到的一些技术。
上面这一段,以往对于Anthropic的一篇文章亦有解读,即构建足够有效的Agent(从Google与Anthropic看2025 Agent势不可挡的爆发——AI时代的入口)
现有的一些工作流型Agent其实已占据了很大的生态位且有一定的技术壁垒。创业公司的机会。Cursor也有很多小模型,比如独特的Tab model与Apply model等。
同时,强化学习、少量行业数据的微调等后训练技术并不像预训练那样需要大量的资金、算力、时间,恰恰相反。
不过,强化学习、微调等技术面临着需要高质量数据、训练不稳定等的难题。
4. 个人该如何自处?
如果一味地进行上述分析自然是很空的。
我认为,个人的know-how始终很重要,依赖于既有知识与分析的直觉判断,将成为我们独立于浪潮中的依傍。
写到这里,想去研究OpenManus项目的心情没有了,更想进一步探索深度学习了。
最后
文字本身所承载的逻辑思维和信息模式是极具威力的。深度学习正让大语言模型捕捉人类思维在现实世界的投影。
只依赖于文字形式,加以少部分的视觉反馈,“小镇做题家”们况且于学术方面有所建树。
大语言模型的前景不可限量、不可想象。加之以人类般有效的、简洁的工具,训练。训练。就是真正的AI Agent了吧。
来自AI总结:(我让Grok分析这篇文章时,竟然说我对AI创业公司机会有些乐观?是这样吗?)
本文探讨了AI Agent的发展方向,强调大模型将成为未来核心竞争力,现有工具集成方式可能被颠覆。
作者认为,主流通用型AI Agent不应受限于工作流,而应通过强化学习和任务微调提升自主性。
大模型公司在AI Agent领域占据主导地位,开源大模型则为创业公司提供突围机会。文章指出,当前多数AI Agent本质上是依赖预定义工具的工作流,仅为早期阶段必需,未来将被更智能的Agent取代。
创业公司可通过强化学习和垂直领域数据微调构建竞争力,但面临技术导向的挑战。
作者以OpenAI的Deep Research为例,展示模型驱动的Agent潜力,同时承认工作流Agent在高可靠性场景下的价值。