YX Nexus 周报002:认知、技术、产品

本周主题涵盖技术、认知与一些分享
记录有价值的输入、有意义的输出、有意思的探索
在快速变化、充满未知和复杂性的 AI 时代,保持清醒思考、洞察本质、并对未来抱有理性乐观和人文关怀的态度。
1.深入理解底层是重要的
我关注了一些教育工作者,他们都报告了同样的现象:他们的学生什么事情都用 ChatGPT,结果什么也没学到。
最终可能会出现这样一代人,自己的智力很低下,完全依赖于他们不理解的技术,一旦技术崩溃,他们永远无法从头开始重建。
-- 尼尔·斯蒂芬森(Neal Stephenson),美国科幻小说家,“元宇宙”一词的创造者
学习、理解使用的工具是重要的,也许崩溃是可能性低的,但理解原理才会更进一步的使用。
我推荐三本书,前两本对于无论是非技术还是非AI从业者都很适合:
- 《深度学习革命》,故事性讲述人工智能的主要发展史;
- 《生命3.0》,从科学家的角度看待人工智能技术变革,“如果人类代表生命2.0的话,那么AI就是生命3.0";
- 《python深度学习》,需要一些python基础就能够入门深度学习,了解底层技术。
2.创作的新时代即将到来
Google labs 负责人 Josh Woodward,一次访谈末尾表示:
其他反主流观点?我想我就用这个来结束吧。
首先,我认为现在是多么令人惊叹的时代啊,能够活着并且参与创造,因为我感觉我们正处在一个窗口期,各种相邻的可能性空间正在开启。
其次,我想鼓励正在收听的人们真正思考,当然,市场上有各种模型和竞争,但请深入思考你正在将什么样的价值观融入到你的公司中。因为我认为这是那些关键时刻之一,我们正在创造的工具将会塑造接续的几代人。人们思考这一点非常重要——你是想要替代和消除人类,还是想要放大人类的创造力?比如,当我思考视频领域时,我明确站在想要放大人类创造力的一边。
在我们的硅谷,常常会有这样的时刻,事物发生变革,这些变革通常会影响几代人,它们可能带来好的影响,也可能带来坏的影响。所以我想鼓励那些正在创业的人们,当你拥有这项只会变得更聪明、更快速、更便宜的令人难以置信的技术时,请好好利用它,并思考你的技术可能带来的长远影响。
Josh 也在本次 Google I/O 中发言,正如他提到的“参与创造”“放大人类创造力”...创作的新时代、搜索的新生态、生活的新方式是我为 Google 即将定义的未来的总结。
3.前沿技术、模型与产品
关于前沿,本周几件“大事”,Google I/O、OpenAI收购前苹果首席设计师乔纳森的io初创公司进军AI硬件、Anthropic发布新一代Claude 4模型,进一步分析见谷歌、OpenAI、Anthropic 引领的三大趋势。其他:
前沿技术
- 强化学习越来越重要。甚至是“AI的终极形态”。
OpenAI研究员甚至强调AI进入下半场,一切都变了:
简单来说,强化学习(reinforcement learning, RL)终于有效了。更确切地说,RL 终于有了泛化能力。经过几次弯路,也跨过了一系列重要里程碑后,我们终于找到了正确的配方(recipe),能通过语言模态和推理能力来解决广泛的强化学习任务。AI 的下半场——从现在开始——会从解决问题转向定义问题。
RL 通常被认为是 AI 的“终极形态”,毕竟从理论上,它能够保证在 game( 所有在封闭环境中,有明确输赢的博弈任务)中取胜,而在实践上,几乎所有 superhuman 水平的 AI 系统(比如 AlphaGo)都离不开 RL 的支撑。 GPT-2 或 GPT-3 出现,我们发现缺失的是先验知识 (priors)。结果发现,RL 中最重要的部分可能甚至不是 RL 算法或环境,而是先验知识,而这些先验知识的获取方式与 RL 完全无关。
一旦我们拥有了正确的 RL 先验知识(语言 pre-training)和 environment(将语言推理作为行动),算法可能是最微不足道的部分。 长期以来,RL 研究者更关心算法,远胜于关心 environment ,几乎没有人关注先验知识——所有的 RL 实验本质上都是从零开始的,但我们绕了几十年的弯路,才意识到也许我们的优先级应该反过来。
Claude 4的核心开发者之一Sholto Douglas:
由于强化学习 (RL) 终于在语言模型上取得了真正的成功,我们在教授这些模型处理任务的智力复杂性方面,似乎没有遇到直接的瓶颈。因此,我们看到它们能够解决极其复杂的数学问题和编码问题。但这些通常局限于特定领域,上下文也相对有限。
我认为目前该领域的大多数人相信,我们迄今探索过的,诸如“预训练加上强化学习 ” 这类范式,其本身就足以实现 AGI。我们尚未看到相关趋势线出现放缓或停滞的迹象。这种组合方法是有效的。
未来 6 到 12 个月,我们非常关注扩大强化学习 (RL) 的规模,并探索这将把我们带向何方。我预计,因此会看到极其快速的进展。不需要再投入更多数量级的预训练规模。事实证明,强化学习是行之有效的,而且这些模型到 2027 年将能够达到“即插即用型远程工作者”的能力。
过去认为预训练让模型涌现出能力,强化学习放大这些能力。他引用 DeepMind 在围棋和象棋 AI 上的研究指出:“只要强化学习信号足够干净,强化学习就能教会这些……AI 新的知识,这些知识的水平超过了人类水平。” 因此,从结构上讲,并没有什么能阻止 RL 将新知识注入神经网络,关键在于“花费足够的计算量和拥有正确的算法”。 “没有理由说你不能在强化学习中学习新的能力。"
前沿模型
- 模型与agent的界限变得模糊,OpenAI的 o3 和 o4mini 表面上是推理模型,其实就是 AI Agent(智能体)。
- 未来,单一的大语言模型是不存在的。这或许也是”模型即产品“的一个表现。Agent的确成为今年的主流。能力越来越强大。依赖于强化学习,Agent的智能水平仍有很大的发展空间。
拾象研究员:
我们认为这两个模型(o3与o4mini)最惊艳的是在 agentic(能动性) 和 multimodal(多模态) 能力上的完整性,这两个模型可以实现: 1)Agentic 地浏览网络,多次迭代搜索来找到有用的信息; 2)用 Python 执行和分析代码,并且画图进行可视化分析; 3)在 CoT(思维链) 中对图片进行思考推理,并且对图片做裁剪、旋转等增强生成图片 4)读取文件和 memory。
agent 产品或许在走向两种技术路线
OpenAI 路线更黑盒化,和人的工作方式不同,更依赖端到端训练,以及 agent 自己构建代码和思考完成任务的能力。通过端到端的一体化模型,将 tool use 内化到模型里面,这种 agent 产品在环境上相对有约束,但智能比较强,能端到端做 RL 训练;
Manus 的方式更白盒化,用虚拟机模仿人类的工作方式。有一定的复杂工作流和外置界面,通过模型和调用外部工作流和环境的方式,来完成任务。
两位强化学习教父 Richard Sutton 和 David Silver 发布了一篇文章《Welcome to the Era of Experience》。这篇论文中强调的几个观点非常值得关注:
- 模仿人类数据只能接近人类水平;
- 新一代 agent 需要从 experience 中学习来达到 superhuman 水平;
- Agent 会不断和环境交互形成经验数据,而且有长期且连续的 experience stream;
- Agent 能根据先前的经验自我修正,可以实现长期目标,即使短期不见成效,也能持续修正来达到突破,类似人类实现健身等目标一样。
非营利研究机构 Transluce 的分析报告中指出:o 系列推理模型普遍存在「幻觉」,不仅限于 o3。可能的原因有两类:
1)强化学习机制诱导模型陷入了「正确率陷阱」,导致模型为了获取正确奖励而生成看似合理但实则虚构的内容;
2)彻底丢失思维链使模型在后续对话中失去了推理记忆,被迫为过往行为编造解释,从而出现了「坚持错误 - 突然改口」的典型矛盾行为。
前沿产品:
60 天实现 $10M ARR(年度经常性收入)的 Lovable 的底层方法论:社区驱动、简化体验、可靠至上、敏捷迭代、精英团队、商业闭环有机融合,形成了自己的核心竞争力。
先以 GPT-Engineer 开源项目赢得开发者,先社区后商业降低获客成本。
产品设计上奉行极简主义。将复杂的软件工程流程抽象成单一的聊天接口,让用户专注描述需求。正如 CEO 所言,未来开发的瓶颈是“知道做什么”而不是“如何做”。
对结果负责的产品态度。针对 AI 编程常见问题,设计了 Prompt 链、辅助 Agent、自主调试等机制,确保输出的代码能真正跑通。产品极致打磨的方法论:宁可牺牲些许生成速度,也要解决“90% 正确但 10% 不 work”的致命短板。
将产品迭代节奏提到极致 — 每周都有新功能上线或改进。“小步快跑,不断试错”。“以用户为中心”。
4.坚持长期主义
AI的发展是长期的,现在是一个爆发点,从加尔定律看神经网络(深度学习)的演化。
加尔定律(Gall's Law)的核心观点是:一个能够工作的复杂系统,必然是从一个能够工作的简单系统演化而来的。
从头开始设计的复杂系统,几乎注定无法工作,也无法通过修补让它工作。你必须从一个能够工作的简单系统重新开始。
神经网络的演化史大概也是这样,从简单有效系统到复杂强大系统。
从MP模型到“感知机”的能力有限、基本概念可行 -> 逐步复杂化:多层感知机、反向传播算法 -> 卷积神经网络(CNN)、RNN等变体,深度学习兴起 -> 更深、更复杂的架构Alexnet、ResNet、Transformer等…
Transformer(2017)也并不是从零冒出来的,它的前身包括:Seq2Seq 模型(2014)、注意力机制(Bahdanau, 2014)、编码器-解码器架构等。
同时伴随的硬件能力的提升带来算力倍增,算法的改进、数据的必然性膨胀,一切为scaling law准备。 ......
"当他们讨论人工智能和机器人以及这些技术的走向时,他说未来的机器人需要睡觉。他认为,机器人需要睡觉,因为它们需要做梦。
他的观点是,人工智能研究的未来在于不仅能识别图片和口语单词,还能自行生成自己的系统。做梦是人类进行学习的重要组成部分。
晚上,我们“重播”白天经历的事情,把记忆植入大脑。总有一天,机器人也会如此。”
Nvidia 近期发布的“机器人做梦”的相关研究:他们推出了名为 GR00T-Dreams 和 DreamGen 的研究项目,旨在通过生成合成数据来加速机器人学习过程研究核心思想是让机器人在“梦境”中进行大量模拟,类似于人类在睡眠中巩固记忆和学习经验。
通过模拟“睡眠”或“梦境”状态,提升机器的学习效率和适应能力。
早在 2017 年,巴黎的 Project DREAM 就提出了将“睡眠”和“梦境”过程引入机器认知架构的理念,认为这有助于机器人更快、更深入地学习。
做研究、产品或者一切有价值、意义(长期来看)的事,不要太功利,那些突破点恰恰存在于日常被忽视的小事、某一个人物传记的一句话、某个游戏的创新点等。
......
来自 flomo 团队: Richard Sutton,被誉为「强化学习之父」,有一个观点被广为流传,叫做「苦涩的教训 (The Bitter Lesson)」,对抗复杂问题的有力思维工具。
Sutton 观察到的「苦涩教训」是什么?
简单来说,在人工智能研究中,那些试图将人类的知识、规则和理解硬编码进系统的「精巧」方法,长远来看,几乎总是输给那些更「笨」、更通用、但能受益于大规模计算能力的方法(比如基于海量搜索和持续学习的方法)。
就像他打的比方,早期下棋的 AI 依赖人类棋谱和经验,但最终被 AlphaGo 这样依靠「暴力」算力自我对弈学习的 AI 超越。人类的「智慧」在「简单方法 + 海量算力/数据」面前,显得有些「苦涩」。
迭代、规模、复利的力量。
保持开放,允许「笨」方法通过学习和规模化展现力量。
5.AI 远比我们想象的更复杂,下面体现在意识形态、伦理道德中。 2016年冬,人工智能研究者蒂姆尼特·格布鲁(Timnit Gebru)从NIPS大会归来(其作为在本次大会的黑人女性,看到了在5500多人的会议中只存在6名黑人,还都是她认识的男性)。她在Facebook上写下了一段话:
我不担心机器接管世界。 我担心人工智能圈子里的群体思维、狭隘和傲慢,尤其是在当前对该领域人员的大肆炒作和需求的情况下。这些事情已经引发了一些我们现在就应该担忧的问题。
机器学习被用来计算谁应该承担更高的利率,谁更可能犯罪并因此获得更严厉的判决,谁应该被视为恐怖分子等。一些我们认为理所当然的计算机视觉算法仅适用于具有特定外在特征的人。我们不需要推测未来会发生的大规模破坏。
人工智能只服务于世界人口的一小部分,创造它的人也来自世界人口的极小部分。某些人口会受到它的主动伤害,不仅因为算法对他们不利,还因为算法的工作是自动化的。这些人被主动排除在高薪领域之外,这使他们从劳动力市场中消失。
我听过很多人谈论多样性,好像这是某种慈善事业。我看到一些公司甚至个人都把其用作公关噱头,但仅仅是口头说说而已。因为这是日常用语,所以你应该说“我们重视多样性”。
人工智能需要被视为一个系统,创造这项技术的人是这个系统的重要组成部分。如果很多人被主动排除在外,那么这项技术只会让少数人受益,同时损害很多人。
模型不仅是技术工具,更是价值观、审美标准和叙事逻辑的体现。
翟东升(长期观察国际政治经济和中国发展的知名学者):
“语言大模型的底层是价值观…图形大模型的底层是审美…视频大模型的底层是叙事和话语权…”
“谁掌握了语言大模型图形大模型视频大模型的主导权…谁就掌握了二十一世纪的意识形态的主导权。”
“我们要上升到这个层次上,上升到...和...生死存亡的概念,来讨论人工智能的主导权的问题。”
6.Agent 产品能力已经不错,但是因为“模糊”导致”不好用“
最近Agent产品也不少,Flowith Neo、天工的Skywork、其他开源的等等。我只使用了Neo,而且感觉还不错。尽管存在前端的一些问题(画布的形式使得加载很慢且卡顿)。我印象最深的、也是很有用处的是主打的“无限”。
关于我提到的“模糊”:
- 能力边界模糊,不像传统软件功能清晰,尤其是现在这些“通用性Agent”,很多时候刚入手的用户“不知道干什么”——
- 缺乏杀手级场景范例,酷炫的demo没有深入大众日常的工作流;
- 可能性太多了,就我体验的感受,如果你没有一个对于AI能力很全面的认知,你是不知道能做什么不能做什么的,这也回到了最开始的“深入理解底层是重要的” 如果能用好,理解底层,那么整合进现有的工具链是很强大的。
我在上周周报的”继续探索“中提到了Ilya推荐的30片论文,恰好我来让Flowith来进行整理、索引、归纳总结、并做成网页。如果来交给Manus的话,试错成本太高,flowith现阶段放开的体验还是不错的。但是,最后的结果不太好,原因还是画布的交互形式让页面太卡,任务也无法进行,期待进一步优化。
Manus在我这里得到进一步使用,我注意到Manus在整理资料时展现出了很强大的能动性。一个场景是,我想要对于人工智能发展的历史做一个非常详尽的总览,"构建一个全面、艺术性、合理且客观的交互式知识图谱,以生动直观的方式展现人工智能从思想萌芽到前沿发展的完整脉络" 我定义的这个任务prompt是非常详尽的,最初交给flowith,规划了大概40、50步吧,网页内存占用量接近4个G,不了了之。 Manus在这个过程中一步一步任劳任怨的搜集整理,但是积分消耗太快了...
总的来说我看好下面Agent的发展,不仅是我自身的体会,还是关于“强化学习”的进一步发展,而且也是对于长期主义的坚持。
7.定义即将探讨话题中的概念是讨论的前提;理解作者的”语言”是理解其思想的前提。
再推荐《生命3.0》,作者被誉为“最接近理查德•费曼的科学家”,在书中科学性的想象与推演。
之前听的不少播客、看的一些比较宏观地介绍、分析有关于“智能”、AGI等等的文章、书,都没有很好地去诠释概念、严谨推理,而只是在那个环境下去引导我们的惯性思维。
作者知道这些问题,并且在一切的开始就对于很多概念下定义,且很通用全面,比如智能“完成某种复杂目标的能力”、意识“主观体验”、生命“保持自身的复杂性,并能进行复制”、AGI“可完成如何认知任务,并且完成得至少和人类一样好”.....
8.关于禹创AI公众号的内容:
- 趋势洞察与理念碰撞、分享AI工具、人机协作等(深思、分享、共创)
- AI相关的,能从中找到长期有利的精华(术解、周报)
- 具体某一事件、我的某一点思考、一些实践反思、他人的某一观点等作为一篇的出发点,为表面明线
- 保持YX Nexus的核心理念贯彻,价值创造、人机深度共生、认知自由…