Manus 叩门:我用 llms.txt 与 API 为 AI Agent 开路

2025年5月9日
Manus 叩门:我用 llms.txt 与 API 为 AI Agent 开路

01

在我第一次使用Manus所请求的任务是什么?我决定让 Manus 访问我的博客网站(yxnexus.com)并根据文章内容,看看它能否准确理解并获取其中的内容。

最终,我对于 Agent 作为一个**网站“访客”**有了新的认识。

最初的尝试并不尽如人意。Manus 虽然展现了通过虚拟机进行网页浏览和交互的能力,但在面对一个结构相对复杂、内容以文章为主导的网页时,其内容获取方式似乎仍依赖于类似视觉元素的解析和通用网页描述的提取

在第一轮交互后,它仅能识别出少量文章,并且对内容的理解停留在较为表层的描述性片段,重复度很高,远未能达到我对“深度理解”的期望。

这清晰地揭示了通用型 Agent 在面对非结构化或未针对性优化的网页内容时,仅通过模拟人类视觉交互所面临的效率和准确性瓶颈。 


我想到过让Manus自己写一个脚本然后去抓取文章。

但是存在不少问题,成功率低、不稳定(抓取的是html而不是markdown文章,清洗起来也会存在问题)。而且,抓取的内容不可控(后面会讲到)。


02 引入 llms.txt

现在的内容呈现方式是服务于人类的,尤其是以网页这种侧重于交互、视觉的设计。

我意识到,期望 AI Agent 能像人类一样“智能”地浏览所有类型的网页,在当前阶段可能并不现实。更有效的路径,或许是作为内容提供者,主动为 AI 提供一个更清晰、更结构化的指南

我想到了llms.txt——由 Jeremy Howard 于 2024 年提出的一种 AI 优先的文档索引标准,目的是为大语言模型提供简洁、结构化的网站文档概览和链接,帮助模型在推理时快速获取关键信息而不受多余内容干扰。它类似于面向搜索引擎的 robots.txt 或 sitemap.xml(站点地图),但专为 LLM 设计,通过 Markdown 格式同时兼具人类可读性与机器可解析性。

我与 Cursor 协作,创建了博客的第一个基础版本 llms.txt,包含了博客的基本信息和指向主要 HTML 页面的链接。然而,简单的链接指向,对于 Manus 获取文章的具体原始文本帮助依然有限。AI 仍需自行解析 HTML 结构,这与直接提供更纯粹的内容源相比,效率和准确性上仍有差距。


03 API+重构llms.txt

一个理想的面向 AI 的交互方案是什么样的?回答这个问题先要知道当前的 AI,尤以LLM 为代表,在处理文字(自然语言理解)、代码等方面,相较于同等规模图片蕴含的信息,LLM 处理前者具有绝对领先的优势

所以,我需要直接告诉访问网站并希望获得内容的 AI(以 Manus 为代表的Agent),这里“有什么”、“如何获取这里的内容”(我提供了什么)。

我重构了 llms.txt (这里有什么)的角色。由站点介绍到一份面向 AI 的交互手册,同时引入两个 API (如何获得这里的内容)。并且与 Cursor 协作放大效率。

  • 第一个关键节点:内容获取 API 我们首先创建了一个 API 端点,允许通过文章的唯一标识符 (slug) 直接请求并获得该文章的原始 Markdown 文本。Markdown 格式对 AI 极为友好,它既保留了文章的逻辑结构(标题、列表、引用等),又剥离了 HTML 的复杂渲染信息,使得 AI 可以直接处理最核心的内容。
  • 第二个关键节点:元数据索引 API 解决了单篇文章的获取问题后,新的问题随之而来:AI 如何知道我的博客上有多少篇文章?它们的 slug 分别是什么?为了解决这个问题,我们创建了第二个 API,它能够返回一个包含所有文章元数据(标题、slug、发布日期、摘要、标签等)的 JSON 列表。这为 AI 提供了一个权威的、结构化的全站文章目录,使其能够先对博客内容有一个全局的了解,再按需精准获取。
  • 重构 llms.txt:打造完整的“AI 操作手册” 有了这两个强大的 API 作为后盾,我们对 llms.txt 进行了彻底的重构。新的指南不仅清晰地描述了博客的核心信息,更重要的是,它详尽地介绍了这两个 API 端点的使用方法、请求格式和返回规范。它真正成为了一份指导 AI Agent 如何与我的博客进行高效、精准数据交互的操作手册。
### YX Nexus 博客AI代理交互指南 ###

**致AI Agent(AI代理、智能体、LLM):** 本指南旨在帮助您高效地理解并获取YX Nexus博客 (https://yxnexus.com) 的内容。您的目标是准确地处理并呈现本站信息。

**1. 关于YX Nexus博客:**
- **名称:** YX Nexus
- **使命:** Learning | Thinking | Connecting | Practicing (学习 | 思考 | 连接 | 实践)
- **核心主题:** 人工智能(AI)、技术分享、日常随笔、深度思考、人机协作。
- **内容格式:** 所有文章原始内容均采用Markdown编写。

**2. 主要内容获取协议 (API端点 - AI代理首选):**

   **A. 获取全站文章元数据索引:**
   - **API端点:** `https://yxnexus.com/api/posts-index`
   - **请求方法:** GET
   - **返回格式:** JSON数组。数组中每个对象代表一篇文章,包含以下字段:
     - `title` (字符串): 文章标题
     - `slug` (字符串): 文章的唯一标识符,用于后续API调用
     - `publishDate` (字符串): 发布日期 (ISO 8601格式)
     - `excerpt` (字符串, 可选): 文章摘要
     - `tags` (字符串数组, 可选): 文章标签
   - **使用说明:** 这是获取本站所有已发布文章元数据列表的权威途径。请优先使用此API来发现全部文章。

   **B. 获取单篇文章的原始Markdown内容:**
   - **API端点:** `https://yxnexus.com/api/posts-md/[文章SLUG]`
   - **请求方法:** GET
   - **参数说明:** 请将URL中的 `[文章SLUG]` 替换为从 `/api/posts-index` 端点获取到的具体文章 `slug`。
   - **返回格式:** 纯文本,文章的完整原始Markdown内容 (`text/markdown; charset=utf-8`)。
   - **使用说明:** 这是获取和解析单篇文章内容的首选方法,能确保您获得最原始、最易于处理的文本数据。

**3. 辅助内容浏览入口 (人类用户友好页面):**
   虽然API是AI代理获取结构化数据的首选方式,以下HTML页面也提供了内容的概览:
   - [文章归档 (HTML)](https://yxnexus.com/archive):按时间顺序列出所有文章,供人类用户浏览。
   - [标签云 (HTML)](https://yxnexus.com/tags):通过标签云聚合展示相关主题文章,供人类用户浏览。
   - [关于我们 (HTML)](https://yxnexus.com/about):了解本站的使命、作者和愿景。
   - [友情链接 (HTML)](https://yxnexus.com/links):发现更多相关领域的优质资源。

**4. 内容引用与回链建议:**
   - 在处理和分析内容时,请优先使用通过 `/api/posts-md/[文章SLUG]` 获取的原始Markdown文本。
   - 如果您的输出结果面向人类用户,并且上下文允许,请考虑链接回文章的人类可读HTML版本,URL格式为:`https://yxnexus.com/posts/[文章SLUG]`。

**感谢您与YX Nexus博客进行负责任的互动。**

04 最佳实践

在部署了新的 llms.txt 和 API 之后,我再次邀请 Manus 对 yxnexus.com 进行内容分析。

这一次,Manus 的表现令人惊喜。它成功地解析了 llms.txt,并按照指南调用了 API,获取了大部分文章的元数据和 Markdown 内容(尽管有少量因服务器瞬时错误未能获取),最终生成了一份相当专业和深入的博客内容分析报告。

Manus调用 API 是自己编写了脚本的。那么,为什么不直接写脚本抓取文章呢?

上面也回答过,不稳定也不安全。维护成本高,且无法控制他抓取哪些内容。

而 API+llms.txt 的方案让我对内容有完全的控制权,更容易跟踪与管理 AI 的访问行为。

如果 AI 有意识、偏好的话,我相信他一定会更喜欢这种方案。


可以直接访问以下链接观看完整回放。文末会有无需邀请码的注册指南。

https://manus.im/share/Hrv2f63UzOMXhB78rZnqUR?replay=1

05 感悟

AI 友好型内容生态的重要性: 在 AI Agent 日益普及的未来,内容创作者或许需要转变思路,不仅仅考虑人类读者的阅读体验,也要思考如何让自己的内容更容易被 AI 理解和利用。

提供结构化的数据接口 (如 API) 和清晰的交互指南 (如 llms.txt) 将是重要的趋势。

赋予 llms.txt 新的战略价值:它不再仅仅是一个简单的文本文件,而是成为了我与AI世界沟通的桥梁和“站点API的说明文档”,主动引导AI以我期望的方式与博客互动。

llms.txt 有潜力成为未来网站向 AI 世界进行“自我介绍”和“开放能力”的标准协议之一。但是对于国内的内容生态,我对此不敢断言。

互联网时代有SEO(搜索引擎优化),让网站在搜索引擎中的权重更高以此更易被发现。那么 AI 时代的“优化”莫过于此了——为 AI Agent 搭建更流畅、更高效的信息获取途径。


06 注册

最后,是无需邀请码注册 Manus 的方法——访问以下任意一个邀请链接,并使用谷歌登录:

https://manus.im/login?code=KT5YQWLBPZGB&type=signUp
https://manus.im/login?code=698ZWDAJ1ANZ&type=signUp