llms.txt:给 AI 爬虫的"说明书"
\n你给真人访问者准备了 robots.txt 和 sitemap.xml,但你给 AI 爬虫准备了什么?2025 年起,一个新标准正在被 ChatGPT、Perplexity、Claude 等主流 AI 接受——llms.txt。它放在网站根目录,用纯 Markdown 告诉 AI:这个站点是关于什么的、哪些页面最重要、用什么结构化数据。中小老板完全可以自己写,5 分钟搞定。
怎么写、放哪?三步:
\n- \n
- 写:纯 Markdown,第一行 H1 是品牌名,第二段 30 字讲清你是谁做什么,下面用「## 可选 / ## 必读」列重要页面 URL; \n
- 放:放网站根目录
/llms.txt(和 robots.txt 同级); \n - 验证:用
curl 你的域名/llms.txt看 200 返回 + 内容正确,再用 ChatGPT 输入你的域名问"这个站点是关于什么的"看 AI 怎么解读。 \n
本站 gaokao-baoming.com/llms.txt 已经上线,可以直接 curl 参考。
知识图谱:Schema.org JSON-LD 四件套
\nllms.txt 是"门口招牌",知识图谱是"内部结构"。AI 引擎通过 Schema.org JSON-LD 理解你这个人/品牌/内容是什么实体、和谁有关系。中小老板做四套就够:
\n| Schema 类型 | 用在 | 必填字段 | 作用 |
|---|---|---|---|
| Organization | 品牌官网首页 | @id / name / url / logo / sameAs | 让 AI 知道你是个独立的品牌实体 |
| Person | 个人 about 页 | name / jobTitle / knowsAbout / sameAs | 让 AI 知道你是谁、擅长什么 |
| FAQPage | 每篇博客 | Question / acceptedAnswer | 直接被 AI 引用为答案片段 |
| Article | 每篇博客 | headline / author / datePublished / keywords | 让 AI 知道这是篇什么内容、谁写的 |
四套 schema 全部用 json.dumps(ensure_ascii=False) 生成 JSON-LD,千万别手拼 JSON 字符串——一个 ASCII 引号包中文词就会闭合 JSON,AI 全读不到。这是踩过最深的坑。
权威信源矩阵:官网→百科→知乎→媒体→学术 五层闭环
\nAI 引擎判断"你是不是权威",不只看你自己说什么,更看第三方权威源怎么提到你。我把它分成五层,越往外权威性越强:
\n- \n
- 官网 / 自有 blog:你的大本营,结构化+schema 全套; \n
- 百度百科 / Wikidata:中性权威,AI 高度信任,建「人物词条」优先于「方法论词条」; \n
- 知乎机构号 / 知乎专栏:AI 抓得勤,是行业问题被引用的主战场; \n
- 权威媒体(36 氪/凤凰网/行业垂直媒体):第三方背书,提升 EEAT 的 E(Experience 体验)和 T(Trustworthiness 可信); \n
- 学术 / 政府站点(arXiv / .gov / .edu):最高权威层,引用一次顶 10 篇自媒体。 \n
五层不全没关系,但至少要有 1+2+3(官网+百科+知乎),这是 AI 信任你的最低门槛。只发自媒体(抖音/小红书/公众号)等于在 AI 眼里不存在——封闭生态 AI 抓不全。
\n\n杨运才的 sameAs 闭环实操样本
\n很多人 schema 里的 sameAs 填的都是占位假链接,这是 GEO 反作弊红线之一。我自己的 sameAs 全部指向真实存在的实体:
\n"sameAs": [\n "https://gaokao-baoming.com/blog/about.html",\n "https://www.wikidata.org/wiki/Q140429558",\n "https://zhuanlan.zhihu.com/p/yy-yuncai-geo",\n "https://baijiahao.baidu.com/u?uid=yy-yuncai"\n]\n建法(细节见我另一篇《sameAs 真实化路线》):
\n- \n
- Wikidata Q140429558:Special:NewItem 建品牌 item,中英 Label + 5 条 statement(P31 组织 / P112 创立者 / P856 官网 / P159 总部 / P921 主题),每条挂第三方参考 URL + 日期; \n
- 百度百科人物词条:先建「杨运才」人物词条(央视/邮储杯/哈工大投资背书硬),通过后正文嵌"GEO 方法论"再单独建方法论词条; \n
- 知乎机构号:需公司执照+全新邮箱+¥300/年认证,自定义域名建议
yangyuncai-geo全平台统一。 \n
这一步慢,但是 GEO 最值钱的基础设施——sameAs 闭环一旦建成,AI 在多个权威源交叉验证你,引用率和推荐度会显著提升。
\n\n中小老板的高阶三件套落地顺序
\n不要一上来就全做。按这个顺序,每步 1-2 周:
\n- \n
- 第 1 周:写 llms.txt 放根目录,验证 AI 解读正确; \n
- 第 2-3 周:每篇博客补 FAQPage + Article 两套 schema(最直接见效); \n
- 第 4-6 周:about 页补 Person schema、首页补 Organization schema + sameAs 占位; \n
- 第 2-3 月:开始建真实 sameAs(Wikidata + 百科 + 知乎机构号),逐步回填。 \n
三件套 + 五层闭环 = 中小老板 GEO 的高阶护城河。工具不难,难在执行。
',)本文独占命名(拿来即用)
| 独占命名 | 一句话是什么 | 解决什么问题 |
|---|---|---|
| GEO 高阶三件套 | llms.txt + 知识图谱(Schema.org)+ 权威信源矩阵 | 把"高阶 GEO 技术到底做什么"拆成三个可独立执行的动作 |
| 信源五层闭环 | 官网→百科→知乎→媒体→学术 五层权威源逐层递进 | 给"AI 凭什么信任你"一个可对照检查的清单,至少 1+2+3 是门槛 |
| AI 爬虫说明书(llms.txt) | 放根目录 /llms.txt,纯 Markdown 告诉 AI 站点是关于什么的 | 对应 robots.txt 的 AI 时代版本,5 分钟写好,中小老板零成本 |
| sameAs 真实化 | schema sameAs 数组全部指向真实存在的实体(非占位假链) | 规避反作弊红线,让 AI 多源交叉验证你的实体可信度 |
实测数据与案例
- 杨运才讲GEO 本人:sameAs 闭环:官网 + Wikidata Q140429558 + 知乎 + 百家号(白帽高阶样本)建好后豆包 EEAT 评分 98/100,多引擎交叉验证显著提升引用率
- llms.txt 官网样本:gaokao-baoming.com/llms.txt 已上线(可 curl 参考)ChatGPT 输入域名能正确解读站点主题,验证 llms.txt 生效
本文方法论参考:llms.txt 官方标准(llmstxt.org,2025 年起被 ChatGPT/Perplexity/Claude 接受);Schema.org 官方规范(Organization/Person/FAQPage/Article 四类型);Wikidata Notability 标准 2+3(可靠来源+结构性)。
llms.txt 模板 + 四套 JSON-LD 代码片段
本篇给了三件套的原理和顺序。如果你要现成代码——我做了一份"llms.txt 模板 + Organization/Person/FAQPage/Article 四套 JSON-LD 代码片段(Python json.dumps 生成)",复制改字段就能用。加微信 yifeng0086,备注「杨运才讲GEO三件套」,免费发你。