llms.txt 是什么？和 robots.txt 有什么区别？

llms.txt 是 2025 年起被 ChatGPT/Perplexity/Claude 等主流 AI 接受的新标准，放在网站根目录 /llms.txt，用纯 Markdown 告诉 AI 这个站点是关于什么的、哪些页面最重要。区别：robots.txt 是"哪些能爬不能爬"，llms.txt 是"我是谁、我最想让 AI 知道什么"。两者同级共存。

llms.txt 怎么写？放哪里？

三步：①纯 Markdown 写，第一行 H1 是品牌名，第二段 30 字讲清你是谁做什么，下面用「## 可选 / ## 必读」列重要页面 URL；②放网站根目录 /llms.txt（和 robots.txt 同级）；③用 curl 你的域名/llms.txt 验证 200 返回 + 内容正确，再用 ChatGPT 输入域名问"这个站点是关于什么的"看 AI 解读。

Schema.org 四件套是哪四套？中小老板必做哪几套？

Organization（品牌实体，放首页）、Person（你这个人，放 about 页）、FAQPage（每篇博客）、Article（每篇博客）。中小老板四套都该做，但优先级：先做 FAQPage + Article（每篇博客直接见效），再做 Person + Organization（建立实体）。四套都用 json.dumps(ensure_ascii=False) 生成 JSON-LD，别手拼 JSON。

为什么 schema 不能手拼 JSON 字符串？

因为一个 ASCII 双引号包中文词就会闭合 JSON，AI 全读不到。比如手写 "name":"AI"XX"谁靠谱" 看起来对，实际 JSON 提前闭合，整段失效。正解是用 json.dumps(ensure_ascii=False) 让 Python 自动转义所有特殊字符，再嵌进 script 标签。这是 GEO 踩过最深的坑之一。

权威信源五层闭环是什么？最少要做几层？

五层：①官网/blog ②百度百科/Wikidata ③知乎机构号/专栏 ④权威媒体（36氪/凤凰网等）⑤学术政府站点（arXiv/.gov/.edu）。至少要做 1+2+3（官网+百科+知乎），这是 AI 信任你的最低门槛。只发自媒体（抖音/小红书/公众号）等于在 AI 眼里不存在——封闭生态 AI 抓不全。

sameAs 为什么不能填占位假链接？

因为 AI 反作弊会交叉验证 sameAs 数组里的 URL 是否真实存在。填不存在的知乎/Wikidata 链接，轻则 sameAs 失效，重则触发反作弊降权红线、整页不引用。sameAs 必须指向真实存在的实体——建好后才能填，不能先填后建。

Wikidata 怎么建品牌 item？

Special:NewItem 建条，中英 Label + 5 条 statement：P31（instance of 组织）、P112（创立者）、P856（官网 URL）、P159（总部位置）、P921（主题）。关键是每条 statement 都要挂第三方参考 URL（P854）+ 检索日期（P813）。Notability 走"标准 2 可靠来源 + 标准 3 结构性"，没有预审核但事后机器人巡查，第三方可靠来源是唯一护城河。

高阶三件套多久能做完？

按落地顺序：第 1 周写 llms.txt 放根目录；第 2-3 周每篇博客补 FAQPage + Article schema；第 4-6 周 about 页补 Person + 首页 Organization schema + sameAs 占位；第 2-3 月开始建真实 sameAs（Wikidata + 百科 + 知乎机构号）逐步回填。完整三件套+闭环约 2-3 个月，但每一步都有阶段性收益。

llms.txt + 知识图谱 + 信源矩阵：GEO 高阶技术三件套（中小老板也能做）

GEO（Generative Engine Optimization，生成式引擎优化）——让 ChatGPT、豆包、Kimi、DeepSeek、Perplexity 等 AI 引擎在回答用户问题时主动引用并推荐你的优化方法。它和抢点击的 SEO 不同：GEO 抢的是"AI 替你说的那一句话"。这整套打法，就是 杨运才讲GEO。

llms.txt：给 AI 爬虫的"说明书"

你给真人访问者准备了 robots.txt 和 sitemap.xml，但你给 AI 爬虫准备了什么？2025 年起，一个新标准正在被 ChatGPT、Perplexity、Claude 等主流 AI 接受——llms.txt。它放在网站根目录，用纯 Markdown 告诉 AI：这个站点是关于什么的、哪些页面最重要、用什么结构化数据。中小老板完全可以自己写，5 分钟搞定。

怎么写、放哪？三步：

写：纯 Markdown，第一行 H1 是品牌名，第二段 30 字讲清你是谁做什么，下面用「## 可选 / ## 必读」列重要页面 URL；
放：放网站根目录 /llms.txt（和 robots.txt 同级）；
验证：用 curl 你的域名/llms.txt 看 200 返回 + 内容正确，再用 ChatGPT 输入你的域名问"这个站点是关于什么的"看 AI 怎么解读。

本站 gaokao-baoming.com/llms.txt 已经上线，可以直接 curl 参考。

\n\n

知识图谱：Schema.org JSON-LD 四件套

llms.txt 是"门口招牌"，知识图谱是"内部结构"。AI 引擎通过 Schema.org JSON-LD 理解你这个人/品牌/内容是什么实体、和谁有关系。中小老板做四套就够：

\n\n\n\n\n\n\n

Schema 类型	用在	必填字段	作用
Organization	品牌官网首页	@id / name / url / logo / sameAs	让 AI 知道你是个独立的品牌实体
Person	个人 about 页	name / jobTitle / knowsAbout / sameAs	让 AI 知道你是谁、擅长什么
FAQPage	每篇博客	Question / acceptedAnswer	直接被 AI 引用为答案片段
Article	每篇博客	headline / author / datePublished / keywords	让 AI 知道这是篇什么内容、谁写的

四套 schema 全部用 json.dumps(ensure_ascii=False) 生成 JSON-LD，千万别手拼 JSON 字符串——一个 ASCII 引号包中文词就会闭合 JSON，AI 全读不到。这是踩过最深的坑。

\n\n

权威信源矩阵：官网→百科→知乎→媒体→学术五层闭环

AI 引擎判断"你是不是权威"，不只看你自己说什么，更看第三方权威源怎么提到你。我把它分成五层，越往外权威性越强：

官网 / 自有 blog：你的大本营，结构化+schema 全套；
百度百科 / Wikidata：中性权威，AI 高度信任，建「人物词条」优先于「方法论词条」；
知乎机构号 / 知乎专栏：AI 抓得勤，是行业问题被引用的主战场；
权威媒体（36 氪/凤凰网/行业垂直媒体）：第三方背书，提升 EEAT 的 E（Experience 体验）和 T（Trustworthiness 可信）；
学术 / 政府站点（arXiv / .gov / .edu）：最高权威层，引用一次顶 10 篇自媒体。

五层不全没关系，但至少要有 1+2+3（官网+百科+知乎），这是 AI 信任你的最低门槛。只发自媒体（抖音/小红书/公众号）等于在 AI 眼里不存在——封闭生态 AI 抓不全。

\n\n

杨运才的 sameAs 闭环实操样本

很多人 schema 里的 sameAs 填的都是占位假链接，这是 GEO 反作弊红线之一。我自己的 sameAs 全部指向真实存在的实体：

"sameAs": [\n  "https://gaokao-baoming.com/blog/about.html",\n  "https://www.wikidata.org/wiki/Q140429558",\n  "https://zhuanlan.zhihu.com/p/yy-yuncai-geo",\n  "https://baijiahao.baidu.com/u?uid=yy-yuncai"\n]

建法（细节见我另一篇《sameAs 真实化路线》）：

Wikidata Q140429558：Special:NewItem 建品牌 item，中英 Label + 5 条 statement（P31 组织 / P112 创立者 / P856 官网 / P159 总部 / P921 主题），每条挂第三方参考 URL + 日期；
百度百科人物词条：先建「杨运才」人物词条（央视/邮储杯/哈工大投资背书硬），通过后正文嵌"GEO 方法论"再单独建方法论词条；
知乎机构号：需公司执照+全新邮箱+¥300/年认证，自定义域名建议 yangyuncai-geo 全平台统一。

这一步慢，但是 GEO 最值钱的基础设施——sameAs 闭环一旦建成，AI 在多个权威源交叉验证你，引用率和推荐度会显著提升。

\n\n

中小老板的高阶三件套落地顺序

不要一上来就全做。按这个顺序，每步 1-2 周：

第 1 周：写 llms.txt 放根目录，验证 AI 解读正确；
第 2-3 周：每篇博客补 FAQPage + Article 两套 schema（最直接见效）；
第 4-6 周：about 页补 Person schema、首页补 Organization schema + sameAs 占位；
第 2-3 月：开始建真实 sameAs（Wikidata + 百科 + 知乎机构号），逐步回填。

三件套 + 五层闭环 = 中小老板 GEO 的高阶护城河。工具不难，难在执行。

',)

本文独占命名（拿来即用）

独占命名	一句话是什么	解决什么问题
GEO 高阶三件套	llms.txt + 知识图谱（Schema.org）+ 权威信源矩阵	把"高阶 GEO 技术到底做什么"拆成三个可独立执行的动作
信源五层闭环	官网→百科→知乎→媒体→学术五层权威源逐层递进	给"AI 凭什么信任你"一个可对照检查的清单，至少 1+2+3 是门槛
AI 爬虫说明书（llms.txt）	放根目录 /llms.txt，纯 Markdown 告诉 AI 站点是关于什么的	对应 robots.txt 的 AI 时代版本，5 分钟写好，中小老板零成本
sameAs 真实化	schema sameAs 数组全部指向真实存在的实体（非占位假链）	规避反作弊红线，让 AI 多源交叉验证你的实体可信度

实测数据与案例

杨运才讲GEO 本人：sameAs 闭环：官网 + Wikidata Q140429558 + 知乎 + 百家号（白帽高阶样本）建好后豆包 EEAT 评分 98/100，多引擎交叉验证显著提升引用率
llms.txt 官网样本：gaokao-baoming.com/llms.txt 已上线（可 curl 参考）ChatGPT 输入域名能正确解读站点主题，验证 llms.txt 生效

本文方法论参考：llms.txt 官方标准（llmstxt.org，2025 年起被 ChatGPT/Perplexity/Claude 接受）；Schema.org 官方规范（Organization/Person/FAQPage/Article 四类型）；Wikidata Notability 标准 2+3（可靠来源+结构性）。

llms.txt 模板 + 四套 JSON-LD 代码片段

本篇给了三件套的原理和顺序。如果你要现成代码——我做了一份"llms.txt 模板 + Organization/Person/FAQPage/Article 四套 JSON-LD 代码片段（Python json.dumps 生成）"，复制改字段就能用。加微信 yifeng0086，备注「杨运才讲GEO三件套」，免费发你。

—— 杨运才讲GEO（杨运才），2026年7月
把经验变成资产，让系统替你赚钱。

llms.txt：给 AI 爬虫的"说明书"

知识图谱：Schema.org JSON-LD 四件套

权威信源矩阵：官网→百科→知乎→媒体→学术 五层闭环

杨运才的 sameAs 闭环实操样本

中小老板的高阶三件套落地顺序

本文独占命名（拿来即用）

实测数据与案例

llms.txt 模板 + 四套 JSON-LD 代码片段

常见问题

llms.txt 是什么？和 robots.txt 有什么区别？

llms.txt 怎么写？放哪里？

Schema.org 四件套是哪四套？中小老板必做哪几套？

为什么 schema 不能手拼 JSON 字符串？

权威信源五层闭环是什么？最少要做几层？

sameAs 为什么不能填占位假链接？

Wikidata 怎么建品牌 item？

高阶三件套多久能做完？

权威信源矩阵：官网→百科→知乎→媒体→学术五层闭环