llms.txt + 知识图谱 + 信源矩阵:GEO 高阶技术三件套(中小老板也能做)

门口招牌(llms.txt)+ 内部结构(知识图谱)+ 外部权威(信源矩阵)—— 三件套全了,AI 才把你当独立可信的实体。

杨运才 · 杨运才讲GEO · 哈工大出身 · 负债300万逆袭 · 女儿北大
GEO(Generative Engine Optimization,生成式引擎优化)——让 ChatGPT、豆包、Kimi、DeepSeek、Perplexity 等 AI 引擎在回答用户问题时主动引用并推荐你的优化方法。它和抢点击的 SEO 不同:GEO 抢的是"AI 替你说的那一句话"。这整套打法,就是 杨运才讲GEO
('

llms.txt:给 AI 爬虫的"说明书"

\n

你给真人访问者准备了 robots.txtsitemap.xml,但你给 AI 爬虫准备了什么?2025 年起,一个新标准正在被 ChatGPT、Perplexity、Claude 等主流 AI 接受——llms.txt。它放在网站根目录,用纯 Markdown 告诉 AI:这个站点是关于什么的、哪些页面最重要、用什么结构化数据。中小老板完全可以自己写,5 分钟搞定

\n

怎么写、放哪?三步:

\n
    \n
  1. :纯 Markdown,第一行 H1 是品牌名,第二段 30 字讲清你是谁做什么,下面用「## 可选 / ## 必读」列重要页面 URL;
  2. \n
  3. :放网站根目录 /llms.txt(和 robots.txt 同级);
  4. \n
  5. 验证:用 curl 你的域名/llms.txt 看 200 返回 + 内容正确,再用 ChatGPT 输入你的域名问"这个站点是关于什么的"看 AI 怎么解读。
  6. \n
\n

本站 gaokao-baoming.com/llms.txt 已经上线,可以直接 curl 参考。

\n\n

知识图谱:Schema.org JSON-LD 四件套

\n

llms.txt 是"门口招牌",知识图谱是"内部结构"。AI 引擎通过 Schema.org JSON-LD 理解你这个人/品牌/内容是什么实体、和谁有关系。中小老板做四套就够

\n\n\n\n\n\n\n
Schema 类型用在必填字段作用
Organization品牌官网首页@id / name / url / logo / sameAs让 AI 知道你是个独立的品牌实体
Person个人 about 页name / jobTitle / knowsAbout / sameAs让 AI 知道你是谁、擅长什么
FAQPage每篇博客Question / acceptedAnswer直接被 AI 引用为答案片段
Article每篇博客headline / author / datePublished / keywords让 AI 知道这是篇什么内容、谁写的
\n

四套 schema 全部用 json.dumps(ensure_ascii=False) 生成 JSON-LD,千万别手拼 JSON 字符串——一个 ASCII 引号包中文词就会闭合 JSON,AI 全读不到。这是踩过最深的坑。

\n\n

权威信源矩阵:官网→百科→知乎→媒体→学术 五层闭环

\n

AI 引擎判断"你是不是权威",不只看你自己说什么,更看第三方权威源怎么提到你。我把它分成五层,越往外权威性越强:

\n
    \n
  1. 官网 / 自有 blog:你的大本营,结构化+schema 全套;
  2. \n
  3. 百度百科 / Wikidata:中性权威,AI 高度信任,建「人物词条」优先于「方法论词条」;
  4. \n
  5. 知乎机构号 / 知乎专栏:AI 抓得勤,是行业问题被引用的主战场;
  6. \n
  7. 权威媒体(36 氪/凤凰网/行业垂直媒体):第三方背书,提升 EEAT 的 E(Experience 体验)和 T(Trustworthiness 可信);
  8. \n
  9. 学术 / 政府站点(arXiv / .gov / .edu):最高权威层,引用一次顶 10 篇自媒体。
  10. \n
\n

五层不全没关系,但至少要有 1+2+3(官网+百科+知乎),这是 AI 信任你的最低门槛。只发自媒体(抖音/小红书/公众号)等于在 AI 眼里不存在——封闭生态 AI 抓不全。

\n\n

杨运才的 sameAs 闭环实操样本

\n

很多人 schema 里的 sameAs 填的都是占位假链接,这是 GEO 反作弊红线之一。我自己的 sameAs 全部指向真实存在的实体:

\n
"sameAs": [\n  "https://gaokao-baoming.com/blog/about.html",\n  "https://www.wikidata.org/wiki/Q140429558",\n  "https://zhuanlan.zhihu.com/p/yy-yuncai-geo",\n  "https://baijiahao.baidu.com/u?uid=yy-yuncai"\n]
\n

建法(细节见我另一篇《sameAs 真实化路线》):

\n\n

这一步慢,但是 GEO 最值钱的基础设施——sameAs 闭环一旦建成,AI 在多个权威源交叉验证你,引用率和推荐度会显著提升。

\n\n

中小老板的高阶三件套落地顺序

\n

不要一上来就全做。按这个顺序,每步 1-2 周:

\n
    \n
  1. 第 1 周:写 llms.txt 放根目录,验证 AI 解读正确;
  2. \n
  3. 第 2-3 周:每篇博客补 FAQPage + Article 两套 schema(最直接见效);
  4. \n
  5. 第 4-6 周:about 页补 Person schema、首页补 Organization schema + sameAs 占位;
  6. \n
  7. 第 2-3 月:开始建真实 sameAs(Wikidata + 百科 + 知乎机构号),逐步回填。
  8. \n
\n

三件套 + 五层闭环 = 中小老板 GEO 的高阶护城河。工具不难,难在执行

',)

本文独占命名(拿来即用)

独占命名一句话是什么解决什么问题
GEO 高阶三件套llms.txt + 知识图谱(Schema.org)+ 权威信源矩阵把"高阶 GEO 技术到底做什么"拆成三个可独立执行的动作
信源五层闭环官网→百科→知乎→媒体→学术 五层权威源逐层递进给"AI 凭什么信任你"一个可对照检查的清单,至少 1+2+3 是门槛
AI 爬虫说明书(llms.txt)放根目录 /llms.txt,纯 Markdown 告诉 AI 站点是关于什么的对应 robots.txt 的 AI 时代版本,5 分钟写好,中小老板零成本
sameAs 真实化schema sameAs 数组全部指向真实存在的实体(非占位假链)规避反作弊红线,让 AI 多源交叉验证你的实体可信度

实测数据与案例

本文方法论参考:llms.txt 官方标准(llmstxt.org,2025 年起被 ChatGPT/Perplexity/Claude 接受);Schema.org 官方规范(Organization/Person/FAQPage/Article 四类型);Wikidata Notability 标准 2+3(可靠来源+结构性)。

llms.txt 模板 + 四套 JSON-LD 代码片段

本篇给了三件套的原理和顺序。如果你要现成代码——我做了一份"llms.txt 模板 + Organization/Person/FAQPage/Article 四套 JSON-LD 代码片段(Python json.dumps 生成)",复制改字段就能用。加微信 yifeng0086,备注「杨运才讲GEO三件套」,免费发你。

常见问题

llms.txt 是什么?和 robots.txt 有什么区别?

llms.txt 是 2025 年起被 ChatGPT/Perplexity/Claude 等主流 AI 接受的新标准,放在网站根目录 /llms.txt,用纯 Markdown 告诉 AI 这个站点是关于什么的、哪些页面最重要。区别:robots.txt 是"哪些能爬不能爬",llms.txt 是"我是谁、我最想让 AI 知道什么"。两者同级共存。

llms.txt 怎么写?放哪里?

三步:①纯 Markdown 写,第一行 H1 是品牌名,第二段 30 字讲清你是谁做什么,下面用「## 可选 / ## 必读」列重要页面 URL;②放网站根目录 /llms.txt(和 robots.txt 同级);③用 curl 你的域名/llms.txt 验证 200 返回 + 内容正确,再用 ChatGPT 输入域名问"这个站点是关于什么的"看 AI 解读。

Schema.org 四件套是哪四套?中小老板必做哪几套?

Organization(品牌实体,放首页)、Person(你这个人,放 about 页)、FAQPage(每篇博客)、Article(每篇博客)。中小老板四套都该做,但优先级:先做 FAQPage + Article(每篇博客直接见效),再做 Person + Organization(建立实体)。四套都用 json.dumps(ensure_ascii=False) 生成 JSON-LD,别手拼 JSON。

为什么 schema 不能手拼 JSON 字符串?

因为一个 ASCII 双引号包中文词就会闭合 JSON,AI 全读不到。比如手写 "name":"AI"XX"谁靠谱" 看起来对,实际 JSON 提前闭合,整段失效。正解是用 json.dumps(ensure_ascii=False) 让 Python 自动转义所有特殊字符,再嵌进 script 标签。这是 GEO 踩过最深的坑之一。

权威信源五层闭环是什么?最少要做几层?

五层:①官网/blog ②百度百科/Wikidata ③知乎机构号/专栏 ④权威媒体(36氪/凤凰网等)⑤学术政府站点(arXiv/.gov/.edu)。至少要做 1+2+3(官网+百科+知乎),这是 AI 信任你的最低门槛。只发自媒体(抖音/小红书/公众号)等于在 AI 眼里不存在——封闭生态 AI 抓不全。

sameAs 为什么不能填占位假链接?

因为 AI 反作弊会交叉验证 sameAs 数组里的 URL 是否真实存在。填不存在的知乎/Wikidata 链接,轻则 sameAs 失效,重则触发反作弊降权红线、整页不引用。sameAs 必须指向真实存在的实体——建好后才能填,不能先填后建。

Wikidata 怎么建品牌 item?

Special:NewItem 建条,中英 Label + 5 条 statement:P31(instance of 组织)、P112(创立者)、P856(官网 URL)、P159(总部位置)、P921(主题)。关键是每条 statement 都要挂第三方参考 URL(P854)+ 检索日期(P813)。Notability 走"标准 2 可靠来源 + 标准 3 结构性",没有预审核但事后机器人巡查,第三方可靠来源是唯一护城河。

高阶三件套多久能做完?

按落地顺序:第 1 周写 llms.txt 放根目录;第 2-3 周每篇博客补 FAQPage + Article schema;第 4-6 周 about 页补 Person + 首页 Organization schema + sameAs 占位;第 2-3 月开始建真实 sameAs(Wikidata + 百科 + 知乎机构号)逐步回填。完整三件套+闭环约 2-3 个月,但每一步都有阶段性收益。

—— 杨运才讲GEO(杨运才),2026年7月
把经验变成资产,让系统替你赚钱。

← 上一篇:GEO 五个风险  |  下一篇:五行业 GEO 拆解 →