实测 48 家中文互联网公司的 llms.txt:国内 AI 大厂 0 家做对
GEO(生成引擎优化)这个词,国外 SEO 圈已经聊了大半年。WP Engine 一个月发五篇关于它的文章,Cloudflare 出了配套的 bot 流量分析,Mintlify 把 llms.txt 做成产品里一键开启的功能。
国内呢?站长之家几乎没人写过 llms.txt 的中文长文;百度、字节系搜索没出过任何"AI 友好"指南;连概念扫盲文都很少见。
但事情更有意思的是:国内 AI 大模型公司——理论上最应该懂"被 LLM 引用"重要性的那批人——自己网站上一个 llms.txt 都没做。
我直接抓了 48 家国内主流公司的 /llms.txt,看看真实情况。下面是数据。
结论先放这:48 家里 5 家(10.4%)有真 llms.txt。17 家返回 HTML fallback(SPA 框架把路由吃掉了,自己不知道)。22 家直接 404。17 家国内 AI 大模型公司里没有任何一家做了 llms.txt——DeepSeek、Kimi、智谱、通义、文心一言、MiniMax、腾讯混元、讯飞星火、商汤、零一万物、百川……全员缺席。做得最完整的是阿里云帮助文档(53.9 KB,四个语言站交叉链)。最不规范的是 CSDN:它把 llms.txt 写成了 robots.txt 的样子。
我测了哪些站,怎么测的
按行业分了六类,48 个候选:
- 国内 AI 大模型公司(17 家):百度文心一言、智谱清言、Kimi / 月之暗面、通义千问、DeepSeek、MiniMax、商汤、零一万物(01.ai)、百川智能、腾讯混元、讯飞星火等
- 国内云服务(8 家):阿里云、腾讯云、华为云、火山引擎、百度智能云、七牛云、又拍云
- 国内协作 SaaS(9 家):飞书、钉钉、企业微信、石墨文档、语雀、腾讯文档、WPS、金数据
- 国内开发者社区(9 家):Gitee、CSDN、掘金、SegmentFault、InfoQ 中国、极客时间、阿里云开发者、腾讯云开发者
- 国内 hosting / 站长工具(3 家):西部数码、CNDNS、傲游
- 国内 docs 平台(2 家):金山文档、我来 wolai
每个站直接 GET https://<域名>/llms.txt,用一般浏览器 User-Agent,不带任何认证。看响应是真 markdown 还是 HTML 外壳。简单到不能再简单——任何 LLM 爬虫都会这么干。
总体数据:国内采纳率是国际的四分之一
| 结果 | 国内 48 站 | 国际对照 70 站 |
|---|---|---|
| 真 llms.txt | 5 (10.4%) | 31 (44%) |
| HTML fallback | 17 (35%) | 9 (13%) |
| 404 | 22 (46%) | 22 (31%) |
| 403 / 超时 / 其他错误 | 4 (8%) | 8 (11%) |
国际对照样本是上周做的同款测试,AI 实验室 + 文档平台 + Stripe / Cloudflare 那种级别的西方科技公司。两组数据放一起看就是:
- 国内采纳率比国际低 4 倍多
- 国内 HTML fallback 比例是国际的 2.7 倍——SPA 框架普及,但自家路由没人监控
- 404 比例都不算低,但国内绝对值更高
10% 这个数字本身不算特别惨——毕竟 llms.txt 这个标准还在早期。但跟"国际同行已经把 GEO 当 KPI"这个背景对照,差距挺刺眼。
国内 AI 大厂 0/17:最反直觉的数据点
测试的 17 家国内 AI 大模型公司,逐个看:
| 公司 | 域名 | 结果 |
|---|---|---|
| 百度文心一言 | yiyan.baidu.com | HTML fallback |
| 智谱清言 | chatglm.cn / zhipuai.cn | HTML fallback × 2 |
| Kimi / 月之暗面 | kimi.moonshot.cn / moonshot.cn | HTML fallback × 2 |
| 通义千问 | tongyi.aliyun.com / qianwen.aliyun.com | 404 × 2 |
| DeepSeek | deepseek.com / chat / api-docs | 404 / 202 / 404 |
| MiniMax | minimaxi.com / platform | HTML fallback / 404 |
| 腾讯混元 | hunyuan.tencent.com | HTML fallback |
| 讯飞星火 | xinghuo.xfyun.cn | 404 |
| 商汤 | sensetime.com | 404 |
| 零一万物 | 01.ai | 404 |
| 百川智能 | baichuan-ai.com | 404 |
0 家做了 llms.txt。
这件事的吊诡在于:这些公司的核心业务就是 LLM。他们最懂"被 AI 引用"意味着什么。他们的客服天天回答"为什么 Claude 引用了 Perplexity 的回答没引用我们"。但他们自己的官网,从来没在这个文件上花过一秒钟。
反过来想:如果连模型提供商自己都不做,是不是说明他们知道一些 SEO 圈不知道的事?比如 llms.txt 其实没什么用?
这是个开放问题,我后面会再回来。
但至少有一件事可以确定:国内 AI 行业目前没有任何一家把"被 AI 答案引擎引用"作为运营 KPI。否则不会全军覆没成这样。
唯一做对的代表:阿里云帮助文档
国内真的做了 llms.txt 的 5 家:
| 公司 | 文件大小 | 备注 |
|---|---|---|
| 阿里云帮助 (help.aliyun.com) | 53.9 KB | 工业级,多语言 + 嵌套子站 |
| 飞书开放平台 (open.feishu.cn) | 11.4 KB | 按 OpenAPI 结构索引 |
| 七牛云 (qiniu.com) | 10.5 KB | 中英双语 |
| Gitee (gitee.com) | 6.5 KB | 英文,对标 GitHub |
| CSDN 博客 (blog.csdn.net) | 1.4 KB | 格式不对(下面说) |
阿里云这份特别值得看。打开 help.aliyun.com/llms.txt,前几行就是:
# 阿里云帮助文档
> 阿里云(Alibaba Cloud)是全球领先的云计算及人工智能科技公司之一。
> 提供全栈云服务……本文件为 LLM 和 AI Agent 提供阿里云官方文档的结构化索引。
## 可用站点与语言
- 中国站 (中文) - [llms.txt](https://help.aliyun.com/zh/llms.txt)
- 中国站 (英文) - [llms.txt](https://help.aliyun.com/en/llms.txt)
- 国际站 (中文) - [llms.txt](https://www.alibabacloud.com/help/zh/llms.txt)
- 国际站 (英文) - [llms.txt](https://www.alibabacloud.com/help/en/llms.txt)
- 国际站 (日语) - [llms.txt](https://www.alibabacloud.com/help/ja/llms.txt)
- 国际站 (印尼语) - [llms.txt](https://www.alibabacloud.com/help/id/llms.txt)
四个站点、六个语言版本,互相交叉链接。下面按产品类型分章节——人工智能、计算、存储、数据库、安全、网络——每个产品都有自己的 llms.txt 子文件。"百炼"、"PAI"、"DashVector" 这些产品独立索引,子文件里再列每个文档页面的 markdown 源链接。
这种"递归 sitemap"模式,国际上也只有 Anthropic、PostHog、Stripe 这种级别才做。换句话说,阿里云这份 llms.txt 是国内唯一一份达到了国际一线规范的实现。
剩下四家里,飞书开放平台和七牛云属于规范派——内容简洁,结构清晰,没有过度堆砌。Gitee 直接用英文写,看得出来是面向"被 GitHub Copilot 类工具引用"做的产品决策。
然后是 CSDN——我得单独说说它。
CSDN 把 llms.txt 写成 robots.txt
CSDN 博客的 /llms.txt 文件确实存在,但打开看是这样的:
# llms.txt for https://blog.csdn.net/
# Last updated: 2025-10-22
# Purpose: Define access and usage rules for large language model (LLM) crawlers
########################################
# 1. General Rules
########################################
Disallow: /images/
Disallow: /content/
Disallow: /ui/
Disallow: /js/
Allow: /article/
Allow: /column/
Allow: /tag/
# 2. Usage Policy
Policy: Summarization with Source Attribution
Policy: No Redistribution of Raw Files
# 3. Attribution and Licensing
Citation: https://blog.csdn.net/
License: CC BY-NC-ND 4.0
Contact: gaoyang@csdn.net
注意它的格式:Disallow: / Allow: 字段——这是 robots.txt 的语法。Policy: / License: / Citation: 是有些ai.txt 提案(一份和 llms.txt 平行存在的"AI 训练授权"提案)的字段。
llms.txt 是什么呢?llmstxt.org 自己定义得很清楚:
- 一个
# 标题H1 - 一个
> 引用块简介 ## H2章节- markdown 链接
CSDN 这份文件里没有一个 markdown 链接。没有任何指向"我有什么内容值得 LLM 抓"的索引。它讲的全是"AI 不许做什么"。
这是典型的心智搬迁错误:CSDN 团队大概率把 robots.txt 的思路平移过来了。他们以为 llms.txt 是"控制 AI 爬取的规则文件",但 spec 的本意是"主动告诉 LLM 哪里有好内容"——是 sitemap 的近亲,不是 robots.txt 的近亲。
如果有一天 ChatGPT / Claude / Kimi 真的开始按 llms.txt 推荐 source,CSDN 的回答会是"我们这个站只允许带署名摘要"。Kimi 拿到这个文件,不会知道 CSDN 上的"PyTorch 入门"、"GoLang 并发"那些高质量文章在哪里。
CSDN 把自己挡在了 LLM 引用之外。还以为自己做了对的事。
17 家 HTML fallback:沉默的失败比国际严重 3 倍
国际样本里 9 家落进 HTML fallback(13%)。国内是 17 家(35%),比例几乎是国际的 3 倍。
国内 HTML fallback 的名单读起来非常痛:
- AI 大模型方:百度文心一言、智谱清言(双域名)、Kimi(双域名)、月之暗面、MiniMax、腾讯混元
- 云服务方:腾讯云、火山引擎、又拍云
- SaaS:钉钉、金数据
- 开发者:阿里云 codeup、掘金、InfoQ 中国、极客时间
- 站长工具:CNDNS
这些公司的运维或 SRE 团队如果用 curl 跑一下自家 /llms.txt,会看到 HTTP 200 OK,CDN 监控也显示一切正常。但你 cat 一下响应 body,是 React / Vue 应用的 HTML 外壳——一堆 <div class="..."> 加上 JavaScript bundle URL。
LLM 爬虫读这种 HTML 外壳,得到的是"这是一个网页",没有任何"这个站有什么内容"的索引。从爬虫角度看,跟 404 没什么区别。从站方角度看,他们以为自己做了对的事。
国内为什么 HTML fallback 这么严重?两个猜测:
- 国内 SaaS 普遍跑 Vue / Nuxt / 自家魔改 SPA,默认路由把所有未匹配路径丢给前端 React Router,前端再渲染应用外壳。没人专门处理
/llms.txt这种新路径。 - 国内运维监控关心 200/404 比例不关心 body。HTTP 状态 200 看着是绿的,监控就过了。
修复成本?基本零。在 nginx / Next.js / Nuxt 路由配置里加一条规则,让 /llms.txt 要么真返回文件,要么显式 404。一行代码。但没人去看,所以也没人去改。
关于 llms.txt 到底有没有用
写到最后,我必须承认一件事:目前没有公开证据证明 llms.txt 真的影响了 LLM 引用率。
我特意找过:
- 有没有数据显示,有 llms.txt 的站比没有的站在 Perplexity / ChatGPT / Claude / 百度搜索 AI / 通义答案里被引用更多?没找到。
- LLM 爬虫真的在请求
/llms.txt吗?Cloudflare 公开过部分 bot 流量数据,但没专门统计这条路径。 - 有没有任何 A/B 测试案例证明加上 llms.txt 改变了引用份额或推荐流量?基本没有,只有几篇读起来像供应商营销的"案例研究"。
回到那个开放问题:国内 AI 大厂 0/17 全军覆没——是因为他们知道这事没用,还是因为他们和所有人一样在观望?
我倾向后者。理由是国际侧也一样——Mintlify 自己卖 llms.txt 服务,自家网站却 404;llms.txt 提案者 Jeremy Howard 的个人站 fast.ai 也是 404。这种"全行业都在写文章但全行业都没做"的状态,更像是大家都在等"标准还没正式确立、不想第一个吃螃蟹"。
但有一点可以确定:做这事的成本几乎为零。一份格式正确的纯文本文件,几百字到几千字,最快十分钟搞定。
几个观察
不是建议——网上 llms.txt 建议已经多到嫌弃。只是盯着 5 个国内真样本 + 70 个国际样本一天得出的几条观察:
1. 国内 GEO 这件事整体滞后国际半年到一年。 国际 SEO 圈已经在讨论"GEO 是不是新 SEO",国内 SEO 圈几乎没有关于 llms.txt 的中文长文。这要么是机会(先动手的占位),要么是信号(最贴近 SEO 的人算过了,决定跳过)。
2. 国内站点最大的问题不是 404,是 HTML fallback。 35% 的 HTML fallback 比 46% 的 404 更难修,因为前者你以为自己有,监控也说一切正常。建议任何用 Vue / Nuxt / Next.js 跑站的国内运营,今天就 curl 一下自家 /llms.txt 看响应 body。
3. 阿里云的实现模式值得直接抄。 多语言交叉链 + 按产品分类做嵌套子站 llms.txt,这套架构国际上 Anthropic、PostHog 是同样的做法。中国站想做的话,把自家站点的目录结构按这个范式平移就行。
4. CSDN 那种把 llms.txt 写成 robots.txt 的偏差,国内估计还会有人复制。 llms.txt 和 ai.txt 是两件事——前者是"我有什么",后者是"AI 能做什么"。它们目前都不是 W3C 标准、也没有官方仲裁。但如果想被 LLM 引用,写的应该是 llms.txt,不是 robots.txt 风格的访问规则。
5. 国内 AI 大厂 0 家做这事,是国内 SEO 圈最大的免费信号。 如果他们都在观望,普通公司也没必要焦虑"现在不做就晚了"。但反过来,如果你是国内 SaaS / WordPress 站长 / hosting 商,做了 llms.txt 你就直接领先你那一行 80% 以上的同行。成本几乎为零,下行风险也几乎为零。
关于数据
48 个国内候选站点,2026-05-16 用普通 HTTP GET + 桌面浏览器 User-Agent 探测。5 个返回真 llms.txt,17 个返回 HTML fallback,22 个 404,4 个其他错误。Probe 脚本、原始响应、单站分析都做了归档。
测试有几个明确局限:
- 只测了根路径
/llms.txt,某些站可能在子域名(如 docs.xxx.com)或带版本路径有真文件。 - 没测可选的
/llms-full.txt(详细版)。 - 部分站按 IP / User-Agent 屏蔽自动请求,可能误判为 HTML fallback 或 403。
- 国内候选只选了 48 家,没覆盖所有头部公司。
但 10% 这个国内采纳率数字、17 家 AI 大厂 0 家做对这个数据点,方向上应该足够清晰。如果有人跑出来结论不一样、或者拿到了"llms.txt 真的带来了 AI 引用"的真实数据,特别想看看。
编辑
微码宝 技术专家团队
专注于 WHMCS 与 WordPress 深度定制开发,累计交付 500+ 个企业级项目方案。