实测 48 家中文互联网公司的 llms.txt：国内 AI 大厂 0 家做对

GEO（生成引擎优化）这个词，国外 SEO 圈已经聊了大半年。WP Engine 一个月发五篇关于它的文章，Cloudflare 出了配套的 bot 流量分析，Mintlify 把 llms.txt 做成产品里一键开启的功能。

国内呢？站长之家几乎没人写过 llms.txt 的中文长文；百度、字节系搜索没出过任何"AI 友好"指南；连概念扫盲文都很少见。

但事情更有意思的是：国内 AI 大模型公司——理论上最应该懂"被 LLM 引用"重要性的那批人——自己网站上一个 llms.txt 都没做。

我直接抓了 48 家国内主流公司的 /llms.txt，看看真实情况。下面是数据。

结论先放这：48 家里 5 家（10.4%）有真 llms.txt。17 家返回 HTML fallback（SPA 框架把路由吃掉了，自己不知道）。22 家直接 404。17 家国内 AI 大模型公司里没有任何一家做了 llms.txt——DeepSeek、Kimi、智谱、通义、文心一言、MiniMax、腾讯混元、讯飞星火、商汤、零一万物、百川……全员缺席。做得最完整的是阿里云帮助文档（53.9 KB，四个语言站交叉链）。最不规范的是 CSDN：它把 llms.txt 写成了 robots.txt 的样子。

我测了哪些站，怎么测的

按行业分了六类，48 个候选：

国内 AI 大模型公司（17 家）：百度文心一言、智谱清言、Kimi / 月之暗面、通义千问、DeepSeek、MiniMax、商汤、零一万物（01.ai）、百川智能、腾讯混元、讯飞星火等
国内云服务（8 家）：阿里云、腾讯云、华为云、火山引擎、百度智能云、七牛云、又拍云
国内协作 SaaS（9 家）：飞书、钉钉、企业微信、石墨文档、语雀、腾讯文档、WPS、金数据
国内开发者社区（9 家）：Gitee、CSDN、掘金、SegmentFault、InfoQ 中国、极客时间、阿里云开发者、腾讯云开发者
国内 hosting / 站长工具（3 家）：西部数码、CNDNS、傲游
国内 docs 平台（2 家）：金山文档、我来 wolai

每个站直接 GET https://<域名>/llms.txt，用一般浏览器 User-Agent，不带任何认证。看响应是真 markdown 还是 HTML 外壳。简单到不能再简单——任何 LLM 爬虫都会这么干。

总体数据：国内采纳率是国际的四分之一

结果	国内 48 站	国际对照 70 站
真 llms.txt	5 (10.4%)	31 (44%)
HTML fallback	17 (35%)	9 (13%)
404	22 (46%)	22 (31%)
403 / 超时 / 其他错误	4 (8%)	8 (11%)

国际对照样本是上周做的同款测试，AI 实验室 + 文档平台 + Stripe / Cloudflare 那种级别的西方科技公司。两组数据放一起看就是：

国内采纳率比国际低 4 倍多
国内 HTML fallback 比例是国际的 2.7 倍——SPA 框架普及，但自家路由没人监控
404 比例都不算低，但国内绝对值更高

10% 这个数字本身不算特别惨——毕竟 llms.txt 这个标准还在早期。但跟"国际同行已经把 GEO 当 KPI"这个背景对照，差距挺刺眼。

国内 AI 大厂 0/17：最反直觉的数据点

测试的 17 家国内 AI 大模型公司，逐个看：

公司	域名	结果
百度文心一言	yiyan.baidu.com	HTML fallback
智谱清言	chatglm.cn / zhipuai.cn	HTML fallback × 2
Kimi / 月之暗面	kimi.moonshot.cn / moonshot.cn	HTML fallback × 2
通义千问	tongyi.aliyun.com / qianwen.aliyun.com	404 × 2
DeepSeek	deepseek.com / chat / api-docs	404 / 202 / 404
MiniMax	minimaxi.com / platform	HTML fallback / 404
腾讯混元	hunyuan.tencent.com	HTML fallback
讯飞星火	xinghuo.xfyun.cn	404
商汤	sensetime.com	404
零一万物	01.ai	404
百川智能	baichuan-ai.com	404

0 家做了 llms.txt。

这件事的吊诡在于：这些公司的核心业务就是 LLM。他们最懂"被 AI 引用"意味着什么。他们的客服天天回答"为什么 Claude 引用了 Perplexity 的回答没引用我们"。但他们自己的官网，从来没在这个文件上花过一秒钟。

反过来想：如果连模型提供商自己都不做，是不是说明他们知道一些 SEO 圈不知道的事？比如 llms.txt 其实没什么用？

这是个开放问题，我后面会再回来。

但至少有一件事可以确定：国内 AI 行业目前没有任何一家把"被 AI 答案引擎引用"作为运营 KPI。否则不会全军覆没成这样。

唯一做对的代表：阿里云帮助文档

国内真的做了 llms.txt 的 5 家：

公司	文件大小	备注
阿里云帮助 (help.aliyun.com)	53.9 KB	工业级，多语言 + 嵌套子站
飞书开放平台 (open.feishu.cn)	11.4 KB	按 OpenAPI 结构索引
七牛云 (qiniu.com)	10.5 KB	中英双语
Gitee (gitee.com)	6.5 KB	英文，对标 GitHub
CSDN 博客 (blog.csdn.net)	1.4 KB	格式不对（下面说）

阿里云这份特别值得看。打开 help.aliyun.com/llms.txt，前几行就是：

# 阿里云帮助文档

> 阿里云（Alibaba Cloud）是全球领先的云计算及人工智能科技公司之一。
> 提供全栈云服务……本文件为 LLM 和 AI Agent 提供阿里云官方文档的结构化索引。

## 可用站点与语言

- 中国站 (中文) - [llms.txt](https://help.aliyun.com/zh/llms.txt)
- 中国站 (英文) - [llms.txt](https://help.aliyun.com/en/llms.txt)
- 国际站 (中文) - [llms.txt](https://www.alibabacloud.com/help/zh/llms.txt)
- 国际站 (英文) - [llms.txt](https://www.alibabacloud.com/help/en/llms.txt)
- 国际站 (日语) - [llms.txt](https://www.alibabacloud.com/help/ja/llms.txt)
- 国际站 (印尼语) - [llms.txt](https://www.alibabacloud.com/help/id/llms.txt)

四个站点、六个语言版本，互相交叉链接。下面按产品类型分章节——人工智能、计算、存储、数据库、安全、网络——每个产品都有自己的 llms.txt 子文件。"百炼"、"PAI"、"DashVector" 这些产品独立索引，子文件里再列每个文档页面的 markdown 源链接。

这种"递归 sitemap"模式，国际上也只有 Anthropic、PostHog、Stripe 这种级别才做。换句话说，阿里云这份 llms.txt 是国内唯一一份达到了国际一线规范的实现。

剩下四家里，飞书开放平台和七牛云属于规范派——内容简洁，结构清晰，没有过度堆砌。Gitee 直接用英文写，看得出来是面向"被 GitHub Copilot 类工具引用"做的产品决策。

然后是 CSDN——我得单独说说它。

CSDN 把 llms.txt 写成 robots.txt

CSDN 博客的 /llms.txt 文件确实存在，但打开看是这样的：

# llms.txt for https://blog.csdn.net/
# Last updated: 2025-10-22
# Purpose: Define access and usage rules for large language model (LLM) crawlers

########################################
# 1. General Rules
########################################

Disallow: /images/
Disallow: /content/
Disallow: /ui/
Disallow: /js/

Allow: /article/
Allow: /column/
Allow: /tag/

# 2. Usage Policy
Policy: Summarization with Source Attribution
Policy: No Redistribution of Raw Files

# 3. Attribution and Licensing
Citation: https://blog.csdn.net/
License: CC BY-NC-ND 4.0
Contact: gaoyang@csdn.net

注意它的格式：Disallow: / Allow: 字段——这是 robots.txt 的语法。Policy: / License: / Citation: 是有些ai.txt 提案（一份和 llms.txt 平行存在的"AI 训练授权"提案）的字段。

llms.txt 是什么呢？llmstxt.org 自己定义得很清楚：

一个 # 标题 H1
一个 > 引用块 简介
## H2 章节
markdown 链接

CSDN 这份文件里没有一个 markdown 链接。没有任何指向"我有什么内容值得 LLM 抓"的索引。它讲的全是"AI 不许做什么"。

这是典型的心智搬迁错误：CSDN 团队大概率把 robots.txt 的思路平移过来了。他们以为 llms.txt 是"控制 AI 爬取的规则文件"，但 spec 的本意是"主动告诉 LLM 哪里有好内容"——是 sitemap 的近亲，不是 robots.txt 的近亲。

如果有一天 ChatGPT / Claude / Kimi 真的开始按 llms.txt 推荐 source，CSDN 的回答会是"我们这个站只允许带署名摘要"。Kimi 拿到这个文件，不会知道 CSDN 上的"PyTorch 入门"、"GoLang 并发"那些高质量文章在哪里。

CSDN 把自己挡在了 LLM 引用之外。还以为自己做了对的事。

17 家 HTML fallback：沉默的失败比国际严重 3 倍

国际样本里 9 家落进 HTML fallback（13%）。国内是 17 家（35%），比例几乎是国际的 3 倍。

国内 HTML fallback 的名单读起来非常痛：

AI 大模型方：百度文心一言、智谱清言（双域名）、Kimi（双域名）、月之暗面、MiniMax、腾讯混元
云服务方：腾讯云、火山引擎、又拍云
SaaS：钉钉、金数据
开发者：阿里云 codeup、掘金、InfoQ 中国、极客时间
站长工具：CNDNS

这些公司的运维或 SRE 团队如果用 curl 跑一下自家 /llms.txt，会看到 HTTP 200 OK，CDN 监控也显示一切正常。但你 cat 一下响应 body，是 React / Vue 应用的 HTML 外壳——一堆 <div class="..."> 加上 JavaScript bundle URL。

LLM 爬虫读这种 HTML 外壳，得到的是"这是一个网页"，没有任何"这个站有什么内容"的索引。从爬虫角度看，跟 404 没什么区别。从站方角度看，他们以为自己做了对的事。

国内为什么 HTML fallback 这么严重？两个猜测：

国内 SaaS 普遍跑 Vue / Nuxt / 自家魔改 SPA，默认路由把所有未匹配路径丢给前端 React Router，前端再渲染应用外壳。没人专门处理 /llms.txt 这种新路径。
国内运维监控关心 200/404 比例不关心 body。HTTP 状态 200 看着是绿的，监控就过了。

修复成本？基本零。在 nginx / Next.js / Nuxt 路由配置里加一条规则，让 /llms.txt 要么真返回文件，要么显式 404。一行代码。但没人去看，所以也没人去改。

关于 llms.txt 到底有没有用

写到最后，我必须承认一件事：目前没有公开证据证明 llms.txt 真的影响了 LLM 引用率。

我特意找过：

有没有数据显示，有 llms.txt 的站比没有的站在 Perplexity / ChatGPT / Claude / 百度搜索 AI / 通义答案里被引用更多？没找到。
LLM 爬虫真的在请求 /llms.txt 吗？Cloudflare 公开过部分 bot 流量数据，但没专门统计这条路径。
有没有任何 A/B 测试案例证明加上 llms.txt 改变了引用份额或推荐流量？基本没有，只有几篇读起来像供应商营销的"案例研究"。

回到那个开放问题：国内 AI 大厂 0/17 全军覆没——是因为他们知道这事没用，还是因为他们和所有人一样在观望？

我倾向后者。理由是国际侧也一样——Mintlify 自己卖 llms.txt 服务，自家网站却 404；llms.txt 提案者 Jeremy Howard 的个人站 fast.ai 也是 404。这种"全行业都在写文章但全行业都没做"的状态，更像是大家都在等"标准还没正式确立、不想第一个吃螃蟹"。

但有一点可以确定：做这事的成本几乎为零。一份格式正确的纯文本文件，几百字到几千字，最快十分钟搞定。

几个观察

不是建议——网上 llms.txt 建议已经多到嫌弃。只是盯着 5 个国内真样本 + 70 个国际样本一天得出的几条观察：

1. 国内 GEO 这件事整体滞后国际半年到一年。 国际 SEO 圈已经在讨论"GEO 是不是新 SEO"，国内 SEO 圈几乎没有关于 llms.txt 的中文长文。这要么是机会（先动手的占位），要么是信号（最贴近 SEO 的人算过了，决定跳过）。

2. 国内站点最大的问题不是 404，是 HTML fallback。 35% 的 HTML fallback 比 46% 的 404 更难修，因为前者你以为自己有，监控也说一切正常。建议任何用 Vue / Nuxt / Next.js 跑站的国内运营，今天就 curl 一下自家 /llms.txt 看响应 body。

3. 阿里云的实现模式值得直接抄。 多语言交叉链 + 按产品分类做嵌套子站 llms.txt，这套架构国际上 Anthropic、PostHog 是同样的做法。中国站想做的话，把自家站点的目录结构按这个范式平移就行。

4. CSDN 那种把 llms.txt 写成 robots.txt 的偏差，国内估计还会有人复制。 llms.txt 和 ai.txt 是两件事——前者是"我有什么"，后者是"AI 能做什么"。它们目前都不是 W3C 标准、也没有官方仲裁。但如果想被 LLM 引用，写的应该是 llms.txt，不是 robots.txt 风格的访问规则。

5. 国内 AI 大厂 0 家做这事，是国内 SEO 圈最大的免费信号。 如果他们都在观望，普通公司也没必要焦虑"现在不做就晚了"。但反过来，如果你是国内 SaaS / WordPress 站长 / hosting 商，做了 llms.txt 你就直接领先你那一行 80% 以上的同行。成本几乎为零，下行风险也几乎为零。

关于数据

48 个国内候选站点，2026-05-16 用普通 HTTP GET + 桌面浏览器 User-Agent 探测。5 个返回真 llms.txt，17 个返回 HTML fallback，22 个 404，4 个其他错误。Probe 脚本、原始响应、单站分析都做了归档。

测试有几个明确局限：

只测了根路径 /llms.txt，某些站可能在子域名（如 docs.xxx.com）或带版本路径有真文件。
没测可选的 /llms-full.txt（详细版）。
部分站按 IP / User-Agent 屏蔽自动请求，可能误判为 HTML fallback 或 403。
国内候选只选了 48 家，没覆盖所有头部公司。

但 10% 这个国内采纳率数字、17 家 AI 大厂 0 家做对这个数据点，方向上应该足够清晰。如果有人跑出来结论不一样、或者拿到了"llms.txt 真的带来了 AI 引用"的真实数据，特别想看看。

微

编辑

微码宝技术专家团队

专注于 WHMCS 与 WordPress 深度定制开发，累计交付 500+ 个企业级项目方案。