Skip to content

实测 48 家中文互联网公司的 llms.txt:国内 AI 大厂 0 家做对

行业资讯
2026年5月16日 17 次浏览

实测 48 家中文互联网公司的 llms.txt:国内 AI 大厂 0 家做对

GEO(生成引擎优化)这个词,国外 SEO 圈已经聊了大半年。WP Engine 一个月发五篇关于它的文章,Cloudflare 出了配套的 bot 流量分析,Mintlify 把 llms.txt 做成产品里一键开启的功能。

国内呢?站长之家几乎没人写过 llms.txt 的中文长文;百度、字节系搜索没出过任何"AI 友好"指南;连概念扫盲文都很少见。

但事情更有意思的是:国内 AI 大模型公司——理论上最应该懂"被 LLM 引用"重要性的那批人——自己网站上一个 llms.txt 都没做。

我直接抓了 48 家国内主流公司的 /llms.txt,看看真实情况。下面是数据。

结论先放这:48 家里 5 家(10.4%)有真 llms.txt。17 家返回 HTML fallback(SPA 框架把路由吃掉了,自己不知道)。22 家直接 404。17 家国内 AI 大模型公司里没有任何一家做了 llms.txt——DeepSeek、Kimi、智谱、通义、文心一言、MiniMax、腾讯混元、讯飞星火、商汤、零一万物、百川……全员缺席。做得最完整的是阿里云帮助文档(53.9 KB,四个语言站交叉链)。最不规范的是 CSDN:它把 llms.txt 写成了 robots.txt 的样子。

我测了哪些站,怎么测的

按行业分了六类,48 个候选:

  • 国内 AI 大模型公司(17 家):百度文心一言、智谱清言、Kimi / 月之暗面、通义千问、DeepSeek、MiniMax、商汤、零一万物(01.ai)、百川智能、腾讯混元、讯飞星火等
  • 国内云服务(8 家):阿里云、腾讯云、华为云、火山引擎、百度智能云、七牛云、又拍云
  • 国内协作 SaaS(9 家):飞书、钉钉、企业微信、石墨文档、语雀、腾讯文档、WPS、金数据
  • 国内开发者社区(9 家):Gitee、CSDN、掘金、SegmentFault、InfoQ 中国、极客时间、阿里云开发者、腾讯云开发者
  • 国内 hosting / 站长工具(3 家):西部数码、CNDNS、傲游
  • 国内 docs 平台(2 家):金山文档、我来 wolai

每个站直接 GET https://<域名>/llms.txt,用一般浏览器 User-Agent,不带任何认证。看响应是真 markdown 还是 HTML 外壳。简单到不能再简单——任何 LLM 爬虫都会这么干。

总体数据:国内采纳率是国际的四分之一

结果国内 48 站国际对照 70 站
真 llms.txt5 (10.4%)31 (44%)
HTML fallback17 (35%)9 (13%)
40422 (46%)22 (31%)
403 / 超时 / 其他错误4 (8%)8 (11%)

国际对照样本是上周做的同款测试,AI 实验室 + 文档平台 + Stripe / Cloudflare 那种级别的西方科技公司。两组数据放一起看就是:

  • 国内采纳率比国际低 4 倍多
  • 国内 HTML fallback 比例是国际的 2.7 倍——SPA 框架普及,但自家路由没人监控
  • 404 比例都不算低,但国内绝对值更高

10% 这个数字本身不算特别惨——毕竟 llms.txt 这个标准还在早期。但跟"国际同行已经把 GEO 当 KPI"这个背景对照,差距挺刺眼。

国内 AI 大厂 0/17:最反直觉的数据点

测试的 17 家国内 AI 大模型公司,逐个看:

公司域名结果
百度文心一言yiyan.baidu.comHTML fallback
智谱清言chatglm.cn / zhipuai.cnHTML fallback × 2
Kimi / 月之暗面kimi.moonshot.cn / moonshot.cnHTML fallback × 2
通义千问tongyi.aliyun.com / qianwen.aliyun.com404 × 2
DeepSeekdeepseek.com / chat / api-docs404 / 202 / 404
MiniMaxminimaxi.com / platformHTML fallback / 404
腾讯混元hunyuan.tencent.comHTML fallback
讯飞星火xinghuo.xfyun.cn404
商汤sensetime.com404
零一万物01.ai404
百川智能baichuan-ai.com404

0 家做了 llms.txt。

这件事的吊诡在于:这些公司的核心业务就是 LLM。他们最懂"被 AI 引用"意味着什么。他们的客服天天回答"为什么 Claude 引用了 Perplexity 的回答没引用我们"。但他们自己的官网,从来没在这个文件上花过一秒钟。

反过来想:如果连模型提供商自己都不做,是不是说明他们知道一些 SEO 圈不知道的事?比如 llms.txt 其实没什么用?

这是个开放问题,我后面会再回来。

但至少有一件事可以确定:国内 AI 行业目前没有任何一家把"被 AI 答案引擎引用"作为运营 KPI。否则不会全军覆没成这样。

唯一做对的代表:阿里云帮助文档

国内真的做了 llms.txt 的 5 家:

公司文件大小备注
阿里云帮助 (help.aliyun.com)53.9 KB工业级,多语言 + 嵌套子站
飞书开放平台 (open.feishu.cn)11.4 KB按 OpenAPI 结构索引
七牛云 (qiniu.com)10.5 KB中英双语
Gitee (gitee.com)6.5 KB英文,对标 GitHub
CSDN 博客 (blog.csdn.net)1.4 KB格式不对(下面说)

阿里云这份特别值得看。打开 help.aliyun.com/llms.txt,前几行就是:

# 阿里云帮助文档

> 阿里云(Alibaba Cloud)是全球领先的云计算及人工智能科技公司之一。
> 提供全栈云服务……本文件为 LLM 和 AI Agent 提供阿里云官方文档的结构化索引。

## 可用站点与语言

- 中国站 (中文) - [llms.txt](https://help.aliyun.com/zh/llms.txt)
- 中国站 (英文) - [llms.txt](https://help.aliyun.com/en/llms.txt)
- 国际站 (中文) - [llms.txt](https://www.alibabacloud.com/help/zh/llms.txt)
- 国际站 (英文) - [llms.txt](https://www.alibabacloud.com/help/en/llms.txt)
- 国际站 (日语) - [llms.txt](https://www.alibabacloud.com/help/ja/llms.txt)
- 国际站 (印尼语) - [llms.txt](https://www.alibabacloud.com/help/id/llms.txt)

四个站点、六个语言版本,互相交叉链接。下面按产品类型分章节——人工智能、计算、存储、数据库、安全、网络——每个产品都有自己的 llms.txt 子文件。"百炼"、"PAI"、"DashVector" 这些产品独立索引,子文件里再列每个文档页面的 markdown 源链接。

这种"递归 sitemap"模式,国际上也只有 Anthropic、PostHog、Stripe 这种级别才做。换句话说,阿里云这份 llms.txt 是国内唯一一份达到了国际一线规范的实现。

剩下四家里,飞书开放平台和七牛云属于规范派——内容简洁,结构清晰,没有过度堆砌。Gitee 直接用英文写,看得出来是面向"被 GitHub Copilot 类工具引用"做的产品决策。

然后是 CSDN——我得单独说说它。

CSDN 把 llms.txt 写成 robots.txt

CSDN 博客的 /llms.txt 文件确实存在,但打开看是这样的:

# llms.txt for https://blog.csdn.net/
# Last updated: 2025-10-22
# Purpose: Define access and usage rules for large language model (LLM) crawlers

########################################
# 1. General Rules
########################################

Disallow: /images/
Disallow: /content/
Disallow: /ui/
Disallow: /js/

Allow: /article/
Allow: /column/
Allow: /tag/

# 2. Usage Policy
Policy: Summarization with Source Attribution
Policy: No Redistribution of Raw Files

# 3. Attribution and Licensing
Citation: https://blog.csdn.net/
License: CC BY-NC-ND 4.0
Contact: gaoyang@csdn.net

注意它的格式:Disallow: / Allow: 字段——这是 robots.txt 的语法Policy: / License: / Citation: 是有些ai.txt 提案(一份和 llms.txt 平行存在的"AI 训练授权"提案)的字段。

llms.txt 是什么呢?llmstxt.org 自己定义得很清楚:

  1. 一个 # 标题 H1
  2. 一个 > 引用块 简介
  3. ## H2 章节
  4. markdown 链接

CSDN 这份文件里没有一个 markdown 链接。没有任何指向"我有什么内容值得 LLM 抓"的索引。它讲的全是"AI 不许做什么"。

这是典型的心智搬迁错误:CSDN 团队大概率把 robots.txt 的思路平移过来了。他们以为 llms.txt 是"控制 AI 爬取的规则文件",但 spec 的本意是"主动告诉 LLM 哪里有好内容"——是 sitemap 的近亲,不是 robots.txt 的近亲。

如果有一天 ChatGPT / Claude / Kimi 真的开始按 llms.txt 推荐 source,CSDN 的回答会是"我们这个站只允许带署名摘要"。Kimi 拿到这个文件,不会知道 CSDN 上的"PyTorch 入门"、"GoLang 并发"那些高质量文章在哪里。

CSDN 把自己挡在了 LLM 引用之外。还以为自己做了对的事。

17 家 HTML fallback:沉默的失败比国际严重 3 倍

国际样本里 9 家落进 HTML fallback(13%)。国内是 17 家(35%),比例几乎是国际的 3 倍。

国内 HTML fallback 的名单读起来非常痛:

  • AI 大模型方:百度文心一言、智谱清言(双域名)、Kimi(双域名)、月之暗面、MiniMax、腾讯混元
  • 云服务方:腾讯云、火山引擎、又拍云
  • SaaS:钉钉、金数据
  • 开发者:阿里云 codeup、掘金、InfoQ 中国、极客时间
  • 站长工具:CNDNS

这些公司的运维或 SRE 团队如果用 curl 跑一下自家 /llms.txt,会看到 HTTP 200 OK,CDN 监控也显示一切正常。但你 cat 一下响应 body,是 React / Vue 应用的 HTML 外壳——一堆 <div class="..."> 加上 JavaScript bundle URL。

LLM 爬虫读这种 HTML 外壳,得到的是"这是一个网页",没有任何"这个站有什么内容"的索引。从爬虫角度看,跟 404 没什么区别。从站方角度看,他们以为自己做了对的事。

国内为什么 HTML fallback 这么严重?两个猜测:

  1. 国内 SaaS 普遍跑 Vue / Nuxt / 自家魔改 SPA,默认路由把所有未匹配路径丢给前端 React Router,前端再渲染应用外壳。没人专门处理 /llms.txt 这种新路径。
  2. 国内运维监控关心 200/404 比例不关心 body。HTTP 状态 200 看着是绿的,监控就过了。

修复成本?基本零。在 nginx / Next.js / Nuxt 路由配置里加一条规则,让 /llms.txt 要么真返回文件,要么显式 404。一行代码。但没人去看,所以也没人去改。

关于 llms.txt 到底有没有用

写到最后,我必须承认一件事:目前没有公开证据证明 llms.txt 真的影响了 LLM 引用率。

我特意找过:

  • 有没有数据显示,有 llms.txt 的站比没有的站在 Perplexity / ChatGPT / Claude / 百度搜索 AI / 通义答案里被引用更多?没找到。
  • LLM 爬虫真的在请求 /llms.txt 吗?Cloudflare 公开过部分 bot 流量数据,但没专门统计这条路径。
  • 有没有任何 A/B 测试案例证明加上 llms.txt 改变了引用份额或推荐流量?基本没有,只有几篇读起来像供应商营销的"案例研究"。

回到那个开放问题:国内 AI 大厂 0/17 全军覆没——是因为他们知道这事没用,还是因为他们和所有人一样在观望?

我倾向后者。理由是国际侧也一样——Mintlify 自己卖 llms.txt 服务,自家网站却 404;llms.txt 提案者 Jeremy Howard 的个人站 fast.ai 也是 404。这种"全行业都在写文章但全行业都没做"的状态,更像是大家都在等"标准还没正式确立、不想第一个吃螃蟹"。

但有一点可以确定:做这事的成本几乎为零。一份格式正确的纯文本文件,几百字到几千字,最快十分钟搞定。

几个观察

不是建议——网上 llms.txt 建议已经多到嫌弃。只是盯着 5 个国内真样本 + 70 个国际样本一天得出的几条观察:

1. 国内 GEO 这件事整体滞后国际半年到一年。 国际 SEO 圈已经在讨论"GEO 是不是新 SEO",国内 SEO 圈几乎没有关于 llms.txt 的中文长文。这要么是机会(先动手的占位),要么是信号(最贴近 SEO 的人算过了,决定跳过)。

2. 国内站点最大的问题不是 404,是 HTML fallback。 35% 的 HTML fallback 比 46% 的 404 更难修,因为前者你以为自己有,监控也说一切正常。建议任何用 Vue / Nuxt / Next.js 跑站的国内运营,今天就 curl 一下自家 /llms.txt 看响应 body。

3. 阿里云的实现模式值得直接抄。 多语言交叉链 + 按产品分类做嵌套子站 llms.txt,这套架构国际上 Anthropic、PostHog 是同样的做法。中国站想做的话,把自家站点的目录结构按这个范式平移就行。

4. CSDN 那种把 llms.txt 写成 robots.txt 的偏差,国内估计还会有人复制。 llms.txt 和 ai.txt 是两件事——前者是"我有什么",后者是"AI 能做什么"。它们目前都不是 W3C 标准、也没有官方仲裁。但如果想被 LLM 引用,写的应该是 llms.txt,不是 robots.txt 风格的访问规则。

5. 国内 AI 大厂 0 家做这事,是国内 SEO 圈最大的免费信号。 如果他们都在观望,普通公司也没必要焦虑"现在不做就晚了"。但反过来,如果你是国内 SaaS / WordPress 站长 / hosting 商,做了 llms.txt 你就直接领先你那一行 80% 以上的同行。成本几乎为零,下行风险也几乎为零。

关于数据

48 个国内候选站点,2026-05-16 用普通 HTTP GET + 桌面浏览器 User-Agent 探测。5 个返回真 llms.txt,17 个返回 HTML fallback,22 个 404,4 个其他错误。Probe 脚本、原始响应、单站分析都做了归档。

测试有几个明确局限:

  • 只测了根路径 /llms.txt,某些站可能在子域名(如 docs.xxx.com)或带版本路径有真文件。
  • 没测可选的 /llms-full.txt(详细版)。
  • 部分站按 IP / User-Agent 屏蔽自动请求,可能误判为 HTML fallback 或 403。
  • 国内候选只选了 48 家,没覆盖所有头部公司。

但 10% 这个国内采纳率数字、17 家 AI 大厂 0 家做对这个数据点,方向上应该足够清晰。如果有人跑出来结论不一样、或者拿到了"llms.txt 真的带来了 AI 引用"的真实数据,特别想看看。

编辑

微码宝 技术专家团队

专注于 WHMCS 与 WordPress 深度定制开发,累计交付 500+ 个企业级项目方案。