實測 48 家中文網路公司的 llms.txt：國內 AI 大廠 0 家做對

GEO（生成引擎優化）這個詞，國外 SEO 圈已經聊了大半年。WP Engine 一個月發五篇關於它的文章，Cloudflare 出了配套的 bot 流量分析，Mintlify 把 llms.txt 做成產品裡一鍵開啟的功能。

國內呢？站長之家幾乎沒人寫過 llms.txt 的中文長文；百度、字節系搜尋沒出過任何「AI 友善」指南；連概念掃盲文都很少見。

但事情更有意思的是：國內 AI 大模型公司——理論上最應該懂「被 LLM 引用」重要性的那批人——自己網站上一個 llms.txt 都沒做。

我直接抓了 48 家國內主流公司的 /llms.txt，看看真實情況。下面是數據。

結論先放這：48 家裡 5 家（10.4%）有真 llms.txt。17 家回傳 HTML fallback（SPA 框架把路由吃掉了，自己不知道）。22 家直接 404。17 家國內 AI 大模型公司裡沒有任何一家做了 llms.txt——DeepSeek、Kimi、智譜、通義、文心一言、MiniMax、騰訊混元、訊飛星火、商湯、零一萬物、百川……全員缺席。做得最完整的是阿里雲幫助文件（53.9 KB，四個語言站交叉鏈）。最不規範的是 CSDN：它把 llms.txt 寫成了 robots.txt 的樣子。

我測了哪些站，怎麼測的

按行業分了六類，48 個候選：

國內 AI 大模型公司（17 家）：百度文心一言、智譜清言、Kimi / 月之暗面、通義千問、DeepSeek、MiniMax、商湯、零一萬物（01.ai）、百川智慧、騰訊混元、訊飛星火等
國內雲服務（8 家）：阿里雲、騰訊雲、華為雲、火山引擎、百度智慧雲、七牛雲、又拍雲
國內協作 SaaS（9 家）：飛書、釘釘、企業微信、石墨文件、語雀、騰訊文件、WPS、金數據
國內開發者社群（9 家）：Gitee、CSDN、掘金、SegmentFault、InfoQ 中國、極客時間、阿里雲開發者、騰訊雲開發者
國內 hosting / 站長工具（3 家）：西部數位、CNDNS、傲遊
國內 docs 平台（2 家）：金山文件、我來 wolai

每個站直接 GET https://<網域>/llms.txt，用一般瀏覽器 User-Agent，不帶任何認證。看回應是真 markdown 還是 HTML 外殼。簡單到不能再簡單——任何 LLM 爬蟲都會這麼做。

總體數據：國內採用率是國際的四分之一

結果	國內 48 站	國際對照 70 站
真 llms.txt	5 (10.4%)	31 (44%)
HTML fallback	17 (35%)	9 (13%)
404	22 (46%)	22 (31%)
403 / 逾時 / 其他錯誤	4 (8%)	8 (11%)

國際對照樣本是上週做的同款測試，AI 實驗室 + 文件平台 + Stripe / Cloudflare 那種等級的西方科技公司。兩組資料放一起看就是：

國內採用率比國際低 4 倍多
國內 HTML fallback 比例是國際的 2.7 倍——SPA 框架普及，但自家路由沒人監控
404 比例都不算低，但國內絕對值更高

10% 這個數字本身不算特別慘——畢竟 llms.txt 這個標準還在早期。但跟「國際同行已經把 GEO 當 KPI」這個背景對照，差距挺刺眼。

國內 AI 大廠 0/17：最反直覺的數據點

測試的 17 家國內 AI 大模型公司，逐個看：

公司	網域	結果
百度文心一言	yiyan.baidu.com	HTML fallback
智譜清言	chatglm.cn / zhipuai.cn	HTML fallback × 2
Kimi / 月之暗面	kimi.moonshot.cn / moonshot.cn	HTML fallback × 2
通義千問	tongyi.aliyun.com / qianwen.aliyun.com	404 × 2
DeepSeek	deepseek.com / chat / api-docs	404 / 202 / 404
MiniMax	minimaxi.com / platform	HTML fallback / 404
騰訊混元	hunyuan.tencent.com	HTML fallback
訊飛星火	xinghuo.xfyun.cn	404
商湯	sensetime.com	404
零一萬物	01.ai	404
百川智慧	baichuan-ai.com	404

0 家做了 llms.txt。

這件事的吊詭在於：這些公司的核心業務就是 LLM。他們最懂「被 AI 引用」意味著什麼。他們的客服天天回答「為什麼 Claude 引用了 Perplexity 的回答沒引用我們」。但他們自己的官網，從來沒在這個檔案上花過一秒鐘。

反過來想：如果連模型提供商自己都不做，是不是說明他們知道一些 SEO 圈不知道的事？比如 llms.txt 其實沒什麼用？

這是個開放問題，我後面會再回來。

但至少有一件事可以確定：國內 AI 行業目前沒有任何一家把「被 AI 答案引擎引用」作為運營 KPI。否則不會全軍覆沒成這樣。

唯一做對的代表：阿里雲幫助文件

國內真的做了 llms.txt 的 5 家：

公司	檔案大小	備註
阿里雲幫助 (help.aliyun.com)	53.9 KB	工業級，多語言 + 巢狀子站
飛書開放平台 (open.feishu.cn)	11.4 KB	按 OpenAPI 結構索引
七牛雲 (qiniu.com)	10.5 KB	中英雙語
Gitee (gitee.com)	6.5 KB	英文，對標 GitHub
CSDN 部落格 (blog.csdn.net)	1.4 KB	格式不對（下面說）

阿里雲這份特別值得看。打開 help.aliyun.com/llms.txt，前幾行就是：

# 阿里云帮助文档

> 阿里云（Alibaba Cloud）是全球领先的云计算及人工智能科技公司之一。
> 提供全栈云服务……本文件为 LLM 和 AI Agent 提供阿里云官方文档的结构化索引。

## 可用站点与语言

- 中国站 (中文) - [llms.txt](https://help.aliyun.com/zh/llms.txt)
- 中国站 (英文) - [llms.txt](https://help.aliyun.com/en/llms.txt)
- 国际站 (中文) - [llms.txt](https://www.alibabacloud.com/help/zh/llms.txt)
- 国际站 (英文) - [llms.txt](https://www.alibabacloud.com/help/en/llms.txt)
- 国际站 (日语) - [llms.txt](https://www.alibabacloud.com/help/ja/llms.txt)
- 国际站 (印尼语) - [llms.txt](https://www.alibabacloud.com/help/id/llms.txt)

四個站點、六個語言版本，互相交叉連結。下面按產品類型分章節——人工智慧、計算、儲存、資料庫、安全、網路——每個產品都有自己的 llms.txt 子檔案。「百煉」、「PAI」、「DashVector」這些產品獨立索引，子檔案裡再列每個文件頁面的 markdown 原始連結。

這種「遞迴 sitemap」模式，國際上也只有 Anthropic、PostHog、Stripe 這種等級才做。換句話說，阿里雲這份 llms.txt 是國內唯一一份達到了國際一線規範的實作。

剩下四家裡，飛書開放平台和七牛雲屬於規範派——內容簡潔，結構清晰，沒有過度堆砌。Gitee 直接用英文寫，看得出來是面向「被 GitHub Copilot 類工具引用」做的產品決策。

然後是 CSDN——我得單獨說說它。

CSDN 把 llms.txt 寫成 robots.txt

CSDN 部落格的 /llms.txt 檔案確實存在，但開啟看是這樣的：

# llms.txt for https://blog.csdn.net/
# Last updated: 2025-10-22
# Purpose: Define access and usage rules for large language model (LLM) crawlers

########################################
# 1. General Rules
########################################

Disallow: /images/
Disallow: /content/
Disallow: /ui/
Disallow: /js/

Allow: /article/
Allow: /column/
Allow: /tag/

# 2. Usage Policy
Policy: Summarization with Source Attribution
Policy: No Redistribution of Raw Files

# 3. Attribution and Licensing
Citation: https://blog.csdn.net/
License: CC BY-NC-ND 4.0
Contact: gaoyang@csdn.net

注意它的格式：Disallow: / Allow: 欄位——這是 robots.txt 的語法。Policy: / License: / Citation: 是有些 ai.txt 提案（一份和 llms.txt 平行存在的「AI 訓練授權」提案）的欄位。

llms.txt 是什麼呢？llmstxt.org 自己定義得很清楚：

一個 # 標題 H1
一個 > 引用區塊 簡介
## H2 章節
markdown 連結

CSDN 這份檔案裡沒有一個 markdown 連結。沒有任何指向「我有什麼內容值得 LLM 抓」的索引。它講的全是「AI 不許做什麼」。

這是典型的心智搬遷錯誤：CSDN 團隊大概率把 robots.txt 的思路平移過來了。他們以為 llms.txt 是「控制 AI 爬取的規則檔案」，但 spec 的本意是「主動告訴 LLM 哪裡有好內容」——是 sitemap 的近親，不是 robots.txt 的近親。

如果有一天 ChatGPT / Claude / Kimi 真的開始按 llms.txt 推薦 source，CSDN 的回答會是「我們這個站只允許帶署名摘要」。Kimi 拿到這個檔案，不會知道 CSDN 上的「PyTorch 入門」、「GoLang 並發」那些高品質文章在哪裡。

CSDN 把自己擋在了 LLM 引用之外。還以為自己做了對的事。

17 家 HTML fallback：沉默的失敗比國際嚴重 3 倍

國際樣本裡 9 家落進 HTML fallback（13%）。國內是 17 家（35%），比例幾乎是國際的 3 倍。

國內 HTML fallback 的名單讀起來非常痛：

AI 大模型方：百度文心一言、智譜清言（雙網域）、Kimi（雙網域）、月之暗面、MiniMax、騰訊混元
雲服務方：騰訊雲、火山引擎、又拍雲
SaaS：釘釘、金數據
開發者：阿里雲 codeup、掘金、InfoQ 中國、極客時間
站長工具：CNDNS

這些公司的維運或 SRE 團隊如果用 curl 跑一下自家 /llms.txt，會看到 HTTP 200 OK，CDN 監控也顯示一切正常。但你 cat 一下回應 body，是 React / Vue 應用的 HTML 外殼——一堆 <div class="..."> 加上 JavaScript bundle URL。

LLM 爬蟲讀這種 HTML 外殼，得到的是「這是一個網頁」，沒有任何「這個站有什麼內容」的索引。從爬蟲角度看，跟 404 沒什麼區別。從站方角度看，他們以為自己做了對的事。

國內為什麼 HTML fallback 這麼嚴重？兩個猜測：

國內 SaaS 普遍跑 Vue / Nuxt / 自家魔改 SPA，預設路由把所有未匹配路徑丟給前端 React Router，前端再渲染應用外殼。沒人專門處理 /llms.txt 這種新路徑。
國內維運監控關心 200/404 比例不關心 body。HTTP 狀態 200 看著是綠的，監控就過了。

修復成本？基本零。在 nginx / Next.js / Nuxt 路由設定裡加一條規則，讓 /llms.txt 要嘛真回傳檔案，要嘛明確 404。一行程式碼。但沒人去看，所以也沒人去改。

關於 llms.txt 到底有沒有用

寫到最後，我必須承認一件事：目前沒有公開證據證明 llms.txt 真的影響了 LLM 引用率。

我特意找過：

有沒有資料顯示，有 llms.txt 的站比沒有的站在 Perplexity / ChatGPT / Claude / 百度搜尋 AI / 通義答案裡被引用更多？沒找到。
LLM 爬蟲真的在請求 /llms.txt 嗎？Cloudflare 公開過部分 bot 流量資料，但沒專門統計這條路徑。
有沒有任何 A/B 測試案例證明加上 llms.txt 改變了引用份額或推薦流量？基本沒有，只有幾篇讀起來像供應商行銷的「案例研究」。

回到那個開放問題：國內 AI 大廠 0/17 全軍覆沒——是因為他們知道這事沒用，還是因為他們和所有人一樣在觀望？

我傾向後者。理由是國際側也一樣——Mintlify 自己賣 llms.txt 服務，自家網站卻 404；llms.txt 提案者 Jeremy Howard 的個人站 fast.ai 也是 404。這種「全行業都在寫文章但全行業都沒做」的狀態，更像是大家都在等「標準還沒正式確立、不想第一個吃螃蟹」。

但有一點可以確定：做這事的成本幾乎為零。一份格式正確的純文字檔案，幾百字到幾千字，最快十分鐘搞定。

幾個觀察

不是建議——網路上 llms.txt 建議已經多到嫌棄。只是盯著 5 個國內真樣本 + 70 個國際樣本一天得出的幾條觀察：

1. 國內 GEO 這件事整體滯後國際半年到一年。 國際 SEO 圈已經在討論「GEO 是不是新 SEO」，國內 SEO 圈幾乎沒有關於 llms.txt 的中文長文。這要嘛是機會（先動手的佔位），要嘛是訊號（最貼近 SEO 的人算過了，決定跳過）。

2. 國內站點最大的問題不是 404，是 HTML fallback。 35% 的 HTML fallback 比 46% 的 404 更難修，因為前者你以為自己有，監控也說一切正常。建議任何用 Vue / Nuxt / Next.js 跑站的國內運營，今天就 curl 一下自家 /llms.txt 看回應 body。

3. 阿里雲的實作模式值得直接抄。 多語言交叉鏈 + 按產品分類做巢狀子站 llms.txt，這套架構國際上 Anthropic、PostHog 是同樣的做法。中國站想做的話，把自家站點的目錄結構按這個範式平移就行。

4. CSDN 那種把 llms.txt 寫成 robots.txt 的偏差，國內估計還會有人複製。 llms.txt 和 ai.txt 是兩件事——前者是「我有什麼」，後者是「AI 能做什麼」。它們目前都不是 W3C 標準、也沒有官方仲裁。但如果想被 LLM 引用，寫的應該是 llms.txt，不是 robots.txt 風格的存取規則。

5. 國內 AI 大廠 0 家做這事，是國內 SEO 圈最大的免費訊號。 如果他們都在觀望，普通公司也沒必要焦慮「現在不做就晚了」。但反過來，如果你是國內 SaaS / WordPress 站長 / hosting 商，做了 llms.txt 你就直接領先你那一行 80% 以上的同行。成本幾乎為零，下行風險也幾乎為零。

關於資料

48 個國內候選站點，2026-05-16 用普通 HTTP GET + 桌面瀏覽器 User-Agent 探測。5 個回傳真 llms.txt，17 個回傳 HTML fallback，22 個 404，4 個其他錯誤。Probe 指令稿、原始回應、單站分析都做了歸檔。

測試有幾個明確限制：

只測了根路徑 /llms.txt，某些站可能在子網域（如 docs.xxx.com）或帶版本路徑有真檔案。
沒測可選的 /llms-full.txt（詳細版）。
部分站按 IP / User-Agent 屏蔽自動請求，可能誤判為 HTML fallback 或 403。
國內候選只選了 48 家，沒覆蓋所有頭部公司。

但 10% 這個國內採用率數字、17 家 AI 大廠 0 家做對這個數據點，方向上應該足夠清晰。如果有人跑出來結論不一樣、或者拿到了「llms.txt 真的帶來了 AI 引用」的真實數據，特別想看看。

微

編輯

微码宝技術專家團隊

專注於 WHMCS 與 WordPress 深度客製化開發，累計交付 500+ 個企業級專案方案。