實測 48 家中文網路公司的 llms.txt:國內 AI 大廠 0 家做對
GEO(生成引擎優化)這個詞,國外 SEO 圈已經聊了大半年。WP Engine 一個月發五篇關於它的文章,Cloudflare 出了配套的 bot 流量分析,Mintlify 把 llms.txt 做成產品裡一鍵開啟的功能。
國內呢?站長之家幾乎沒人寫過 llms.txt 的中文長文;百度、字節系搜尋沒出過任何「AI 友善」指南;連概念掃盲文都很少見。
但事情更有意思的是:國內 AI 大模型公司——理論上最應該懂「被 LLM 引用」重要性的那批人——自己網站上一個 llms.txt 都沒做。
我直接抓了 48 家國內主流公司的 /llms.txt,看看真實情況。下面是數據。
結論先放這:48 家裡 5 家(10.4%)有真 llms.txt。17 家回傳 HTML fallback(SPA 框架把路由吃掉了,自己不知道)。22 家直接 404。17 家國內 AI 大模型公司裡沒有任何一家做了 llms.txt——DeepSeek、Kimi、智譜、通義、文心一言、MiniMax、騰訊混元、訊飛星火、商湯、零一萬物、百川……全員缺席。做得最完整的是阿里雲幫助文件(53.9 KB,四個語言站交叉鏈)。最不規範的是 CSDN:它把 llms.txt 寫成了 robots.txt 的樣子。
我測了哪些站,怎麼測的
按行業分了六類,48 個候選:
- 國內 AI 大模型公司(17 家):百度文心一言、智譜清言、Kimi / 月之暗面、通義千問、DeepSeek、MiniMax、商湯、零一萬物(01.ai)、百川智慧、騰訊混元、訊飛星火等
- 國內雲服務(8 家):阿里雲、騰訊雲、華為雲、火山引擎、百度智慧雲、七牛雲、又拍雲
- 國內協作 SaaS(9 家):飛書、釘釘、企業微信、石墨文件、語雀、騰訊文件、WPS、金數據
- 國內開發者社群(9 家):Gitee、CSDN、掘金、SegmentFault、InfoQ 中國、極客時間、阿里雲開發者、騰訊雲開發者
- 國內 hosting / 站長工具(3 家):西部數位、CNDNS、傲遊
- 國內 docs 平台(2 家):金山文件、我來 wolai
每個站直接 GET https://<網域>/llms.txt,用一般瀏覽器 User-Agent,不帶任何認證。看回應是真 markdown 還是 HTML 外殼。簡單到不能再簡單——任何 LLM 爬蟲都會這麼做。
總體數據:國內採用率是國際的四分之一
| 結果 | 國內 48 站 | 國際對照 70 站 |
|---|---|---|
| 真 llms.txt | 5 (10.4%) | 31 (44%) |
| HTML fallback | 17 (35%) | 9 (13%) |
| 404 | 22 (46%) | 22 (31%) |
| 403 / 逾時 / 其他錯誤 | 4 (8%) | 8 (11%) |
國際對照樣本是上週做的同款測試,AI 實驗室 + 文件平台 + Stripe / Cloudflare 那種等級的西方科技公司。兩組資料放一起看就是:
- 國內採用率比國際低 4 倍多
- 國內 HTML fallback 比例是國際的 2.7 倍——SPA 框架普及,但自家路由沒人監控
- 404 比例都不算低,但國內絕對值更高
10% 這個數字本身不算特別慘——畢竟 llms.txt 這個標準還在早期。但跟「國際同行已經把 GEO 當 KPI」這個背景對照,差距挺刺眼。
國內 AI 大廠 0/17:最反直覺的數據點
測試的 17 家國內 AI 大模型公司,逐個看:
| 公司 | 網域 | 結果 |
|---|---|---|
| 百度文心一言 | yiyan.baidu.com | HTML fallback |
| 智譜清言 | chatglm.cn / zhipuai.cn | HTML fallback × 2 |
| Kimi / 月之暗面 | kimi.moonshot.cn / moonshot.cn | HTML fallback × 2 |
| 通義千問 | tongyi.aliyun.com / qianwen.aliyun.com | 404 × 2 |
| DeepSeek | deepseek.com / chat / api-docs | 404 / 202 / 404 |
| MiniMax | minimaxi.com / platform | HTML fallback / 404 |
| 騰訊混元 | hunyuan.tencent.com | HTML fallback |
| 訊飛星火 | xinghuo.xfyun.cn | 404 |
| 商湯 | sensetime.com | 404 |
| 零一萬物 | 01.ai | 404 |
| 百川智慧 | baichuan-ai.com | 404 |
0 家做了 llms.txt。
這件事的吊詭在於:這些公司的核心業務就是 LLM。他們最懂「被 AI 引用」意味著什麼。他們的客服天天回答「為什麼 Claude 引用了 Perplexity 的回答沒引用我們」。但他們自己的官網,從來沒在這個檔案上花過一秒鐘。
反過來想:如果連模型提供商自己都不做,是不是說明他們知道一些 SEO 圈不知道的事?比如 llms.txt 其實沒什麼用?
這是個開放問題,我後面會再回來。
但至少有一件事可以確定:國內 AI 行業目前沒有任何一家把「被 AI 答案引擎引用」作為運營 KPI。否則不會全軍覆沒成這樣。
唯一做對的代表:阿里雲幫助文件
國內真的做了 llms.txt 的 5 家:
| 公司 | 檔案大小 | 備註 |
|---|---|---|
| 阿里雲幫助 (help.aliyun.com) | 53.9 KB | 工業級,多語言 + 巢狀子站 |
| 飛書開放平台 (open.feishu.cn) | 11.4 KB | 按 OpenAPI 結構索引 |
| 七牛雲 (qiniu.com) | 10.5 KB | 中英雙語 |
| Gitee (gitee.com) | 6.5 KB | 英文,對標 GitHub |
| CSDN 部落格 (blog.csdn.net) | 1.4 KB | 格式不對(下面說) |
阿里雲這份特別值得看。打開 help.aliyun.com/llms.txt,前幾行就是:
# 阿里云帮助文档
> 阿里云(Alibaba Cloud)是全球领先的云计算及人工智能科技公司之一。
> 提供全栈云服务……本文件为 LLM 和 AI Agent 提供阿里云官方文档的结构化索引。
## 可用站点与语言
- 中国站 (中文) - [llms.txt](https://help.aliyun.com/zh/llms.txt)
- 中国站 (英文) - [llms.txt](https://help.aliyun.com/en/llms.txt)
- 国际站 (中文) - [llms.txt](https://www.alibabacloud.com/help/zh/llms.txt)
- 国际站 (英文) - [llms.txt](https://www.alibabacloud.com/help/en/llms.txt)
- 国际站 (日语) - [llms.txt](https://www.alibabacloud.com/help/ja/llms.txt)
- 国际站 (印尼语) - [llms.txt](https://www.alibabacloud.com/help/id/llms.txt)
四個站點、六個語言版本,互相交叉連結。下面按產品類型分章節——人工智慧、計算、儲存、資料庫、安全、網路——每個產品都有自己的 llms.txt 子檔案。「百煉」、「PAI」、「DashVector」這些產品獨立索引,子檔案裡再列每個文件頁面的 markdown 原始連結。
這種「遞迴 sitemap」模式,國際上也只有 Anthropic、PostHog、Stripe 這種等級才做。換句話說,阿里雲這份 llms.txt 是國內唯一一份達到了國際一線規範的實作。
剩下四家裡,飛書開放平台和七牛雲屬於規範派——內容簡潔,結構清晰,沒有過度堆砌。Gitee 直接用英文寫,看得出來是面向「被 GitHub Copilot 類工具引用」做的產品決策。
然後是 CSDN——我得單獨說說它。
CSDN 把 llms.txt 寫成 robots.txt
CSDN 部落格的 /llms.txt 檔案確實存在,但開啟看是這樣的:
# llms.txt for https://blog.csdn.net/
# Last updated: 2025-10-22
# Purpose: Define access and usage rules for large language model (LLM) crawlers
########################################
# 1. General Rules
########################################
Disallow: /images/
Disallow: /content/
Disallow: /ui/
Disallow: /js/
Allow: /article/
Allow: /column/
Allow: /tag/
# 2. Usage Policy
Policy: Summarization with Source Attribution
Policy: No Redistribution of Raw Files
# 3. Attribution and Licensing
Citation: https://blog.csdn.net/
License: CC BY-NC-ND 4.0
Contact: gaoyang@csdn.net
注意它的格式:Disallow: / Allow: 欄位——這是 robots.txt 的語法。Policy: / License: / Citation: 是有些 ai.txt 提案(一份和 llms.txt 平行存在的「AI 訓練授權」提案)的欄位。
llms.txt 是什麼呢?llmstxt.org 自己定義得很清楚:
- 一個
# 標題H1 - 一個
> 引用區塊簡介 ## H2章節- markdown 連結
CSDN 這份檔案裡沒有一個 markdown 連結。沒有任何指向「我有什麼內容值得 LLM 抓」的索引。它講的全是「AI 不許做什麼」。
這是典型的心智搬遷錯誤:CSDN 團隊大概率把 robots.txt 的思路平移過來了。他們以為 llms.txt 是「控制 AI 爬取的規則檔案」,但 spec 的本意是「主動告訴 LLM 哪裡有好內容」——是 sitemap 的近親,不是 robots.txt 的近親。
如果有一天 ChatGPT / Claude / Kimi 真的開始按 llms.txt 推薦 source,CSDN 的回答會是「我們這個站只允許帶署名摘要」。Kimi 拿到這個檔案,不會知道 CSDN 上的「PyTorch 入門」、「GoLang 並發」那些高品質文章在哪裡。
CSDN 把自己擋在了 LLM 引用之外。還以為自己做了對的事。
17 家 HTML fallback:沉默的失敗比國際嚴重 3 倍
國際樣本裡 9 家落進 HTML fallback(13%)。國內是 17 家(35%),比例幾乎是國際的 3 倍。
國內 HTML fallback 的名單讀起來非常痛:
- AI 大模型方:百度文心一言、智譜清言(雙網域)、Kimi(雙網域)、月之暗面、MiniMax、騰訊混元
- 雲服務方:騰訊雲、火山引擎、又拍雲
- SaaS:釘釘、金數據
- 開發者:阿里雲 codeup、掘金、InfoQ 中國、極客時間
- 站長工具:CNDNS
這些公司的維運或 SRE 團隊如果用 curl 跑一下自家 /llms.txt,會看到 HTTP 200 OK,CDN 監控也顯示一切正常。但你 cat 一下回應 body,是 React / Vue 應用的 HTML 外殼——一堆 <div class="..."> 加上 JavaScript bundle URL。
LLM 爬蟲讀這種 HTML 外殼,得到的是「這是一個網頁」,沒有任何「這個站有什麼內容」的索引。從爬蟲角度看,跟 404 沒什麼區別。從站方角度看,他們以為自己做了對的事。
國內為什麼 HTML fallback 這麼嚴重?兩個猜測:
- 國內 SaaS 普遍跑 Vue / Nuxt / 自家魔改 SPA,預設路由把所有未匹配路徑丟給前端 React Router,前端再渲染應用外殼。沒人專門處理
/llms.txt這種新路徑。 - 國內維運監控關心 200/404 比例不關心 body。HTTP 狀態 200 看著是綠的,監控就過了。
修復成本?基本零。在 nginx / Next.js / Nuxt 路由設定裡加一條規則,讓 /llms.txt 要嘛真回傳檔案,要嘛明確 404。一行程式碼。但沒人去看,所以也沒人去改。
關於 llms.txt 到底有沒有用
寫到最後,我必須承認一件事:目前沒有公開證據證明 llms.txt 真的影響了 LLM 引用率。
我特意找過:
- 有沒有資料顯示,有 llms.txt 的站比沒有的站在 Perplexity / ChatGPT / Claude / 百度搜尋 AI / 通義答案裡被引用更多?沒找到。
- LLM 爬蟲真的在請求
/llms.txt嗎?Cloudflare 公開過部分 bot 流量資料,但沒專門統計這條路徑。 - 有沒有任何 A/B 測試案例證明加上 llms.txt 改變了引用份額或推薦流量?基本沒有,只有幾篇讀起來像供應商行銷的「案例研究」。
回到那個開放問題:國內 AI 大廠 0/17 全軍覆沒——是因為他們知道這事沒用,還是因為他們和所有人一樣在觀望?
我傾向後者。理由是國際側也一樣——Mintlify 自己賣 llms.txt 服務,自家網站卻 404;llms.txt 提案者 Jeremy Howard 的個人站 fast.ai 也是 404。這種「全行業都在寫文章但全行業都沒做」的狀態,更像是大家都在等「標準還沒正式確立、不想第一個吃螃蟹」。
但有一點可以確定:做這事的成本幾乎為零。一份格式正確的純文字檔案,幾百字到幾千字,最快十分鐘搞定。
幾個觀察
不是建議——網路上 llms.txt 建議已經多到嫌棄。只是盯著 5 個國內真樣本 + 70 個國際樣本一天得出的幾條觀察:
1. 國內 GEO 這件事整體滯後國際半年到一年。 國際 SEO 圈已經在討論「GEO 是不是新 SEO」,國內 SEO 圈幾乎沒有關於 llms.txt 的中文長文。這要嘛是機會(先動手的佔位),要嘛是訊號(最貼近 SEO 的人算過了,決定跳過)。
2. 國內站點最大的問題不是 404,是 HTML fallback。 35% 的 HTML fallback 比 46% 的 404 更難修,因為前者你以為自己有,監控也說一切正常。建議任何用 Vue / Nuxt / Next.js 跑站的國內運營,今天就 curl 一下自家 /llms.txt 看回應 body。
3. 阿里雲的實作模式值得直接抄。 多語言交叉鏈 + 按產品分類做巢狀子站 llms.txt,這套架構國際上 Anthropic、PostHog 是同樣的做法。中國站想做的話,把自家站點的目錄結構按這個範式平移就行。
4. CSDN 那種把 llms.txt 寫成 robots.txt 的偏差,國內估計還會有人複製。 llms.txt 和 ai.txt 是兩件事——前者是「我有什麼」,後者是「AI 能做什麼」。它們目前都不是 W3C 標準、也沒有官方仲裁。但如果想被 LLM 引用,寫的應該是 llms.txt,不是 robots.txt 風格的存取規則。
5. 國內 AI 大廠 0 家做這事,是國內 SEO 圈最大的免費訊號。 如果他們都在觀望,普通公司也沒必要焦慮「現在不做就晚了」。但反過來,如果你是國內 SaaS / WordPress 站長 / hosting 商,做了 llms.txt 你就直接領先你那一行 80% 以上的同行。成本幾乎為零,下行風險也幾乎為零。
關於資料
48 個國內候選站點,2026-05-16 用普通 HTTP GET + 桌面瀏覽器 User-Agent 探測。5 個回傳真 llms.txt,17 個回傳 HTML fallback,22 個 404,4 個其他錯誤。Probe 指令稿、原始回應、單站分析都做了歸檔。
測試有幾個明確限制:
- 只測了根路徑
/llms.txt,某些站可能在子網域(如 docs.xxx.com)或帶版本路徑有真檔案。 - 沒測可選的
/llms-full.txt(詳細版)。 - 部分站按 IP / User-Agent 屏蔽自動請求,可能誤判為 HTML fallback 或 403。
- 國內候選只選了 48 家,沒覆蓋所有頭部公司。
但 10% 這個國內採用率數字、17 家 AI 大廠 0 家做對這個數據點,方向上應該足夠清晰。如果有人跑出來結論不一樣、或者拿到了「llms.txt 真的帶來了 AI 引用」的真實數據,特別想看看。
編輯
微码宝 技術專家團隊
專注於 WHMCS 與 WordPress 深度客製化開發,累計交付 500+ 個企業級專案方案。