Map
get
Truth
Vectors
find
Scraps
RAG Sitemap 是一份為 AI 檢索而設計的結構化網站知識索引,它不是 sitemap.xml,也不是向量資料庫,它是有跡可循的脈絡,是一份標出各群組邊界與關係的頂層導覽文件,描述整個網站知識全景,讓 AI 沿著結構走向答案,而不是在語意相似度中碰運氣。
反過來用 AI Chatbot 訓練你的網站 SEO
你以為 RAG 是訓練 AI Chatbot 讀懂網站?其實是在反向校準你的網站 SEO 體質。RAG Sitemap 捨棄黑箱向量庫,直接讀取 WordPress 裡面,你早已寫好的標題、分類與描述,生成 TXT 網站地圖給 AI。當 AI 找不到答案時,問題往往就出在某篇文章的標題、摘要或分類歸屬上,你只需要用平常做 SEO 的方式進後台修正,不需要學新工具,也不需要通靈演算法。
RAG Harness Engineering
RAG Harness Engineering 讓訪客的每個提問背後不只是單純的一次 AI 提示詞呼叫,而是看圖、檢索、回答三段獨立的 AI API。多個 Sub Agent 接力最怕一站污染一站,Harness 架構讓每一站都拿著訪客的原始提問、清楚知道最初的任務目標,從根本上就對污染免疫,累積的雜訊被擋在每一次 hop 的入口之外。
一個垃圾小模型,竟然讀懂了整個網站
小模型 Llama 3.2 3B,是一個僅有 3B 參數,小到不能再小的語言模型。你問它問題,它只能根據 3B 的訓練資料回答你。它不知道你的網站寫了什麼,不知道你發了哪篇文章,對你近期累積的內容一無所知。用它來跑網頁問答,原本是天方夜譚。
llms.txt 善意的局限
llms.txt 是一份專為 AI 閱讀設計的 sitemap,但它的局限在於只有一層,對有組織、有架構的網站不夠用。這份檔案的標準格式是網站名稱當 H1、一段摘要,底下每一列是一個 [標題](連結):描述,指向網站裡的一個頁面。但它分不出這一列是分類頁、單一頁面、文章還是商品頁,每一列都被當成同一種東西。初衷沒有錯,目標是讓 AI 更容易地讀懂你的網站。但是問題不在描述,而是在於它把網站壓平成一層,破壞了網站原本的敘事能力與內容脈絡。
Progressive Disclosure
為站內對話建立的索引,同時就是 AI 搜尋引擎理解你的方式
對話機器人沿著它找答案,AI 搜尋引擎沿著它找到你
Progressive Disclosure
為站內對話建立的索引,同時就是 AI 搜尋引擎理解你的方式;對話機器人沿著它找答案,AI 搜尋引擎沿著它找到你
「先用結構化摘要建立全貌,再依問題線索精準定位並深入檢索」這個邏輯,其實已經出現在很多地方。Google 從來不是把整個網路讀完再排名,它先看標題和 H1,再看 meta description,再看 Schema.org 結構化資料,最後才深入正文,這是成本控制的必然結果。2024 年開始流傳的 LLMs.txt 概念正確地識別了問題,但現有實作大多只是一份連結清單,AI 拿到之後就像猪八戒吃人參果 — 整份吞下去,再好的內容也嚐不出味道。
Anthropic 為 Claude Code 推出的 Skill.md 改善的也是這件事:在專案文件的開頭放一段描述文字,讓 Claude 只在需要時才載入整個專案的上下文,而不用每次都載入所有知識。而 GEO(生成式引擎優化)的核心假設也一樣,AI 搜尋引擎在索引網站時,用輕量模型快速掃描,決定哪些內容值得深入,這個篩選層的輸入,就是你的網站地圖。這些概念指向同一個結論:在資訊過載的時代,AI 最需要的不是更多資料,而是一個精心設計的漸進式披露架構。
RAG Sitemap 的核心設計原則叫做漸進式披露(Progressive Disclosure),這不是把所有內容一次餵給 AI,而是沿著網站自身的分類脈絡,一層一層地引導它從全局走向細節。讓 AI 先讀取 Master Sitemap 這份頂層索引,理解整個網站的知識結構:有哪些內容群組、每個群組涵蓋什麼主題、各群組之間的邊界在哪裡。然後依據問題的類型,選擇對應的內容群組,在群組內精準檢索,最後只讀取真正相關的內容片段,生成精準回答。
— RAG Sitemap 是這個概念在網站層面的完整實現
漸進式披露:從未改變的索引哲學
JSON-LD 給搜尋引擎讀,Claude SKILL.md 給 AI Agent 讀,RAG Sitemap 給站內 AI Chatbot 讀。讀者類型從爬蟲一路換到 LLM,三套系統都面臨相同的挑戰「快速判定哪個與當前需求最相關」,而結果是三套系統都收斂到同樣的三層結構:標題、描述、內容。
{
"@context": "https://schema.org",
"@type": "Article",
"name": "iPhone Review",
"url": "example.com/iphone",
"description":
"In-depth review...",
"articleBody":
"Overall performance..."
}
--- name: pdf-processing description: Extract text and tables from PDF files --- # PDF Processing Call process_pdf(filepath) to start processing...
====== Title: iPhone Review Link: example.com/iphone Description: Complete review of iPhone's core features ====== Content: Overall performance, good battery life...
視角一的三層結構在單元內部成立。把鏡頭拉遠到整個檔案系統,會發現同一組三層結構又出現了一次「索引、分類、檔案」。漸進式披露不是只發生在文章裡,它也決定了整個網站如何被組織。
example.com/ ├── sitemap.xml # 索引 ├── products/ # 分類 │ ├── cat-a/ │ │ └── item.html │ └── cat-b/ └── blog/ # 分類 └── post.html
pdf/ ├── SKILL.md # 索引 ├── FORMS.md ├── reference.md ├── examples.md └── scripts/ # 分類 ├── analyze.py ├── fill.py └── validate.py
rag-sitemap/default/ ├── master-sitemap.txt # 索引 ├── category-list/ # 分類 │ ├── cat_x.txt │ └── cat_y.txt ├── post-chunks/ # 分類 │ ├── post_x.txt │ └── post_y.txt └── page-chunks/ # 分類 └── page_x.txt
