Home - RAG Sitemap

Map

get

Truth

Vectors

find

Scraps

RAG Sitemap 是一份為 AI 檢索而設計的結構化網站知識索引，它不是 sitemap.xml，也不是向量資料庫，它是有跡可循的脈絡，是一份標出各群組邊界與關係的頂層導覽文件，描述整個網站知識全景，讓 AI 沿著結構走向答案，而不是在語意相似度中碰運氣。

穿著學者長袍的人形機器人手指著一本翻開的書中的某一行，向桌邊握著羽毛筆的人類作者展示，作者俯身細看那一處，桌上散著草稿與筆記。兩人姿態的角色顛倒是這幅畫的關鍵，機器人不是被審查的學生，而是替網站做體檢的審稿員。它的手指指向一行不清楚的描述，那個位置就是缺口本身。羽毛筆仍握在人類手中，修正權沒有移交，AI 只是讓人看見哪裡寫得不夠清楚。桌上半抽出的書暗示這不是大規模重寫，而是逐處微調標題、分類描述、文章歸屬，全是站長平常做 SEO 的動作。

llms.txt 善意的局限

Progressive Disclosure

為站內對話建立的索引，同時就是 AI 搜尋引擎理解你的方式
對話機器人沿著它找答案，AI 搜尋引擎沿著它找到你

Progressive Disclosure

為站內對話建立的索引，同時就是 AI 搜尋引擎理解你的方式；對話機器人沿著它找答案，AI 搜尋引擎沿著它找到你

「先用結構化摘要建立全貌，再依問題線索精準定位並深入檢索」這個邏輯，其實已經出現在很多地方。Google 從來不是把整個網路讀完再排名，它先看標題和 H1，再看 meta description，再看 Schema.org 結構化資料，最後才深入正文，這是成本控制的必然結果。2024 年開始流傳的 LLMs.txt 概念正確地識別了問題，但現有實作大多只是一份連結清單，AI 拿到之後就像猪八戒吃人參果 — 整份吞下去，再好的內容也嚐不出味道。

Anthropic 為 Claude Code 推出的 Skill.md 改善的也是這件事：在專案文件的開頭放一段描述文字，讓 Claude 只在需要時才載入整個專案的上下文，而不用每次都載入所有知識。而 GEO（生成式引擎優化）的核心假設也一樣，AI 搜尋引擎在索引網站時，用輕量模型快速掃描，決定哪些內容值得深入，這個篩選層的輸入，就是你的網站地圖。這些概念指向同一個結論：在資訊過載的時代，AI 最需要的不是更多資料，而是一個精心設計的漸進式披露架構。

RAG Sitemap 的核心設計原則叫做漸進式披露（Progressive Disclosure），這不是把所有內容一次餵給 AI，而是沿著網站自身的分類脈絡，一層一層地引導它從全局走向細節。讓 AI 先讀取 Master Sitemap 這份頂層索引，理解整個網站的知識結構：有哪些內容群組、每個群組涵蓋什麼主題、各群組之間的邊界在哪裡。然後依據問題的類型，選擇對應的內容群組，在群組內精準檢索，最後只讀取真正相關的內容片段，生成精準回答。

— RAG Sitemap 是這個概念在網站層面的完整實現

漸進式披露：從未改變的索引哲學

JSON-LD 給搜尋引擎讀，Claude SKILL.md 給 AI Agent 讀，RAG Sitemap 給站內 AI Chatbot 讀。讀者類型從爬蟲一路換到 LLM，三套系統都面臨相同的挑戰「快速判定哪個與當前需求最相關」，而結果是三套系統都收斂到同樣的三層結構：標題、描述、內容。

視角一 · 單元內部的三個欄位

輕量掃描精準深入

Google 搜尋引擎

全網爬取與排名

標題

Schema.org name

描述

Schema.org description

內容

Schema.org articleBody

Claude SKILL.md

代理任務上下文

標題

YAML name

描述

YAML description

內容

SKILL.md

RAG Sitemap

站內知識檢索

標題

條目 Title

描述

條目 Description

內容

條目對應的 chunk

{
  "@context": "https://schema.org",
  "@type": "Article",

  "name": "iPhone Review",

  "url": "example.com/iphone",

  "description":
    "In-depth review...",

  "articleBody":
    "Overall performance..."
}

---
name: pdf-processing

description: Extract text and
  tables from PDF files
---

# PDF Processing

Call process_pdf(filepath)
to start processing...

======
Title: iPhone Review

Link: example.com/iphone

Description: Complete review of
  iPhone's core features
======

Content:
  Overall performance,
  good battery life...

視角二 · 檔案系統的三層結構

視角一的三層結構在單元內部成立。把鏡頭拉遠到整個檔案系統，會發現同一組三層結構又出現了一次「索引、分類、檔案」。漸進式披露不是只發生在文章裡，它也決定了整個網站如何被組織。

頂層葉節點

XML Sitemap

網站目錄結構

索引

sitemap.xml

分類

/products/、/blog/ 等子目錄

檔案

個別 HTML 頁面

Claude SKILL.md

Skill 資料夾

索引

SKILL.md

分類

scripts/

檔案

scripts/*.py 執行檔

RAG Sitemap

RAG 目錄結構

索引

master-sitemap.txt

分類

category-list/

檔案

post_*.txt、page_*.txt

example.com/
├── sitemap.xml     # 索引
├── products/       # 分類
│   ├── cat-a/
│   │   └── item.html
│   └── cat-b/
└── blog/           # 分類
    └── post.html

pdf/
├── SKILL.md        # 索引
├── FORMS.md
├── reference.md
├── examples.md
└── scripts/        # 分類
    ├── analyze.py
    ├── fill.py
    └── validate.py

rag-sitemap/default/
├── master-sitemap.txt # 索引
├── category-list/  # 分類
│   ├── cat_x.txt
│   └── cat_y.txt
├── post-chunks/    # 分類
│   ├── post_x.txt
│   └── post_y.txt
└── page-chunks/    # 分類
    └── page_x.txt

Map

get

Truth

Vectors

find

Scraps

反過來用 AI Chatbot 訓練你的網站 SEO

RAG Harness Engineering

一個垃圾小模型，竟然讀懂了整個網站

llms.txt 善意的局限

Progressive Disclosure

Progressive Disclosure

漸進式披露：從未改變的索引哲學