Map

get

Truth

Vectors

find

Scraps

RAG Sitemap 是一份為 AI 檢索而設計的結構化網站知識索引,它不是 sitemap.xml,也不是向量資料庫,它是有跡可循的脈絡,是一份標出各群組邊界與關係的頂層導覽文件,描述整個網站知識全景,讓 AI 沿著結構走向答案,而不是在語意相似度中碰運氣。

反過來用 AI Chatbot 訓練你的網站 SEO

你以為 RAG 是訓練 AI Chatbot 讀懂網站?其實是在反向校準你的網站 SEO 體質。RAG Sitemap 捨棄黑箱向量庫,直接讀取 WordPress 裡面,你早已寫好的標題、分類與描述,生成 TXT 網站地圖給 AI。當 AI 找不到答案時,問題往往就出在某篇文章的標題、摘要或分類歸屬上,你只需要用平常做 SEO 的方式進後台修正,不需要學新工具,也不需要通靈演算法。

RAG Harness Engineering

RAG Harness Engineering 讓訪客的每個提問背後不只是單純的一次 AI 提示詞呼叫,而是看圖、檢索、回答三段獨立的 AI API。多個 Sub Agent 接力最怕一站污染一站,Harness 架構讓每一站都拿著訪客的原始提問、清楚知道最初的任務目標,從根本上就對污染免疫,累積的雜訊被擋在每一次 hop 的入口之外。

一個垃圾小模型,竟然讀懂了整個網站

小模型 Llama 3.2 3B,是一個僅有 3B 參數,小到不能再小的語言模型。你問它問題,它只能根據 3B 的訓練資料回答你。它不知道你的網站寫了什麼,不知道你發了哪篇文章,對你近期累積的內容一無所知。用它來跑網頁問答,原本是天方夜譚。

llms.txt 善意的局限

llms.txt 是一份專為 AI 閱讀設計的 sitemap,但它的局限在於只有一層,對有組織、有架構的網站不夠用。這份檔案的標準格式是網站名稱當 H1、一段摘要,底下每一列是一個 [標題](連結):描述,指向網站裡的一個頁面。但它分不出這一列是分類頁、單一頁面、文章還是商品頁,每一列都被當成同一種東西。初衷沒有錯,目標是讓 AI 更容易地讀懂你的網站。但是問題不在描述,而是在於它把網站壓平成一層,破壞了網站原本的敘事能力與內容脈絡。

漸進式披露:從未改變的索引哲學

JSON-LD 給搜尋引擎讀,Claude SKILL.md 給 AI Agent 讀,RAG Sitemap 給站內 AI Chatbot 讀。讀者類型從爬蟲一路換到 LLM,三套系統都面臨相同的挑戰「快速判定哪個與當前需求最相關」,而結果是三套系統都收斂到同樣的三層結構:標題、描述、內容。

輕量掃描 精準深入
Google 搜尋引擎
全網爬取與排名
1
標題
Schema.org name 欄位
2
描述
Schema.org description 欄位
3
內容
Schema.org articleBody 欄位
Claude SKILL.md
代理任務上下文
1
標題
YAML name 欄位
2
描述
YAML description 欄位
3
內容
SKILL.md 主體
RAG Sitemap
站內知識檢索
1
標題
條目 Title 欄位
2
描述
條目 Description 欄位
3
內容
條目對應的 chunk
{
  "@context": "https://schema.org",
  "@type": "Article",

  "name": "iPhone Review",

  "url": "example.com/iphone",

  "description":
    "In-depth review...",

  "articleBody":
    "Overall performance..."
}
---
name: pdf-processing

description: Extract text and
  tables from PDF files
---

# PDF Processing

Call process_pdf(filepath)
to start processing...
======
Title: iPhone Review

Link: example.com/iphone

Description: Complete review of
  iPhone's core features
======

Content:
  Overall performance,
  good battery life...

視角一的三層結構在單元內部成立。把鏡頭拉遠到整個檔案系統,會發現同一組三層結構又出現了一次「索引、分類、檔案」。漸進式披露不是只發生在文章裡,它也決定了整個網站如何被組織。

頂層 葉節點
XML Sitemap
網站目錄結構
1
索引
sitemap.xml
2
分類
/products/、/blog/ 等子目錄
3
檔案
個別 HTML 頁面
Claude SKILL.md
Skill 資料夾
1
索引
SKILL.md
2
分類
scripts/
3
檔案
scripts/*.py 執行檔
RAG Sitemap
RAG 目錄結構
1
索引
master-sitemap.txt
2
分類
category-list/
3
檔案
post_*.txt、page_*.txt
example.com/
├── sitemap.xml     # 索引
├── products/       # 分類
│   ├── cat-a/
│   │   └── item.html
│   └── cat-b/
└── blog/           # 分類
    └── post.html
pdf/
├── SKILL.md        # 索引
├── FORMS.md
├── reference.md
├── examples.md
└── scripts/        # 分類
    ├── analyze.py
    ├── fill.py
    └── validate.py
rag-sitemap/default/
├── master-sitemap.txt # 索引
├── category-list/  # 分類
│   ├── cat_x.txt
│   └── cat_y.txt
├── post-chunks/    # 分類
│   ├── post_x.txt
│   └── post_y.txt
└── page-chunks/    # 分類
    └── page_x.txt