向量資料庫

為什麼 RAG 可以不使用向量資料庫？

向量資料庫不是 RAG 的必要條件，它只是其中一種把資料餵給 AI 的方式。當資料本來是混亂的、缺乏清楚邊界的，向量化可以幫助模型從大量文字中猜測語意相關性，這種做法有它的價值。但如果內容本來就有秩序，問題就不再是「怎麼從混亂中硬算相關」，而是「怎麼讓 AI 先看到最重要的判讀線索」。真正有效的 RAG，不一定是先把全文切碎、壓成向量再回頭猜答案；也可以是先把內容整理成 AI 能逐層理解的路徑，先降低上下文的不確定性，再展開細節。

而 WordPress，正是「本來就有秩序」的那種網站架構。你經營網站時所做的分類、標題與摘要，早就把內容整理成清楚的層級；再把它打碎、壓成向量、用相似度拼回去，只是把做完的整理再用數學的方式重做一遍。但事實上你不需要為了讓 AI 讀懂網站而去建一座向量資料庫，你需要的，只是讓 AI 看見你早就建好的那一座圖書館。

以 RAG Sitemap 為藍圖的立體圖書館

RAG Agent 不必讀完整個圖書館，也不必把藏書打碎成碎片再比對相似度。他循著招牌往下走，先看藏書區域的吊牌找出目標所在的大分類，再看櫃側的標籤分辨小分類，接著掃過架上每一本書的書名與描述，最後才抽出真正需要的那一本。這條漸進式披露的路徑就是 RAG Sitemap，連小模型都走得通。

RAG Sitemap · Progressive Disclosure

向量資料庫多做了一件事

市面上多數 WordPress AI Chatbot 外掛走的是同一條路：把全站內容打碎、做成向量存進資料庫，提問時用相似度撈回幾段，再丟給模型。這條路能運作，相似度也確實找得回相關段落，但向量資料庫一開始就做了一件多餘的事，把你早就整理好的東西打碎重做。

向量檢索擅長在混亂中計算相關性，但如果一個網站本來就有清楚的標題、摘要與主題分群，卻還要先拆成碎片、壓成向量、再用相似度拼回來，等於把原本可直接利用的編輯成果繞遠路重做。RAG Sitemap 不打碎內容，它照你排好的書架走過去，直接拿那本書。你不是在把網站丟給 AI 碰運氣，而是把它整理成一張專為機器理解設計的知識地圖，讓 AI 先看懂，再回答。

AI 需要的是目錄，不是另一團謎霧

AI 與人類一樣，讀漸進式披露的標題、描述與層級路徑，比讀全文更容易判斷「這篇值不值得讀」。即便 LLM 能在單一任務裡容納百萬 token，先給最小、最有判斷力的資訊、再依需求往下讀，仍然讓模型少走彎路、少吃噪音。RAG Sitemap 把網站既有的分類、標籤、階層與摘要，直接轉譯成 AI 可讀的純文字地圖，讓模型先看懂目錄與路徑，而不是先掉進全文的資訊謎霧。

沒有相似度計算，檢索就成了一道選擇題：模型讀懂目錄，判斷問題屬於哪一類、該往哪條路徑走，再走到該讀的那一篇。它不是在算哪段最像，而是讀懂目錄之後做選擇。你經營網站時本來就在做的分類與描述，就是它的索引，不必再去煩惱向量資料庫那一套，chunk 要切多大、挑哪個 embedding 模型、相似度門檻設多少。

WordPress 的熵，早已在網站經營的同時逐步降低了

一份未經整理的純文字，對 LLM 而言熵極高。而 WordPress 每發佈一篇文章，作者選分類、下標題、寫摘要、發佈到階層式 URL，這四個 SEO 動作就是四次微型的熵減。一個經營五年的 WordPress 站，就是這四個動作重複了幾千次，留下一份早已整理過的低熵語料庫。

Vector DB 的存在邏輯是「我面對的是高熵的非結構化文本，我必須用 embedding 重算秩序」；RAG Sitemap 的存在邏輯則是「這個語料庫的熵，早就為了 SEO 降到很低，我只需要揭示已分類的文本與描述，不需要重算」。同一份內容，Vector DB 選擇重算，RAG Sitemap 選擇揭示。

相關文章

一個渺小、穿著樸素希臘長袍的人形機器人，手提一盞小燈，在一座龐大宏偉的石柱長廊中自信地往深處走去，廊柱朝遠方無止盡延伸。渺小的機器人是 Llama 3B 這種垃圾級小模型，手中的小燈只照亮自己腳下，是它有限的世界知識。但牡步伐自信，因為真正在引路的是周圍的石柱秩序，不是手裡的燈。柱列朝深處延伸，對應 master → category → post 的漸進式披露。模型小不要緊，秩序夠清楚的時候，每一 hop 都收斂成一道選擇題。這幅畫的主角不是機器人，是廊柱本身，能力強弱不是關鍵，結構正確才是。

一個垃圾小模型，竟然讀懂了整個網站

小模型 Llama 3.2 3B，是一個僅有 3B 參數，小到不能再小的語言模型。你問它問題，它只能根據 3B 的訓練資料回答你。它不知道你的網站寫了什麼，不知道你發了哪篇文章，對你近期累積的內容一無所知。用它來跑網頁問答，原本是天方夜譚。

一個小小的人影手裡只拿著一張平面紙地圖，被困在一座巨大的多層石拱與階梯迷宮裡，無止盡的樓梯朝上下四面延伸。平面紙地圖是 llms.txt 的本質，一份只有書名沒有內文的目錄，僅供攝平閱讀。立體迷宮是真實網站的知識結構，有樓層、有動線、有彼此銜接的縱深。人影渺小，工具與環境的尺度落差就是 AI 拿著 2D 清單面對 3D 內容時的處境。光線從一側打入，但沒有對的地圖時，光無法替代結構。RAG Sitemap 要解決的就是把這張平面圖立體化，沿著 master、category、post 三層走下去。

llms.txt 善意的局限

llms.txt 是一份專為 AI 閱讀設計的 sitemap，但它的局限在於只有一層，對有組織、有架構的網站不夠用。這份檔案的標準格式是網站名稱當 H1、一段摘要，底下每一列是一個 [標題](連結)：描述，指向網站裡的一個頁面。但它分不出這一列是分類頁、單一頁面、文章還是商品頁，每一列都被當成同一種東西。初衷沒有錯，目標是讓 AI 更容易地讀懂你的網站。但是問題不在描述，而是在於它把網站壓平成一層，破壞了網站原本的敘事能力與內容脈絡。

穿著學者長袍的人形機器人手指著一本翻開的書中的某一行，向桌邊握著羽毛筆的人類作者展示，作者俯身細看那一處，桌上散著草稿與筆記。兩人姿態的角色顛倒是這幅畫的關鍵，機器人不是被審查的學生，而是替網站做體檢的審稿員。它的手指指向一行不清楚的描述，那個位置就是缺口本身。羽毛筆仍握在人類手中，修正權沒有移交，AI 只是讓人看見哪裡寫得不夠清楚。桌上半抽出的書暗示這不是大規模重寫，而是逐處微調標題、分類描述、文章歸屬，全是站長平常做 SEO 的動作。

反過來用 AI Chatbot 訓練你的網站 SEO

你以為是你在訓練 AI 讀懂網站？其實應該反過來用 AI Chatbot 訓練你的網站，因為 AI 每一次答錯，都是在告訴你哪一篇文章的標題或描述沒寫清楚，幫你檢查網站的 SEO 盲點。RAG Sitemap 捨棄黑箱向量庫，直接讀取 WordPress 裡你早已寫好的標題、分類與描述，生成純文字網站地圖給 AI。你只需要用平常做 SEO 的方式進後台修正，不需要學新工具，也不需要通靈演算法。