向量資料庫

為什麼 RAG 可以不使用向量資料庫?

向量資料庫不是 RAG 的必要條件,它只是其中一種把資料餵給 AI 的方式。當資料本來是混亂的、缺乏清楚邊界的,向量化可以幫助模型從大量文字中猜測語意相關性,這種做法有它的價值。但如果內容本來就有秩序,問題就不再是「怎麼從混亂中硬算相關」,而是「怎麼讓 AI 先看到最重要的判讀線索」。真正有效的 RAG,不一定是先把全文切碎、壓成向量再回頭猜答案;也可以是先把內容整理成 AI 能逐層理解的路徑,先降低上下文的不確定性,再展開細節。

一個穿著希臘長袍的人形機器人,在一座宏偉古老圖書館中沿著一座早已雕好的螺旋石梯往上走,朝上方的光線前進,地面上散落著被撚碎、被忽視的紙片。螺旋石梯是 WordPress 既有的分類與階層,雕痕早已存在,不是這位行者刻的。機器人徒步往上走,對應 RAG Sitemap 直接沿著現成路徑檢索的動作。地上被撚碎的紙片是向量化的反向工作,把整理好的內容拆回碎片,再用 cosine similarity 重新拼回去。書架井然排列是人類經營網站時逐篇逐分類完成的低熵沉澱。朝上的光是答案的方位,結構本身在引路,模型只負責讀懂與選擇。

而 WordPress,正是「本來就有秩序」的那種網站架構。你經營網站時所做的分類、標題與摘要,早就把內容整理成清楚的層級;再把它打碎、壓成向量、用相似度拼回去,只是把做完的整理再用數學的方式重做一遍。但事實上你不需要為了讓 AI 讀懂網站而去建一座向量資料庫,你需要的,只是讓 AI 看見你早就建好的那一座圖書館。

以 RAG Sitemap 為藍圖的立體圖書館

RAG Agent 不必讀完整個圖書館,也不必把藏書打碎成碎片再比對相似度。他循著招牌往下走,先看藏書區域的吊牌找出目標所在的大分類,再看櫃側的標籤分辨小分類,接著掃過架上每一本書的書名與描述,最後才抽出真正需要的那一本。這條漸進式披露的路徑就是 RAG Sitemap,連小模型都走得通。

MASTER SITEMAP Read the zone signs. Tell the major sections apart. ZONE A ZONE B ZONE C ZONE D descend into B CATEGORY Inside Zone B, read each unit's side label. CAT B-01 CAT B-02 CAT B-03 open shelf B-02 SUB-CATEGORY On the shelf, read every book's title (title + description). Title 01 Title 02 Title 03 Title 04 Title 05 pull out Title 03 POST TXT Open that one book. Read the full content. Title 03 Content No vectors. No embeddings. Just the path. A small model walks it like a librarian. A box of torn slips. No aisles, no shelves, no titles. Only similarity, after the fact.

向量資料庫多做了一件事

市面上多數 WordPress AI Chatbot 外掛走的是同一條路:把全站內容打碎、做成向量存進資料庫,提問時用相似度撈回幾段,再丟給模型。這條路能運作,相似度也確實找得回相關段落,但向量資料庫一開始就做了一件多餘的事,把你早就整理好的東西打碎重做。

向量檢索擅長在混亂中計算相關性,但如果一個網站本來就有清楚的標題、摘要與主題分群,卻還要先拆成碎片、壓成向量、再用相似度拼回來,等於把原本可直接利用的編輯成果繞遠路重做。RAG Sitemap 不打碎內容,它照你排好的書架走過去,直接拿那本書。你不是在把網站丟給 AI 碰運氣,而是把它整理成一張專為機器理解設計的知識地圖,讓 AI 先看懂,再回答。

AI 需要的是目錄,不是另一團謎霧

AI 與人類一樣,讀漸進式披露的標題、描述與層級路徑,比讀全文更容易判斷「這篇值不值得讀」。即便 LLM 能在單一任務裡容納百萬 token,先給最小、最有判斷力的資訊、再依需求往下讀,仍然讓模型少走彎路、少吃噪音。RAG Sitemap 把網站既有的分類、標籤、階層與摘要,直接轉譯成 AI 可讀的純文字地圖,讓模型先看懂目錄與路徑,而不是先掉進全文的資訊謎霧。

沒有相似度計算,檢索就成了一道選擇題:模型讀懂目錄,判斷問題屬於哪一類、該往哪條路徑走,再走到該讀的那一篇。它不是在算哪段最像,而是讀懂目錄之後做選擇。你經營網站時本來就在做的分類與描述,就是它的索引,不必再去煩惱向量資料庫那一套,chunk 要切多大、挑哪個 embedding 模型、相似度門檻設多少。

WordPress 的熵,早已在網站經營的同時逐步降低了

一份未經整理的純文字,對 LLM 而言熵極高。而 WordPress 每發佈一篇文章,作者選分類、下標題、寫摘要、發佈到階層式 URL,這四個 SEO 動作就是四次微型的熵減。一個經營五年的 WordPress 站,就是這四個動作重複了幾千次,留下一份早已整理過的低熵語料庫。

Vector DB 的存在邏輯是「我面對的是高熵的非結構化文本,我必須用 embedding 重算秩序」;RAG Sitemap 的存在邏輯則是「這個語料庫的熵,早就為了 SEO 降到很低,我只需要揭示已分類的文本與描述,不需要重算」。同一份內容,Vector DB 選擇重算,RAG Sitemap 選擇揭示。

相關文章

小模型 Llama 3.2 3B,是一個僅有 3B 參數,小到不能再小的語言模型。你問它問題,它只能根據 3B 的訓練資料回答你。它不知道你的網站寫了什麼,不知道你發了哪篇文章,對你近期累積的內容一無所知。用它來跑網頁問答,原本是天方夜譚。

llms.txt 是一份專為 AI 閱讀設計的 sitemap,但它的局限在於只有一層,對有組織、有架構的網站不夠用。這份檔案的標準格式是網站名稱當 H1、一段摘要,底下每一列是一個 [標題](連結):描述,指向網站裡的一個頁面。但它分不出這一列是分類頁、單一頁面、文章還是商品頁,每一列都被當成同一種東西。初衷沒有錯,目標是讓 AI 更容易地讀懂你的網站。但是問題不在描述,而是在於它把網站壓平成一層,破壞了網站原本的敘事能力與內容脈絡。

你以為是你在訓練 AI 讀懂網站?其實應該反過來用 AI Chatbot 訓練你的網站,因為 AI 每一次答錯,都是在告訴你哪一篇文章的標題或描述沒寫清楚,幫你檢查網站的 SEO 盲點。RAG Sitemap 捨棄黑箱向量庫,直接讀取 WordPress 裡你早已寫好的標題、分類與描述,生成純文字網站地圖給 AI。你只需要用平常做 SEO 的方式進後台修正,不需要學新工具,也不需要通靈演算法。