小模型

一個垃圾小模型，竟然讀懂了整個網站

小模型 Llama 3.2 3B，是一個僅有 3B 參數，小到不能再小的語言模型。你問它問題，它只能根據 3B 的訓練資料回答你。它不知道你的網站寫了什麼，不知道你發了哪篇文章，對你近期累積的內容一無所知。用它來跑網頁問答，原本是天方夜譚。

但是，當它配合 RAG Sitemap 一鍵生成的結構化索引地圖後，就讓 Llama 3.2 3B 能夠回答一個關於中型 WordPress 網站的問題。甚至拿 Gemini Flash Lite 或 GPT nano 來跑這套系統的話，更是牛刀小試。一個小模型能讀懂整個網站，不是因為它聰明，是因為我們不再把混沌丟給它，而是把網站轉化為一張結構清晰，可以直觀判斷的低熵地圖。

為什麼小模型做得到？

大模型與小模型最大的差異，其實不是「智商」，而是「世界知識」。一個只能正常說話的 3B 模型無法像 70B 模型那樣記住全網資訊，而就算模型吸收了再多的世界知識，也還是會遇到時效性問題。但如果問題的範圍被鎖定在你的網站內，小模型的推理能力並不差，而真正的問題是：就算它有推理能力，它怎麼知道答案在哪裡？

RAG Sitemap 解決了這個問題，而且解決得幾乎沒有摩擦力。因為你的分類目錄、頁面層級、文章架構，本身就是一張整理好的知識地圖，而 RAG Sitemap 透過直接讀取 WordPress 既有的內容架構，幫助你一鍵轉換為 AI 看得懂的純文字導航圖，不需要學習什麼是向量、不需要外接任何資料庫。因為模型不需要每次回答問題時都讀懂整個網站，它只需要沿著這張現成的地圖走，就知道該往哪裡找答案。

帶領小模型走進既有脈絡：RAG Sitemap 的沉浸式導航

同一個網站的內容，用兩種維度遞給 AI。向量檢索將其解構、切碎成一地去脈絡的紙片，拋入高維度的抽象空間，讓模型在黑暗中憑相似度盲目拼湊；而 RAG Sitemap 則完整保留了人類發文時精心編排的有機層級。小模型無須在混沌中摸索，它只需睜著眼站在路口，順應路標、做出抉擇，在川流不息的秩序中直覺地抵達答案。

RAG Sitemap 尋路拓樸模型

柏格森的兩種認識：外部的「分析」與內部的「直觀」

分析：Embedding

停留在外部的符號化約

柏格森指出，「分析」是觀察者停留在事物外部，將其化約為死板的符號與空間表徵。這正如傳統向量檢索：將流動的內容切割為冰冷的 Chunk，壓平為無方向感的數學座標。它中止了文本的生命力，使小模型只能在外部算盡距離，在拼圖般的相似度迷宮中，勉強拼湊失去有機脈絡的知識碎片。

直觀：RAG Sitemap

進入事物內部的理智同情

柏格森推崇的「直觀」，是打破一切符號中介，直接投身對象內部，產生「理智的同情（intellectual sympathy）」以把握其獨特的生命流動。RAG Sitemap 正是這條直觀之路。它不解構、不扭曲，讓小模型直接沉浸於站主編織的既有脈絡中。模型沿著現成的意圖流動、判讀，直觀地擁抱網站整體的知識魂魄。

這正是 3B 小模型能優雅破解中型網站檢索的核心祕密：它不需要擁有吞噬世界的龐大參數量，只需要繼承人類早就已經梳理好的秩序。小模型只需透過 RAG Sitemap 就能理解語意、定位群組、選擇內容並回答訪客問題。直觀不是退而求其次的模糊手段；恰恰相反，當結構正確時，直觀是最精確、最有效率的路徑。能讓小模型讀懂的秩序，AI 搜尋引擎也讀得懂，這同時也是最直接的 SEO 演練與成本優勢。

相關文章

終極目標：把運算搬到使用者的裝置

「晶片即模型」的意思是，當每台裝置都內建一顆刻進晶片的 AI 小模型，模型不再是需要載入的軟體，而是隨時待命的運算晶片，應用程式所需的 LLM 推理可直接在訪客裝置端就地完成，讓網站主的 AI 運算成本歸零，這正是 RAG Chatbot 的終極目標。

llms.txt 善意的局限

llms.txt 是一份專為 AI 閱讀設計的 sitemap，但它的局限在於只有一層，對有組織、有架構的網站不夠用。這份檔案的標準格式是網站名稱當 H1、一段摘要，底下每一列是一個 [標題](連結)：描述，指向網站裡的一個頁面。但它分不出這一列是分類頁、單一頁面、文章還是商品頁，每一列都被當成同一種東西。初衷沒有錯，目標是讓 AI 更容易地讀懂你的網站。但是問題不在描述，而是在於它把網站壓平成一層，破壞了網站原本的敘事能力與內容脈絡。

為什麼 RAG 可以不使用向量資料庫？

向量資料庫不是 RAG 的必要條件，它只是其中一種把資料餵給 AI 的方式。當資料本來是混亂的、缺乏清楚邊界的，向量化可以幫助模型從大量文字中猜測語意相關性，這種做法有它的價值。但如果內容本來就有秩序，問題就不再是「怎麼從混亂中硬算相關」，而是「怎麼讓 AI 先看到最重要的判讀線索」。真正有效的 RAG，不一定是先把全文切碎、壓成向量再回頭猜答案；也可以是先把內容整理成 AI 能逐層理解的路徑，先降低上下文的不確定性，再展開細節。