RAG Harness

RAG Harness Engineering｜三段 AI API：包含看圖、檢索、回答

RAG Harness Engineering 讓訪客的每個提問背後不只是單純的一次 AI 提示詞呼叫，而是看圖、檢索、回答，三段獨立的 AI API。本來多個 Sub Agent 接力最怕的是一站污染一站，但 Harness 架構讓每一站都拿著訪客的原始提問、清楚知道最初的任務目標，從根本上就對污染免疫，累積的雜訊被擋在每一次 hop 的入口之外。

其中 Vision API 把看圖這段工作刻意解耦出來，只負責一件事，把訪客上傳的圖片轉成大多數模型都讀得懂的文字描述，再交給後續的 AI 節點。多模態模型本身就能直接看圖回答問題，這套架構卻先把圖片翻譯成一份文字小抄，目的是讓每一位 Sub Agent 都能在檢索階段的文字海裡，拿著同一份小抄、加上訪客的原始提問，一路下潛。

RAG Harness 的分段解耦

RAG API 由 Diving Agent（調度）拿著 Master Sitemap，並依照訪客的提問來主導該派出哪一位 Sub Agent（執行，Diving-mode），與該往哪個方向進行。而 Sub Agent 負責判斷該抓哪段內容。每到一個新的深度、面對一個新的場景，手上始終握著小抄與使用者最初的提問。最終 Chat API 收到所有檢索成果之後，用站長定義的人格與回答規範產出最終回應。

Vision API、RAG API、Chat API 三段 AI 節點各自獨立，每段都可以自由配置不同的模型。雲端有 Mistral、OpenAI、Gemini、xAI 等選項，本地運算推薦 vLLM。挑模型不再是一個全局決策，而是分段最佳化，圖片辨識交給擅長視覺的模型、檢索路由交給便宜的小模型、最終回應再用適合表達的模型來收尾。

每段 AI 節點都是一份乾淨的配方

每段 AI 節點不會把所有的上下文往下游堆，Sub Agent 之間交付的，只是清晰的下潛方向與重新注入的原始提問。Vision API 只傳出判讀後的圖片語意。RAG API 在 Diving-mode Loop 的多次潛降中，每一輪找到的目標另外存進累積區，由 Scuba Deep Dive（驗收）判斷檢索是否充足，夠了才把整個累積區交給 Chat API。下游只會拿到上游團隊的成果，碰不到過程。

除了上下文隔離之外，每一個節點的 LLM 任務也被刻意收斂。檢索過程中的每一次呼叫，LLM 不是自由生成長文，而是輸出固定 JSON，先用一句 think 審題、想清楚當下該往哪走，再填 next_mode 與 next_act 兩個作答欄位。這句 think 一物兩用，輸出到前端讓訪客看見 AI 此刻在想什麼，也讓小模型在作答前先把方向收斂一次，到後面選模式、選內容會因此更準。

整段任務收斂成選擇題，只考模型知不知道自己在做什麼、做不做得出判斷，不考長文生成的能力。乾淨的配方加上收斂的輸出，這兩件事一起讓 Llama 3B 這種輕量模型也能跑通整套 RAG 流程。

Prompt Cache：第二次查詢起的成本剩零頭

整個運作流程中，token 消耗量最大的是輸入不是輸出，比例大約是 10：1。佔比最大的提示詞、Master Sitemap、所有頁面或文章 chunk 全部都是靜態內容，從架構層面就被歸類為 cache 段，連 #ROLE、#RULES、#OUTPUT、#SOUL.md 也一併處理。網站主不需要自己劃這條邊界，靜態的歸靜態、動態的歸動態，從第二次查詢起，最大宗的開銷只剩零頭。

RAG Harness 的最小化紀律

每一 hop 用乾淨的配方、每一段任務都收斂到最小、靜態與動態邊界清楚，這些設計沒有一項是裝飾性的。每段 AI 都做成一個 MVP，Minimum Viable Product 的思路，以最低的代價達成最基本的可行性。每個節點只做剛好夠用的事，配方剛好夠乾淨、模型剛好夠小、輸出剛好夠收斂。當下的實踐是多個輕量模型分段配置，未來若多模態小模型成熟，整段用單一模型也照樣成立。

RAG Harness 的紀律不在模型怎麼配，而在每一 hop 的任務約束到多精細。整套架構之所以一路往最小靠攏，是因為這條路最後通往的，是把運算從網站主的帳單上搬走，搬進使用者的裝置。打遊戲靠自己的顯示卡，看影片靠自己的螢幕，問 AI 終究也會回到訪客自己的裝置裡進行推理。

相關文章

穿著學者長袍的人形機器人手指著一本翻開的書中的某一行，向桌邊握著羽毛筆的人類作者展示，作者俯身細看那一處，桌上散著草稿與筆記。兩人姿態的角色顛倒是這幅畫的關鍵，機器人不是被審查的學生，而是替網站做體檢的審稿員。它的手指指向一行不清楚的描述，那個位置就是缺口本身。羽毛筆仍握在人類手中，修正權沒有移交，AI 只是讓人看見哪裡寫得不夠清楚。桌上半抽出的書暗示這不是大規模重寫，而是逐處微調標題、分類描述、文章歸屬，全是站長平常做 SEO 的動作。

反過來用 AI Chatbot 訓練你的網站 SEO

你以為是你在訓練 AI 讀懂網站？其實應該反過來用 AI Chatbot 訓練你的網站，因為 AI 每一次答錯，都是在告訴你哪一篇文章的標題或描述沒寫清楚，幫你檢查網站的 SEO 盲點。RAG Sitemap 捨棄黑箱向量庫，直接讀取 WordPress 裡你早已寫好的標題、分類與描述，生成純文字網站地圖給 AI。你只需要用平常做 SEO 的方式進後台修正，不需要學新工具，也不需要通靈演算法。

一個小小的人影手裡只拿著一張平面紙地圖，被困在一座巨大的多層石拱與階梯迷宮裡，無止盡的樓梯朝上下四面延伸。平面紙地圖是 llms.txt 的本質，一份只有書名沒有內文的目錄，僅供攝平閱讀。立體迷宮是真實網站的知識結構，有樓層、有動線、有彼此銜接的縱深。人影渺小，工具與環境的尺度落差就是 AI 拿著 2D 清單面對 3D 內容時的處境。光線從一側打入，但沒有對的地圖時，光無法替代結構。RAG Sitemap 要解決的就是把這張平面圖立體化，沿著 master、category、post 三層走下去。

llms.txt 善意的局限

llms.txt 是一份專為 AI 閱讀設計的 sitemap，但它的局限在於只有一層，對有組織、有架構的網站不夠用。這份檔案的標準格式是網站名稱當 H1、一段摘要，底下每一列是一個 [標題](連結)：描述，指向網站裡的一個頁面。但它分不出這一列是分類頁、單一頁面、文章還是商品頁，每一列都被當成同一種東西。初衷沒有錯，目標是讓 AI 更容易地讀懂你的網站。但是問題不在描述，而是在於它把網站壓平成一層，破壞了網站原本的敘事能力與內容脈絡。

一個渺小、穿著樸素希臘長袍的人形機器人，手提一盞小燈，在一座龐大宏偉的石柱長廊中自信地往深處走去，廊柱朝遠方無止盡延伸。渺小的機器人是 Llama 3B 這種垃圾級小模型，手中的小燈只照亮自己腳下，是它有限的世界知識。但牡步伐自信，因為真正在引路的是周圍的石柱秩序，不是手裡的燈。柱列朝深處延伸，對應 master → category → post 的漸進式披露。模型小不要緊，秩序夠清楚的時候，每一 hop 都收斂成一道選擇題。這幅畫的主角不是機器人，是廊柱本身，能力強弱不是關鍵，結構正確才是。

一個垃圾小模型，竟然讀懂了整個網站

小模型 Llama 3.2 3B，是一個僅有 3B 參數，小到不能再小的語言模型。你問它問題，它只能根據 3B 的訓練資料回答你。它不知道你的網站寫了什麼，不知道你發了哪篇文章，對你近期累積的內容一無所知。用它來跑網頁問答，原本是天方夜譚。