訊息增益的基礎是熵

混亂程度減少(熵減)的幅度越大,「訊息增益就越大」

訊息熵　−　剩餘熵　=　訊息增益

H(X) − H(X|Y) = I(X;Y)

Overshoot · Build base · Break out

The breakthroughs in AI entropy engineering are infrastructure forged from repeated wall-hits.

Agent hit a wall; Context backfilled the foundation.

一個小小的人影手裡只拿著一張平面紙地圖，被困在一座巨大的多層石拱與階梯迷宮裡，無止盡的樓梯朝上下四面延伸。平面紙地圖是 llms.txt 的本質，一份只有書名沒有內文的目錄，僅供攝平閱讀。立體迷宮是真實網站的知識結構，有樓層、有動線、有彼此銜接的縱深。人影渺小，工具與環境的尺度落差就是 AI 拿著 2D 清單面對 3D 內容時的處境。光線從一側打入，但沒有對的地圖時，光無法替代結構。RAG Sitemap 要解決的就是把這張平面圖立體化，沿著 master、category、post 三層走下去。

llms.txt 善意的局限

llms.txt 是一份專為 AI 閱讀設計的 sitemap，但它的局限在於只有一層，對有組織、有架構的網站不夠用。這份檔案的標準格式是網站名稱當 H1、一段摘要，底下每一列是一個 [標題](連結)：描述，指向網站裡的一個頁面。但它分不出這一列是分類頁、單一頁面、文章還是商品頁，每一列都被當成同一種東西。初衷沒有錯，目標是讓 AI 更容易地讀懂你的網站。但是問題不在描述，而是在於它把網站壓平成一層，破壞了網站原本的敘事能力與內容脈絡。

一個穿著希臘長袍的人形機器人，在一座宏偉古老圖書館中沿著一座早已雕好的螺旋石梯往上走，朝上方的光線前進，地面上散落著被撚碎、被忽視的紙片。螺旋石梯是 WordPress 既有的分類與階層，雕痕早已存在，不是這位行者刻的。機器人徒步往上走，對應 RAG Sitemap 直接沿著現成路徑檢索的動作。地上被撚碎的紙片是向量化的反向工作，把整理好的內容拆回碎片，再用 cosine similarity 重新拼回去。書架井然排列是人類經營網站時逐篇逐分類完成的低熵沉澱。朝上的光是答案的方位，結構本身在引路，模型只負責讀懂與選擇。

為什麼 RAG 可以不使用向量資料庫？

向量資料庫不是 RAG 的必要條件，它只是其中一種把資料餵給 AI 的方式。當資料本來是混亂的、缺乏清楚邊界的，向量化可以幫助模型從大量文字中猜測語意相關性，這種做法有它的價值。但如果內容本來就有秩序，問題就不再是「怎麼從混亂中硬算相關」，而是「怎麼讓 AI 先看到最重要的判讀線索」。真正有效的 RAG，不一定是先把全文切碎、壓成向量再回頭猜答案；也可以是先把內容整理成 AI 能逐層理解的路徑，先降低上下文的不確定性，再展開細節。

穿著學者長袍的人形機器人手指著一本翻開的書中的某一行，向桌邊握著羽毛筆的人類作者展示，作者俯身細看那一處，桌上散著草稿與筆記。兩人姿態的角色顛倒是這幅畫的關鍵，機器人不是被審查的學生，而是替網站做體檢的審稿員。它的手指指向一行不清楚的描述，那個位置就是缺口本身。羽毛筆仍握在人類手中，修正權沒有移交，AI 只是讓人看見哪裡寫得不夠清楚。桌上半抽出的書暗示這不是大規模重寫，而是逐處微調標題、分類描述、文章歸屬，全是站長平常做 SEO 的動作。

反過來用 AI Chatbot 訓練你的網站 SEO

你以為是你在訓練 AI 讀懂網站？其實應該反過來用 AI Chatbot 訓練你的網站，因為 AI 每一次答錯，都是在告訴你哪一篇文章的標題或描述沒寫清楚，幫你檢查網站的 SEO 盲點。RAG Sitemap 捨棄黑箱向量庫，直接讀取 WordPress 裡你早已寫好的標題、分類與描述，生成純文字網站地圖給 AI。你只需要用平常做 SEO 的方式進後台修正，不需要學新工具，也不需要通靈演算法。

AI 熵減工程

AI 熵減工程 — LLM 是熵源，使用方法是熵減。

為什麼 LLM 可被視為「熵」

使用方法為何就是「熵減」

訊息增益的基礎是熵

從 Prompt 到 Harness Engineering

熵減工程的四次躍遷

Overshoot · Build base · Break out

相關文章

llms.txt 善意的局限

為什麼 RAG 可以不使用向量資料庫？

反過來用 AI Chatbot 訓練你的網站 SEO