Back to blog
    RAG品質評分:如何在到達使用者之前衡量檢索準確性
    rag-pipelinequality-scoringobservabilityenterprise-aidata-qualitysegment:enterprise

    RAG品質評分:如何在到達使用者之前衡量檢索準確性

    糟糕的檢索品質意味著糟糕的AI回答——但大多數團隊在使用者投訴之前沒有辦法衡量它。以下是如何在節點級別將品質評分建構到RAG管線中。

    EErtas Team·

    大多數RAG管線的建構目標是盡可能快地將資料從來源移動到向量儲存再到提示詞。速度是預設優先級。品質衡量如果存在的話,只存在於最末端——有人提出問題,得到了錯誤的回答,然後提交了一個工單。

    到那時損害已經造成。幻覺回答已經到達了正式環境。使用者已經失去了信任。而除錯問題的團隊不得不沿著整個管線反向追溯,找出哪裡出了問題。

    監控RAG管線效能的最佳方式不是等待輸出端的故障。而是在每個階段評分品質——解析、分塊、嵌入和檢索——這樣降質在累積成錯誤答案之前就可以被發現。

    為什麼端到端評估不夠

    進行RAG品質衡量的團隊通常依賴端到端評估:生成一組測試問題,透過管線執行它們,然後對最終答案進行評分。這種方法有實際價值,但有一個根本性的限制。

    當測試問題產生了錯誤答案時,你知道出了問題。但你不知道是什麼。來源文件是否被錯誤解析,遺失了關鍵表格?分塊策略是否在句子中間拆分了段落,破壞了上下文?嵌入模型是否將區塊放在了向量空間的錯誤區域?檢索器是否回傳了第三佳匹配而不是第一佳?

    端到端評估告訴你管線壞了。階段級品質評分告訴你在哪裡壞了。

    階段1:解析品質

    每個RAG管線都從文件攝取開始——將PDF、HTML頁面、試算表或其他格式轉換為乾淨的文字。這是第一層品質損失發生的地方,而且經常被忽視。

    衡量什麼

    **結構完整性。**計算來源文件中結構元素(標題、表格、列表、程式碼區塊)的數量,然後計算有多少在解析後倖存。一個有12個表格的PDF在解析後產生零個表格元素,其表格的結構完整性得分為0%。這是一個可衡量、可記錄的訊號。

    **字元級保真度。**比較解析前後的字元計數。一個5,000個字元的文件產生2,100個字元的解析輸出,已經遺失了超過一半的內容。標記任何解析輸出低於來源長度70%的文件。

    **編碼錯誤。**計算解析輸出中的亂碼字元、mojibake序列或unicode替換字元。即使金融文件中少量的編碼錯誤也可能將"$1,500"變成無用資料。

    實用閾值

    設定最低解析品質分數,將低於該分數的文件路由到審查佇列,而不是讓它們流入分塊階段。在Ertas中,品質評分節點直接位於解析器節點之後,未達到閾值的文件在管線畫布上用視覺指示器標記——可以在節點之間的邊上看到元素計數下降。

    階段2:區塊品質

    分塊是大多數RAG品質問題的根源,但很少被直接衡量。團隊選擇一個區塊大小(512個標記、1024個標記)和一種策略(固定大小、遞迴、語義),並假設它有效。通常並非如此。

    衡量什麼

    **語義連貫性。**一個區塊應該包含一個連貫的想法或密切相關的想法。可以透過分別嵌入每個區塊的前半部分和後半部分並測量餘弦相似度來近似。高相似度意味著區塊內部連貫。低相似度意味著區塊邊界切穿了主題轉換的中間。

    **邊界品質。**檢查區塊是否在自然邊界處開始和結束——句子結尾、段落分隔、章節標題。以句子中間開始的區塊(例如,「...因此責任延伸到」)幾乎肯定會檢索效果不佳。

    **大小分佈。**繪製整個語料庫中區塊大小的分佈。健康的分塊產生相對緊湊的分佈,以目標大小為中心。大量非常短的區塊(少於50個標記)的長尾通常表示解析器的偽影——空的章節、重複的標題或在解析中倖存但不攜帶語義價值的格式殘餘。

    **重疊一致性。**如果使用重疊區塊,驗證重疊確實有效。測量連續區塊之間的標記重疊,並標記重疊為零(表示間隙)或異常大(表示冗餘)的任何一對。

    實用閾值

    區塊級別的RAG品質評分應標記任何連貫性分數低於0.6或大小低於最低可行閾值的區塊。在調優良好的管線中,應該只有不到5%的區塊低於這些閾值。如果超過15%失敗,則分塊策略需要在繼續嵌入之前進行修訂。

    階段3:嵌入品質

    一旦區塊被嵌入,就有了向量——但並非所有向量都同樣有用。糟糕的嵌入將不相關的內容聚集在一起或將相關內容分散開來,兩者都會降低檢索效果。

    衡量什麼

    **主題內相似度。**取已知屬於同一主題的區塊(基於其來源文件或章節標題)並測量其嵌入的平均餘弦相似度。這應該很高——對於匹配良好的嵌入模型,通常高於0.7。

    **主題間分離度。**取不同主題的區塊並測量平均餘弦相似度。這應該很低。如果嵌入模型為「季度收入摘要」和「員工入職檢查表」產生相似的向量,無論檢索器多好,檢索都會回傳不相關的結果。

    **維度利用率。**一些嵌入模型產生的向量只使用其維度容量的一小部分——大部分變異數集中在少數維度中,而其他維度攜帶接近零的訊號。測量各維度的解釋變異數比。如果90%的變異數被10%的維度捕獲,可能從不同的嵌入模型或降維中受益。

    **最近鄰健全性檢查。**對於隨機樣本的區塊,檢索5個最近鄰並評分它們是否主題相關。這是嵌入空間是否支援良好檢索的直接衡量。如果前5個鄰居的平均相關性低於60%,則嵌入模型不適合該領域。

    實用閾值

    按批次記錄嵌入品質指標並設定漂移警報。在初始評估期間得分良好的嵌入模型可能會隨著語料庫的演變而退化——新的文件類型、新的術語或轉移的主題分佈都可能隨時間降低嵌入效果。

    階段4:檢索相關性

    這是檢索到的區塊進入提示詞之前的最後一道關卡。即使解析、分塊和嵌入都運作良好,檢索步驟本身也可能引入錯誤。

    衡量什麼

    **K精確度。**對於一組具有已知相關文件的測試查詢,衡量前K個檢索到的區塊中有多少是真正相關的。精確度5是最常見的指標——在檢索到的5個區塊中,有多少對回答查詢真正有用。

    **K召回率。**在給定查詢應檢索到的所有區塊中,有多少實際出現在前K個結果中。低召回率意味著檢索遺漏了相關資訊,導致不完整的回答。

    **倒數排名。**第一個相關區塊出現在排序結果的什麼位置?如果最佳區塊始終排在第三或第四位而不是第一位,則重新排序策略(或缺乏策略)需要關注。

    **分數分佈。**查看檢索區塊的相似度分數。健康的檢索在相關和不相關結果之間產生明顯的差距。如果排名第一的區塊得分0.82而第五個區塊得分0.79,檢索器沒有自信地區分相關和不相關內容。如果排名第一的區塊得分0.85而第五個得分0.45,訊號很強。

    整合一切:節點級可觀測性

    RAG品質評分的真正價值不在於任何單個指標——而在於在每個階段持續衡量所有指標,並使結果可見。

    在Ertas中,這被內建到管線架構中。視覺化管線中的每個節點都記錄其輸入和輸出。元素計數沿邊流動,因此可以準確看到有多少文件進入解析器、產生了多少區塊、有多少通過了品質閾值以及有多少被檢索到。品質評分節點在任何階段套用可配置的閾值,異常偵測節點監視突發變化——通常每個文件產生200個區塊的解析步驟突然產生50個,這是一個值得調查的訊號。

    這種節點級方法意味著不需要單獨的監控系統。管線本身就是監控系統。品質分數在畫布上可見,降質在發生的階段被捕獲,除錯錯誤答案的團隊可以查看管線視覺化並立即看到品質在哪裡下降。

    最重要的指標

    如果從零開始並需要優先排序,請關注三個RAG檢索準確性指標:

    1. 解析完整性 — 攝取期間是否遺失了內容?衡量結構元素存活率。
    2. 區塊連貫性 — 區塊是否語義上自包含?衡量區塊內相似度。
    3. 精確度5 — 正確的區塊是否到達了提示詞?衡量前K個結果的相關性。

    這三個指標持續衡量,將在RAG品質問題到達正式環境之前捕獲大部分問題。它們運算成本低、易於解釋且可直接採取行動——任何一個的低分都指向需要關注的特定階段。

    替代方案是等待使用者投訴。這種方法最終也能奏效。但到使用者報告錯誤答案時,管線已經向所有提出類似問題的使用者提供了降質的結果。RAG品質評分將偵測點從「使用者注意到之後」轉移到「資料離開節點之前」。這就是被動除錯和主動品質控制之間的區別。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading