多格式文件 RAG：建構跨 PDF、Word、Excel 和音訊的檢索管線

大多數 RAG 教學從單一檔案類型開始。載入一個 PDF，將其分成區塊，產生嵌入，然後查詢。示範可以運作。然後有人問：「它也能搜尋我們的 Excel 定價表、錄製的客戶電話和上個季度的 PowerPoint 簡報嗎？」答案通常是沉默。

企業知識不存在於單一格式中。它分散在 PDF、Word 文件、試算表、簡報、HTML 匯出、白板圖片和會議音訊錄音中。一個透過單一檢索路徑處理所有這些來源的多格式文件 RAG 管線不是錦上添花——它是任何聲稱代表組織實際知識的系統的先決條件。

為什麼單格式管線在實務中會失敗

單格式管線的吸引力在於簡單性。僅 PDF 的攝取是被充分理解的、有良好文件記錄的，且相對容易建構。但一旦部署，其限制就變得顯而易見。

考慮一個典型的企業場景。產品團隊將規格儲存在 Word 文件中。財務部門在 Excel 中維護定價模型。法務部門將合約保存為掃描的 PDF。業務團隊錄製客戶電話。行銷部門發布 HTML 電子報。一個只攝取 PDF 的單格式 RAG 管線將完全錯過規格、定價、通話記錄和行銷內容。檢索系統從知識庫的一小部分中回答問題，使用者學會不再信任它。

問題隨著時間的推移而加劇。知道自己的內容被排除在外的團隊停止向知識系統貢獻。管線變成了一個 PDF 搜尋引擎而不是組織記憶。從一開始就建構處理所有格式的文件到 RAG 管線可以避免這種失敗模式。

特定格式的挑戰

每種文件格式都提出了不同的擷取挑戰。在設計統一管線之前，理解這些挑戰至關重要。

PDF：具有欺騙性的標準

PDF 看起來簡單，但架構上很複雜。數位原生的 PDF 包含可擷取的文字層，但掃描的 PDF 本質上是包裝在容器中的影像。從 PDF 中擷取表格仍然是文件 AI 中最困難的問題之一——欄位錯位、標題跨多列、註腳中斷資料區域。多欄佈局、嵌入式圖表和混合方向頁面增加了更多複雜性。一個健壯的 PDF 解析器必須處理所有這些變體，而無需針對每個文件進行手動配置。

Word 文件：沒有一致性的結構

DOCX 檔案攜帶豐富的結構化中繼資料——標題、清單、表格、註腳、評論、追蹤修訂。挑戰在於作者使用這些功能的方式不一致。一個團隊使用標題 2 作為章節標題。另一個使用粗體本文文字。第三個使用手動換行而不是段落樣式。解析器必須即使在格式不規範時也能擷取語義結構，並且必須決定追蹤修訂和評論是規範內容的一部分還是雜訊。

試算表：偽裝成文件的資料

Excel 和 CSV 檔案處於結構化和非結構化資料的邊界。一個帶有欄位標題和型別化值的乾淨試算表本質上是一個資料庫表格。但企業試算表很少看起來是那樣的。它們包含合併的儲存格、嵌入的備註、多工作表活頁簿（其中工作表 3 參照工作表 1）、樞紐分析表以及某人在單個儲存格中輸入了三個段落的自由文字欄位。用於 Word、Excel、PDF 和試算表內容的 RAG 管線必須處理這些檔案的表格和敘事兩個方面。

簡報：視覺知識

PowerPoint 簡報以視覺方式編碼知識——在投影片標題、要點、講者備註和嵌入式圖表中。文字在設計上是碎片化的。一個概念可能跨越三張投影片，每張有五個要點。適用於散文文件的分塊策略在這裡會失敗，因為簡報中的意義單位是投影片或投影片群組，而不是段落。

音訊：未被索引的檔案庫

會議錄音、客戶電話和會議簡報包含大量從未被書面記錄的機構知識。攝取音訊需要轉錄作為第一步，但挑戰超出了語音轉文字的準確性。說話人分離（識別誰說了什麼）、時間戳對齊以及處理特定領域術語都會影響檢索品質。多格式文件 RAG 管線必須將音訊視為一等來源，而不是事後考量。

HTML 和影像

來自內部 wiki、知識庫和匯出郵件的 HTML 頁面有其自身的特點——用於佈局的巢狀表格、遮蔽語義含義的行內樣式以及必須去除的範本導覽。白板圖片、圖表和手寫筆記需要 OCR 或視覺模型來擷取任何文字。

在單一管線中統一格式

關鍵的架構洞察是，特定格式的解析是攝取層的關注點，而不是管線的關注點。每種格式需要自己的解析器，但一旦內容被擷取，每個文件——無論其原始格式如何——都進入相同的處理路徑。

一個設計良好的多格式管線遵循四個階段：

清洗 — 原始擷取輸出被規範化。字元編碼問題被解決，範本內容被移除，來自來源格式的格式化瑕疵被去除。輸出是保留了結構標記的乾淨文字。

轉換 — 清洗後的內容被分塊、用中繼資料豐富並產生嵌入。分塊策略可能因來源類型略有不同（簡報按投影片層級、試算表按列組層級、文件按段落層級），但嵌入和索引過程是相同的。

整合 — 分塊被載入向量儲存中，並連結回其來源文件。中繼資料包括原始格式、來源位置、擷取時間戳以及任何結構上下文（頁碼、工作表名稱、投影片索引、說話人標籤）。

服務 — 單一檢索介面跨所有來源進行查詢。使用者提出問題，獲得從 PDF、試算表、轉錄和簡報中擷取的答案——按相關性而非格式排序。

這種四階段架構——清洗、轉換、整合、服務——意味著新增格式只需要在攝取層撰寫新的解析器。管線的其餘部分保持不變。

視覺化管線的優勢

在程式碼中配置多格式管線是可能的，但容易出錯。每個解析器都有自己的參數（PDF 的 OCR 設定、Excel 的工作表選擇、音訊的轉錄模型），解析、分塊和嵌入之間的互動在配置檔中難以推理。

管線階段以節點表示的視覺化畫布提供了一種根本不同的工作流程。你可以看到多個攝取節點——每種格式一個——匯聚到共享的清洗、轉換和索引節點。資料流是顯式的。當出現問題時，你可以從特定的來源格式追蹤路徑，透過每個處理階段來了解故障發生在哪裡。

Ertas 支援八種解析器——PDF、Word、PowerPoint、Excel/CSV、HTML、影像和音訊——所有這些都透過視覺化畫布饋入同一管線。每個解析器作為一個獨立的攝取節點出現，但下游處理是共享的。這意味著團隊可以從 PDF 攝取開始，驗證檢索有效，然後在不重建任何內容的情況下新增 Excel 和音訊來源。

實際考量

為 Word、Excel、PDF 和其他格式建構 RAG 管線會提出幾個值得盡早解決的實際問題。

分塊大小一致性。 不同格式產生長度差異很大的分塊。一個試算表列可能是 20 個 token。一個 PDF 頁面可能是 800 個。跨格式規範化分塊大小可以提高嵌入品質和檢索公平性——否則長文件格式僅僅因為每個分塊產生更多文字就會主導搜尋結果。

用於來源追溯的中繼資料。 使用者需要知道答案來自哪裡。「第三季報告第 14 頁」是有用的。「分塊 847」則不是。在整個管線中保留特定格式的位置中繼資料（頁面、工作表、投影片、時間戳）對於信任至關重要。

增量更新。 企業文件儲存庫不斷變化。管線必須支援重新攝取更新的文件，而無需重新處理整個語料庫。這需要追蹤文件版本，並且只處理增量部分。

存取控制。 並非每個使用者都應該看到每個文件。格式感知的中繼資料使得在檢索時套用來源層級權限成為可能，確保 RAG 系統遵守與原始文件儲存相同的存取規則。

結論

多格式文件 RAG 管線不是一個奢侈功能——它是企業檢索的最小可行架構。從單格式管線開始的組織不可避免地面臨同樣的問題：系統了解 PDF 但對其他所有內容都視而不見。透過從一開始就為多種格式進行設計，讓特定格式的解析器饋入共享的處理路徑，團隊建構的檢索系統能夠真正代表組織所知道的。替代方案是一個只能看到一小部分答案的搜尋引擎。