電信AI資料管道：為機器學習準備網路資料

電信營運商擁有任何產業中最豐富的資料。網路效能日誌、通話詳細記錄、客戶互動記錄、容量使用率指標和基礎設施拓撲資料——全部持續產生，規模龐大。然而，大部分資料從未到達AI模型，因為準備管道根本不存在。

障礙不是技術好奇心問題，而是實際問題：CPNI（Customer Proprietary Network Information，客戶專有網路資訊）法規限制了客戶資料的處理方式，網路日誌以特定於供應商的格式到達，且因設備世代不同而各異，資料的巨大體量（中型營運商每天數TB）要求管道能夠大規模處理而無需將資料傳出網路。

本手冊涵蓋如何建構將原始電信資料轉化為AI就緒訓練集的資料管道——本地、合規且可觀察。

電信資料類型及其AI應用

每種電信資料類別對應特定的AI用例。理解這種對映決定了您的管道需要處理什麼。

資料類別	格式	資料量	AI用例	隱私敏感度
網路效能日誌	Syslog、SNMP traps、供應商CSV	5-50 GB/天	異常偵測、預測性容量規劃	低（基礎設施資料）
通話詳細記錄 (CDRs)	固定寬度文字、CSV、ASN.1	1-10 GB/天	使用者流失預測、詐欺偵測、使用模式分析	高（CPNI保護）
客戶互動資料	記錄文字、CRM匯出	500 MB - 2 GB/天	情感分析、意圖分類、客服輔助	高（PII + CPNI）
基地台/拓撲資料	GIS匯出、XML設定、試算表	200 MB - 1 GB（大部分靜態）	覆蓋最佳化、站點規劃	低-中
帳單和使用記錄	CSV、資料庫匯出	2-5 GB/天	收入保障、定價最佳化	高（CPNI保護）
故障工單系統	PDF、結構化資料庫、自由文字	500 MB - 1 GB/天	根因分析、解決方案預測	中

CPNI合規：不可協商的約束

1996年《電信法》（47 U.S.C. 第222條）和FCC規則（47 CFR 64.2001-64.2011）將客戶網路資訊歸類為受保護資料。任何處理電信資料的AI資料管道必須首先解決CPNI問題。

什麼屬於CPNI

CPNI包括關於客戶使用電信服務的資訊：他們撥打了誰、何時、多長時間、訂閱了哪些服務以及使用模式。它不包括目錄資訊（姓名、地址、電話號碼）或聚合網路效能資料。

CPNI合規管道架構

管道必須盡早將CPNI資料與非CPNI資料分離，並確保訓練資料集完全排除CPNI或經過適當的去識別化處理。

管道步驟	CPNI處理	Ertas節點
擷取	在來源端標記包含CPNI欄位的記錄	File Import，帶中繼資料標記
脫敏	移除或雜湊客戶識別碼、被叫號碼、通話時間戳	PII Redactor（設定為電信欄位）
聚合	將單筆CDR轉換為聚合統計資料（按基地台每小時通話量，而非按用戶）	Format Normalizer
驗證	驗證輸出資料集中無殘留CPNI	Quality Scorer，帶欄位級檢查
稽核	記錄套用於包含CPNI記錄的每次轉換	內建管道日誌

在Ertas中，PII Redactor節點透過可設定的實體偵測處理CPNI欄位。設定它以識別和脫敏用戶識別碼（MDN、IMSI、IMEI）、被叫/主叫號碼和帳戶級資料。該節點產生脫敏日誌，記錄每個被遮蔽、雜湊或移除的欄位——這是您的合規團隊所需的稽核工件。

關鍵區別：對於流失預測和客戶分析，您需要去識別化的客戶特徵（在網時長、方案類型、使用等級）而不需要實際的CPNI。管道應在資料離開脫敏階段之前將原始CPNI轉換為統計特徵。

電信資料的管道階段

階段1：多格式擷取

電信資料的格式比大多數產業都多。來自不同供應商（Ericsson、Nokia、Huawei、Cisco）的網路設備以不同的結構描述匯出日誌。傳統系統使用固定寬度文字檔。現代OSS/BSS平台匯出JSON或XML。

Ertas的擷取階段透過特定格式的解析器處理這些。CSV Parser用於CDR和效能匯出，PDF Parser用於供應商維護公告和故障工單，Excel Parser用於容量規劃試算表，HTML Parser用於基於Web的NOC儀表板匯出。

具體到CDR，固定寬度格式需要預處理。定義欄位對映（位元組1-10 = 主叫號碼，位元組11-20 = 被叫號碼等），並使用Format Normalizer在下游處理之前轉換為結構化記錄。

階段2：清洗與脫敏

清洗電信資料涉及三個平行軌道：

軌道A：網路資料（低隱私敏感度）。 去重SNMP trap洪水（單一介面故障可能產生數千個相同的trap）。將特定於供應商的告警代碼標準化為通用分類法。標記來自設定錯誤的監控代理的異常讀數。

軌道B：客戶資料（CPNI保護）。 脫敏所有CPNI欄位。對用戶識別碼進行雜湊處理以啟用記錄關聯而不暴露身份。將通話記錄轉換為聚合特徵。移除或遮蔽基地台級以下的位置資料。

軌道C：營運資料（中等敏感度）。 從故障工單中移除員工姓名。在工單系統間標準化解決類別。將時間戳標準化為UTC。

Ertas中的Deduplicator、PII Redactor和Format Normalizer節點處理這三個軌道。每個軌道產生自己的可觀察輸出，可以在合併前獨立驗證。

階段3：轉換

轉換將清洗後的資料轉換為ML模型可以消耗的結構。

用於網路異常偵測：

將每介面指標聚合為時間視窗特徵向量（5分鐘、1小時、24小時視窗）
計算滾動統計量：延遲、封包遺失和吞吐量的均值、標準差、百分位數（p95、p99）
從已知中斷記錄產生二元標籤（未來N小時內中斷：是/否）

用於流失預測：

將去識別化的客戶使用量聚合為月度特徵向量
計算趨勢特徵：月環比使用變化、服務工單頻率、付款模式規律性
與去識別化的方案資訊關聯（剩餘合約期、方案等級、加值服務）

用於容量規劃：

將基地台流量聚合到小時和天粒度
使用過去90天的趨勢計算每個基地台的成長軌跡
與事件日曆關聯（體育場館、音樂廳）以進行需求尖峰建模

RAG Chunker和Train/Val/Test Splitter節點處理最終結構化，產生尊重時間順序並防止資料洩漏的訓練集。

階段4：品質與驗證

電信資料品質問題是獨特的。基地台退役導致資料量突然下降，這是合理的而非錯誤。網路維護視窗產生應從異常偵測訓練資料中排除的預期異常。帳務系統遷移導致資料集中途格式變更。

Quality Scorer節點標記這些不連續性。使用領域特定規則設定它：每個基地台每天的最低記錄數、預期欄位完整性比率和時間戳連續性檢查。未通過品質檢查的記錄被路由到審查佇列，而不是被靜默丟棄。

階段5：匯出

輸出	格式	下游消耗者
異常偵測訓練集	JSONL	PyTorch/TensorFlow模型訓練
流失預測特徵	CSV	Scikit-learn、XGBoost管道
網路知識庫	向量嵌入	RAG驅動的NOC助理
容量規劃資料集	CSV	規劃工具、統計模型

階段6：面向網路營運的RAG

除了訓練資料之外，Ertas還支援面向網路營運知識的RAG管道。

將歷史故障工單、解決方案手冊和供應商公告索引到可搜尋的知識庫中。將其部署為NOC（網路營運中心）工具可以查詢的API端點：「PE-router-CHI-04在2025年Q3反覆出現BGP flap的解決方案是什麼？」

索引管道：File Import、PDF Parser、PII Redactor（移除客戶和員工識別碼）、RAG Chunker、Embedding、Vector Store Writer。檢索管道：API Endpoint、Query Embedder、Vector Search、Context Assembler、API Response。一切都在營運商網路內本地運行。

營運商的本地部署要求

電信營運商面臨與金融機構和政府機構相同的資料主權約束。網路拓撲資料、CDR和客戶資訊不能離開營運商網路。沒有例外。

Ertas Data Suite作為原生桌面應用完全在本地運行來解決這一問題。無雲端依賴、無出站網路呼叫、無容器編排。它安裝在營運商網路邊界內的工程工作站上，在本地處理資料。

對於擁有多個NOC或區域辦公室的營運商，每個站點運行自己的Ertas實例。管道定義（節點圖設定）可以匯出並在站點間複製，確保一致的資料準備而無需在位置之間傳輸原始資料。

實施路線圖

第1-2週：資料清點和CPNI分類。 編目所有資料來源。將每個欄位分類為CPNI、PII或非敏感。記錄現有資料保留政策。

第3-4週：試點管道——網路效能資料。 從最低敏感度資料（網路日誌、SNMP資料）開始。在Ertas中建構從擷取到匯出的管道。根據已知網路事件驗證輸出品質。

第5-6週：新增CPNI保護資料軌道。 擴展管道以包含CDR處理。設定PII Redactor用於電信特定欄位。產生去識別化特徵集。讓合規團隊審查脫敏日誌。

第7-8週：擴展和營運化。 擴展到完整資料量。新增針對您網路特徵調校的品質評分規則。從歷史故障工單建構RAG知識庫。開始向下游ML團隊提供訓練資料。

向前推進

您的網路每天產生的資料是能夠預測中斷、減少流失和最佳化容量的AI的原材料。差距不在於模型的複雜性——而在於營運商規模的資料準備，配以營運商級別的隱私控制。

Ertas Data Suite透過完全在您的網路邊界內運行的視覺化管道平台弭合了這一差距。每次轉換都是可觀察的，每次CPNI互動都被記錄，輸出是您的ML團隊可以立即使用的AI就緒訓練資料。建構一次，持續運行，完整稽核。