Back to blog
    電信AI資料管道:為機器學習準備網路資料
    telecommunicationstelecomdata-pipelineCPNInetwork-dataAIon-premise

    電信AI資料管道:為機器學習準備網路資料

    為電信營運商建構AI資料管道的實用指南。涵蓋網路日誌準備、通話詳細記錄處理、CPNI合規、容量規劃資料以及營運商級資料隱私的本地架構。

    EErtas Team·

    電信營運商擁有任何產業中最豐富的資料。網路效能日誌、通話詳細記錄、客戶互動記錄、容量使用率指標和基礎設施拓撲資料——全部持續產生,規模龐大。然而,大部分資料從未到達AI模型,因為準備管道根本不存在。

    障礙不是技術好奇心問題,而是實際問題:CPNI(Customer Proprietary Network Information,客戶專有網路資訊)法規限制了客戶資料的處理方式,網路日誌以特定於供應商的格式到達,且因設備世代不同而各異,資料的巨大體量(中型營運商每天數TB)要求管道能夠大規模處理而無需將資料傳出網路。

    本手冊涵蓋如何建構將原始電信資料轉化為AI就緒訓練集的資料管道——本地、合規且可觀察。

    電信資料類型及其AI應用

    每種電信資料類別對應特定的AI用例。理解這種對映決定了您的管道需要處理什麼。

    資料類別格式資料量AI用例隱私敏感度
    網路效能日誌Syslog、SNMP traps、供應商CSV5-50 GB/天異常偵測、預測性容量規劃低(基礎設施資料)
    通話詳細記錄 (CDRs)固定寬度文字、CSV、ASN.11-10 GB/天使用者流失預測、詐欺偵測、使用模式分析高(CPNI保護)
    客戶互動資料記錄文字、CRM匯出500 MB - 2 GB/天情感分析、意圖分類、客服輔助高(PII + CPNI)
    基地台/拓撲資料GIS匯出、XML設定、試算表200 MB - 1 GB(大部分靜態)覆蓋最佳化、站點規劃低-中
    帳單和使用記錄CSV、資料庫匯出2-5 GB/天收入保障、定價最佳化高(CPNI保護)
    故障工單系統PDF、結構化資料庫、自由文字500 MB - 1 GB/天根因分析、解決方案預測

    CPNI合規:不可協商的約束

    1996年《電信法》(47 U.S.C. 第222條)和FCC規則(47 CFR 64.2001-64.2011)將客戶網路資訊歸類為受保護資料。任何處理電信資料的AI資料管道必須首先解決CPNI問題。

    什麼屬於CPNI

    CPNI包括關於客戶使用電信服務的資訊:他們撥打了誰、何時、多長時間、訂閱了哪些服務以及使用模式。它不包括目錄資訊(姓名、地址、電話號碼)或聚合網路效能資料。

    CPNI合規管道架構

    管道必須盡早將CPNI資料與非CPNI資料分離,並確保訓練資料集完全排除CPNI或經過適當的去識別化處理。

    管道步驟CPNI處理Ertas節點
    擷取在來源端標記包含CPNI欄位的記錄File Import,帶中繼資料標記
    脫敏移除或雜湊客戶識別碼、被叫號碼、通話時間戳PII Redactor(設定為電信欄位)
    聚合將單筆CDR轉換為聚合統計資料(按基地台每小時通話量,而非按用戶)Format Normalizer
    驗證驗證輸出資料集中無殘留CPNIQuality Scorer,帶欄位級檢查
    稽核記錄套用於包含CPNI記錄的每次轉換內建管道日誌

    在Ertas中,PII Redactor節點透過可設定的實體偵測處理CPNI欄位。設定它以識別和脫敏用戶識別碼(MDN、IMSI、IMEI)、被叫/主叫號碼和帳戶級資料。該節點產生脫敏日誌,記錄每個被遮蔽、雜湊或移除的欄位——這是您的合規團隊所需的稽核工件。

    關鍵區別:對於流失預測和客戶分析,您需要去識別化的客戶特徵(在網時長、方案類型、使用等級)而不需要實際的CPNI。管道應在資料離開脫敏階段之前將原始CPNI轉換為統計特徵。

    電信資料的管道階段

    階段1:多格式擷取

    電信資料的格式比大多數產業都多。來自不同供應商(Ericsson、Nokia、Huawei、Cisco)的網路設備以不同的結構描述匯出日誌。傳統系統使用固定寬度文字檔。現代OSS/BSS平台匯出JSON或XML。

    Ertas的擷取階段透過特定格式的解析器處理這些。CSV Parser用於CDR和效能匯出,PDF Parser用於供應商維護公告和故障工單,Excel Parser用於容量規劃試算表,HTML Parser用於基於Web的NOC儀表板匯出。

    具體到CDR,固定寬度格式需要預處理。定義欄位對映(位元組1-10 = 主叫號碼,位元組11-20 = 被叫號碼等),並使用Format Normalizer在下游處理之前轉換為結構化記錄。

    階段2:清洗與脫敏

    清洗電信資料涉及三個平行軌道:

    軌道A:網路資料(低隱私敏感度)。 去重SNMP trap洪水(單一介面故障可能產生數千個相同的trap)。將特定於供應商的告警代碼標準化為通用分類法。標記來自設定錯誤的監控代理的異常讀數。

    軌道B:客戶資料(CPNI保護)。 脫敏所有CPNI欄位。對用戶識別碼進行雜湊處理以啟用記錄關聯而不暴露身份。將通話記錄轉換為聚合特徵。移除或遮蔽基地台級以下的位置資料。

    軌道C:營運資料(中等敏感度)。 從故障工單中移除員工姓名。在工單系統間標準化解決類別。將時間戳標準化為UTC。

    Ertas中的Deduplicator、PII Redactor和Format Normalizer節點處理這三個軌道。每個軌道產生自己的可觀察輸出,可以在合併前獨立驗證。

    階段3:轉換

    轉換將清洗後的資料轉換為ML模型可以消耗的結構。

    用於網路異常偵測:

    • 將每介面指標聚合為時間視窗特徵向量(5分鐘、1小時、24小時視窗)
    • 計算滾動統計量:延遲、封包遺失和吞吐量的均值、標準差、百分位數(p95、p99)
    • 從已知中斷記錄產生二元標籤(未來N小時內中斷:是/否)

    用於流失預測:

    • 將去識別化的客戶使用量聚合為月度特徵向量
    • 計算趨勢特徵:月環比使用變化、服務工單頻率、付款模式規律性
    • 與去識別化的方案資訊關聯(剩餘合約期、方案等級、加值服務)

    用於容量規劃:

    • 將基地台流量聚合到小時和天粒度
    • 使用過去90天的趨勢計算每個基地台的成長軌跡
    • 與事件日曆關聯(體育場館、音樂廳)以進行需求尖峰建模

    RAG Chunker和Train/Val/Test Splitter節點處理最終結構化,產生尊重時間順序並防止資料洩漏的訓練集。

    階段4:品質與驗證

    電信資料品質問題是獨特的。基地台退役導致資料量突然下降,這是合理的而非錯誤。網路維護視窗產生應從異常偵測訓練資料中排除的預期異常。帳務系統遷移導致資料集中途格式變更。

    Quality Scorer節點標記這些不連續性。使用領域特定規則設定它:每個基地台每天的最低記錄數、預期欄位完整性比率和時間戳連續性檢查。未通過品質檢查的記錄被路由到審查佇列,而不是被靜默丟棄。

    階段5:匯出

    輸出格式下游消耗者
    異常偵測訓練集JSONLPyTorch/TensorFlow模型訓練
    流失預測特徵CSVScikit-learn、XGBoost管道
    網路知識庫向量嵌入RAG驅動的NOC助理
    容量規劃資料集CSV規劃工具、統計模型

    階段6:面向網路營運的RAG

    除了訓練資料之外,Ertas還支援面向網路營運知識的RAG管道。

    將歷史故障工單、解決方案手冊和供應商公告索引到可搜尋的知識庫中。將其部署為NOC(網路營運中心)工具可以查詢的API端點:「PE-router-CHI-04在2025年Q3反覆出現BGP flap的解決方案是什麼?」

    索引管道:File Import、PDF Parser、PII Redactor(移除客戶和員工識別碼)、RAG Chunker、Embedding、Vector Store Writer。檢索管道:API Endpoint、Query Embedder、Vector Search、Context Assembler、API Response。一切都在營運商網路內本地運行。

    營運商的本地部署要求

    電信營運商面臨與金融機構和政府機構相同的資料主權約束。網路拓撲資料、CDR和客戶資訊不能離開營運商網路。沒有例外。

    Ertas Data Suite作為原生桌面應用完全在本地運行來解決這一問題。無雲端依賴、無出站網路呼叫、無容器編排。它安裝在營運商網路邊界內的工程工作站上,在本地處理資料。

    對於擁有多個NOC或區域辦公室的營運商,每個站點運行自己的Ertas實例。管道定義(節點圖設定)可以匯出並在站點間複製,確保一致的資料準備而無需在位置之間傳輸原始資料。

    實施路線圖

    第1-2週:資料清點和CPNI分類。 編目所有資料來源。將每個欄位分類為CPNI、PII或非敏感。記錄現有資料保留政策。

    第3-4週:試點管道——網路效能資料。 從最低敏感度資料(網路日誌、SNMP資料)開始。在Ertas中建構從擷取到匯出的管道。根據已知網路事件驗證輸出品質。

    第5-6週:新增CPNI保護資料軌道。 擴展管道以包含CDR處理。設定PII Redactor用於電信特定欄位。產生去識別化特徵集。讓合規團隊審查脫敏日誌。

    第7-8週:擴展和營運化。 擴展到完整資料量。新增針對您網路特徵調校的品質評分規則。從歷史故障工單建構RAG知識庫。開始向下游ML團隊提供訓練資料。

    向前推進

    您的網路每天產生的資料是能夠預測中斷、減少流失和最佳化容量的AI的原材料。差距不在於模型的複雜性——而在於營運商規模的資料準備,配以營運商級別的隱私控制。

    Ertas Data Suite透過完全在您的網路邊界內運行的視覺化管道平台弭合了這一差距。每次轉換都是可觀察的,每次CPNI互動都被記錄,輸出是您的ML團隊可以立即使用的AI就緒訓練資料。建構一次,持續運行,完整稽核。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading