產品描述資料集 Template
用於訓練品牌一致的產品內容生成 AI 模型的資料集範本
GenerationOverview
產品描述生成資料集訓練 AI 模型從結構化的產品資料(規格、功能、類別、品牌和目標受眾)建立引人注目且 SEO 友善的產品描述。擁有數千或數百萬個 SKU 的電商公司需要自動化的描述生成,以維持品牌聲音一致性、為每個產品類別突出相關功能,並產出在搜尋引擎排名中表現良好的獨特內容。
訓練資料將結構化的產品輸入(屬性、規格、類別元資料)對應到高品質的散文描述。每個訓練範例向模型展示要包含哪些資訊、使用什麼語調,以及如何為特定產品類型組織描述。資料集必須涵蓋您完整的產品分類——適用於消費電子產品的描述風格不適用於時尚服飾或家居用品。類別特定的詞彙、功能重點和格式模式必須有充分的代表。
有效的產品描述資料集還編碼了長度和格式偏好。某些類別需要簡潔的 50 字描述用於行動端列表,而其他類別則受益於帶有要點的詳細 200 字描述用於桌面端頁面。在訓練資料中包含明確的格式指令,可教導模型根據要求的格式調整其輸出風格,使單一模型足夠靈活以滿足產品目錄中的多種內容需求。
Dataset Schema
interface ProductDescriptionExample {
instruction: string;
input: string; // Structured product attributes (JSON or formatted text)
output: string; // Generated product description
metadata: {
category: string;
word_count: number;
format: "short" | "standard" | "detailed" | "bullets";
brand_voice: string;
};
}Sample Data
[
{
"instruction": "Write a compelling product description for an e-commerce listing. Use a professional yet approachable tone. Include key features and benefits.",
"input": "Product: Wireless Noise-Cancelling Headphones\nBrand: SoundPeak\nModel: SP-NC400\nPrice: $179.99\nCategory: Electronics > Audio > Headphones\nFeatures: Active noise cancellation, 40mm drivers, Bluetooth 5.3, 35-hour battery, USB-C charging, foldable design, built-in microphone, multipoint connection (2 devices), weight 250g\nColors: Midnight Black, Arctic White, Navy Blue\nTarget: Commuters, remote workers, music enthusiasts",
"output": "Escape the noise and immerse yourself in pure sound with the SoundPeak SP-NC400 Wireless Headphones. Advanced active noise cancellation blocks out ambient distractions — from busy commutes to open-plan offices — so you can focus on what matters.\n\nPowered by precision-tuned 40mm drivers, the SP-NC400 delivers rich, detailed audio across the full frequency range. Bluetooth 5.3 ensures stable, low-latency connectivity, and multipoint pairing lets you seamlessly switch between your laptop and phone without disconnecting.\n\nDesigned for all-day comfort and convenience, these headphones weigh just 250g and fold flat for easy storage. The 35-hour battery means you can go days between charges, and when you do need to recharge, USB-C fast charging gets you back to listening quickly. The built-in microphone delivers crystal-clear calls for your remote meetings.\n\nAvailable in Midnight Black, Arctic White, and Navy Blue.",
"metadata": {
"category": "electronics-audio",
"word_count": 148,
"format": "standard",
"brand_voice": "professional-approachable"
}
},
{
"instruction": "Write a short, punchy product description for a mobile e-commerce listing. Maximum 60 words.",
"input": "Product: Organic Cotton T-Shirt\nBrand: EcoWear\nMaterial: 100% GOTS-certified organic cotton, 180gsm\nFit: Relaxed fit\nFeatures: Pre-shrunk, double-stitched hems, tagless comfort label\nSizes: XS-3XL\nColors: 12 colors available\nTarget: Eco-conscious consumers",
"output": "Made from 100% GOTS-certified organic cotton, the EcoWear tee combines sustainability with everyday comfort. Relaxed fit with pre-shrunk fabric means it fits perfectly from the first wear. Double-stitched hems for lasting durability. Tagless label for itch-free comfort. Available in 12 colors, sizes XS-3XL.",
"metadata": {
"category": "apparel-basics",
"word_count": 48,
"format": "short",
"brand_voice": "eco-conscious"
}
}
]Data Collection Guide
首先收集您表現最佳的現有產品描述——那些轉換率高、跳出率低且自然搜尋排名強的描述。將每個描述與來自您的產品資訊管理(PIM)系統或產品資料庫的結構化產品資料配對。這會建立訓練範例,教導模型您品牌經過驗證的描述模式。
對於您缺乏高品質描述的類別,委託您最優秀的文案撰寫人員為每個類別撰寫 50-100 個產品的範本描述。提供結構化的產品屬性作為輸入,並要求他們以您的品牌聲音撰寫描述。這些人工撰寫的範例將定義每個類別的風格和品質標準。
確保所有範例中輸入資料的格式一致。標準化產品屬性的呈現方式——使用一致的欄位名稱、格式和排序。模型從訓練資料中學習輸入模式,因此不一致的輸入格式會導致不可預測的輸出品質。Ertas Data Suite 可以在資料準備管道中幫助標準化輸入格式。
Quality Criteria
訓練資料中的每個產品描述都必須在事實上準確——規格、功能和宣稱必須與輸入中的產品屬性相符。不準確的訓練範例會教導模型虛構產品功能。審查每個範例以驗證沒有做出輸入屬性不支持的宣稱。
描述應該是獨特的,避免制式化語言。如果同一類別中太多訓練範例共用相同的片語 或句型結構,模型將產出通用的、聽起來像範本的輸出。確保同一類別內的範例在句型結構、詞彙和功能排序上有所變化。
驗證描述是否符合您的 SEO 要求——它們應自然地融入相關關鍵字而不堆砌關鍵字,在適用時使用適當的標題結構,並符合每種格式類型的最小和最大字數目標。將生成的描述與您現有的搜尋排名進行測試,以驗證 SEO 效果。
Using This Template with Ertas
將您的產品目錄資料和現有描述匯入 Ertas Data Suite。使用資料轉換工具標準化輸入格式,並將產品屬性與其描述配對。如果產品資料包含供應商聯絡資訊或不應出現在訓練集中的內部定價資料,請套用個資遮蔽。以 Alpaca 格式匯出準備好的資料集進行微調。
在 Ertas Studio 訓練後,GGUF 匯出的模型可在本地生成描述,這對於包含必須在公告日期前保持機密的預發布產品詳情的產品目錄特別有價值。
Recommended Model
產品描述生成在 7B-8B 參數的模型上效果良好。此任務有明確的約束(結構化輸入到格式化輸出),因此較小的模型在微調後也能達到高品質。對於多語言產品目錄,考慮使用多語言基礎模型。以 Q5_K_M 量化的 GGUF 模型在批量生成大型目錄描述時,提供了生成品質和推論速度之間的優秀平衡。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.