情感分析数据集 Template
用于构建训练 AI 模型对客户评论、社交媒体和调查回复进行文本情感分类的数据集模板。
ClassificationOverview
情感分析数据集训练 AI 模型识别文本中表达的情感色彩和观点——客户评论是正面、负面还是中性的,社交媒体帖子表达的是满意还是不满,以及产品或服务的哪些具体方面受到了赞扬或批评。这是最成熟、应用最广泛的 NLP 任务之一,应用领域涵盖客户反馈分析、品牌监测、市场调研和产品开发优先级排序。
现代情感分析已超越简单的正面/负面分类。基于方面的情感分析(ABSA)识别针对产品特定功能或方面的情感——一条餐厅评论可能对食物质量表达正面情感,但对服务速度表达负面情感。多维度情感不仅捕捉极性,还捕捉强度(略微正面 vs. 极度正面)和情绪类别(愤怒、喜悦、失望、惊讶)。训练数据应反映你的应用所需的粒度级别。
情感表达的领域特异性是一个关键考量。"sick"在医学语境和日常社交媒体中的含义截然不同。"aggressive"在描述客户服务时可能是负面的,但在描述跑车的造型时可能是正面的。训练数据必须来自模型将要部署的相同领域,或包含足够的跨领域示例以教会模型领域特定的情感模式。
Dataset Schema
interface SentimentExample {
text: string;
sentiment: "positive" | "negative" | "neutral" | "mixed";
confidence: number; // 0.0 - 1.0
aspects?: {
aspect: string; // e.g., "battery_life", "customer_service"
sentiment: "positive" | "negative" | "neutral";
snippet: string; // Text span supporting the label
}[];
metadata: {
source: string;
domain: string;
language: string;
word_count: number;
};
}Sample Data
[
{
"text": "Absolutely love this laptop. The battery easily lasts 12 hours of real work, and the keyboard feel is the best I've used on any ultrabook. My only gripe is the webcam quality — it's noticeably grainy in video calls. For the price point though, this is an incredible value.",
"sentiment": "positive",
"confidence": 0.88,
"aspects": [
{"aspect": "battery_life", "sentiment": "positive", "snippet": "battery easily lasts 12 hours of real work"},
{"aspect": "keyboard", "sentiment": "positive", "snippet": "keyboard feel is the best I've used"},
{"aspect": "webcam", "sentiment": "negative", "snippet": "webcam quality — it's noticeably grainy"},
{"aspect": "value", "sentiment": "positive", "snippet": "incredible value"}
],
"metadata": {"source": "product_review", "domain": "electronics", "language": "en", "word_count": 52}
},
{
"text": "The hotel location was perfect, right on the beach with ocean views from our room. However, the check-in process took over 45 minutes due to understaffing, and our room wasn't ready until 5pm despite a 3pm check-in time. The pool area was nice but very crowded. Mixed feelings overall.",
"sentiment": "mixed",
"confidence": 0.82,
"aspects": [
{"aspect": "location", "sentiment": "positive", "snippet": "location was perfect, right on the beach"},
{"aspect": "check_in", "sentiment": "negative", "snippet": "check-in process took over 45 minutes"},
{"aspect": "room_readiness", "sentiment": "negative", "snippet": "room wasn't ready until 5pm"},
{"aspect": "amenities", "sentiment": "neutral", "snippet": "pool area was nice but very crowded"}
],
"metadata": {"source": "travel_review", "domain": "hospitality", "language": "en", "word_count": 58}
},
{
"text": "Ordered the medium roast blend. Arrived on time, packaging intact. Tastes like coffee.",
"sentiment": "neutral",
"confidence": 0.75,
"aspects": [
{"aspect": "delivery", "sentiment": "neutral", "snippet": "Arrived on time"},
{"aspect": "taste", "sentiment": "neutral", "snippet": "Tastes like coffee"}
],
"metadata": {"source": "product_review", "domain": "food_beverage", "language": "en", "word_count": 16}
}
]Data Collection Guide
从你的模型将要运行的平台和领域中获取文本。对于产品评论情感分析,从你的电商平台导出评论。对于社交媒体监测,收集提及你品牌或行业关键词的帖子。对于客户反馈分析,导出调查回复和工单评论。每个领域都有其表达情感的独特语言模式,基于领域内数据进行训练对准确分类至关重要。
标注质量高度依赖于清晰的标注指南。用领域专用示例明确定义什么构成正面、负面、中性和混合情感。在指南中处理边缘案例:讽刺、比较性陈述("比 X 好但不如 Y")、条件性情感("如果…就好了")和强度变化。在标注员开始正式标注之前,提供 20-30 个校准示例以建立一致的标准。
对于基于方面的情感分析,在标注开始前定义你的方面分类体系。列出你领域的所有相关方面(对于餐厅:食物质量、服务、氛围、价格、清洁度、等候时间),并为每个方面提供清晰的定义和示例。标注员应标识支持每个方面级情感标签的文本片段,创建可在质量审核中验证的证据。
Quality Criteria
使用 Cohen's kappa 或 Krippendorff's alpha 衡量标注员间一致性。对于文档级情感,kappa 应大于 0.80。对于主观性更强的基于方面的情感分析,kappa 大于 0.70 是一个合理的目标。低一致性表明指南模糊或文本本身确实存在歧义,需要审核。
平衡数据集中的情感类别。自然分布通常是偏斜的——大多数评论非常正面或非常负面,中性示例较少。不平衡的数据集会产出偏向多数类的模型。要么为代表不足的类别收集额外示例,要么使用分层采样创建平衡的训练集。每个情感类别至少需要 500 个示例才能实现可靠的分类。
验证方面标签与标记为证据的文本片段是否一致。如果标注员将某个方面标记为"负面",但支持片段并未明确传达负面情感,该示例应被修正或删除。方面与文本的对齐是标注质量的有力指标,直接影响模型在基于方面任务上的表现。
Using This Template with Ertas
将原始文本数据(评论、调查回复、社交帖子)导入 Ertas Data Suite 进行 PII 脱敏。客户评论经常包含姓名、电子邮件地址、订单号和位置信息,这些在用于训练之前必须遮蔽。脱敏后,导出清洗后的文本用于标注,然后重新导入标注数据进行最终质量检查和格式转换。
根据你的模型架构以 JSONL 或 CSV 格式导出。对于基于编码器的分类,包含文本和标签列的 CSV 效果良好。对于基于 LLM 的分类,以 Alpaca 格式导出,包含 instruction-input-output 结构。Ertas Studio 支持两种训练方法,并提供自动格式验证。
Recommended Model
对于高吞吐量且不需 要解释的情感分类,微调编码器模型(BERT、DeBERTa 或 RoBERTa),比生成式模型提供更快的推理速度和更低的资源需求。对于需要自然语言解释的情感分析(解释为什么情感是这样的),微调 7B 的生成式模型。
基于方面的情感分析受益于生成式模型,可在单次处理中识别方面、提取相关片段并分配情感。在方面级训练数据上微调的 7B-8B 模型能够很好地处理这项任务。以 Q4_K_M 导出 GGUF 用于高效的本地生产推理。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.