数据评估
使用 DataMate 评估数据质量
数据评估模块提供多维度数据质量评估能力,帮助您了解和提升数据质量。
功能概述
数据评估模块提供:
- 质量指标:丰富的数据质量评估指标
- 自动评估:自动执行数据评估任务
- 手动评估:人工抽样评估
- 评估报告:生成详细的评估报告
- 质量追踪:追踪数据质量变化趋势
评估维度
数据完整性
| 指标 | 说明 | 计算方式 |
|---|---|---|
| 空值率 | 空值占比 | 空值数 / 总数 |
| 缺失字段率 | 必填字段缺失率 | 缺失字段数 / 总字段数 |
| 记录完整率 | 完整记录占比 | 完整记录数 / 总记录数 |
数据准确性
| 指标 | 说明 | 计算方式 |
|---|---|---|
| 格式正确率 | 格式正确的占比 | 格式正确数 / 总数 |
| 值域符合率 | 值在合理范围内的占比 | 符合值域数 / 总数 |
| 一致性符合率 | 数据一致的比例 | 一致记录数 / 总记录数 |
数据唯一性
| 指标 | 说明 | 计算方式 |
|---|---|---|
| 重复率 | 重复记录占比 | 重复记录数 / 总记录数 |
| 唯一率 | 唯一记录占比 | 唯一记录数 / 总记录数 |
数据时效性
| 指标 | 说明 | 计算方式 |
|---|---|---|
| 数据新鲜度 | 数据更新频率 | 最后更新时间 |
| 过期数据率 | 过期数据占比 | 过期记录数 / 总记录数 |
快速开始
1. 创建评估任务
步骤 1:进入数据评估页面
在左侧导航栏选择 数据评估。
步骤 2:创建任务
点击右上角 创建任务 按钮。
步骤 3:配置基本信息
- 任务名称:例如
data_quality_evaluation - 任务描述:描述评估任务(可选)
- 评估数据集:选择要评估的数据集
步骤 4:配置评估维度
选择要评估的维度:
- ✅ 数据完整性
- ✅ 数据准确性
- ✅ 数据唯一性
- ✅ 数据时效性
步骤 5:配置评估规则
为每个维度配置具体规则:
完整性规则:
必填字段:name, email, phone
空值阈值:5%(超过5%则警告)
准确性规则:
email 格式:正则表达式验证
age 范围:0-120
phone 格式:手机号格式
唯一性规则:
唯一字段:id, email
重复阈值:3%(超过3%则警告)
步骤 6:创建任务
点击 创建 按钮完成创建。
2. 执行评估
自动评估
任务创建后自动执行,或点击 立即执行。
手动评估
- 点击 手动评估 标签
- 查看待评估样本
- 人工评估样本质量
- 提交评估结果
3. 查看评估报告
总体评分
评估报告提供总体质量评分:
总体质量评分:85 分 (优秀)
完整性:90 分 ⭐⭐⭐⭐⭐
准确性:82 分 ⭐⭐⭐⭐
唯一性:95 分 ⭐⭐⭐⭐⭐
时效性:75 分 ⭐⭐⭐⭐
详细指标
每个维度的详细指标:
完整性:
- 空值率:3.2% ✅
- 缺失字段率:1.5% ✅
- 记录完整率:96.8% ✅
准确性:
- email 格式正确率:98.5% ✅
- age 值域符合率:95.2% ✅
- phone 格式正确率:88.7% ⚠️
唯一性:
- 重复率:1.8% ✅
- 唯一率:98.2% ✅
时效性:
- 数据新鲜度:平均 7 天前
- 过期数据率:12.5% ⚠️
问题列表
列出发现的数据质量问题:
| 序号 | 问题 | 类型 | 严重程度 | 影响范围 | 建议 |
|---|---|---|---|---|---|
| 1 | phone 格式不正确 | 准确性 | 中 | 11.3% | 检查并清洗 |
| 2 | 部分数据过期 | 时效性 | 高 | 12.5% | 更新数据 |
| 3 | 少量记录有空值 | 完整性 | 低 | 3.2% | 填充或删除 |
质量趋势
查看数据质量变化趋势:
质量评分趋势
90 │ ╭─╮
85 │ ╭─╮╭─╯ ╭─╮
80 │╭─╯╭─╯ ╭─╯
75 │╭─╯╭─╯ ╭─╯
70 │╭─╯╭─╯ ╭─╯
└─────────────
1月 2月 3月 4月
4. 导出评估报告
导出为 PDF
- 点击 导出报告 按钮
- 选择 PDF 格式
- 下载报告文件
导出为 Excel
- 点击 导出报告 按钮
- 选择 Excel 格式
- 下载报告文件
Excel 报告包含多个工作表:
- 总体评分
- 详细指标
- 问题列表
- 样本明细
高级功能
自定义评估规则
除了内置规则,还可以自定义评估规则:
正则表达式验证
字段:phone
规则:^1[3-9]\d{9}$
说明:中国大陆手机号
值域验证
字段:age
最小值:0
最大值:120
说明:年龄在合理范围内
自定义脚本
使用 Python 脚本自定义评估逻辑:
def evaluate(record):
# 自定义评估逻辑
if record.get('score', 0) < 0 or record.get('score', 0) > 100:
return False, "分数必须在 0-100 之间"
return True, "OK"
对比评估
对比不同数据集或不同版本的数据质量:
- 选择要对比的数据集/版本
- 执行对比评估
- 查看对比报告
对比维度:
- 总体评分对比
- 各维度指标对比
- 问题类型分布对比
质量阈值告警
设置质量阈值,超过阈值自动告警:
告警规则:
总体评分低于 80: 发送邮件
空值率超过 10%: 发送短信
重复率超过 5%: 发送邮件
最佳实践
1. 定期评估
建议定期执行数据质量评估:
- 每日评估:关键数据每日评估
- 每周评估:一般数据每周评估
- 每月评估:全部数据每月评估
2. 建立基线
为每个数据集建立质量基线:
- 初次评估作为基线
- 后续评估与基线对比
- 追踪质量变化趋势
3. 持续改进
根据评估结果持续改进:
- 清洗问题数据:根据评估结果清洗
- 优化采集流程:改进数据采集方式
- 更新验证规则:及时更新验证规则
常见问题
Q: 评估任务执行失败?
A: 排查步骤:
- 检查数据集:确认数据集存在
- 检查规则配置:确认评估规则正确
- 查看执行日志:获取详细错误信息
- 减少样本量:先用小样本测试
Q: 评估结果不准确?
A: 改进建议:
- 调整评估规则:根据实际需求调整
- 增加评估维度:添加更多评估维度
- 人工审核:人工抽检验证结果
- 更新基线:定期更新质量基线
Q: 如何提高数据质量?
A: 改进建议:
- 数据清洗:使用数据清洗模块清洗
- 源头控制:在数据采集阶段控制质量
- 建立规范:制定数据标准和规范
- 定期评估:定期评估并改进
API 参考
详细的 API 文档请参考:
相关文档
意见反馈
这个页面对您有帮助吗?
Glad to hear it! Please tell us how we can improve.
Sorry to hear that. Please tell us how we can improve.