数据评估

使用 DataMate 评估数据质量

数据评估模块提供多维度数据质量评估能力,帮助您了解和提升数据质量。

功能概述

数据评估模块提供:

  • 质量指标:丰富的数据质量评估指标
  • 自动评估:自动执行数据评估任务
  • 手动评估:人工抽样评估
  • 评估报告:生成详细的评估报告
  • 质量追踪:追踪数据质量变化趋势

评估维度

数据完整性

指标说明计算方式
空值率空值占比空值数 / 总数
缺失字段率必填字段缺失率缺失字段数 / 总字段数
记录完整率完整记录占比完整记录数 / 总记录数

数据准确性

指标说明计算方式
格式正确率格式正确的占比格式正确数 / 总数
值域符合率值在合理范围内的占比符合值域数 / 总数
一致性符合率数据一致的比例一致记录数 / 总记录数

数据唯一性

指标说明计算方式
重复率重复记录占比重复记录数 / 总记录数
唯一率唯一记录占比唯一记录数 / 总记录数

数据时效性

指标说明计算方式
数据新鲜度数据更新频率最后更新时间
过期数据率过期数据占比过期记录数 / 总记录数

快速开始

1. 创建评估任务

步骤 1:进入数据评估页面

在左侧导航栏选择 数据评估

步骤 2:创建任务

点击右上角 创建任务 按钮。

步骤 3:配置基本信息

  • 任务名称:例如 data_quality_evaluation
  • 任务描述:描述评估任务(可选)
  • 评估数据集:选择要评估的数据集

步骤 4:配置评估维度

选择要评估的维度:

  • ✅ 数据完整性
  • ✅ 数据准确性
  • ✅ 数据唯一性
  • ✅ 数据时效性

步骤 5:配置评估规则

为每个维度配置具体规则:

完整性规则

必填字段:name, email, phone
空值阈值:5%(超过5%则警告)

准确性规则

email 格式:正则表达式验证
age 范围:0-120
phone 格式:手机号格式

唯一性规则

唯一字段:id, email
重复阈值:3%(超过3%则警告)

步骤 6:创建任务

点击 创建 按钮完成创建。

2. 执行评估

自动评估

任务创建后自动执行,或点击 立即执行

手动评估

  1. 点击 手动评估 标签
  2. 查看待评估样本
  3. 人工评估样本质量
  4. 提交评估结果

3. 查看评估报告

总体评分

评估报告提供总体质量评分:

总体质量评分:85 分 (优秀)

完整性:90 分 ⭐⭐⭐⭐⭐
准确性:82 分 ⭐⭐⭐⭐
唯一性:95 分 ⭐⭐⭐⭐⭐
时效性:75 分 ⭐⭐⭐⭐

详细指标

每个维度的详细指标:

完整性

  • 空值率:3.2% ✅
  • 缺失字段率:1.5% ✅
  • 记录完整率:96.8% ✅

准确性

  • email 格式正确率:98.5% ✅
  • age 值域符合率:95.2% ✅
  • phone 格式正确率:88.7% ⚠️

唯一性

  • 重复率:1.8% ✅
  • 唯一率:98.2% ✅

时效性

  • 数据新鲜度:平均 7 天前
  • 过期数据率:12.5% ⚠️

问题列表

列出发现的数据质量问题:

序号问题类型严重程度影响范围建议
1phone 格式不正确准确性11.3%检查并清洗
2部分数据过期时效性12.5%更新数据
3少量记录有空值完整性3.2%填充或删除

质量趋势

查看数据质量变化趋势:

质量评分趋势
90 │     ╭─╮
85 │ ╭─╮╭─╯ ╭─╮
80 │╭─╯╭─╯   ╭─╯
75 │╭─╯╭─╯   ╭─╯
70 │╭─╯╭─╯   ╭─╯
   └─────────────
   1月 2月 3月 4月

4. 导出评估报告

导出为 PDF

  1. 点击 导出报告 按钮
  2. 选择 PDF 格式
  3. 下载报告文件

导出为 Excel

  1. 点击 导出报告 按钮
  2. 选择 Excel 格式
  3. 下载报告文件

Excel 报告包含多个工作表:

  • 总体评分
  • 详细指标
  • 问题列表
  • 样本明细

高级功能

自定义评估规则

除了内置规则,还可以自定义评估规则:

正则表达式验证

字段:phone
规则:^1[3-9]\d{9}$
说明:中国大陆手机号

值域验证

字段:age
最小值:0
最大值:120
说明:年龄在合理范围内

自定义脚本

使用 Python 脚本自定义评估逻辑:

def evaluate(record):
    # 自定义评估逻辑
    if record.get('score', 0) < 0 or record.get('score', 0) > 100:
        return False, "分数必须在 0-100 之间"
    return True, "OK"

对比评估

对比不同数据集或不同版本的数据质量:

  1. 选择要对比的数据集/版本
  2. 执行对比评估
  3. 查看对比报告

对比维度:

  • 总体评分对比
  • 各维度指标对比
  • 问题类型分布对比

质量阈值告警

设置质量阈值,超过阈值自动告警:

告警规则:
  总体评分低于 80: 发送邮件
  空值率超过 10%: 发送短信
  重复率超过 5%: 发送邮件

最佳实践

1. 定期评估

建议定期执行数据质量评估:

  • 每日评估:关键数据每日评估
  • 每周评估:一般数据每周评估
  • 每月评估:全部数据每月评估

2. 建立基线

为每个数据集建立质量基线:

  • 初次评估作为基线
  • 后续评估与基线对比
  • 追踪质量变化趋势

3. 持续改进

根据评估结果持续改进:

  • 清洗问题数据:根据评估结果清洗
  • 优化采集流程:改进数据采集方式
  • 更新验证规则:及时更新验证规则

常见问题

Q: 评估任务执行失败?

A: 排查步骤:

  1. 检查数据集:确认数据集存在
  2. 检查规则配置:确认评估规则正确
  3. 查看执行日志:获取详细错误信息
  4. 减少样本量:先用小样本测试

Q: 评估结果不准确?

A: 改进建议:

  1. 调整评估规则:根据实际需求调整
  2. 增加评估维度:添加更多评估维度
  3. 人工审核:人工抽检验证结果
  4. 更新基线:定期更新质量基线

Q: 如何提高数据质量?

A: 改进建议:

  1. 数据清洗:使用数据清洗模块清洗
  2. 源头控制:在数据采集阶段控制质量
  3. 建立规范:制定数据标准和规范
  4. 定期评估:定期评估并改进

API 参考

详细的 API 文档请参考:

相关文档