数据评估

使用 DataMate 评估数据质量

数据评估模块提供多维度数据质量评估能力，帮助您了解和提升数据质量。

功能概述

数据评估模块提供：

质量指标：丰富的数据质量评估指标
自动评估：自动执行数据评估任务
手动评估：人工抽样评估
评估报告：生成详细的评估报告
质量追踪：追踪数据质量变化趋势

评估维度

数据完整性

指标	说明	计算方式
空值率	空值占比	空值数 / 总数
缺失字段率	必填字段缺失率	缺失字段数 / 总字段数
记录完整率	完整记录占比	完整记录数 / 总记录数

数据准确性

指标	说明	计算方式
格式正确率	格式正确的占比	格式正确数 / 总数
值域符合率	值在合理范围内的占比	符合值域数 / 总数
一致性符合率	数据一致的比例	一致记录数 / 总记录数

数据唯一性

指标	说明	计算方式
重复率	重复记录占比	重复记录数 / 总记录数
唯一率	唯一记录占比	唯一记录数 / 总记录数

数据时效性

指标	说明	计算方式
数据新鲜度	数据更新频率	最后更新时间
过期数据率	过期数据占比	过期记录数 / 总记录数

快速开始

1. 创建评估任务

步骤 1：进入数据评估页面

在左侧导航栏选择 数据评估。

步骤 2：创建任务

点击右上角 创建任务 按钮。

步骤 3：配置基本信息

任务名称：例如 data_quality_evaluation
任务描述：描述评估任务（可选）
评估数据集：选择要评估的数据集

步骤 4：配置评估维度

选择要评估的维度：

✅ 数据完整性
✅ 数据准确性
✅ 数据唯一性
✅ 数据时效性

步骤 5：配置评估规则

为每个维度配置具体规则：

完整性规则：

必填字段：name, email, phone
空值阈值：5%（超过5%则警告）

准确性规则：

email 格式：正则表达式验证
age 范围：0-120
phone 格式：手机号格式

唯一性规则：

唯一字段：id, email
重复阈值：3%（超过3%则警告）

步骤 6：创建任务

点击创建按钮完成创建。

2. 执行评估

自动评估

任务创建后自动执行，或点击 立即执行。

手动评估

点击 手动评估 标签
查看待评估样本
人工评估样本质量
提交评估结果

3. 查看评估报告

总体评分

评估报告提供总体质量评分：

总体质量评分：85 分 (优秀)

完整性：90 分 ⭐⭐⭐⭐⭐
准确性：82 分 ⭐⭐⭐⭐
唯一性：95 分 ⭐⭐⭐⭐⭐
时效性：75 分 ⭐⭐⭐⭐

详细指标

每个维度的详细指标：

完整性：

空值率：3.2% ✅
缺失字段率：1.5% ✅
记录完整率：96.8% ✅

准确性：

email 格式正确率：98.5% ✅
age 值域符合率：95.2% ✅
phone 格式正确率：88.7% ⚠️

唯一性：

重复率：1.8% ✅
唯一率：98.2% ✅

时效性：

数据新鲜度：平均 7 天前
过期数据率：12.5% ⚠️

问题列表

列出发现的数据质量问题：

序号	问题	类型	严重程度	影响范围	建议
1	phone 格式不正确	准确性	中	11.3%	检查并清洗
2	部分数据过期	时效性	高	12.5%	更新数据
3	少量记录有空值	完整性	低	3.2%	填充或删除

质量趋势

查看数据质量变化趋势：

质量评分趋势
90 │     ╭─╮
85 │ ╭─╮╭─╯ ╭─╮
80 │╭─╯╭─╯   ╭─╯
75 │╭─╯╭─╯   ╭─╯
70 │╭─╯╭─╯   ╭─╯
   └─────────────
   1月 2月 3月 4月

4. 导出评估报告

导出为 PDF

点击 导出报告 按钮
选择 PDF 格式
下载报告文件

导出为 Excel

点击 导出报告 按钮
选择 Excel 格式
下载报告文件

Excel 报告包含多个工作表：

总体评分
详细指标
问题列表
样本明细

高级功能

自定义评估规则

除了内置规则，还可以自定义评估规则：

正则表达式验证

字段：phone
规则：^1[3-9]\d{9}$
说明：中国大陆手机号

值域验证

字段：age
最小值：0
最大值：120
说明：年龄在合理范围内

自定义脚本

使用 Python 脚本自定义评估逻辑：

def evaluate(record):
    # 自定义评估逻辑
    if record.get('score', 0) < 0 or record.get('score', 0) > 100:
        return False, "分数必须在 0-100 之间"
    return True, "OK"

对比评估

对比不同数据集或不同版本的数据质量：

选择要对比的数据集/版本
执行对比评估
查看对比报告

对比维度：

总体评分对比
各维度指标对比
问题类型分布对比

质量阈值告警

设置质量阈值，超过阈值自动告警：

告警规则:
  总体评分低于 80: 发送邮件
  空值率超过 10%: 发送短信
  重复率超过 5%: 发送邮件

最佳实践

1. 定期评估

建议定期执行数据质量评估：

每日评估：关键数据每日评估
每周评估：一般数据每周评估
每月评估：全部数据每月评估

2. 建立基线

为每个数据集建立质量基线：

初次评估作为基线
后续评估与基线对比
追踪质量变化趋势

3. 持续改进

根据评估结果持续改进：

清洗问题数据：根据评估结果清洗
优化采集流程：改进数据采集方式
更新验证规则：及时更新验证规则

常见问题

Q: 评估任务执行失败？

A: 排查步骤：

检查数据集：确认数据集存在
检查规则配置：确认评估规则正确
查看执行日志：获取详细错误信息
减少样本量：先用小样本测试

Q: 评估结果不准确？

A: 改进建议：

调整评估规则：根据实际需求调整
增加评估维度：添加更多评估维度
人工审核：人工抽检验证结果
更新基线：定期更新质量基线

Q: 如何提高数据质量？