概述
DataMate — 企业级大模型数据处理平台,覆盖数据全生命周期管理
DataMate 是一个企业级的大模型数据处理平台,专为模型微调和 RAG 检索设计。平台提供数据采集、数据管理、数据清洗、数据标注、数据合成、数据评估、知识库管理等核心功能,支持可视化流水线编排,帮助企业和开发者高效构建高质量训练数据。
产品定位
DataMate 致力于解决大模型落地过程中的数据痛点,提供一站式数据治理解决方案:
- 全流程覆盖:从数据采集到数据评估,覆盖数据处理全生命周期
- 企业级能力:支持千万级数据并发处理,提供私有化部署方案
- 灵活扩展:内置丰富的数据处理算子,支持自定义算子开发
- 可视化编排:拖拽式流水线设计,无需编码即可完成复杂的数据处理流程
核心功能
数据采集
- 基于 DataX 的异构数据源采集能力
- 支持关系型数据库、NoSQL、文件系统等多种数据源
- 灵活的任务配置和监控机制
数据管理
- 统一的数据集管理,支持图像、文本、音频、视频、多模态等多种数据类型
- 提供文件上传、下载、预览等完整的数据操作能力
- 支持标签和元数据管理,便于数据组织和检索
数据清洗
- 内置丰富的数据清洗算子
- 可视化清洗模板配置
- 支持批处理和流式处理模式
数据标注
- 集成 Label Studio 提供专业标注能力
- 支持图像分类、目标检测、文本分类等多种标注类型
- 提供标注审核和质量控制机制
数据合成
- 基于大模型的数据增强和合成能力
- 支持指令模板管理和自定义
- 提供比例合成任务,满足多样化数据需求
数据评估
- 多维度数据质量评估指标
- 支持自动评估和手动评估
- 生成详细的评估报告
知识库管理(RAG)
- 支持多种文档格式的知识库构建
- 自动化文本切分和向量化
- 集成向量检索能力,支持 RAG 应用
算子市场
- 丰富的内置数据处理算子
- 支持算子发布和共享
- 提供自定义算子开发能力
流水线编排
- 可视化拖拽式流程设计
- 支持多种节点类型和配置
- 提供流程执行监控和调试能力
Agent 对话
- 集成大模型对话能力
- 支持知识库问答
- 提供对话历史管理
技术架构
整体架构
DataMate 采用微服务架构,核心组件包括:
- 前端:React 18 + TypeScript + Ant Design + Tailwind CSS
- 后端:Java 21 + Spring Boot 3.5.6 + Spring Cloud + MyBatis Plus
- 运行时:Python FastAPI + LangChain + Ray
- 数据库:PostgreSQL + Redis + Milvus + MinIO
微服务组件
- API Gateway (8080):统一入口,负责路由和认证
- Main Application:核心业务逻辑
- Data Management Service (8092):数据集管理
- Data Collection Service:数据采集任务管理
- Data Cleaning Service:数据清洗任务管理
- Data Annotation Service:数据标注任务管理
- Data Synthesis Service:数据合成任务管理
- Data Evaluation Service:数据评估任务管理
- Operator Market Service:算子市场管理
- RAG Indexer Service:知识库索引服务
- Runtime Service (8081):算子执行引擎
- Backend Python Service (18000):Python 后端服务
应用场景
模型微调
- 训练数据清洗和质量提升
- 数据增强和合成
- 训练数据评估
RAG 应用
- 企业知识库构建
- 文档向量化索引
- 语义检索和问答
数据治理
- 多源数据统一管理
- 数据血缘追踪
- 数据质量监控
部署方式
DataMate 支持多种部署方式:
- Docker Compose:快速体验和开发测试
- Kubernetes/Helm:生产环境部署
- 离线部署:支持内网环境部署
与其他产品的对比
| 特性 | DataMate | Label Studio | DocArray |
|---|---|---|---|
| 数据管理 | ✅ 完整的数据集管理 | ❌ 仅标注数据 | ❌ 仅文档数据 |
| 数据采集 | ✅ 支持 DataX | ❌ 不支持 | ❌ 不支持 |
| 数据清洗 | ✅ 内置丰富算子 | ❌ 不支持 | ❌ 不支持 |
| 数据标注 | ✅ 集成 Label Studio | ✅ 专业标注工具 | ❌ 不支持 |
| 数据合成 | ✅ 基于大模型 | ❌ 不支持 | ❌ 不支持 |
| 数据评估 | ✅ 多维度评估 | ⚠️ 基础评估 | ❌ 不支持 |
| 知识库 | ✅ RAG 集成 | ❌ 不支持 | ⚠️ 需要额外开发 |
| 流水线编排 | ✅ 可视化编排 | ❌ 不支持 | ❌ 不支持 |
| 算子扩展 | ✅ 支持自定义 | ⚠️ 有限支持 | ⚠️ 需要编程 |
| 开源协议 | ✅ MIT | ✅ Apache 2.0 | ✅ MIT |
下一步
意见反馈
这个页面对您有帮助吗?
Glad to hear it! Please tell us how we can improve.
Sorry to hear that. Please tell us how we can improve.