概述

DataMate — 企业级大模型数据处理平台,覆盖数据全生命周期管理

DataMate 是一个企业级的大模型数据处理平台,专为模型微调和 RAG 检索设计。平台提供数据采集、数据管理、数据清洗、数据标注、数据合成、数据评估、知识库管理等核心功能,支持可视化流水线编排,帮助企业和开发者高效构建高质量训练数据。

产品定位

DataMate 致力于解决大模型落地过程中的数据痛点,提供一站式数据治理解决方案:

  • 全流程覆盖:从数据采集到数据评估,覆盖数据处理全生命周期
  • 企业级能力:支持千万级数据并发处理,提供私有化部署方案
  • 灵活扩展:内置丰富的数据处理算子,支持自定义算子开发
  • 可视化编排:拖拽式流水线设计,无需编码即可完成复杂的数据处理流程

核心功能

数据采集

  • 基于 DataX 的异构数据源采集能力
  • 支持关系型数据库、NoSQL、文件系统等多种数据源
  • 灵活的任务配置和监控机制

数据管理

  • 统一的数据集管理,支持图像、文本、音频、视频、多模态等多种数据类型
  • 提供文件上传、下载、预览等完整的数据操作能力
  • 支持标签和元数据管理,便于数据组织和检索

数据清洗

  • 内置丰富的数据清洗算子
  • 可视化清洗模板配置
  • 支持批处理和流式处理模式

数据标注

  • 集成 Label Studio 提供专业标注能力
  • 支持图像分类、目标检测、文本分类等多种标注类型
  • 提供标注审核和质量控制机制

数据合成

  • 基于大模型的数据增强和合成能力
  • 支持指令模板管理和自定义
  • 提供比例合成任务,满足多样化数据需求

数据评估

  • 多维度数据质量评估指标
  • 支持自动评估和手动评估
  • 生成详细的评估报告

知识库管理(RAG)

  • 支持多种文档格式的知识库构建
  • 自动化文本切分和向量化
  • 集成向量检索能力,支持 RAG 应用

算子市场

  • 丰富的内置数据处理算子
  • 支持算子发布和共享
  • 提供自定义算子开发能力

流水线编排

  • 可视化拖拽式流程设计
  • 支持多种节点类型和配置
  • 提供流程执行监控和调试能力

Agent 对话

  • 集成大模型对话能力
  • 支持知识库问答
  • 提供对话历史管理

技术架构

整体架构

DataMate 采用微服务架构,核心组件包括:

  • 前端:React 18 + TypeScript + Ant Design + Tailwind CSS
  • 后端:Java 21 + Spring Boot 3.5.6 + Spring Cloud + MyBatis Plus
  • 运行时:Python FastAPI + LangChain + Ray
  • 数据库:PostgreSQL + Redis + Milvus + MinIO

微服务组件

  • API Gateway (8080):统一入口,负责路由和认证
  • Main Application:核心业务逻辑
  • Data Management Service (8092):数据集管理
  • Data Collection Service:数据采集任务管理
  • Data Cleaning Service:数据清洗任务管理
  • Data Annotation Service:数据标注任务管理
  • Data Synthesis Service:数据合成任务管理
  • Data Evaluation Service:数据评估任务管理
  • Operator Market Service:算子市场管理
  • RAG Indexer Service:知识库索引服务
  • Runtime Service (8081):算子执行引擎
  • Backend Python Service (18000):Python 后端服务

应用场景

模型微调

  • 训练数据清洗和质量提升
  • 数据增强和合成
  • 训练数据评估

RAG 应用

  • 企业知识库构建
  • 文档向量化索引
  • 语义检索和问答

数据治理

  • 多源数据统一管理
  • 数据血缘追踪
  • 数据质量监控

部署方式

DataMate 支持多种部署方式:

  • Docker Compose:快速体验和开发测试
  • Kubernetes/Helm:生产环境部署
  • 离线部署:支持内网环境部署

与其他产品的对比

特性DataMateLabel StudioDocArray
数据管理✅ 完整的数据集管理❌ 仅标注数据❌ 仅文档数据
数据采集✅ 支持 DataX❌ 不支持❌ 不支持
数据清洗✅ 内置丰富算子❌ 不支持❌ 不支持
数据标注✅ 集成 Label Studio✅ 专业标注工具❌ 不支持
数据合成✅ 基于大模型❌ 不支持❌ 不支持
数据评估✅ 多维度评估⚠️ 基础评估❌ 不支持
知识库✅ RAG 集成❌ 不支持⚠️ 需要额外开发
流水线编排✅ 可视化编排❌ 不支持❌ 不支持
算子扩展✅ 支持自定义⚠️ 有限支持⚠️ 需要编程
开源协议✅ MIT✅ Apache 2.0✅ MIT

下一步


最后修改 February 6, 2026: :tada: add full featured docs (bf83ee1)