数据管理

使用 DataMate 管理数据集和文件

数据管理模块提供统一的数据集管理能力,支持多种数据类型的存储、查询和操作。

功能概述

数据管理是 DataMate 的核心模块,提供:

  • 多数据类型支持:图像、文本、音频、视频、多模态等
  • 文件管理:上传、下载、预览、删除等操作
  • 目录结构:支持层级目录组织
  • 标签管理:使用标签分类和检索数据
  • 统计信息:数据集大小、文件数量等统计

数据集类型

类型说明支持格式
图像图像数据JPG, PNG, GIF, BMP, WebP
文本文本数据TXT, MD, JSON, CSV
音频音频数据MP3, WAV, FLAC, AAC
视频视频数据MP4, AVI, MOV, MKV
多模态多模态数据混合格式

快速开始

1. 创建数据集

步骤 1:进入数据管理页面

在左侧导航栏选择 数据管理

步骤 2:创建数据集

点击右上角 创建数据集 按钮。

步骤 3:填写基本信息

  • 数据集名称:例如 user_images_dataset
  • 数据集类型:选择数据类型(如图像)
  • 描述:描述数据集的用途(可选)
  • 标签:添加标签用于分类(可选)

步骤 4:创建数据集

点击 创建 按钮完成创建。

2. 上传文件

方式一:拖拽上传

  1. 进入数据集详情页面
  2. 将文件直接拖拽到上传区域
  3. 等待上传完成

方式二:点击上传

  1. 点击 上传文件 按钮
  2. 选择本地文件
  3. 等待上传完成

方式三:分片上传(大文件)

对于大文件(>100MB),系统自动使用分片上传:

  1. 选择大文件上传
  2. 系统自动切分文件
  3. 逐片上传
  4. 自动合并

方式四:批量上传

支持批量选择多个文件上传:

  1. 点击 上传文件 按钮
  2. 按住 Ctrl/Cmd 多选文件
  3. 点击确定开始上传

3. 创建目录

步骤 1:进入数据集

在数据管理页面,点击数据集名称进入详情。

步骤 2:创建目录

  1. 点击 创建目录 按钮
  2. 输入目录名称
  3. 选择父目录(可选)
  4. 点击确定

目录结构示例:

user_images_dataset/
├── train/
│   ├── cat/
│   └── dog/
├── test/
│   ├── cat/
│   └── dog/
└── validation/
    ├── cat/
    └── dog/

4. 管理文件

查看文件

在数据集详情页面,可以看到所有文件列表:

文件名大小包含文件数上传时间标签标签更新时间操作
image1.jpg2.3 MB12024-01-15训练集2024-01-16下载 重命名 删除
image2.png1.8 MB12024-01-15验证集2024-01-16下载 重命名 删除

预览文件

点击 预览 按钮,可以在浏览器中预览文件:

  • 图像:显示缩略图和详细信息
  • 文本:显示文本内容
  • 音频:在线播放
  • 视频:在线播放

下载文件

  • 单个文件下载:点击 下载 按钮

目前不支持批量下载和打包下载。

删除文件

  • 单个删除:点击文件的 删除 按钮

目前不支持批量删除。

5. 数据集操作

查看统计信息

在数据集详情页面,可以看到:

  • 总文件数:数据集中的文件总数
  • 总大小:所有文件的总大小

编辑数据集

点击数据集的 编辑 按钮,可以修改:

  • 数据集名称
  • 描述
  • 标签
  • 关联归集任务

删除数据集

点击数据集的 删除 按钮,可以删除整个数据集。

注意:删除数据集会同时删除其中的所有文件,此操作不可恢复。

高级功能

标签管理

创建标签

  1. 在数据集列表页,点击 标签管理
  2. 点击 创建标签
  3. 输入标签名称

使用标签

  1. 编辑数据集
  2. 在标签栏选择已有标签
  3. 保存数据集

标签筛选

在数据集列表页,点击标签可以筛选具有该标签的数据集。

最佳实践

1. 数据集组织

推荐的目录组织方式:

project_dataset/
├── raw/              # 原始数据
├── processed/        # 处理后的数据
├── train/            # 训练数据
├── validation/       # 验证数据
└── test/             # 测试数据

2. 命名规范

  • 数据集名称:使用小写字母和下划线,如 user_images_2024
  • 目录名称:使用有意义的英文名称,如 train, test, processed
  • 文件名称:保持原始文件名或使用规范命名

3. 标签使用

建议使用以下标签分类:

  • 项目标签project-a, project-b
  • 状态标签raw, processed, validated
  • 类型标签image, text, audio
  • 用途标签training, testing, evaluation

4. 数据备份

目前系统不支持自动备份功能,如需备份数据,可以通过以下方式手动下载单个文件:

  1. 进入数据集详情页面
  2. 找到需要备份的文件
  3. 点击文件的 下载 按钮

常见问题

Q: 上传大文件失败怎么办?

A: 大文件上传建议:

  1. 使用分片上传:系统自动启用分片上传
  2. 检查网络连接:确保网络稳定
  3. 调整上传参数:增加超时时间
  4. 使用 FTP/SFTP:对于超大文件,建议使用 FTP 上传

Q: 如何导入已有的数据?

A: 三种方式导入已有数据:

  1. 上传文件:通过界面上传
  2. 添加文件:如果文件已在服务器上,使用添加文件功能
  3. 数据采集:使用数据采集模块从外部数据源采集

Q: 如何共享数据集?

A: 目前数据集共享方式:

  1. 导出数据集:导出为文件分享
  2. 设置权限:(即将推出)设置数据集访问权限
  3. API 访问:通过 API 接口访问数据集

Q: 数据集有大小限制吗?

A: 数据集大小限制:

  • 单个文件:最大 5GB(分片上传)
  • 数据集总大小:受存储空间限制
  • 文件数量:没有明确限制

建议定期清理不需要的文件以释放空间。

Q: 如何查看数据集的详细信息?

A: 在数据集详情页面可以查看:

  • 基本信息:名称、描述、类型、标签
  • 统计信息:文件数、总大小、完成率
  • 文件列表:所有文件及其详情
  • 操作日志:数据集的操作历史

API 参考

详细的 API 文档请参考:

相关文档