数据管理
使用 DataMate 管理数据集和文件
数据管理模块提供统一的数据集管理能力,支持多种数据类型的存储、查询和操作。
功能概述
数据管理是 DataMate 的核心模块,提供:
- 多数据类型支持:图像、文本、音频、视频、多模态等
- 文件管理:上传、下载、预览、删除等操作
- 目录结构:支持层级目录组织
- 标签管理:使用标签分类和检索数据
- 统计信息:数据集大小、文件数量等统计
数据集类型
| 类型 | 说明 | 支持格式 |
|---|---|---|
| 图像 | 图像数据 | JPG, PNG, GIF, BMP, WebP |
| 文本 | 文本数据 | TXT, MD, JSON, CSV |
| 音频 | 音频数据 | MP3, WAV, FLAC, AAC |
| 视频 | 视频数据 | MP4, AVI, MOV, MKV |
| 多模态 | 多模态数据 | 混合格式 |
快速开始
1. 创建数据集
步骤 1:进入数据管理页面
在左侧导航栏选择 数据管理。
步骤 2:创建数据集
点击右上角 创建数据集 按钮。
步骤 3:填写基本信息
- 数据集名称:例如
user_images_dataset - 数据集类型:选择数据类型(如图像)
- 描述:描述数据集的用途(可选)
- 标签:添加标签用于分类(可选)
步骤 4:创建数据集
点击 创建 按钮完成创建。
2. 上传文件
方式一:拖拽上传
- 进入数据集详情页面
- 将文件直接拖拽到上传区域
- 等待上传完成
方式二:点击上传
- 点击 上传文件 按钮
- 选择本地文件
- 等待上传完成
方式三:分片上传(大文件)
对于大文件(>100MB),系统自动使用分片上传:
- 选择大文件上传
- 系统自动切分文件
- 逐片上传
- 自动合并
方式四:批量上传
支持批量选择多个文件上传:
- 点击 上传文件 按钮
- 按住 Ctrl/Cmd 多选文件
- 点击确定开始上传
3. 创建目录
步骤 1:进入数据集
在数据管理页面,点击数据集名称进入详情。
步骤 2:创建目录
- 点击 创建目录 按钮
- 输入目录名称
- 选择父目录(可选)
- 点击确定
目录结构示例:
user_images_dataset/
├── train/
│ ├── cat/
│ └── dog/
├── test/
│ ├── cat/
│ └── dog/
└── validation/
├── cat/
└── dog/
4. 管理文件
查看文件
在数据集详情页面,可以看到所有文件列表:
| 文件名 | 大小 | 包含文件数 | 上传时间 | 标签 | 标签更新时间 | 操作 |
|---|---|---|---|---|---|---|
| image1.jpg | 2.3 MB | 1 | 2024-01-15 | 训练集 | 2024-01-16 | 下载 重命名 删除 |
| image2.png | 1.8 MB | 1 | 2024-01-15 | 验证集 | 2024-01-16 | 下载 重命名 删除 |
预览文件
点击 预览 按钮,可以在浏览器中预览文件:
- 图像:显示缩略图和详细信息
- 文本:显示文本内容
- 音频:在线播放
- 视频:在线播放
下载文件
- 单个文件下载:点击 下载 按钮
目前不支持批量下载和打包下载。
删除文件
- 单个删除:点击文件的 删除 按钮
目前不支持批量删除。
5. 数据集操作
查看统计信息
在数据集详情页面,可以看到:
- 总文件数:数据集中的文件总数
- 总大小:所有文件的总大小
编辑数据集
点击数据集的 编辑 按钮,可以修改:
- 数据集名称
- 描述
- 标签
- 关联归集任务
删除数据集
点击数据集的 删除 按钮,可以删除整个数据集。
注意:删除数据集会同时删除其中的所有文件,此操作不可恢复。
高级功能
标签管理
创建标签
- 在数据集列表页,点击 标签管理
- 点击 创建标签
- 输入标签名称
使用标签
- 编辑数据集
- 在标签栏选择已有标签
- 保存数据集
标签筛选
在数据集列表页,点击标签可以筛选具有该标签的数据集。
最佳实践
1. 数据集组织
推荐的目录组织方式:
project_dataset/
├── raw/ # 原始数据
├── processed/ # 处理后的数据
├── train/ # 训练数据
├── validation/ # 验证数据
└── test/ # 测试数据
2. 命名规范
- 数据集名称:使用小写字母和下划线,如
user_images_2024 - 目录名称:使用有意义的英文名称,如
train,test,processed - 文件名称:保持原始文件名或使用规范命名
3. 标签使用
建议使用以下标签分类:
- 项目标签:
project-a,project-b - 状态标签:
raw,processed,validated - 类型标签:
image,text,audio - 用途标签:
training,testing,evaluation
4. 数据备份
目前系统不支持自动备份功能,如需备份数据,可以通过以下方式手动下载单个文件:
- 进入数据集详情页面
- 找到需要备份的文件
- 点击文件的 下载 按钮
常见问题
Q: 上传大文件失败怎么办?
A: 大文件上传建议:
- 使用分片上传:系统自动启用分片上传
- 检查网络连接:确保网络稳定
- 调整上传参数:增加超时时间
- 使用 FTP/SFTP:对于超大文件,建议使用 FTP 上传
Q: 如何导入已有的数据?
A: 三种方式导入已有数据:
- 上传文件:通过界面上传
- 添加文件:如果文件已在服务器上,使用添加文件功能
- 数据采集:使用数据采集模块从外部数据源采集
Q: 如何共享数据集?
A: 目前数据集共享方式:
- 导出数据集:导出为文件分享
- 设置权限:(即将推出)设置数据集访问权限
- API 访问:通过 API 接口访问数据集
Q: 数据集有大小限制吗?
A: 数据集大小限制:
- 单个文件:最大 5GB(分片上传)
- 数据集总大小:受存储空间限制
- 文件数量:没有明确限制
建议定期清理不需要的文件以释放空间。
Q: 如何查看数据集的详细信息?
A: 在数据集详情页面可以查看:
- 基本信息:名称、描述、类型、标签
- 统计信息:文件数、总大小、完成率
- 文件列表:所有文件及其详情
- 操作日志:数据集的操作历史
API 参考
详细的 API 文档请参考:
相关文档
意见反馈
这个页面对您有帮助吗?
Glad to hear it! Please tell us how we can improve.
Sorry to hear that. Please tell us how we can improve.