<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>用户指南 on DataMate</title><link>https://modelengine-group.github.io/datamate-docs/docs/user-guide/</link><description>Recent content in 用户指南 on DataMate</description><generator>Hugo</generator><language>zh</language><atom:link href="https://modelengine-group.github.io/datamate-docs/docs/user-guide/index.xml" rel="self" type="application/rss+xml"/><item><title>数据归集</title><link>https://modelengine-group.github.io/datamate-docs/docs/user-guide/data-collection/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://modelengine-group.github.io/datamate-docs/docs/user-guide/data-collection/</guid><description>&lt;div class="pageinfo pageinfo-primary"&gt;
&lt;p&gt;数据归集模块帮助您从多种数据源（数据库、文件系统、API 等）归集数据到 DataMate 平台。&lt;/p&gt;

&lt;/div&gt;

&lt;h2 id="功能概述"&gt;功能概述&lt;a class="td-heading-self-link" href="#%e5%8a%9f%e8%83%bd%e6%a6%82%e8%bf%b0" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;p&gt;数据归集模块基于 &lt;a href="https://github.com/alibaba/DataX"&gt;DataX&lt;/a&gt; 实现，支持：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;多种数据源&lt;/strong&gt;：MySQL、PostgreSQL、Oracle、SQL Server 等关系型数据库&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;异构同步&lt;/strong&gt;：不同数据源之间的数据同步&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;批量归集&lt;/strong&gt;：大规模数据的批量归集和同步&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;定时任务&lt;/strong&gt;：支持定时执行归集任务&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;任务监控&lt;/strong&gt;：实时监控归集任务执行状态&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="支持的数据源"&gt;支持的数据源&lt;a class="td-heading-self-link" href="#%e6%94%af%e6%8c%81%e7%9a%84%e6%95%b0%e6%8d%ae%e6%ba%90" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;数据源类型&lt;/th&gt;
 &lt;th&gt;Reader&lt;/th&gt;
 &lt;th&gt;Writer&lt;/th&gt;
 &lt;th&gt;说明&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;通用关系型数据库&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;支持 MySQL、PostgreSQL、OpenGauss、SQL Server、达梦、DB2&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;MySQL&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;关系型数据库&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;PostgreSQL&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;关系型数据库&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;OpenGauss&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;关系型数据库&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;SQL Server&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;微软数据库&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;达梦&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;国产数据库&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;DB2&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;IBM 数据库&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;StarRocks&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;分析型数据库&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;NAS&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;网络存储&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;S3&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;对象存储&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;GlusterFS&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;分布式文件系统&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;API 归集&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;API 接口数据&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;JSON 文件&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;JSON 格式文件&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;CSV 文件&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;CSV 格式文件&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;TXT 文件&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;文本文件&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;FTP&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;FTP 服务器&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;HDFS&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;✅&lt;/td&gt;
 &lt;td&gt;Hadoop 分布式文件系统&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="快速开始"&gt;快速开始&lt;a class="td-heading-self-link" href="#%e5%bf%ab%e9%80%9f%e5%bc%80%e5%a7%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="1-创建采集任务"&gt;1. 创建采集任务&lt;a class="td-heading-self-link" href="#1-%e5%88%9b%e5%bb%ba%e9%87%87%e9%9b%86%e4%bb%bb%e5%8a%a1" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;h4 id="步骤-1进入数据归集页面"&gt;步骤 1：进入数据归集页面&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-1%e8%bf%9b%e5%85%a5%e6%95%b0%e6%8d%ae%e5%bd%92%e9%9b%86%e9%a1%b5%e9%9d%a2" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;在左侧导航栏选择 &lt;strong&gt;数据归集&lt;/strong&gt;。&lt;/p&gt;</description></item><item><title>数据管理</title><link>https://modelengine-group.github.io/datamate-docs/docs/user-guide/data-management/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://modelengine-group.github.io/datamate-docs/docs/user-guide/data-management/</guid><description>&lt;div class="pageinfo pageinfo-primary"&gt;
&lt;p&gt;数据管理模块提供统一的数据集管理能力，支持多种数据类型的存储、查询和操作。&lt;/p&gt;

&lt;/div&gt;

&lt;h2 id="功能概述"&gt;功能概述&lt;a class="td-heading-self-link" href="#%e5%8a%9f%e8%83%bd%e6%a6%82%e8%bf%b0" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;p&gt;数据管理是 DataMate 的核心模块，提供：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;多数据类型支持&lt;/strong&gt;：图像、文本、音频、视频、多模态等&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;文件管理&lt;/strong&gt;：上传、下载、预览、删除等操作&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;目录结构&lt;/strong&gt;：支持层级目录组织&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;标签管理&lt;/strong&gt;：使用标签分类和检索数据&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;统计信息&lt;/strong&gt;：数据集大小、文件数量等统计&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="数据集类型"&gt;数据集类型&lt;a class="td-heading-self-link" href="#%e6%95%b0%e6%8d%ae%e9%9b%86%e7%b1%bb%e5%9e%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;类型&lt;/th&gt;
 &lt;th&gt;说明&lt;/th&gt;
 &lt;th&gt;支持格式&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;图像&lt;/td&gt;
 &lt;td&gt;图像数据&lt;/td&gt;
 &lt;td&gt;JPG, PNG, GIF, BMP, WebP&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;文本&lt;/td&gt;
 &lt;td&gt;文本数据&lt;/td&gt;
 &lt;td&gt;TXT, MD, JSON, CSV&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;音频&lt;/td&gt;
 &lt;td&gt;音频数据&lt;/td&gt;
 &lt;td&gt;MP3, WAV, FLAC, AAC&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;视频&lt;/td&gt;
 &lt;td&gt;视频数据&lt;/td&gt;
 &lt;td&gt;MP4, AVI, MOV, MKV&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;多模态&lt;/td&gt;
 &lt;td&gt;多模态数据&lt;/td&gt;
 &lt;td&gt;混合格式&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="快速开始"&gt;快速开始&lt;a class="td-heading-self-link" href="#%e5%bf%ab%e9%80%9f%e5%bc%80%e5%a7%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="1-创建数据集"&gt;1. 创建数据集&lt;a class="td-heading-self-link" href="#1-%e5%88%9b%e5%bb%ba%e6%95%b0%e6%8d%ae%e9%9b%86" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;h4 id="步骤-1进入数据管理页面"&gt;步骤 1：进入数据管理页面&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-1%e8%bf%9b%e5%85%a5%e6%95%b0%e6%8d%ae%e7%ae%a1%e7%90%86%e9%a1%b5%e9%9d%a2" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;在左侧导航栏选择 &lt;strong&gt;数据管理&lt;/strong&gt;。&lt;/p&gt;
&lt;h4 id="步骤-2创建数据集"&gt;步骤 2：创建数据集&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-2%e5%88%9b%e5%bb%ba%e6%95%b0%e6%8d%ae%e9%9b%86" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;点击右上角 &lt;strong&gt;创建数据集&lt;/strong&gt; 按钮。&lt;/p&gt;
&lt;h4 id="步骤-3填写基本信息"&gt;步骤 3：填写基本信息&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-3%e5%a1%ab%e5%86%99%e5%9f%ba%e6%9c%ac%e4%bf%a1%e6%81%af" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;数据集名称&lt;/strong&gt;：例如 &lt;code&gt;user_images_dataset&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据集类型&lt;/strong&gt;：选择数据类型（如图像）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;描述&lt;/strong&gt;：描述数据集的用途（可选）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;标签&lt;/strong&gt;：添加标签用于分类（可选）&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id="步骤-4创建数据集"&gt;步骤 4：创建数据集&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-4%e5%88%9b%e5%bb%ba%e6%95%b0%e6%8d%ae%e9%9b%86" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;点击 &lt;strong&gt;创建&lt;/strong&gt; 按钮完成创建。&lt;/p&gt;</description></item><item><title>数据清洗</title><link>https://modelengine-group.github.io/datamate-docs/docs/user-guide/data-cleansing/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://modelengine-group.github.io/datamate-docs/docs/user-guide/data-cleansing/</guid><description>&lt;div class="pageinfo pageinfo-primary"&gt;
&lt;p&gt;数据清洗模块提供强大的数据处理能力，帮助您清洗、转换和优化数据质量。&lt;/p&gt;

&lt;/div&gt;

&lt;h2 id="功能概述"&gt;功能概述&lt;a class="td-heading-self-link" href="#%e5%8a%9f%e8%83%bd%e6%a6%82%e8%bf%b0" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;p&gt;数据清洗模块提供：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;内置清洗算子&lt;/strong&gt;：丰富的前置清洗算子库&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可视化配置&lt;/strong&gt;：拖拽式配置清洗流程&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;模板管理&lt;/strong&gt;：保存和复用清洗模板&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;批量处理&lt;/strong&gt;：支持大规模数据批量清洗&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;实时预览&lt;/strong&gt;：预览清洗结果&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="清洗算子类型"&gt;清洗算子类型&lt;a class="td-heading-self-link" href="#%e6%b8%85%e6%b4%97%e7%ae%97%e5%ad%90%e7%b1%bb%e5%9e%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="数据质量算子"&gt;数据质量算子&lt;a class="td-heading-self-link" href="#%e6%95%b0%e6%8d%ae%e8%b4%a8%e9%87%8f%e7%ae%97%e5%ad%90" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;算子&lt;/th&gt;
 &lt;th&gt;功能&lt;/th&gt;
 &lt;th&gt;适用数据类型&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;去重&lt;/td&gt;
 &lt;td&gt;删除重复数据&lt;/td&gt;
 &lt;td&gt;所有类型&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;空值处理&lt;/td&gt;
 &lt;td&gt;删除或填充空值&lt;/td&gt;
 &lt;td&gt;所有类型&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;异常值检测&lt;/td&gt;
 &lt;td&gt;检测和处理异常值&lt;/td&gt;
 &lt;td&gt;数值型&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;格式校验&lt;/td&gt;
 &lt;td&gt;校验数据格式&lt;/td&gt;
 &lt;td&gt;所有类型&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="文本清洗算子"&gt;文本清洗算子&lt;a class="td-heading-self-link" href="#%e6%96%87%e6%9c%ac%e6%b8%85%e6%b4%97%e7%ae%97%e5%ad%90" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;算子&lt;/th&gt;
 &lt;th&gt;功能&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;去除特殊字符&lt;/td&gt;
 &lt;td&gt;去除文本中的特殊符号&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;大小写转换&lt;/td&gt;
 &lt;td&gt;统一大小写格式&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;去除停用词&lt;/td&gt;
 &lt;td&gt;去除常见停用词&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;文本分词&lt;/td&gt;
 &lt;td&gt;中文分词处理&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;HTML 标签清理&lt;/td&gt;
 &lt;td&gt;清理 HTML 标签&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="图像清洗算子"&gt;图像清洗算子&lt;a class="td-heading-self-link" href="#%e5%9b%be%e5%83%8f%e6%b8%85%e6%b4%97%e7%ae%97%e5%ad%90" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;算子&lt;/th&gt;
 &lt;th&gt;功能&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;格式转换&lt;/td&gt;
 &lt;td&gt;转换图像格式&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;尺寸调整&lt;/td&gt;
 &lt;td&gt;统一图像尺寸&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;质量检测&lt;/td&gt;
 &lt;td&gt;检测图像质量&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;去重&lt;/td&gt;
 &lt;td&gt;基于内容去重&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="数据转换算子"&gt;数据转换算子&lt;a class="td-heading-self-link" href="#%e6%95%b0%e6%8d%ae%e8%bd%ac%e6%8d%a2%e7%ae%97%e5%ad%90" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;算子&lt;/th&gt;
 &lt;th&gt;功能&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;类型转换&lt;/td&gt;
 &lt;td&gt;转换数据类型&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;归一化&lt;/td&gt;
 &lt;td&gt;数值归一化处理&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;编码转换&lt;/td&gt;
 &lt;td&gt;字符编码转换&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;日期格式化&lt;/td&gt;
 &lt;td&gt;统一日期格式&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="快速开始"&gt;快速开始&lt;a class="td-heading-self-link" href="#%e5%bf%ab%e9%80%9f%e5%bc%80%e5%a7%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="1-创建清洗任务"&gt;1. 创建清洗任务&lt;a class="td-heading-self-link" href="#1-%e5%88%9b%e5%bb%ba%e6%b8%85%e6%b4%97%e4%bb%bb%e5%8a%a1" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;h4 id="步骤-1进入数据清洗页面"&gt;步骤 1：进入数据清洗页面&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-1%e8%bf%9b%e5%85%a5%e6%95%b0%e6%8d%ae%e6%b8%85%e6%b4%97%e9%a1%b5%e9%9d%a2" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;在左侧导航栏选择 &lt;strong&gt;数据处理&lt;/strong&gt;。&lt;/p&gt;</description></item><item><title>数据标注</title><link>https://modelengine-group.github.io/datamate-docs/docs/user-guide/data-annotation/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://modelengine-group.github.io/datamate-docs/docs/user-guide/data-annotation/</guid><description>&lt;div class="pageinfo pageinfo-primary"&gt;
&lt;p&gt;数据标注模块集成 Label Studio，提供专业级的数据标注能力。&lt;/p&gt;

&lt;/div&gt;

&lt;h2 id="功能概述"&gt;功能概述&lt;a class="td-heading-self-link" href="#%e5%8a%9f%e8%83%bd%e6%a6%82%e8%bf%b0" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;p&gt;数据标注模块提供：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;多类型标注&lt;/strong&gt;：支持图像、文本、音频等多种数据类型&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;标注模板&lt;/strong&gt;：丰富的标注模板和配置&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;质量控制&lt;/strong&gt;：标注审核和一致性检查&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;团队协作&lt;/strong&gt;：多人协作标注&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;标注导出&lt;/strong&gt;：导出标注结果&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="标注类型"&gt;标注类型&lt;a class="td-heading-self-link" href="#%e6%a0%87%e6%b3%a8%e7%b1%bb%e5%9e%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="图像标注"&gt;图像标注&lt;a class="td-heading-self-link" href="#%e5%9b%be%e5%83%8f%e6%a0%87%e6%b3%a8" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;类型&lt;/th&gt;
 &lt;th&gt;说明&lt;/th&gt;
 &lt;th&gt;适用场景&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;图像分类&lt;/td&gt;
 &lt;td&gt;对整个图像分类&lt;/td&gt;
 &lt;td&gt;场景识别、质量判断&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;目标检测&lt;/td&gt;
 &lt;td&gt;标注目标位置和类别&lt;/td&gt;
 &lt;td&gt;物体识别、缺陷检测&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;语义分割&lt;/td&gt;
 &lt;td&gt;像素级分类&lt;/td&gt;
 &lt;td&gt;医学影像、自动驾驶&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;实例分割&lt;/td&gt;
 &lt;td&gt;区分同类目标&lt;/td&gt;
 &lt;td&gt;细粒度识别&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;关键点标注&lt;/td&gt;
 &lt;td&gt;标注关键点位置&lt;/td&gt;
 &lt;td&gt;姿态估计、人脸识别&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="文本标注"&gt;文本标注&lt;a class="td-heading-self-link" href="#%e6%96%87%e6%9c%ac%e6%a0%87%e6%b3%a8" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;类型&lt;/th&gt;
 &lt;th&gt;说明&lt;/th&gt;
 &lt;th&gt;适用场景&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;文本分类&lt;/td&gt;
 &lt;td&gt;对文本分类&lt;/td&gt;
 &lt;td&gt;情感分析、主题分类&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;命名实体识别&lt;/td&gt;
 &lt;td&gt;标注实体边界&lt;/td&gt;
 &lt;td&gt;信息抽取、知识图谱&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;文本摘要&lt;/td&gt;
 &lt;td&gt;生成摘要&lt;/td&gt;
 &lt;td&gt;文档理解&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;机器翻译&lt;/td&gt;
 &lt;td&gt;翻译文本&lt;/td&gt;
 &lt;td&gt;多语言处理&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;问答标注&lt;/td&gt;
 &lt;td&gt;标注问答对&lt;/td&gt;
 &lt;td&gt;对话系统&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="音频标注"&gt;音频标注&lt;a class="td-heading-self-link" href="#%e9%9f%b3%e9%a2%91%e6%a0%87%e6%b3%a8" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;类型&lt;/th&gt;
 &lt;th&gt;说明&lt;/th&gt;
 &lt;th&gt;适用场景&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;音频分类&lt;/td&gt;
 &lt;td&gt;对音频分类&lt;/td&gt;
 &lt;td&gt;音频事件检测&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;语音识别 (ASR)&lt;/td&gt;
 &lt;td&gt;转写语音文本&lt;/td&gt;
 &lt;td&gt;语音助手&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;说话人分离&lt;/td&gt;
 &lt;td&gt;识别说话人&lt;/td&gt;
 &lt;td&gt;会议记录&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="快速开始"&gt;快速开始&lt;a class="td-heading-self-link" href="#%e5%bf%ab%e9%80%9f%e5%bc%80%e5%a7%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="1-部署-label-studio"&gt;1. 部署 Label Studio&lt;a class="td-heading-self-link" href="#1-%e9%83%a8%e7%bd%b2-label-studio" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;h4 id="使用-docker-compose"&gt;使用 Docker Compose&lt;a class="td-heading-self-link" href="#%e4%bd%bf%e7%94%a8-docker-compose" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="background-color:#f8f8f8;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;make install-label-studio
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h4 id="访问-label-studio"&gt;访问 Label Studio&lt;a class="td-heading-self-link" href="#%e8%ae%bf%e9%97%ae-label-studio" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;地址&lt;/strong&gt;：http://localhost:30001&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;用户名&lt;/strong&gt;：admin@demo.com&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;密码&lt;/strong&gt;：demoadmin&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="2-创建标注任务"&gt;2. 创建标注任务&lt;a class="td-heading-self-link" href="#2-%e5%88%9b%e5%bb%ba%e6%a0%87%e6%b3%a8%e4%bb%bb%e5%8a%a1" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;h4 id="步骤-1进入数据标注页面"&gt;步骤 1：进入数据标注页面&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-1%e8%bf%9b%e5%85%a5%e6%95%b0%e6%8d%ae%e6%a0%87%e6%b3%a8%e9%a1%b5%e9%9d%a2" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;在左侧导航栏选择 &lt;strong&gt;数据标注&lt;/strong&gt;。&lt;/p&gt;</description></item><item><title>数据合成</title><link>https://modelengine-group.github.io/datamate-docs/docs/user-guide/data-synthesis/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://modelengine-group.github.io/datamate-docs/docs/user-guide/data-synthesis/</guid><description>&lt;div class="pageinfo pageinfo-primary"&gt;
&lt;p&gt;数据合成模块利用大模型能力，自动生成高质量的训练数据，降低数据采集成本。&lt;/p&gt;

&lt;/div&gt;

&lt;h2 id="功能概述"&gt;功能概述&lt;a class="td-heading-self-link" href="#%e5%8a%9f%e8%83%bd%e6%a6%82%e8%bf%b0" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;p&gt;数据合成模块提供：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;指令模板管理&lt;/strong&gt;：创建和管理合成指令模板&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;单任务合成&lt;/strong&gt;：创建单个合成任务&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;比例合成任务&lt;/strong&gt;：按指定比例合成多类别数据&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;大模型集成&lt;/strong&gt;：支持多种大模型 API&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;质量评估&lt;/strong&gt;：自动评估合成数据质量&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="快速开始"&gt;快速开始&lt;a class="td-heading-self-link" href="#%e5%bf%ab%e9%80%9f%e5%bc%80%e5%a7%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="1-创建指令模板"&gt;1. 创建指令模板&lt;a class="td-heading-self-link" href="#1-%e5%88%9b%e5%bb%ba%e6%8c%87%e4%bb%a4%e6%a8%a1%e6%9d%bf" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;h4 id="步骤-1进入数据合成页面"&gt;步骤 1：进入数据合成页面&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-1%e8%bf%9b%e5%85%a5%e6%95%b0%e6%8d%ae%e5%90%88%e6%88%90%e9%a1%b5%e9%9d%a2" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;在左侧导航栏选择 &lt;strong&gt;数据合成&lt;/strong&gt; → &lt;strong&gt;合成任务&lt;/strong&gt;。&lt;/p&gt;
&lt;h4 id="步骤-2创建指令模板"&gt;步骤 2：创建指令模板&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-2%e5%88%9b%e5%bb%ba%e6%8c%87%e4%bb%a4%e6%a8%a1%e6%9d%bf" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;ol&gt;
&lt;li&gt;点击 &lt;strong&gt;指令模板&lt;/strong&gt; 标签&lt;/li&gt;
&lt;li&gt;点击 &lt;strong&gt;创建模板&lt;/strong&gt; 按钮&lt;/li&gt;
&lt;/ol&gt;
&lt;h4 id="步骤-3配置模板"&gt;步骤 3：配置模板&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-3%e9%85%8d%e7%bd%ae%e6%a8%a1%e6%9d%bf" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;&lt;strong&gt;基本信息&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;模板名称&lt;/strong&gt;：例如 &lt;code&gt;qa_generation_template&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;模板描述&lt;/strong&gt;：描述模板用途（可选）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;模板类型&lt;/strong&gt;：选择模板类型（问答、对话、摘要等）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;提示词配置&lt;/strong&gt;：&lt;/p&gt;
&lt;p&gt;示例提示词：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;你是一个专业的数据生成助手。请根据以下要求生成数据：

任务：生成问答对
主题：{topic}
数量：{count}
难度：{difficulty}

要求：
1. 问题要清晰明确
2. 答案要准确完整
3. 涵盖不同难度级别

输出格式：JSON
[
 {
 &amp;#34;question&amp;#34;: &amp;#34;...&amp;#34;,
 &amp;#34;answer&amp;#34;: &amp;#34;...&amp;#34;
 }
]
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;&lt;strong&gt;参数配置&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;模型&lt;/strong&gt;：选择使用的大模型（GPT-4、Claude、本地模型等）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;温度&lt;/strong&gt;：控制生成随机性（0-1）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;最大 tokens&lt;/strong&gt;：限制生成长度&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;其他参数&lt;/strong&gt;：根据模型配置&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id="步骤-4保存模板"&gt;步骤 4：保存模板&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-4%e4%bf%9d%e5%ad%98%e6%a8%a1%e6%9d%bf" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;点击 &lt;strong&gt;保存&lt;/strong&gt; 按钮保存模板。&lt;/p&gt;</description></item><item><title>数据评估</title><link>https://modelengine-group.github.io/datamate-docs/docs/user-guide/data-evaluation/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://modelengine-group.github.io/datamate-docs/docs/user-guide/data-evaluation/</guid><description>&lt;div class="pageinfo pageinfo-primary"&gt;
&lt;p&gt;数据评估模块提供多维度数据质量评估能力，帮助您了解和提升数据质量。&lt;/p&gt;

&lt;/div&gt;

&lt;h2 id="功能概述"&gt;功能概述&lt;a class="td-heading-self-link" href="#%e5%8a%9f%e8%83%bd%e6%a6%82%e8%bf%b0" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;p&gt;数据评估模块提供：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;质量指标&lt;/strong&gt;：丰富的数据质量评估指标&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自动评估&lt;/strong&gt;：自动执行数据评估任务&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;手动评估&lt;/strong&gt;：人工抽样评估&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;评估报告&lt;/strong&gt;：生成详细的评估报告&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;质量追踪&lt;/strong&gt;：追踪数据质量变化趋势&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="评估维度"&gt;评估维度&lt;a class="td-heading-self-link" href="#%e8%af%84%e4%bc%b0%e7%bb%b4%e5%ba%a6" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="数据完整性"&gt;数据完整性&lt;a class="td-heading-self-link" href="#%e6%95%b0%e6%8d%ae%e5%ae%8c%e6%95%b4%e6%80%a7" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;指标&lt;/th&gt;
 &lt;th&gt;说明&lt;/th&gt;
 &lt;th&gt;计算方式&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;空值率&lt;/td&gt;
 &lt;td&gt;空值占比&lt;/td&gt;
 &lt;td&gt;空值数 / 总数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;缺失字段率&lt;/td&gt;
 &lt;td&gt;必填字段缺失率&lt;/td&gt;
 &lt;td&gt;缺失字段数 / 总字段数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;记录完整率&lt;/td&gt;
 &lt;td&gt;完整记录占比&lt;/td&gt;
 &lt;td&gt;完整记录数 / 总记录数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="数据准确性"&gt;数据准确性&lt;a class="td-heading-self-link" href="#%e6%95%b0%e6%8d%ae%e5%87%86%e7%a1%ae%e6%80%a7" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;指标&lt;/th&gt;
 &lt;th&gt;说明&lt;/th&gt;
 &lt;th&gt;计算方式&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;格式正确率&lt;/td&gt;
 &lt;td&gt;格式正确的占比&lt;/td&gt;
 &lt;td&gt;格式正确数 / 总数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;值域符合率&lt;/td&gt;
 &lt;td&gt;值在合理范围内的占比&lt;/td&gt;
 &lt;td&gt;符合值域数 / 总数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;一致性符合率&lt;/td&gt;
 &lt;td&gt;数据一致的比例&lt;/td&gt;
 &lt;td&gt;一致记录数 / 总记录数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="数据唯一性"&gt;数据唯一性&lt;a class="td-heading-self-link" href="#%e6%95%b0%e6%8d%ae%e5%94%af%e4%b8%80%e6%80%a7" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;指标&lt;/th&gt;
 &lt;th&gt;说明&lt;/th&gt;
 &lt;th&gt;计算方式&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;重复率&lt;/td&gt;
 &lt;td&gt;重复记录占比&lt;/td&gt;
 &lt;td&gt;重复记录数 / 总记录数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;唯一率&lt;/td&gt;
 &lt;td&gt;唯一记录占比&lt;/td&gt;
 &lt;td&gt;唯一记录数 / 总记录数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="数据时效性"&gt;数据时效性&lt;a class="td-heading-self-link" href="#%e6%95%b0%e6%8d%ae%e6%97%b6%e6%95%88%e6%80%a7" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;指标&lt;/th&gt;
 &lt;th&gt;说明&lt;/th&gt;
 &lt;th&gt;计算方式&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;数据新鲜度&lt;/td&gt;
 &lt;td&gt;数据更新频率&lt;/td&gt;
 &lt;td&gt;最后更新时间&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;过期数据率&lt;/td&gt;
 &lt;td&gt;过期数据占比&lt;/td&gt;
 &lt;td&gt;过期记录数 / 总记录数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="快速开始"&gt;快速开始&lt;a class="td-heading-self-link" href="#%e5%bf%ab%e9%80%9f%e5%bc%80%e5%a7%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="1-创建评估任务"&gt;1. 创建评估任务&lt;a class="td-heading-self-link" href="#1-%e5%88%9b%e5%bb%ba%e8%af%84%e4%bc%b0%e4%bb%bb%e5%8a%a1" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;h4 id="步骤-1进入数据评估页面"&gt;步骤 1：进入数据评估页面&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-1%e8%bf%9b%e5%85%a5%e6%95%b0%e6%8d%ae%e8%af%84%e4%bc%b0%e9%a1%b5%e9%9d%a2" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;在左侧导航栏选择 &lt;strong&gt;数据评估&lt;/strong&gt;。&lt;/p&gt;</description></item><item><title>知识库管理</title><link>https://modelengine-group.github.io/datamate-docs/docs/user-guide/knowledge-base/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://modelengine-group.github.io/datamate-docs/docs/user-guide/knowledge-base/</guid><description>&lt;div class="pageinfo pageinfo-primary"&gt;
&lt;p&gt;知识库管理模块帮助您构建企业知识库，实现高效的向量检索和 RAG 应用。&lt;/p&gt;

&lt;/div&gt;

&lt;h2 id="功能概述"&gt;功能概述&lt;a class="td-heading-self-link" href="#%e5%8a%9f%e8%83%bd%e6%a6%82%e8%bf%b0" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;p&gt;知识库管理模块提供：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;文档上传&lt;/strong&gt;：支持多种文档格式的上传&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;文本切分&lt;/strong&gt;：智能文本分块策略&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;向量化&lt;/strong&gt;：自动将文本转换为向量&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;向量检索&lt;/strong&gt;：基于相似度的语义检索&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;知识库问答&lt;/strong&gt;：集成 RAG 的智能问答&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="支持的文档格式"&gt;支持的文档格式&lt;a class="td-heading-self-link" href="#%e6%94%af%e6%8c%81%e7%9a%84%e6%96%87%e6%a1%a3%e6%a0%bc%e5%bc%8f" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;格式&lt;/th&gt;
 &lt;th&gt;说明&lt;/th&gt;
 &lt;th&gt;推荐场景&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;TXT&lt;/td&gt;
 &lt;td&gt;纯文本&lt;/td&gt;
 &lt;td&gt;通用文本&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;PDF&lt;/td&gt;
 &lt;td&gt;PDF 文档&lt;/td&gt;
 &lt;td&gt;文档、报告&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Markdown&lt;/td&gt;
 &lt;td&gt;Markdown 文件&lt;/td&gt;
 &lt;td&gt;技术文档&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;JSON&lt;/td&gt;
 &lt;td&gt;JSON 数据&lt;/td&gt;
 &lt;td&gt;结构化数据&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;CSV&lt;/td&gt;
 &lt;td&gt;CSV 表格&lt;/td&gt;
 &lt;td&gt;表格数据&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;DOCX&lt;/td&gt;
 &lt;td&gt;Word 文档&lt;/td&gt;
 &lt;td&gt;Office 文档&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="快速开始"&gt;快速开始&lt;a class="td-heading-self-link" href="#%e5%bf%ab%e9%80%9f%e5%bc%80%e5%a7%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="1-创建知识库"&gt;1. 创建知识库&lt;a class="td-heading-self-link" href="#1-%e5%88%9b%e5%bb%ba%e7%9f%a5%e8%af%86%e5%ba%93" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;h4 id="步骤-1进入知识库页面"&gt;步骤 1：进入知识库页面&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-1%e8%bf%9b%e5%85%a5%e7%9f%a5%e8%af%86%e5%ba%93%e9%a1%b5%e9%9d%a2" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;在左侧导航栏选择 &lt;strong&gt;知识生成&lt;/strong&gt;。&lt;/p&gt;
&lt;h4 id="步骤-2创建知识库"&gt;步骤 2：创建知识库&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-2%e5%88%9b%e5%bb%ba%e7%9f%a5%e8%af%86%e5%ba%93" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;点击右上角 &lt;strong&gt;创建知识库&lt;/strong&gt; 按钮。&lt;/p&gt;
&lt;h4 id="步骤-3配置基本信息"&gt;步骤 3：配置基本信息&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-3%e9%85%8d%e7%bd%ae%e5%9f%ba%e6%9c%ac%e4%bf%a1%e6%81%af" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;知识库名称&lt;/strong&gt;：例如 &lt;code&gt;company_docs_kb&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;知识库描述&lt;/strong&gt;：描述知识库用途（可选）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;知识库类型&lt;/strong&gt;：通用 / 专业领域&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id="步骤-4配置向量参数"&gt;步骤 4：配置向量参数&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-4%e9%85%8d%e7%bd%ae%e5%90%91%e9%87%8f%e5%8f%82%e6%95%b0" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;嵌入模型&lt;/strong&gt;：选择嵌入模型&lt;/p&gt;</description></item><item><title>算子市场</title><link>https://modelengine-group.github.io/datamate-docs/docs/user-guide/operator-market/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://modelengine-group.github.io/datamate-docs/docs/user-guide/operator-market/</guid><description>&lt;div class="pageinfo pageinfo-primary"&gt;
&lt;p&gt;算子市场提供丰富的数据处理算子，支持自定义算子开发。&lt;/p&gt;

&lt;/div&gt;

&lt;h2 id="功能概述"&gt;功能概述&lt;a class="td-heading-self-link" href="#%e5%8a%9f%e8%83%bd%e6%a6%82%e8%bf%b0" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;p&gt;算子市场模块提供：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;内置算子&lt;/strong&gt;：丰富的内置数据处理算子&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;算子发布&lt;/strong&gt;：发布和分享自定义算子&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;算子安装&lt;/strong&gt;：安装第三方算子&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自定义开发&lt;/strong&gt;：开发自定义算子&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="内置算子"&gt;内置算子&lt;a class="td-heading-self-link" href="#%e5%86%85%e7%bd%ae%e7%ae%97%e5%ad%90" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="数据清洗算子"&gt;数据清洗算子&lt;a class="td-heading-self-link" href="#%e6%95%b0%e6%8d%ae%e6%b8%85%e6%b4%97%e7%ae%97%e5%ad%90" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;算子&lt;/th&gt;
 &lt;th&gt;功能&lt;/th&gt;
 &lt;th&gt;输入&lt;/th&gt;
 &lt;th&gt;输出&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;去重算子&lt;/td&gt;
 &lt;td&gt;删除重复数据&lt;/td&gt;
 &lt;td&gt;数据集&lt;/td&gt;
 &lt;td&gt;去重数据&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;空值处理&lt;/td&gt;
 &lt;td&gt;处理空值&lt;/td&gt;
 &lt;td&gt;数据集&lt;/td&gt;
 &lt;td&gt;填充数据&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;格式转换&lt;/td&gt;
 &lt;td&gt;转换数据格式&lt;/td&gt;
 &lt;td&gt;原格式&lt;/td&gt;
 &lt;td&gt;新格式&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;类型转换&lt;/td&gt;
 &lt;td&gt;转换数据类型&lt;/td&gt;
 &lt;td&gt;原类型&lt;/td&gt;
 &lt;td&gt;新类型&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="文本处理算子"&gt;文本处理算子&lt;a class="td-heading-self-link" href="#%e6%96%87%e6%9c%ac%e5%a4%84%e7%90%86%e7%ae%97%e5%ad%90" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;算子&lt;/th&gt;
 &lt;th&gt;功能&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;文本分词&lt;/td&gt;
 &lt;td&gt;中文分词&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;去除停用词&lt;/td&gt;
 &lt;td&gt;删除常见停用词&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;文本清洗&lt;/td&gt;
 &lt;td&gt;清洗特殊字符&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;情感分析&lt;/td&gt;
 &lt;td&gt;分析文本情感&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="图像处理算子"&gt;图像处理算子&lt;a class="td-heading-self-link" href="#%e5%9b%be%e5%83%8f%e5%a4%84%e7%90%86%e7%ae%97%e5%ad%90" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;算子&lt;/th&gt;
 &lt;th&gt;功能&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;格式转换&lt;/td&gt;
 &lt;td&gt;转换图像格式&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;尺寸调整&lt;/td&gt;
 &lt;td&gt;调整图像大小&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;质量检测&lt;/td&gt;
 &lt;td&gt;检测图像质量&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;特征提取&lt;/td&gt;
 &lt;td&gt;提取图像特征&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="数据增强算子"&gt;数据增强算子&lt;a class="td-heading-self-link" href="#%e6%95%b0%e6%8d%ae%e5%a2%9e%e5%bc%ba%e7%ae%97%e5%ad%90" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;算子&lt;/th&gt;
 &lt;th&gt;功能&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;文本增强&lt;/td&gt;
 &lt;td&gt;同义词替换、回译&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;图像增强&lt;/td&gt;
 &lt;td&gt;旋转、裁剪、颜色调整&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;数据合成&lt;/td&gt;
 &lt;td&gt;基于模型的数据合成&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="快速开始"&gt;快速开始&lt;a class="td-heading-self-link" href="#%e5%bf%ab%e9%80%9f%e5%bc%80%e5%a7%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="1-浏览算子"&gt;1. 浏览算子&lt;a class="td-heading-self-link" href="#1-%e6%b5%8f%e8%a7%88%e7%ae%97%e5%ad%90" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;h4 id="步骤-1进入算子市场"&gt;步骤 1：进入算子市场&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-1%e8%bf%9b%e5%85%a5%e7%ae%97%e5%ad%90%e5%b8%82%e5%9c%ba" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;在左侧导航栏选择 &lt;strong&gt;算子市场&lt;/strong&gt;。&lt;/p&gt;</description></item><item><title>流水线编排</title><link>https://modelengine-group.github.io/datamate-docs/docs/user-guide/orchestration/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://modelengine-group.github.io/datamate-docs/docs/user-guide/orchestration/</guid><description>&lt;div class="pageinfo pageinfo-primary"&gt;
&lt;p&gt;流水线编排模块提供拖拽式可视化界面，帮助您设计和管理复杂的数据处理流程。&lt;/p&gt;

&lt;/div&gt;

&lt;h2 id="功能概述"&gt;功能概述&lt;a class="td-heading-self-link" href="#%e5%8a%9f%e8%83%bd%e6%a6%82%e8%bf%b0" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;p&gt;流水线编排模块提供：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;可视化设计器&lt;/strong&gt;：拖拽式流程设计&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;丰富的节点类型&lt;/strong&gt;：数据处理、条件判断、循环等&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;流程执行&lt;/strong&gt;：自动执行和监控流程&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;模板管理&lt;/strong&gt;：保存和复用流程模板&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;版本管理&lt;/strong&gt;：流程版本控制&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="节点类型"&gt;节点类型&lt;a class="td-heading-self-link" href="#%e8%8a%82%e7%82%b9%e7%b1%bb%e5%9e%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="数据节点"&gt;数据节点&lt;a class="td-heading-self-link" href="#%e6%95%b0%e6%8d%ae%e8%8a%82%e7%82%b9" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;节点&lt;/th&gt;
 &lt;th&gt;功能&lt;/th&gt;
 &lt;th&gt;配置&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;输入数据集&lt;/td&gt;
 &lt;td&gt;从数据集读取数据&lt;/td&gt;
 &lt;td&gt;选择数据集&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;输出数据集&lt;/td&gt;
 &lt;td&gt;写入数据到数据集&lt;/td&gt;
 &lt;td&gt;选择数据集&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;数据采集&lt;/td&gt;
 &lt;td&gt;执行数据采集任务&lt;/td&gt;
 &lt;td&gt;选择采集任务&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;数据清洗&lt;/td&gt;
 &lt;td&gt;执行数据清洗任务&lt;/td&gt;
 &lt;td&gt;选择清洗任务&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;数据标注&lt;/td&gt;
 &lt;td&gt;执行数据标注任务&lt;/td&gt;
 &lt;td&gt;选择标注任务&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;数据合成&lt;/td&gt;
 &lt;td&gt;执行数据合成任务&lt;/td&gt;
 &lt;td&gt;选择合成任务&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;数据评估&lt;/td&gt;
 &lt;td&gt;执行数据评估任务&lt;/td&gt;
 &lt;td&gt;选择评估任务&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="逻辑节点"&gt;逻辑节点&lt;a class="td-heading-self-link" href="#%e9%80%bb%e8%be%91%e8%8a%82%e7%82%b9" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;节点&lt;/th&gt;
 &lt;th&gt;功能&lt;/th&gt;
 &lt;th&gt;配置&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;条件分支&lt;/td&gt;
 &lt;td&gt;根据条件执行不同分支&lt;/td&gt;
 &lt;td&gt;条件表达式&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;循环&lt;/td&gt;
 &lt;td&gt;重复执行节点&lt;/td&gt;
 &lt;td&gt;循环次数/条件&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;并行&lt;/td&gt;
 &lt;td&gt;并行执行多个分支&lt;/td&gt;
 &lt;td&gt;分支数量&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;等待&lt;/td&gt;
 &lt;td&gt;等待指定时间&lt;/td&gt;
 &lt;td&gt;等待时长&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;跳转&lt;/td&gt;
 &lt;td&gt;跳转到指定节点&lt;/td&gt;
 &lt;td&gt;目标节点&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="算子节点"&gt;算子节点&lt;a class="td-heading-self-link" href="#%e7%ae%97%e5%ad%90%e8%8a%82%e7%82%b9" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;节点&lt;/th&gt;
 &lt;th&gt;功能&lt;/th&gt;
 &lt;th&gt;配置&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;清洗算子&lt;/td&gt;
 &lt;td&gt;执行单个清洗算子&lt;/td&gt;
 &lt;td&gt;算子类型、参数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;合成算子&lt;/td&gt;
 &lt;td&gt;执行数据合成&lt;/td&gt;
 &lt;td&gt;指令模板、参数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;自定义算子&lt;/td&gt;
 &lt;td&gt;执行自定义算子&lt;/td&gt;
 &lt;td&gt;算子文件、参数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="集成节点"&gt;集成节点&lt;a class="td-heading-self-link" href="#%e9%9b%86%e6%88%90%e8%8a%82%e7%82%b9" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;节点&lt;/th&gt;
 &lt;th&gt;功能&lt;/th&gt;
 &lt;th&gt;配置&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;HTTP 请求&lt;/td&gt;
 &lt;td&gt;发送 HTTP 请求&lt;/td&gt;
 &lt;td&gt;URL、方法、参数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;API 调用&lt;/td&gt;
 &lt;td&gt;调用 DataMate API&lt;/td&gt;
 &lt;td&gt;API 端点、参数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;消息队列&lt;/td&gt;
 &lt;td&gt;发送/接收消息&lt;/td&gt;
 &lt;td&gt;队列配置&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Webhook&lt;/td&gt;
 &lt;td&gt;触发 Webhook&lt;/td&gt;
 &lt;td&gt;Webhook URL&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="快速开始"&gt;快速开始&lt;a class="td-heading-self-link" href="#%e5%bf%ab%e9%80%9f%e5%bc%80%e5%a7%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="1-创建流水线"&gt;1. 创建流水线&lt;a class="td-heading-self-link" href="#1-%e5%88%9b%e5%bb%ba%e6%b5%81%e6%b0%b4%e7%ba%bf" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;h4 id="步骤-1进入流水线编排页面"&gt;步骤 1：进入流水线编排页面&lt;a class="td-heading-self-link" href="#%e6%ad%a5%e9%aa%a4-1%e8%bf%9b%e5%85%a5%e6%b5%81%e6%b0%b4%e7%ba%bf%e7%bc%96%e6%8e%92%e9%a1%b5%e9%9d%a2" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;在左侧导航栏选择 &lt;strong&gt;流水线编排&lt;/strong&gt;。&lt;/p&gt;</description></item><item><title>Agent 对话</title><link>https://modelengine-group.github.io/datamate-docs/docs/user-guide/agent/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://modelengine-group.github.io/datamate-docs/docs/user-guide/agent/</guid><description>&lt;div class="pageinfo pageinfo-primary"&gt;
&lt;p&gt;Agent 对话模块集成大语言模型，提供智能问答和知识库检索能力。&lt;/p&gt;

&lt;/div&gt;

&lt;h2 id="功能概述"&gt;功能概述&lt;a class="td-heading-self-link" href="#%e5%8a%9f%e8%83%bd%e6%a6%82%e8%bf%b0" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;p&gt;Agent 对话模块提供：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;智能对话&lt;/strong&gt;：基于大模型的自然语言对话&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;知识库问答&lt;/strong&gt;：集成 RAG 的知识库问答&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多轮对话&lt;/strong&gt;：支持上下文的多轮对话&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;对话管理&lt;/strong&gt;：对话历史和管理&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;快捷指令&lt;/strong&gt;：常用操作的快捷指令&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="快速开始"&gt;快速开始&lt;a class="td-heading-self-link" href="#%e5%bf%ab%e9%80%9f%e5%bc%80%e5%a7%8b" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="1-访问-agent"&gt;1. 访问 Agent&lt;a class="td-heading-self-link" href="#1-%e8%ae%bf%e9%97%ae-agent" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;在左侧导航栏选择 &lt;strong&gt;Agent 对话&lt;/strong&gt;，或直接访问：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;本地部署&lt;/strong&gt;：http://localhost:30000/chat&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;生产环境&lt;/strong&gt;：https://your-domain/chat&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="2-开始对话"&gt;2. 开始对话&lt;a class="td-heading-self-link" href="#2-%e5%bc%80%e5%a7%8b%e5%af%b9%e8%af%9d" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;在对话框中输入问题，例如：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;用户：DataMate 支持哪些数据格式？

助手：DataMate 支持多种数据格式：

图像：JPG、PNG、GIF、BMP、WebP
文本：TXT、MD、JSON、CSV
音频：MP3、WAV、FLAC、AAC
视频：MP4、AVI、MOV、MKV

这些格式可以在数据管理模块中上传和管理。
&lt;/code&gt;&lt;/pre&gt;&lt;h3 id="3-使用知识库问答"&gt;3. 使用知识库问答&lt;a class="td-heading-self-link" href="#3-%e4%bd%bf%e7%94%a8%e7%9f%a5%e8%af%86%e5%ba%93%e9%97%ae%e7%ad%94" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;h4 id="启用知识库"&gt;启用知识库&lt;a class="td-heading-self-link" href="#%e5%90%af%e7%94%a8%e7%9f%a5%e8%af%86%e5%ba%93" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;ol&gt;
&lt;li&gt;点击 &lt;strong&gt;设置&lt;/strong&gt; 按钮&lt;/li&gt;
&lt;li&gt;在 &lt;strong&gt;知识库&lt;/strong&gt; 设置中，选择要使用的知识库&lt;/li&gt;
&lt;li&gt;保存设置&lt;/li&gt;
&lt;/ol&gt;
&lt;h4 id="进行知识库问答"&gt;进行知识库问答&lt;a class="td-heading-self-link" href="#%e8%bf%9b%e8%a1%8c%e7%9f%a5%e8%af%86%e5%ba%93%e9%97%ae%e7%ad%94" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;用户：如何创建数据清洗任务？

助手：根据知识库文档，创建数据清洗任务步骤如下：

1. 进入数据处理页面
2. 点击创建任务按钮
3. 配置基本信息（任务名称、源数据集、输出数据集）
4. 配置清洗流程（拖拽算子到画布）
5. 配置执行参数
6. 创建并执行任务

详细的配置说明请参考用户指南。

[来源：user_guide.md, data_cleansing.md]
&lt;/code&gt;&lt;/pre&gt;&lt;h2 id="高级功能"&gt;高级功能&lt;a class="td-heading-self-link" href="#%e9%ab%98%e7%ba%a7%e5%8a%9f%e8%83%bd" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="对话模式"&gt;对话模式&lt;a class="td-heading-self-link" href="#%e5%af%b9%e8%af%9d%e6%a8%a1%e5%bc%8f" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h3&gt;
&lt;h4 id="通用对话"&gt;通用对话&lt;a class="td-heading-self-link" href="#%e9%80%9a%e7%94%a8%e5%af%b9%e8%af%9d" aria-label="Heading self-link"&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p&gt;使用大模型进行通用对话，不使用知识库：&lt;/p&gt;</description></item></channel></rss>