多模态工具
多模态工具组支持分析文本文件、图片、视频与音频,结合模型能力生成用户问题相关的解读结果。支持 S3、HTTP、HTTPS 等 URL。
🧭 工具清单
analyze_text_file:下载并提取文本文件内容后进行分析analyze_image:下载图片并使用视觉语言模型进行理解与描述analyze_video:下载视频并使用视频理解模型进行分析analyze_audio:下载音频并使用音频理解模型进行分析
🧰 使用场景示例
- 对上传到存储桶的文档进行快速摘要或要点提取
- 对截图、产品图片、报表图进行内容解读或关键信息提取
- 对上传的视频进行内容理解,如提取关键帧信息、人物动作、场景描述等
- 对音频文件进行内容分析,如转录、说话人识别、内容摘要等
- 结合问题指令,对多份文件/图片/视频/音频分别生成答案列表
🧾 参数要求与行为
analyze_text_file
file_url_list:文件 URL 列表,支持s3://bucket/key、/bucket/key、http(s)://。query:用户问题/分析需求。- 会逐个文件下载、提取文本,再基于问题生成对应分析结果数组。
analyze_image
image_urls_list:图片 URL 列表,支持s3://bucket/key、/bucket/key、http(s)://。query:用户问题/关注点。- 会逐张图片下载并调用视觉语言模型,返回与顺序对应的描述或答案数组。
analyze_video
video_url:视频 URL,支持s3://bucket/key、/bucket/key、http(s)://。query:用户问题/关注点。- 下载视频后调用视频理解模型,返回视频分析结果。
analyze_audio
audio_url:音频 URL,支持s3://bucket/key、/bucket/key、http(s)://。query:用户问题/关注点。- 下载音频后调用音频理解模型,返回音频分析结果。
⚙️ 前置配置
- 确保已在平台配置可用的存储客户端(如 MinIO/S3)及数据处理服务地址,保证能下载文件。
- 为
analyze_text_file配置可用的 LLM;为analyze_image配置可用的视觉语言模型;为analyze_video和analyze_audio配置可用的视频理解模型(需支持音视频输入,如 Qwen3-Omni 系列模型)。
🛠️ 操作指引
- 准备文件、图片、视频或音频的可访问 URL,确认权限与路径正确。
- 调用相应工具,填写 URL 与问题描述;支持一次处理多条资源。
- 检查返回结果,确认内容符合预期后再继续引用或展示。
💡 最佳实践
- 对体积较大的文件可先在数据处理服务中做预处理或分片,减少超时风险。
- 处理多张图片时,可在问题中明确关注点(如“只关注图表中的趋势”)以提升回答质量。
- 若返回为空或报错,先验证 URL 可访问性和模型配置是否就绪。
