多模态工具

多模态工具组支持分析文本文件、图片、视频与音频，结合模型能力生成用户问题相关的解读结果。支持 S3、HTTP、HTTPS 等 URL。

🧭 工具清单

analyze_text_file：下载并提取文本文件内容后进行分析
analyze_image：下载图片并使用视觉语言模型进行理解与描述
analyze_video：下载视频并使用视频理解模型进行分析
analyze_audio：下载音频并使用音频理解模型进行分析

🧰 使用场景示例

对上传到存储桶的文档进行快速摘要或要点提取
对截图、产品图片、报表图进行内容解读或关键信息提取
对上传的视频进行内容理解，如提取关键帧信息、人物动作、场景描述等
对音频文件进行内容分析，如转录、说话人识别、内容摘要等
结合问题指令，对多份文件/图片/视频/音频分别生成答案列表

🧾 参数要求与行为

analyze_text_file

file_url_list：文件 URL 列表，支持 s3://bucket/key、/bucket/key、http(s)://。
query：用户问题/分析需求。
会逐个文件下载、提取文本，再基于问题生成对应分析结果数组。

analyze_image

image_urls_list：图片 URL 列表，支持 s3://bucket/key、/bucket/key、http(s)://。
query：用户问题/关注点。
会逐张图片下载并调用视觉语言模型，返回与顺序对应的描述或答案数组。

analyze_video

video_url：视频 URL，支持 s3://bucket/key、/bucket/key、http(s)://。
query：用户问题/关注点。
下载视频后调用视频理解模型，返回视频分析结果。

analyze_audio

audio_url：音频 URL，支持 s3://bucket/key、/bucket/key、http(s)://。
query：用户问题/关注点。
下载音频后调用音频理解模型，返回音频分析结果。

⚙️ 前置配置

确保已在平台配置可用的存储客户端（如 MinIO/S3）及数据处理服务地址，保证能下载文件。
为 analyze_text_file 配置可用的 LLM；为 analyze_image 配置可用的视觉语言模型；为 analyze_video 和 analyze_audio 配置可用的视频理解模型（需支持音视频输入，如 Qwen3-Omni 系列模型）。

🛠️ 操作指引

准备文件、图片、视频或音频的可访问 URL，确认权限与路径正确。
调用相应工具，填写 URL 与问题描述；支持一次处理多条资源。
检查返回结果，确认内容符合预期后再继续引用或展示。

💡 最佳实践

对体积较大的文件可先在数据处理服务中做预处理或分片，减少超时风险。
处理多张图片时，可在问题中明确关注点（如“只关注图表中的趋势”）以提升回答质量。
若返回为空或报错，先验证 URL 可访问性和模型配置是否就绪。