#人工智能 ZAI 智谱推出 GLM-5V-Turbo 多模态编码基础模型,原生支持视频、图片、文本、文件输入等。该模型能够原生处理图像和视频等多模态输入,在长远规划、复杂编码任务和动作执行方面表现非常出色。查看全文:https://ourl.co/112463
中国人工智能开发商智谱 (ZAI) 日前基于 GLM-5 旗舰模型推出 GLM-5V-Turbo,该模型也是智谱推出的首个多模态编码基础模型,为基于视觉的编码任务而构建。
GLM-5V-Turbo 能够原生处理图像、视频和文本等多模态输入,在长远规划、复杂编码任务和动作执行方面的表现也非常出色。
智谱称 GLM-5V-Turbo 还针对 AI 智能体工作流程进行深度优化,可以与 Claude Code、OpenCode、OpenClaw 等智能体无缝协作,完成理解环境→规划动作→执行任务的完整循环。
模型基准测试:
下面是模型规格说明:
- 模型定位:多模态编码模型
- 输入方式:视频、图像、文本、文件
- 输出方式:文本
- 窗口长度:最大上下文长度为 200K
- 输出长度:最大输出长度为 128K
其他特点还包括:
- 思考模式:针对不同场景提供多种思维模式
- 视觉理解:提供强大的视觉理解能力,支持图像、视频和文件等
- 流式输出:支持实时流式响应,增强用户交互体验
- 函数调用:提供强大的工具调用功能,可以与外部工具集成
- 智能缓存:提供智能缓存机制,优化长时间对话中的性能
API 调用文档参见:https://docs.z.ai/guides/vlm/glm-5v-turbo

