4 月 2 日,Google 发布新一代开源系列模型 Gemma 4,将其定位为当前最智能的开源模型产品线之一。该系列基于 Gemini 技术体系构建,重点强调「参数效率」(intelligence-per-parameter)与本地运行能力。
Gemma 4 提供四种规模版本:E2B、E4B、26B MoE 与 31B Dense,覆盖从移动设备到高性能 GPU 的多层级部署需求。其中,31B 模型在 Arena AI 排行中位列开源模型前三,26B 模型排名第六,在性能上超过部分参数规模高出约 20 倍的模型。

在技术能力方面,Gemma 4 支持最长 256K 上下文窗口(边缘侧模型为 128K),具备多模态处理能力,可输入图像、视频与音频内容。同时,模型原生支持函数调用、结构化 JSON 输出及系统指令,适用于 Agent 工作流开发,并强化代码生成能力。Gemma 4 采用 Apache 2.0 开源许可证,兼容 Hugging Face、Ollama、vLLM 等主流工具链,支持在本地设备或云端环境部署。
Google 表示,Gemma 4 已支持超过 140 种语言,面向 Android 设备、物联网及科研等场景,旨在推动人工智能在移动端与边缘计算领域的进一步普及。来源
智谱于 4 月 2 日推出视觉语言模型 GLM-5V-Turbo,旨在解决视觉理解与代码生成之间的性能权衡问题。

该模型采用原生多模态融合设计,通过 CogViT 视觉编码器直接处理图像、视频及复杂文档布局,并结合多 Token 预测(MTP)架构,提升推理效率与长代码生成能力,支持最高 200K 上下文窗口。为避免视觉能力与编程能力的「跷跷板效应」,模型通过覆盖 30 余项任务的联合强化学习训练,在 STEM 推理、视觉定位、视频分析及工具调用等多个维度实现能力平衡。
GLM-5V-Turbo 面向 Agent 场景深度适配,重点集成 OpenClaw 与 Claude Code 工作流,可基于视觉输入生成代码并完成界面操作。相关基准测试包括 CC-Bench-V2、ZClawBench 与 ClawEval,结果显示其在多模态编程、GUI 交互及多步骤执行任务中具备领先表现。来源
4 月 2 日,Google 发布公告,将 Android 移动端已实施多年的 64 位应用普及计划扩展至 Wear OS 智能手表操作系统,要求开发者自 9 月起提供 64 位版本应用。
自今年 9 月起,所有包含原生代码的 Wear OS 新应用及应用更新,在发布至 Play 商店时必须同时提供 32 位与 64 位版本;未满足要求的版本将无法通过 Play Console 上传。目前,32 位应用的支持政策暂不调整,这意味着仍使用 32 位处理器或预装 32 位 Wear OS 的设备可继续正常运行相关应用。来源
针对当前 AI 换脸合成、声纹克隆复刻、影视素材篡改,以及擅自抓取演员影像、声频用于模型训练等侵权行为频发的情况,中国广播电视社会组织联合会演员委员会发布声明,强调演艺人员依法享有肖像权、声音权及艺术形象权。包括:任何主体未经书面授权,不得擅自采集、使用或传播相关内容。同时指出,即便标注「非商用」「公益分享」等,涉及特定演员的 AI 撞脸、仿声、换脸短剧等行为,仍构成侵权,并需承担法律责任。
声明还要求短视频、直播及影视平台强化内容审核机制,全面排查并下架侵权作品;AI 技术平台需履行素材授权核验义务。演员委员会表示,将启动常态化侵权监测与维权行动,并支持 AI 技术在合规前提下推动行业发展,倡导建立统一的授权与收益分配机制。来源
> 下载 少数派 2.0 客户端、关注 少数派公众号,解锁全新阅读体验 📰
> 实用、好用的 正版软件,少数派为你呈现 🚀