2025 年 9 月 3 日,上海大学发布《多模态模型云服务》采购公告,预算 480000 元 。
服务内容、流程及方案:以 API 服务方式提供多模态大模型云服务。
1、音频模型提供 Paraformer 等开源语音识别模型进行实时语音识别、音频生成等服务
1)支持多语种自由切换的视频直播、会议等实时场景语音识别;支持语言包括中文(含粤语等方言)、英文、日语、韩语
2)支持定制热词、时间戳、情感和事件识别、敏感词过滤、自动说话人分离、说话人数量参考、标点符号预测等功能
3)支持 8kHz 电话客服等场景下实时语音识别,识别的音频格式包括 pcm、pcm编码的wav、mp3、ogg 封装的 opus、ogg 封装的 speex、aac、amr
4)QPM 不低于 3000 个
5)尾字延迟不超过 300ms,如有突发流量,扩容周期不超过 20 分钟
6)提供实时语音识别服务使用时长不少于 21 万小时
2、图像模型提供通义万相 2.2 等开源模型进行文生图等服务
1)支持最大 200 万像素图片生成,任意长宽比规格的图像,预设编辑任务与指令式编辑,包含多种局部/全图编辑能力,如图像风格化、线稿生图、局部重绘等
2)支持智能提示词改写,中文、英文、中英文混合 prompt 指令,长度小于 800 汉字
3)支持在[768,1440]像素范围内自定义输出图像的宽高,1:1、3:4、4:5、16:9、9:16、2:3、5:4 等至少 7 种比例;JPG、JPEG、PNG 中的一种或多种格式
4)单次请求时延的 P95 要控制在 10s 以内(不包含提示词优化)
5)QPM 不低于 3000 个
6)不少于 90 万张图片生成服务
3.视频模型提供通义万相 2.2 等开源模型进行视频生成等服务
1)支持人像、宠物、风景等场景视频生成,电影级美学控制,如可调整视频的照明、对比度等
2)输入图片:1K 以上 4K 以下图片大小(短边与长边比不超过 9:20),至少支持 10MB
3)输出视频格式支持分辨率 480P/1080P、帧率 30fps,生成视频编码支持 H.264
4)输出视频:支持输入和输出图片一致,至少支持 1:1(W:H)、5:4、1:2 输出视频尺寸:原生分辨率至少支持 1080P,且能够超分到 2k 及以上
5)支持首尾帧生成视频功能,使用反向提示词功能
6)提供服务的模型,为开源模型,或存在该模型对应的开源版本,支持 MoE 架构
7)生成 5 秒 30 帧 720p 视频,模型耗时约 1~2 分钟
8)生成视频时长 3-5 秒
9)QPM 不低于 3000 个
10)提供图生视频服务,480P 时长不少于 1,000,000 秒或 1080P 时长不少于 200,000 秒
4、模型调用管理在模型页面设置查询条件(如时间范围、业务空间等),模型列表区域查看目标模型的调用统计结果(模型调用量、模型调用次数)。
5、云服务为不少于 2000 名师生提供人均 300 元 RMB 等值云服务,用于大模型云服务调用,供应商需提供云服务计费标准(供应商响应时需扩展描述,不得照抄响应,供应商需要在服务报价模块填报详细服务报价明细)
中标结果
2025 年 9 月 11 日发布中标结果, 通义云启(杭州)信息技术有限公司 468102 元(中)。
云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.