网易首页 > 网易号 > 正文 申请入驻

Gemini 3.5 Flash登上安卓编程榜单,但成本高出3倍且性能更慢

0
分享至

谷歌近期发布了新一期基准测试结果,对各主流AI模型在安卓编程领域的表现进行了横向对比,并公布了每个模型的Token使用成本。测试结果显示,谷歌自家的Gemini 3.5 Flash在安卓开发中资源消耗最为突出,甚至未能跻身前五名。


随着通用聊天机器人的热度逐渐降温,谷歌、OpenAI、Anthropic等公司纷纷将重心转向具备编程能力的智能体模型。用户也开始依赖这类模型进行"氛围编程"——即将大部分软件开发工作交由大语言模型来完成。

近几个月来,各模型在安卓编程方面的能力均有显著提升,谷歌也持续追踪并记录各模型的表现。"Android Bench"基准测试会随谷歌新模型的发布而更新,例如此次纳入了最新的Gemini 3.5 Flash,并将其与竞品进行对比。

该测试的核心评估方式是:每个模型在10次运行中成功解决安卓编程问题的百分比,满分为100分。谷歌还列出了预期表现及最近一次测试日期,部分高分模型的数据甚至可追溯至今年2月。

在最新一期的Android Bench排名中,结果令人意外。Gemini 3.5 Flash仅排名第六,落后于GPT 5.5以及早在今年2月就完成测试的Gemini 3.1 Pro Preview。

Gemini 3.5 Flash此前被定位为比Gemini 3.1 Pro更廉价、更快速的替代方案,官方预期性能差距为6.1%。然而最新基准测试结果却给出了不同的结论:在安卓开发场景下,Gemini 3.5 Flash不仅延迟更高,任务成功率也低了9个百分点。

更关键的是成本对比——谷歌这款最新模型在单次基准测试中平均消耗355.9个Token,花费约147.1美元;而Gemini 3.1 Pro Preview仅消耗73.3个Token,费用约为前者的三分之一。

当然,需要指出的是,谷歌目前在榜单上列出的仍是Gemini 3.1 Pro的预览版本。但即便如此,这款预览版模型的得分依然高于一款被官方宣传为"更快、更高效"的正式版模型,这一结果颇为耐人寻味。

GPT 5.5在单次运行成本上与Gemini 3.5 Flash相近,但后者在Android Bench测试中的Token消耗量是前者的5.5倍。Anthropic的上一代模型Claude Opus 4.7排名第四,运行成本和Token用量略低,处于中游水平。目前谷歌尚未公布Opus 4.8或Fable 5的基准测试得分。

以下是谷歌在最新一期Android Bench中公布的前十名模型排名:

榜单中既有多款开放权重模型,也包含Claude、GPT等知名闭源模型。与上一期相比,榜单前段的排名基本保持不变,唯一的调整是GPT 5.3 Codex已从名单中移除。

完整排名可在谷歌官方网站上查阅。

谷歌会随着更多模型完成测试而定期更新该榜单。从整体来看,这份榜单是衡量各模型在安卓开发领域表现的可靠参考。Gemini 3.5 Flash在其他大语言模型及智能体任务中确实表现出色,尽管谷歌对其成本和使用上限有所调整,但其在安卓编程方面的短板同样不容忽视。

Q&A

Q1:Android Bench是什么?谷歌用它来评估什么?

A:Android Bench是谷歌发布的一项基准测试,专门用于评估各主流AI模型在安卓编程领域的表现。每个模型会经历10次运行,以成功解决安卓编程问题的百分比作为得分,满分为100分。谷歌会随新模型发布持续更新榜单,同时公布每个模型的Token使用量及对应成本,帮助开发者选择最适合安卓开发场景的AI模型。

Q2:Gemini 3.5 Flash在Android Bench中表现如何?

A:Gemini 3.5 Flash在最新一期Android Bench中仅排名第六,不仅未能进入前五,还落后于更早测试的Gemini 3.1 Pro Preview。其单次基准测试平均消耗355.9个Token,花费约147.1美元,是Gemini 3.1 Pro Preview成本的约3倍,同时任务成功率还低了9个百分点,延迟也更高,在安卓编程场景中性价比表现欠佳。

Q3:目前Android Bench排名靠前的AI模型有哪些?

A:根据谷歌最新公布的Android Bench榜单,排名靠前的模型包括GPT 5.5、Gemini 3.1 Pro Preview等闭源模型,以及多款开放权重模型。Claude Opus 4.7排名第四,Token消耗和运行成本处于中游水平。与上一期相比,榜单前段排名基本稳定,主要变化是GPT 5.3 Codex已从榜单中移除。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
红枣还敢随便吃吗?提醒:以后吃红枣时,一定要多注意了!

红枣还敢随便吃吗?提醒:以后吃红枣时,一定要多注意了!

今日养生之道
2026-06-12 15:57:18
谨防中国版的“萨哈罗夫”出现,有抬头之势,有人已经冒头了

谨防中国版的“萨哈罗夫”出现,有抬头之势,有人已经冒头了

谈古论今历史有道
2026-06-09 15:50:03
一同事被裁员,立马退工作群,中午准备交接时,才发现所有同事微信好友都被删了!问题来了,天天一起的打工人,有资格成为朋友吗?

一同事被裁员,立马退工作群,中午准备交接时,才发现所有同事微信好友都被删了!问题来了,天天一起的打工人,有资格成为朋友吗?

品读时刻
2026-06-16 09:09:06
网红小姐姐这身打扮,谁看了不迷糊

网红小姐姐这身打扮,谁看了不迷糊

牛弹琴123456
2026-06-10 15:37:34
1949年国民党军统特务周镐被处决,其妻子面见上海市长:他是烈士

1949年国民党军统特务周镐被处决,其妻子面见上海市长:他是烈士

旧史新谭
2026-06-17 01:20:21
CCTV5直播!中国女排冲击四连胜,首发恐变阵,输球最多扣15分

CCTV5直播!中国女排冲击四连胜,首发恐变阵,输球最多扣15分

跑者排球视角
2026-06-16 07:13:49
14天的冷淡期已过!中国不再给机会,欺负海外中企的荷兰要遭殃

14天的冷淡期已过!中国不再给机会,欺负海外中企的荷兰要遭殃

阿伧说事
2026-06-11 13:43:12
宗庆后失算了,宗馥莉最狠的报复不是争,而是4个字:我不要了

宗庆后失算了,宗馥莉最狠的报复不是争,而是4个字:我不要了

李哥专栏
2026-06-15 16:28:44
陪睡陪玩只是冰山一角!知名港星又曝大瓜,55岁还有人想潜规则她

陪睡陪玩只是冰山一角!知名港星又曝大瓜,55岁还有人想潜规则她

妙知
2026-06-17 04:25:36
最大利空消失,金属要王者归来了?

最大利空消失,金属要王者归来了?

生活新鲜市
2026-06-16 18:35:38
贝克汉姆留名星光大道,15岁贝小七美成芭比娃娃!

贝克汉姆留名星光大道,15岁贝小七美成芭比娃娃!

ChicMyGeek
2026-06-14 11:03:06
巨型补给舰建造速度惊人,或在未来3个月内下水,吨位7万吨

巨型补给舰建造速度惊人,或在未来3个月内下水,吨位7万吨

爱吃醋的猫咪
2026-06-16 21:28:49
球王影响力!外媒:全球35亿人爱梅西 中国印度把阿根廷当主队

球王影响力!外媒:全球35亿人爱梅西 中国印度把阿根廷当主队

爱奇艺体育
2026-06-16 11:44:50
重磅官宣!《西游记真假美猴王》来袭,老牌西游阵容重塑大圣宿命

重磅官宣!《西游记真假美猴王》来袭,老牌西游阵容重塑大圣宿命

深度娱乐分析
2026-06-17 00:47:32
HVLP算力铜箔,深度关联10家核心龙头

HVLP算力铜箔,深度关联10家核心龙头

风风顺
2026-06-17 04:05:03
注意!中老年男性有性生活和没性生活,差别居然这么大?

注意!中老年男性有性生活和没性生活,差别居然这么大?

皓皓情感说
2026-04-22 08:20:32
俄罗斯没想到,美国更没想到,中国几乎全部“关键”技术遥遥领先

俄罗斯没想到,美国更没想到,中国几乎全部“关键”技术遥遥领先

向日葵向阳西晒
2026-04-18 12:17:10
43岁王皓现状:靠自己落户北京,家庭事业双丰收,骑自行车上下班

43岁王皓现状:靠自己落户北京,家庭事业双丰收,骑自行车上下班

白面书誏
2026-06-14 20:43:41
镜报:西汉姆无意低价出售萨默维尔,愿等世界杯结束后再谈判

镜报:西汉姆无意低价出售萨默维尔,愿等世界杯结束后再谈判

懂球帝
2026-06-17 02:24:26
国际足联世界杯争议引发了人们对其日益增长的加密货币合作关系的质疑

国际足联世界杯争议引发了人们对其日益增长的加密货币合作关系的质疑

七元宇宙
2026-06-16 06:06:25
2026-06-17 05:40:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19385文章数 49711关注度
往期回顾 全部

科技要闻

DeepSeek融资500亿,梁文锋牢牢握住控制权

头条要闻

美被指拒绝以色列看美伊谅解备忘录 以总理发声

头条要闻

美被指拒绝以色列看美伊谅解备忘录 以总理发声

体育要闻

身价5万的门将,挡住了12亿欧元的狂轰滥炸

娱乐要闻

吴文忻葬礼:2个女儿在灵堂内茫然失措

财经要闻

从123美元到62美元 白银价格上演过山车

汽车要闻

三车齐发 零跑全新C10/C11/C16上市12.58万元起

态度原创

教育
亲子
旅游
本地
军事航空

教育要闻

人工智能填志愿,关键学会这一招!

亲子要闻

童装巨头转型背后:一代人有一代人品牌,育儿观正重塑市场

旅游要闻

昆明早餐鄙视链:烧饵块、豆花米线、稀豆粉,本地人早餐怎么选?

本地新闻

这届年轻人为什么都在找心流时刻?

军事要闻

美伊达成谅解备忘录 内塔尼亚胡表态

无障碍浏览 进入关怀版