网易首页 > 网易号 > 正文 申请入驻

开源个狠活,世界杯 AI 模型竞技场!

0
分享至


这是苍何的第 550 篇原创!

大家好,我是苍何。

上一次卡塔尔世界杯,我还在结晶组织,那一年,我还没到 30 岁,我感觉我还有很多的牛逼没吹完。


我会和朋友们一起加班,一起喝酒,一起看球,那个时候我还很能喝,踩着箱子也能有一番天下无敌的猛劲。

梅西捧着大力神杯那刻,我们举杯而庆。冠军只有一个,但是所有人都有为自己的梦想去努力的机会。

贺伟说四年一度的世界杯就像年轮一样一圈又一圈的镌刻着历史的脚步,讲述着巨星们的叱咤风云或黯然神伤,也讲述着我们自己生命的推演。

我们热爱足球这项运动,因为它寄托了我们普通人平凡生活的英雄梦想

于是,我花几天时间,做了个世界杯 AI 模型竞技场网站。


我感觉非常的 Nice,我甚至迫不及待想要分享给你玩玩:


焦点对阵、模型对比,模型积分榜,非常有意思:


让 9 个主流 AI 大模型同台竞技,根据相同的规则和背景进行赛事预测,这 9 个大模型有 Claude Opus 4.8、ChatGPT 5.5、grok-4.2、gemini-3.5、qwen3.7-max、deepseek-v4-pro、
glm-5.1、kimi-k2.7-code、MiniMax-M3。


也是当下的顶级 AI 模型阵容了,根据模型的敏感度来进行预测


其中赛程数据和相关的各个球队的官方排名评分、近期进胜利球等数据也是直接从国际足联 FIFA 官方的 API 数据。


所以这个网站上的关于世界杯的数据是保持和 FIFA 同步最新的,也可以当做是一个了解世界杯赛程最新数据的网站。


而且,我已经把它开源了,你完全可以自定义你的模型 API 和想要竞技的模型,也可以 fork 后在 vercel 上部署,非常方便。


开源 GitHub 我放评论区了,觉得不错,可以点个 star 支持下哈。

说了这么多,你一定很好奇,我是怎么快速开发出来的吧,没错,vibe coding,但这次用的模型是 Kimi 最新最强的模型 kimi-k 2.7-code。

也刚好做了极致的该模型压力测试,该模型的 coding 能力,还蛮不错的。

目前 kimi-k 2.7-code 在 Kimi Code 和 Kimi API 中直接可以使用。

下面我也分享下搭建流程吧,如果对你有帮助的话请毫不留情的点赞。

首先,我把 Kimi Code 花了一点时间接入到了我的开源产品 WeSight,现在你只要更新 WeSight 到最新版本,就能在 WeSight 中使用 Kimi Code 了。


当然,你也可以直接在 WeSight 中使用 Claude Code,然后配置 kimi 的 API,模型选择 kimi-k2.7-code。


然后我把我的需求给了 GPT,,我想要让他帮我用 gpt image 2 生成设计稿。


我发现 gpt image 2 生成的设计稿真的是美啊,我想的是让模型读这个生成的设计稿,然后帮我生成代码。

刚好看到官方说 k2.7-code 在视觉推理任务中表现出色。模型能够读取视觉类型的 input,使用工具进行推理,并将结果转化为代码。


我给 kimi 的初始提示词是:

●●●帮我开发一个名为「AI World Cup(AI 世界杯擂台)」的网站。项目目标:让多个 AI 大模型预测世界杯比赛结果,并通过自动评分机制评选出预测最准的大模型。核心理念:不是博彩网站,不提供下注建议。这是一个 AI 模型预测竞技场。用户可以查看 GPT、Claude、Gemini、DeepSeek、Grok 等模型对同一场比赛的预测结果,并实时查看模型排行榜。

然后我把 gpt image 2 生成的图片丢给 k2.7-code 去读取:


我发现,读的非常快,页面的元素文字这些也能精准读取出来:


接下来,k2.7-code 就按照这个风格来帮我设计网站了,整个开发过程的速度还是非常快的,可能是我申请了 K2.7Code 高速版高速版的原因,输出速度非常快。


第一个版本长这样:


整体还原度还不错,但是左下角有个报错,我直接页面打开这个报错,然后截图丢给 K2.7Code ,让它自己修。


几乎是几十秒就修复好了这个问题,然后是精细化调整,比如模型调整成最新的顶流模型,它就会去搜索对应的 API 接入方式,然后来进行集成:


感觉 K2.7 Code 就像是个老实巴交的程序员一样,指哪打哪,不会出现乱改其他地方。


在输出的过程中,我发现这个地方有缺少队伍的名字,我同样截图发送需求进行更改:


你别说,这个多模态编程的能力确实强,它仿佛自己长了一双眼睛,非常精准。

我录了个视频,你看下,这个效果。

vibe coding 出 MVP 还是很快的,现阶段模型能力的提升,你几乎都能有一个你想要的 MVP 版本,但难的是后期的不断调整。

特别是数据源,你不给模型指定数据源,有些模型还真会给你一顿瞎搞,给你一堆看似正确的数据。

我发现 K2.7 Code 在这块表现不错,当我需要世界杯赛事数据的时候,它会去国际足联 FIFA 官方 API 查找数据,我都不知道原来是有公开免费数据可以获取的。

我以为还要自己去各种方式爬呢


给模型做分析的数据比较重要,我想了下除了历史交锋信息给到参考,还能有哪些呢,于是我把这个问题丢给了 K2.7 Code,他给了不少维度。


模型根据这些不同的维度结合自己的判断力及网上公开资料、训练集,给出自己认为的预测和评分,我觉得这样准确性会相对客观一些。

我发现,相对于 k2.6, K2.7 Code 在 reasoning-token 使用量会更低,感觉它会减少一些没必要思考,专注于任务本身。

在 agent 任务状态这个还是能省下不少 token 的,不过整体 K2.7 Code 价格相较于Claude Opus 4.7:输入成本降低 94%,输出成本降低 95%。


你完全可以用 K2.7 Code 先做一轮初始化任务,然后再交由 GPT 5.5 来进行 CR,会更省钱,效果也很不错。

不过我发现 K2.7 Code 也并非万能的,在长时任务上表现,会有一些达不到我的预期,使用/goal 命令有时候会自己停掉。

现在 AI World Cup Arena 这个项目也依旧还没多完美,比如历史的已经比赛过的数据,还是否需要模型来批量跑一遍数据。

为了搞这个竞技场,我把我中转站的 API 额度都干完了,烧了好几百块,现在也已经是欠费的状态,不知道有没有甲方爸爸看上这个项目的,赞助点 token。

我要穷哭了,搞 AI 的太花钱了,不得不说。

不过,也是真的开心,虽然现在没法再和朋友们一起喝酒吹牛看世界杯了,但我用另一种方式,参与了这届世界杯。

用代码写下预测,用 AI 模型替代酒桌上的争论,用一个人的深夜,换一群人的狂欢。

说实话,做这个项目的那几个通宵,我好像又找回了当年和兄弟们守在电视前等开球的那种兴奋感。技术在变,工具在变,但那份对足球的热爱,对未知结果的期待,从来没变过。

也许这就是技术最浪漫的地方吧,它让我们用自己擅长的方式,去靠近自己热爱的东西。

世界杯还在继续,AI 的竞技场也还在继续,如果你也想玩玩,欢迎来体验,顺便告诉我,你觉得哪个模型预测得最准。

我是苍何,一个热爱足球也热爱代码的普通人,我们下期见。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子买“退休可月领50万”保险,交费30年后保险公司变卦:系员工录错信息

男子买“退休可月领50万”保险,交费30年后保险公司变卦:系员工录错信息

新快报新闻
2026-07-04 11:44:05
彭博专栏作家:中国AI冲击正在撼动硅谷,应对之策绝非闭门恐慌

彭博专栏作家:中国AI冲击正在撼动硅谷,应对之策绝非闭门恐慌

风向观察
2026-07-04 14:24:16
55岁黄政民戒酒一年判若两人,网友:像年轻了10岁

55岁黄政民戒酒一年判若两人,网友:像年轻了10岁

小椰的奶奶
2026-07-03 18:13:41
高温下,哈梅内伊葬礼开始:6000个喷头洒水降温,5000万个面包,2500辆救护车

高温下,哈梅内伊葬礼开始:6000个喷头洒水降温,5000万个面包,2500辆救护车

红星新闻
2026-07-04 12:52:12
佛得角2-3憾负阿根廷,阿根廷发文致敬“伟大的对手”,佛得角门将:很多人觉得阿根廷会轻松取胜,我为小伙子们和自己骄傲,我们已尽全力

佛得角2-3憾负阿根廷,阿根廷发文致敬“伟大的对手”,佛得角门将:很多人觉得阿根廷会轻松取胜,我为小伙子们和自己骄傲,我们已尽全力

鲁中晨报
2026-07-04 10:30:19
斯卡洛尼:我们之前休息了六天现在却只剩三天半,这很难理解

斯卡洛尼:我们之前休息了六天现在却只剩三天半,这很难理解

懂球帝
2026-07-04 12:07:08
张本智和为何爆冷输球,没想到对手赛后这样说:我已经买好机票了

张本智和为何爆冷输球,没想到对手赛后这样说:我已经买好机票了

南海浪花
2026-07-04 12:28:08
不讲道理的巅峰!梅西狂揽12项历史第一,每项数据都是足坛天花板

不讲道理的巅峰!梅西狂揽12项历史第一,每项数据都是足坛天花板

听我说球
2026-07-04 09:29:12
拥抱球王!40岁佛得角门神哭了 封神之路:单场7扑+8扑 逼疯3冠军

拥抱球王!40岁佛得角门神哭了 封神之路:单场7扑+8扑 逼疯3冠军

念洲
2026-07-04 10:58:10
太尴尬了!一员工因到点下班,领导在全员群公开辱骂,反遭怒怼

太尴尬了!一员工因到点下班,领导在全员群公开辱骂,反遭怒怼

火山詩话
2026-07-04 08:11:30
宜昌一女生高考582分,查分后立即给警察发了条短信

宜昌一女生高考582分,查分后立即给警察发了条短信

极目新闻
2026-07-04 11:13:50
情侣住酒店亲密时遭窗外男子偷窥,法院:偷拍者赔7000元,酒店承担20%补充责任,两方出具书面道歉

情侣住酒店亲密时遭窗外男子偷窥,法院:偷拍者赔7000元,酒店承担20%补充责任,两方出具书面道歉

台州交通广播
2026-07-04 06:52:20
上海一男子竞选楼组长,被当众宣读犯罪记录,男子感到气愤当场报警;警方回应:确有此事,已告知其维权途径

上海一男子竞选楼组长,被当众宣读犯罪记录,男子感到气愤当场报警;警方回应:确有此事,已告知其维权途径

大风新闻
2026-07-04 10:31:27
世界杯16强格局:欧洲+美洲独占14席,亚洲球队全军覆没

世界杯16强格局:欧洲+美洲独占14席,亚洲球队全军覆没

橙汁的味道123
2026-07-04 11:32:26
净利润暴涨74394%!A股最离谱业绩,诞生了

净利润暴涨74394%!A股最离谱业绩,诞生了

说财猫
2026-07-04 06:03:52
惨败日本!名记灵魂3连问嘲讽CBA改革,3条件不利男篮出线成奢望

惨败日本!名记灵魂3连问嘲讽CBA改革,3条件不利男篮出线成奢望

后仰大风车
2026-07-04 07:10:13
驾校彻底凉凉!高考后为啥无人学车,不是孩子懒,是00后太清醒

驾校彻底凉凉!高考后为啥无人学车,不是孩子懒,是00后太清醒

生活魔术专家
2026-07-02 19:40:55
女子在洗浴店赤身吹头发时遭男顾客闯入,警方:系外地游客,因醉酒误入女浴室,未进行处罚,女顾客和店方已协商解决

女子在洗浴店赤身吹头发时遭男顾客闯入,警方:系外地游客,因醉酒误入女浴室,未进行处罚,女顾客和店方已协商解决

扬子晚报
2026-07-03 18:58:01
世界杯16强全诞生!欧洲7席南美4席,阿根廷vs埃及,8强预测如下

世界杯16强全诞生!欧洲7席南美4席,阿根廷vs埃及,8强预测如下

小火箭爱体育
2026-07-04 11:32:42
高考699分女孩报清华却被网暴,到底是谁在替她“不配”?

高考699分女孩报清华却被网暴,到底是谁在替她“不配”?

极目新闻
2026-07-04 09:49:07
2026-07-04 14:36:49
苍何
苍何
前大厂工程师,努力分享AI干货知识
133文章数 158关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

男子买"退休可月领50万"保险 交费30年后平台称录错了

头条要闻

男子买"退休可月领50万"保险 交费30年后平台称录错了

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

游戏
家居
房产
健康
公开课

《GTA6》PS联动仅一周下架!停盘争议连累宣发?

家居要闻

传奇筑 日常诗

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

听说少吃点能抗衰老?专家讲解!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版