网易首页 > 网易号 > 正文 申请入驻

手机秒变超脑!微软Phi-3已经超越主流大模型!

0
分享至

上方蓝字关注我们

微软phi-3系列语言模型,尤其phi-3-mini,凭借创新数据集(精选网络数据与合成数据)和高效训练,实现小模型媲美Mixtral 8x7B、GPT-3.5的性能。该系列在MMLU、MT-bench等评测中展现卓越语言理解与对话能力,且phi-3-mini可通过集成搜索功能弥补知识局限。

人工智能领域的语言模型竞赛如火如荼,各路选手纷纷刷新记录,追求更大、更强。大型语言模型 (LLMs) 的规模从五年前的仅 10 亿个参数(GPT-2 有 15 亿个参数)猛增到今天的万亿个参数。这项工作的动力源于通过训练大型模型获得的看似可预测的改进,即所谓的缩放定律。

但是,这些定律假定数据源是“固定的”。这种假设现在被前沿LLMs本身的存在大大打乱了,它使我们能够以新颖的方式与数据进行交互。

近日,微软推出的phi-3系列,尤其是phi-3-mini,犹如一匹低调却实力超群的黑马,将顶尖的语言理解能力浓缩进一部普通的智能手机。

phi-3-mini,是一个在 3.3 万亿个Token上训练的 38 亿参数语言模型,通过学术基准测试和内部测试衡量,其整体性能可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美(例如,phi-3-mini 在 MMLU 上达到 69%,在 MT-bench 上达到 8.38%),尽管它足够小,可以部署在手机上。

数据炼金术:从海量信息中提炼智慧

phi-3系列的秘诀在于其独树一帜的训练数据集,这个“金矿”是对phi-2原有数据集的一次大规模升级。它由两部分构成:一是严格筛选过的网络数据,相当于从浩瀚网络海洋中捞取最有价值的“珍珠”;

二是由大型语言模型生成的合成数据,好比用AI“魔法棒”创造出全新的语言样本。这种创新做法打破了传统“固定”数据源的局限,揭示了一个秘密:巧妙利用大型语言模型筛选网络数据并创造合成数据,能让小模型发挥出大模型般的威力。这就好比给小个子穿上了一身隐形的“知识铠甲”,使其在战场上与巨人们平起平坐。

phi-3系列的数据炼金术,实质上是在有限的模型规模下,通过数据质量而非数量的提升,实现了性能的飞跃。这种方法不仅节省了计算资源,降低了环境成本,而且使高级AI技术得以在个人设备上部署,打破了对云端服务器的依赖。这意味着用户能随时随地享受高效的智能辅助,无需担心网络延迟或隐私泄露,进一步拉近了人工智能与日常生活的距离,为实现普惠AI迈出了坚实的一步。

实力对决:学术与内部测评双料赢家

phi-3-mini在各大“考场”上表现抢眼。比如在MMLU(一项大规模多学科知识问答测试)上,它取得了接近70%的好成绩,而在MT-bench(衡量语言模型作为聊天伙伴的综合实力)上,它也获得了8.38的高分,与Mixtral 8x7B、GPT-3.5等业界“巨人”比肩。

Phi-3-Mini 功能强大,可以在手机上本地运行。它的体积小,可以量化为4位,占用大约1.8GB内存。微软通过在配备 A16 Bionic 芯片的 iPhone 14 上部署 Phi-3-Mini 来测试量化模型,在设备上本地运行并完全离线,实现每秒超过 12 个Token。

不仅如此,phi-3家族还孕育出了两位“大块头”成员:phi-3-small(70亿参数)和phi-3-medium(140亿参数),它们经过更长时间的训练(4.8万亿次),实力更胜一筹,MMLU得分分别升至75%和78%,MT-bench分数也跃升至8.7和8.9。这些模型不仅能理解语言、推理逻辑,还特别适应聊天场景,与人交流起来就像一位善解人意的朋友。

phi-3-small 70 亿参数模型的 MMLU 分数为 75.3,优于 Meta 最近推出的 Llama 3 8B Instruct 的 66 分。

phi-3系列在权威测评中的优异表现,证明了其在语言理解、推理及对话交互等方面的卓越能力。这样的高水准表现意味着这些模型不仅能够准确理解用户的意图,提供精准的信息查询服务,还能进行复杂的问题解答和情境推理,甚至在聊天中展现出恰当的情感共鸣和人际互动。

知识补给站:搜索功能填补知识空白

虽然phi-3-mini在理解与推理上很有一手,但面对需要大量具体事实知识的任务,由于模型大小限制,它有时会显得力不从心,就像一个装满智慧却内存有限的小书包。不过,研究人员巧妙地引入了搜索引擎这个“知识补给站”。通过与HuggingFace Chat-UI的默认搜索功能相结合,phi-3-mini可以在需要时快速查找并整合外部信息,就像有了一个随身携带的“知识百科全书”。这样一来,面对复杂问题或需要特定事实的情境,phi-3-mini就能通过搜索“充电”,提高答案的准确度和全面性。

phi-3-mini与搜索功能的深度融合,本质上是构建了一个动态的知识获取与处理系统。这种设计巧妙地克服了小型模型存储容量的局限,使其在面对复杂或专业性强的问题时,依然能提供准确、详尽的答案。

这种即时知识补给机制,使得phi-3-mini在实际应用中更具灵活性和适应性,无论用户何时何地提出何种问题,都能得到近乎实时、高质量的回答。

这种能力不仅提升了AI助手的实用性,也为用户节省了大量自我搜索信息的时间,极大地提高了工作效率和生活质量。此外,这种结合方式也为AI与互联网资源的高效协同树立了典范,预示着未来AI将更加紧密地融入全球知识网络,成为人类获取和处理信息的重要桥梁。

结语:迈向普及化智能

phi-3系列,特别是phi-3-mini的成功,标志着语言模型技术的一个重要里程碑:将强大语言理解能力微型化并实现在手机上的本地部署,预示着人工智能应用普及的新纪元。

它打破了大型模型对高性能的垄断,让普通消费者无需依赖云端服务即可享受高质量的人工智能辅助。例如,据传闻,苹果计划今年为其设备引入自己的大型语言模型(LLM),完全用于设备本身的本地操作。与基于云的解决方案相比,这种方法应该提供更快的响应时间和更容易的数据保护。

phi-3系列不仅展示了技术创新的力量,更向我们提出了关于人工智能未来形态与应用模式的深刻思考。随着技术的进步,我们期待看到更多类似phi-3这样的小型、高效且负责任的AI解决方案涌现,它们将在更广泛的设备上运行,更紧密地融入日常生活,成为人类知识探索、决策支持和沟通交流的强大工具。

已有超过2000名

读者加入交流群

我们还在等你

点这里关注我,记得标星哦~

CLICK TO SEE YOU LOOK THE BEST

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
惊天逆转!吴宜泽晋级决赛再收3个好消息,没想到艾伦竟然这样说

惊天逆转!吴宜泽晋级决赛再收3个好消息,没想到艾伦竟然这样说

曹说体育
2026-05-03 10:03:39
美国国务院宣布:批准向以色列、阿联酋、卡塔尔和科威特的86亿美元巨额军售!且不需国会审查

美国国务院宣布:批准向以色列、阿联酋、卡塔尔和科威特的86亿美元巨额军售!且不需国会审查

鲁中晨报
2026-05-02 18:03:06
格力原董事长投案,全网都在找董明珠——被踢走十年,交出了什么

格力原董事长投案,全网都在找董明珠——被踢走十年,交出了什么

一口娱乐
2026-05-03 21:48:03
夏洛特公主11岁生日,新照长发似男相,尊贵蓝眼彻底消失,太像了

夏洛特公主11岁生日,新照长发似男相,尊贵蓝眼彻底消失,太像了

聪明的橙子hj
2026-05-03 16:45:49
爆满,限流!红色预警!在湖北的人请提前准备

爆满,限流!红色预警!在湖北的人请提前准备

极目新闻
2026-05-03 18:46:08
俄乌战场悄然转折:俄罗斯4月净损失67平方公里土地!

俄乌战场悄然转折:俄罗斯4月净损失67平方公里土地!

项鹏飞
2026-05-02 15:29:58
计划不变,今晚夺冠!全体蓝黑人都有了!静候第二十一冠!

计划不变,今晚夺冠!全体蓝黑人都有了!静候第二十一冠!

狗哥是一名内拉
2026-05-03 19:50:37
年轻人累死累活挣三四千,老人拿七八千退休金,该如何解决?

年轻人累死累活挣三四千,老人拿七八千退休金,该如何解决?

猫叔东山再起
2026-05-02 10:40:17
笑死!猛龙帮湖人续命!詹姆斯谢谢您咧!

笑死!猛龙帮湖人续命!詹姆斯谢谢您咧!

柚子说球
2026-05-03 10:59:58
世乒赛捷报:男团爆冷!张本智和被剃光头,日本新星被打的没脾气

世乒赛捷报:男团爆冷!张本智和被剃光头,日本新星被打的没脾气

阿晞体育
2026-05-04 00:13:06
大量游客夜爬泰山突遇降雨大风,厕所挤满过夜的人,有商铺售夜间休息位60元到100元,景区:建议出行前关注天气

大量游客夜爬泰山突遇降雨大风,厕所挤满过夜的人,有商铺售夜间休息位60元到100元,景区:建议出行前关注天气

极目新闻
2026-05-03 13:38:50
去城里的姑父家拜年,姑姑让我滚,后来她从新闻上看到我任命县长

去城里的姑父家拜年,姑姑让我滚,后来她从新闻上看到我任命县长

千秋文化
2026-04-30 18:46:59
丑哭了!迪奥活动上的热巴,造型真的一言难尽,王亚飞被骂上热搜

丑哭了!迪奥活动上的热巴,造型真的一言难尽,王亚飞被骂上热搜

动物奇奇怪怪
2026-05-01 03:05:19
马刺VS森林狼赛程出炉,华子伤情更新,戈贝尔文班亚马英雄相惜

马刺VS森林狼赛程出炉,华子伤情更新,戈贝尔文班亚马英雄相惜

世界体育圈
2026-05-03 09:47:36
张雪发出请求

张雪发出请求

第一财经资讯
2026-05-03 17:12:30
突然发现一个残忍真相:极度自律,每天锻炼的人,不一定能长寿,但是,极度自私,不为任何人、任何事操心的人很可能长寿

突然发现一个残忍真相:极度自律,每天锻炼的人,不一定能长寿,但是,极度自私,不为任何人、任何事操心的人很可能长寿

LULU生活家
2026-05-02 08:35:04
阿莱格里:我们绝不能就这样把过去10个月的努力付诸东流

阿莱格里:我们绝不能就这样把过去10个月的努力付诸东流

懂球帝
2026-05-04 00:33:17
贝克汉姆迎51岁生日,贝嫂大方晒老公腹肌泳装,长子沉默令人心寒

贝克汉姆迎51岁生日,贝嫂大方晒老公腹肌泳装,长子沉默令人心寒

译言
2026-05-03 08:10:06
白宫28岁女发言人宣布怀孕了,记者们惊讶的是她60岁的老公。

白宫28岁女发言人宣布怀孕了,记者们惊讶的是她60岁的老公。

岁月有情1314
2026-05-03 17:58:56
一把手是没有办法监督的

一把手是没有办法监督的

职场资深秘书
2026-05-02 12:02:19
2026-05-04 01:08:49
AI范儿 incentive-icons
AI范儿
AI范儿是一个专注于人工智能领域的资讯和学习平台,提供最新的人工智能资讯
732文章数 671关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

游戏
亲子
旅游
数码
手机

扶我起来 《马拉松》未来多年将持续更新剧情

亲子要闻

曝光毒绘本:萨琪想要个小宝宝,明显教唆儿童学坏,家长朋友避坑

旅游要闻

日照五莲:文旅盛宴激活假日经济

数码要闻

自费测评aigoGS11耳机:一篇可能得罪厂商,但必须发出来的真实体验

手机要闻

华为多款新机销售表现曝光,畅享90 Pro Max激活百万台

无障碍浏览 进入关怀版