![]()
作者|参商 西梅汁
编辑|星奈
媒体|AI大模型工场
![]()
国内大模型发展趋势|10月份解读
To C 端成必争之地
百度和阿里不约而同地将AI眼镜作为双十一切入消费市场的重要产品。
百度在10月下旬宣布,其首款消费级AI眼镜将于11月1日开启预售。这款眼镜深度整合了百度自研的文心一言4.0视觉增强模型,使其能实现实时物体识别、AR导航和多模态信息交互。这意味着AI从后台走向前台,成为用户日常生活中的实时智能助手,例如在博物馆参观时能自动讲解展品。
而这边,阿里的夸克AI眼镜则在10月24日率先开启预售。此次的亮点则结合了阿里生态的应用,例如支持通过支付宝的“看一看”功能进行生物识别支付,这为智能支付提供了新的交互想象。同时,与高德地图结合的近眼导航、淘宝的商品识价等功能,都体现了其致力于将AI能力融入具体生活场景的思路。
与百度、阿里聚焦于开拓AI眼镜这一新形态不同,科大讯飞在10月底的全球1024开发者节上,则进一步强化了其在AI软硬一体化方面的路径。
科大讯飞发布了星火AIPC,强调其并非简单叠加AI芯片,而是大模型能力与本地算力的深度融合,以支持更复杂的端侧实时交互。同时,讯飞也展示了其在智能办公本、翻译耳机等成熟硬件产品线上的技术迭代,重点提升了在嘈杂环境下的降噪和语音识别能力。这种基于自身技术长板,将AI能力持续注入特定办公、学习、翻译场景的策略,是科大讯飞布局To C市场的鲜明特点。
巨头们集体行动清晰地表明,AI大模型+硬件终端的模式已被视为下一代个人计算平台的重要方向。消费级AI硬件也在试图摆脱过去“功能单一、实用性不足”的标签,向集成了感知、理解和决策能力的个人AI助理上全面升级。
大模型战场换帅谋局,
大厂组织架构调整,押注 AGI长期主义
大模型战场换帅,押注长远。 十月,大厂通过人事调整聚焦AGI目标,创业公司加速商业化落地,以及资本市场对AI赛道持续看好但更加理性。
一个标志性事件是字节跳动Seed团队的人事调整,原负责人朱文佳的汇报对象,从CEO梁汝波转变为从谷歌DeepMind引进的研发负责人吴永辉。这一变动意味着吴永辉在组织架构上已成为字节大模型团队的"一号位"。这背后,反映出字节对突破"智能上限"的迫切追求,团队方向进一步向基础研究集中。同时,全球电商巨头亚马逊也正式宣布裁减约1.4万名公司职员,以精简运营并加速人工智能部署。
与大厂强化基础研究相呼应,头部创业公司也在十月份明显加快了商业化落地的步伐。李开复领导的零一万物在10月宣布了新一轮高管任命,核心战略是推动"一把手工程"。这意味着零一万物将其ToB业务全面升级。为此,他们还任命了拥有深厚政企背景的沈鹏飞为联合创始人,统筹国内ToB与ToG业务,并提拔了两位技术和管理骨干为副总裁,组建起覆盖市场、技术与国际业务的完整管理闭环。
不难看出,在激烈的AI竞赛中,大厂正通过优化内部结构和人才策略,为AGI的长期竞争夯实基础。
融资方面,资本向应用清晰的领域集中。曾凭借长文本能力引发关注的月之暗面,在10月被曝将完成新一轮数亿美元的融资。而专注于AI视频生成领域的爱诗科技,则更早地宣布完成了1亿元人民币的B+轮融资。其旗下的PixVerse等产品服务于C端大众与专业创作者,用户规模已突破一亿,并在商业化上取得了年度经常性收入超过4000万美元的进展。
总体来看,国内大模型领域的发展已经进入了一个更加务实和深入的新阶段。无论是大厂调整架构押注未来,还是创业公司全力冲刺商业化,竞争的焦点正从"比拼模型参数"转向"比拼场景落地与生态构建"。
告别Sora2独占,国内AI视频生成纷纷破局
OpenAI在9月底发布Sora2,这款被称作"AI版抖音"的视频生成模型仅两天内便斩获16.4万次下载,登顶美国App Store总榜第三时,全球AI视频赛道再次被点燃。而国内赛场并未出现单一的追随者,反而迎来了一场以“破局”为主题的集体进击。
长视频生成能力成为这一轮技术竞赛的核心战场。与Sora2专注于25秒视频生成不同,国内厂商更注重解决实际应用场景中的时长需求。
美团LongCat-Video采用Diffusion Transformer + 3D RoPE的创新架构设计,配合渐进式预训练和强化学习策略,在保证视频质量的同时大幅提升了生成效率。 而像生数科技这样的创新企业,则通过「参考生」功能的全球上线,将AI视频生成从单纯的文本驱动拓展到多模态融合的新阶段。
与此同时,AI视频能力正加速融入现有生态。百度在搜索升级中,将文心助手的视频生成功能无缝嵌入,用户通过自然语言就能直接创作。这展现了巨头将AI作为基础设施赋能核心业务的战略,推动技术从独立工具变为普惠服务。
国内AI视频生成已走出单纯对标国际模型的阶段,正通过聚焦长视频、优化落地效率及深度融合应用,构建差异化的竞争力。同时在Sora2依然保持封闭时,国内厂商也在通过开源构建生态,或许正是实现弯道超车的关键策略。
国内主要大模型进展
字节跳动
10月28日,字节跳动Seed团队(大模型与基础研究)汇报线调整,朱文佳改向吴永辉汇报,吴永辉成为团队绝对一号位。组织进一步聚焦“探索智能上限”,取消部分员工季度OKR,加大AGI研究投入,推动Top Seed人才计划。
10月23日,字节跳动Seed团队推出3D生成大模型——Seed3D 1.0,实现从单张图像到高质量仿真级3D模型的端到端生成。Seed3D 1.0 基于创新的Diffusion Transformer架构,通过大规模数据训练完成,可生成包括精细几何、真实纹理和基于物理渲染(PBR)材质的完整3D模型。
10月21日,豆包海外版Cici在墨西哥、英国、印尼、马来西亚、菲律宾等国Google Play/Apple Store免费榜登顶,10月墨西哥连续多日霸榜。Cici主打“免费”“能解数学题”,产品功能较国内豆包有所简化,未开放音乐、视频生成与内容分享,核心技术调用OpenAI GPT与Google Gemini。
百度
最近,根据LMArena 的最新排名显示,百度文心最新模型 ERNIE-5.0-Preview-1022(文心 5.0 Preview)在文本榜单上一举跃居全球并列第二、国内第一。
该模型取得了 1432 的高分,其与 OpenAI 的 gpt-4.5-preview-2025-02-27 以及 Anthropic 的 claude-opus-4-1-0805、claude-sonnet-4-5-20250929 三大国外顶级模型持平。
10月18日,百度健康在2025致敬医者盛典上发布百度健康AI管家。这款产品首创 “AI+真人”双保障模式,在模型训练阶段加入真人医生海量标注,AI生成健康建议后还会自主推送真人医生进行二次实时核验。
10月16日,百度搜索旗下AI短剧生成平台宣布启动公测。百度方面称,百度搜索AI短剧生成平台具备自动生成、人机协作等不同模式,可辅助创作者完成80%以上的内容创作。创作者在AI创作的基础上进行微调和优化,并生成短剧作品。百度称将通过亿元创作基金、百亿流量扶持、长期IP变现等方式给创作者提供支持。
10月15日,百度搜索宣布全面升级文心助手AIGC创作能力,支持AI图片、AI视频、AI音乐、AI播客等8种模态创作,且能够一键调用多工具解决多场景问题。截至目前,百度搜索用户日均生成AIGC内容已破千万。此外,百度搜索还发布行业首个开放式实时互动的数字人智能体。
阿里
10月30日,阿里妈妈“万相台AI无界”智能体助力双11,百万商品成交增长超30%,20万商品成交翻5倍,推动电商经营从“经验决策”迈向“智能经营”。
作为阿里旗下的数智经营平台,阿里妈妈在今年3月宣布实现AI全链路经营能力升级后,其技术成果在本届双11迎来全面大练兵。
10月24日,阿里巴巴旗下夸克正在推进一项名为“C计划”的重磅AI业务,旨在布局对话式AI应用,并可能与字节跳动的“豆包”展开竞争。该计划由夸克核心团队主导,并有多位通义实验室高级成员参与,显示出阿里在AI应用领域的长期投入和决心。
10月23日,夸克AI眼镜开启预售,阿里巴巴宣布,夸克AI眼镜S1将于10月24日零点在天猫、京东、抖音等平台开启预售,定价4699元,支持免提通话、实时翻译、会议转录等功能,12月交付。
同时,夸克AI眼镜S1预售首日11小时登顶天猫智能眼镜品类销冠,销售额碾压竞品三日总和,成为AI硬件爆款。
10月16日,阿里全新AI编程工具Qoder CLI(命令行界面)正式上线。该工具具备代码生成与理解能力,并大幅降低内存消耗和命令响应时间,进一步提升开发效率。即日起,全球开发者可通过任意命令行终端使用Qoder CLI体验代码生成、调试和部署等任务。
Qoder CLI在全球顶尖的编程模型基础之上进行了大量的工程设计,全面提升Agent能力:基于轻量级的Agent框架,可高效运行在普通笔记本电脑和云端沙箱实例,满足不同场景的开发需求。测试显示,Qoder CLI在空闲状态下消耗的内存比同类工具低70%。
10月15日,天猫双11预售开启,成为首个“AI全面落地”的双11。淘宝天猫推出6款AI导购应用(如“AI万能搜”“AI帮我挑”“AI试衣”等),赋能商家与消费者,提升购物体验与运营效率。平台算力提升40倍,用户行为序列感知从半年提升至10年,购买效率提升25%。
阿里十月动态,涵盖电商、B2B、智能硬件、医疗健康、银发经济等多维度。无论是AI全面赋能双11,还是夸克AI眼镜等硬件新品发布,均体现阿里AI技术向产业、消费、生态全链路深度渗透的趋势。
腾讯
10月31日,IDC《中国游戏云市场跟踪研究,2025H1》报告显示,腾讯云在游戏云用量规模维度持续稳居第一,并在整体收入维度增速领跑第一阵营。腾讯云依托混元大模型和AI实践经验,构建覆盖游戏创意构思、美术创作、研发测试、发行上线、运营增长的全流程技术支撑体系,AI成为游戏开发新引擎。
10月29日,腾讯混元宣布推出国内首个交互式AI播客,用户可在收听时随时打断主持人和嘉宾发言,通过语音或打字提问。基于大模型意图识别、长上下文理解、多轮对话和外部联网检索能力,播客可结合上下文给出准确答案。支持自定义播客风格、主持人数、音色,适用于财研报解读、新闻速递、知识教育等场景。微信公众号、腾讯新闻、ima、腾讯文档PDF已接入该能力。
10月23日,腾讯ima open day在北京举行,发布ima 2.0版本,并于24日启动内测。新版引入“任务模式”,支持报告、播客等内容生成,用户可通过自然语言提问,结合知识库、文档、图片、音频等附件,由大模型自主拆解、规划任务步骤并调用工具完成。
知识库新增“AI要点”功能,可自动生成结构化摘要,支持多任务并行与协作共享。ima已深入科技、金融、教育、医疗、法律、政务等20+行业,知识库文件总量达2亿。
10月22日,腾讯混元世界模型1.1(WorldMirror)正式发布并开源,新增支持多视图及视频输入,单卡即可部署,秒级创造3D世界。该模型解决了1.0版本仅支持文本或单图输入的局限,首次支持多模态先验注入和多任务统一输出的端到端3D重建,支持点云、深度、相机、表面法线和新视角合成等多种3D几何预测。
10月15日,QQ浏览器手机端上线“AI公考通”功能。这是一款面向公考考生的免费智能选岗工具,针对公考人群普遍面临的信息差难题,主打公告全、推荐准。
据介绍,AI公考通依托腾讯云Kafka和TDSQL-C构建的高性能数据管道,可以快速汇聚全国数万个官方招考站点的海量信息,更新快、查得快。
科大讯飞
在10月24日至11月6 日举办的第八届世界声博会暨科大讯飞全球 1024 开发者节上,科大讯飞围绕“更懂你的 AI”主题,集中发布了大模型、软硬一体方案、开发者生态与行业应用三大板块的十余项核心信息:
星火深度推理大模型X1.5 正式亮相:293B 总参数、30B 激活量的 MoE 架构,推理效率较 X1 翻倍;数学、代码、多语言(130+ 语种)等六大能力对标国际主流,国产算力平台实现 84% 长思维链训练效率与 520% 非自回归语音大模型推理成本下降 。
首个“多模态语音交互”机器人方案落地:与四川长虹联合推出 1.6m 人形导购机器人“虹曦”,支持多人连续对话、中英混合、视觉-激光雷达导航、情绪屏交互,8h 续航,已在商业场景批量部署
讯飞输入法 15.0 & AI 键盘:新增侧滑“AI 键”,打字自动补句、语音输入即时语义修正;接入星火高效率语音大模型,离线听写准确率提升 25%,中英混输提升 55% 。
AI 轻办公四大产品全线升级:智能办公本、录音笔、翻译机、会议耳机新增“星火纪要、星火同传、星火笔记”等原生能力,并开放 API / SDK 供开发者二次开发。
海尔-讯飞“纯境零添加”适老电视首发:搭载 AI 知源大模型,方言交互、情绪感知、大字体 UI,入选国家三部委 2024 视听系统典型案例。
星辰智能体平台 2.0 & 原生支持RPA的开源框架Astron:提供 8 大行业模板、个性化声像复刻、自动化执行与效果评估工具,开发者可“零代码”拼装企业级 Agent。
开发者生态最新数据与“星火点亮全球”计划:开放平台开发者达 968 万(年增 200 万),大模型企业开发者增长 125%;2025 AI 开发者大赛吸引 3.6 万支团队、生成 4,622 个垂直智能体;联合 14 国伙伴启动出海扶持,输出多语言与国产算力方案。
300+“开箱即用”行业智能体集中展示:已落地“星火行业分析师”(国内首个通过工信部大数据分析师认证,得分 92 分,超 85% 人类考生)等多个标杆 AI 员工,覆盖政务、金融、工业、教育、医疗等场景。
本届开发者节凸显科大讯飞在技术自主可控、场景深度落地、生态开放共赢三大战略方向的突破。从星火大模型的多模态能力升级到 AI 硬件的全栈国产化,从行业大模型的精准赋能到全球化市场的加速布局,科大讯飞正通过 “算力 + 算法 + 数据” 的闭环生态,推动人工智能从技术创新迈向产业普惠。
MiniMax
十月,MiniMax在AI领域动作密集,从文本大模型M2开源登顶全球榜单,到视频、语音、音乐多模态模型“全家桶”发布,再到海螺AI、星野APP应用迭代,均体现其“高性能+低成本+全模态”的技术路线与生态布局。
10月31日,MiniMax正式发布新一代AI音乐生成模型Music 2.0,致力于降低音乐创作门槛,让普通人也能轻松制作专业级歌曲。该模型基于多模态AI架构,训练数据涵盖海量音乐作品,支持从人声演唱到完整编曲的全流程生成,单首歌曲最长可达5分钟,覆盖流行、摇滚、爵士等多种风格。
Music 2.0最大亮点在于人声表现细腻,可通过提示词控制音色与情感,如“低沉男声”或“渐入高潮的女声”,并支持男女对唱与多声部设计。编曲方面,能自动生成主歌、副歌、桥段结构,用户还可指定“钢琴主线+萨克斯独奏”等复杂配置。音质达44100Hz采样率、256kbps比特率,支持MP3/WAV格式,细节清晰、动态饱满。
10月28日,MiniMax发布新一代视频生成模型海螺2.3,在动态表现力、风格化呈现与人物表演细腻度方面实现显著突破,支持复杂动作与微表情生成,性能对标Google Veo。同步推出Fast版本,B端工业级应用成本降低50%,实现“加量不加价”。
此外,MiniMax发布Speech 2.6语音模型,针对Voice Agent场景深度优化,首包响应时间压至250ms,解决语音交互“卡顿感”,支持高鲁棒性声音复刻与自动文本规整。
10月27日,MiniMax发布并开源新一代文本大模型M2,激活参数10B(总参230B),在全球权威Artificial Analysis榜单总分位列全球前五、开源第一,性能逼近GPT-5、Claude 4.5等顶尖闭源模型。综合成本仅0.53美元/百万Token,不到Claude 4.5的8%,推理速度提升近一倍。模型专为编码与智能体任务深度优化,上线5天即登顶OpenRouter全球调用量第7、编程场景第3。
商汤科技
近日,商汤日日新在空间智能领域实现重要突破,正式发布并开源SenseNova-SI系列模型。在多项权威评测的空间理解和推理任务上,SenseNova-SI 不仅大幅度领先同量级开源多模态大模型,还超越了 GPT-5 和 Gemini 2.5 Pro 等国际顶尖闭源模型的表现。
10月15日,商汤科技与寒武纪签署面向新发展阶段的战略合作协议,重点推进软硬件的联合优化,并共同构建开放共赢的产业生态。
在芯片适配方面,双方将积极推进最新型号的软硬件产品适配,联合打造面向算力市场的服务方案;在一体机解决方案上,双方将聚焦企业服务等垂直行业场景,紧密结合各自软硬件能力,打造面向垂直领域的一体机解决方案。
此外,双方还将共同探索在优势区域市场的深度协同,汇聚地方产业资源和行业服务优势,构建更具活力和影响力的区域人工智能繁荣生态。
月之暗面
近日,月之暗面正式发布了Kimi-k2 thinking模型,其为具有通用Agentic能力和推理能力的思考模型,擅长深度推理,可以通过多轮工具调用,解决各类复杂的难题。尽管是完全开源,该模型目前在多项标准评估中的表现已超过OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5(思维模式)以及xAI的Grok-4,这标志着开放AI系统竞争力的一个历史性拐点。
开发者可以通过 platform.moonshot.ai 和 kimi.com 访问该模型;权重和代码托管在 Hugging Face 上。开源发布包含了聊天、推理和多工具工作流的API。用户可以直接通过其类似ChatGPT的网站以及Hugging Face空间试用Kimi K2 Thinking。
10月31日,月之暗面正式开源Kimi Linear混合线性注意力架构,引入Kimi Delta Attention(KDA)模块,大幅压缩KV缓存并提升解码吞吐量。在百万token上下文长度下,解码吞吐量可达全注意力架构的6倍,KV缓存缩减75%,同时保持高精度。
Kimi Linear的核心是线性注意力模块Kimi Delta Attention(KDA),通过更细粒度的门控机制扩展了Gated DeltaNet,从而能够更有效地利用有限状态RNN内存。论文中指出,Kimi Linear既可以满足Agent对效率和测试时扩展的需求,同时也不会牺牲模型质量。Kimi在社交平台X发布帖子称,Kimi Linear随时可以作为全注意力的直接替代品。
10月24日,据《科创板日报》等媒体报道,月之暗面近期将完成新一轮融资,金额达数亿美元。领投方或为腾讯,五源资本大概率参投,美国资本亦有沟通。此轮融资对经历DeepSeek冲击、融资沉寂后的月之暗面至关重要,有望助力其重回大模型“牌桌”。
DeepSeek
10月20日,国产大模型公司DeepSeek宣布开源其最新研究成DeepSeek-OCR,一款参数量约30亿(3B)的光学字符识别(OCR)模型。这款模型最大的亮点,在于首次通过“光学二维映射”技术,实现了长文本上下文的高效压缩,在传统OCR识别的基础上,让模型具备了更强的语义理解与结构感知能力。
据介绍,DeepSeek-OCR拥有约30亿参数,在性能与体量之间实现了平衡。它采用“光学二维映射”技术,将图像中的文字、段落位置、排版结构等视觉要素,一并编码成二维空间信息,再通过语义映射压缩算法,把这些信息转化为模型可以理解的“上下文语义表示”。
10月23日,快手StreamLake今天宣布推出“工具+模型+平台”三位一体AI编程产品矩阵,包括智能开发工具CodeFlicker、多个自研大模型KAT-Coder以及大模型平台快手万擎(Vanchin),为企业与开发者构建AI编程新生态。其中KAT-Coder-AirV1版本将面向所有用户免费使用。
生数科技
10月21日,生数科技发布Vidu Q2“参考生视频”功能,支持多图参考生视频、视频延长(普通用户免费延长30秒,付费用户最长5分钟),APP从AI创作平台转型为一站式AI内容社交平台,API全面开放接入。
爱诗科技
10月17日,爱诗科技宣布完成1亿元人民币B+轮融资,由复星锐正、同创伟业、顺禧基金等共同投资,光源资本担任独家财务顾问。这是继9月10日完成超6000万美元B轮融资(由阿里巴巴领投)后,两个月内完成的又一轮大额融资,创下国内视频生成领域连续融资纪录。
美团
10月25日,美团开源了其首款视频生成大模型——LongCat-Video。该模型面向多任务视频生成场景,旨在以统一架构支持文生视频、图生视频以及视频续写三种能力。
不同于以往针对单一任务训练的模型,LongCat-Video通过多任务联合训练机制,在同一框架内即可处理零帧、单帧及多帧条件输入。
此外,LongCat-Video重点突破了长视频生成难题,原生支持输出5分钟级别的视频。相比常见模型在长时序生成中易出现的画面漂移、色彩偏移等问题,该模型通过在视频续写任务上的原生预训练,保持了较高的时间一致性与视觉稳定性。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.