品玩1月20日讯,据 marktechpost 报道,NVIDIA研究院近日推出PersonaPlex-7B-v1,一款基于Moshi架构的70亿参数全双工语音到语音对话模型。该模型摒弃传统ASR→LLM→TTS级联流程,采用统一Transformer架构,在单一网络中同步处理语音理解与生成,支持自然打断、重叠语音、快速轮转及上下文感知的反馈词(backchannels)。
PersonaPlex通过混合提示机制实现精准角色控制:音频提示定义音色与韵律,文本提示设定角色身份与业务场景,系统提示可包含名称、机构等结构化信息。模型以Helium为语言主干,训练数据融合1,217小时真实Fisher对话与2,250小时合成客服/助教场景数据。
在FullDuplexBench与ServiceDuplexBench评测中,其轮转接管率达90.8%,中断响应延迟低至240毫秒,显著优于现有开源及商用系统。代码已按MIT协议开源,模型权重遵循NVIDIA开放模型许可。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.