观点网讯:10月20日,美团LongCat团队在中国正式发布VitaBench,这是一个高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准,旨在提升人工智能在真实环境中的适应能力。
VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频场景为载体,构建了包含66个工具的交互式评测环境。据介绍,该基准通过跨场景综合任务设计,增强了评测的实用性和覆盖面。
免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.