网易首页 > 网易号 > 正文 申请入驻

在亚马逊云科技上进行大语言模型评估

0
分享至

关键字: [FM Eval, Bring Your Own Dataset, Custom Evaluation Metrics, Third Party Models, Fm Eval Library, Sagemaker Studio]

本文字数: 400, 阅读完需: 2 分钟

导读

在这段视频中,Emily探讨了如何在亚马逊云科技上为大型语言模型(LLM)评估引入自定义数据集、模型和指标。她阐释了如何使用JSON行格式为不同工具(如自动LLM评估向导、基于人工的LLM评估和FM Eval库)格式化数据集,并利用特定的键值对。Emily还介绍了如何引入托管在SageMaker上的自有模型、第三方模型输出,或者直接使用FM Eval库指向第三方模型,例如Bedrock、Hugging Face或ChatGPT。另外,她演示了如何通过继承评估算法接口并提供自定义辅助模型来创建自定义评估指标。该视频包含实际操作演示,展示了如何在FM Eval库和SageMaker Studio向导中使用自定义数据集,以及引入自定义模型和创建自定义评估算法的示例。

演讲精华

在这段视频中,Emily详细阐述了如何在亚马逊云科技(AWS)上利用自定义数据集、模型和指标进行大型语言模型(LLM)评估。她首先解释了理解基础模型评估的工作原理,包括开源Python库和SageMaker控制台中的图形用户界面,两者提供了大致相同的功能,只是用户界面不同。

接下来,Emily深入探讨了如何引入自定义数据集、模型和指标,以实现完全透明和灵活性,构建任何所需的评估系统。她指出,无论是使用自动LLM评估向导、人工LLM评估还是FM EVAL库,都需要使用JSON行作为数据格式,其中每一行都是一个有效的JSON对象,包含键值对。

对于自动LLM评估向导和人工评估,数据集必须存储在S3存储桶中。而对于FM EVAL库,数据集可以存储在S3存储桶或本地路径中。不同方式对键的要求也不同。自动LLM评估向导需要”model input”和”target output”两个键,人工LLM评估需要”prompt”和”reference response”两个键,而FM EVAL库可以使用任意键,但需要在数据配置对象中正确设置。所有三种方式还可以包含一个”category”键,用于标记知识类别,以获得更深入的分析。Emily建议,如果数据集较大,可以考虑使用M5.8XLARGE或M5.12XLARGE实例类型,以获得更强大的计算能力;如果数据集较小,可以从ML.M5.4XLARGE实例类型开始。

接下来,Emily介绍了如何引入自定义模型。有三种类型的模型:1)托管在SageMaker上的模型,包括SageMaker JumpStart模型和自定义模型;2)在FM EVAL库中使用第三方模型输出;3)在FM EVAL库中直接指向第三方模型,如Bedrock、Hugging Face模型或ChatGPT。对于第三种情况,FM EVAL库提供了预构建的模型运行器,用户可以按照示例设置新的模型运行器,以便比较和对比不同模型的性能。

接下来,Emily讲解了如何在FM EVAL库中构建自定义评估指标。如果标准NLP数据集中没有适合业务需求的指标,用户可以创建自定义的分支,编写新脚本继承eval_algorithm接口,并提供自己的辅助模型进行二元分类等任务。辅助模型实际上是一个小型语言模型,用于对毒性、客户情绪、点击率或文档进行二元分类,输出一个数值或标量分数。

在实际演示部分,Emily展示了如何在SageMaker Studio中使用自定义数据集进行自动模型评估和人工评估。她首先从SageMaker常见问题中提取出问题和答案,并将其格式化为与T-Rex示例数据集相匹配的JSON行格式。然后,她在SageMaker Studio中创建了一个新的自动评估作业,指定了自定义数据集的S3路径。对于人工评估,她还更新了数据集中的键,使用”prompt”和”reference response”代替”question”和”answer”。

最后,Emily分享了如何在FM EVAL库中直接指向Bedrock、ChatGPT等第三方模型,以及如何导入第三方模型输出进行评估。她提供了相应的示例笔记本,展示了如何设置模型运行器、数据配置和评估算法。如果需要构建自定义评估算法,Emily建议在源代码的eval_algorithms模块中寻找类似的现有算法,并对其进行修改以满足特定需求。

总的来说,Amazon Web Services GenAI提供了灵活的方式,允许用户引入自定义数据集、模型和指标,满足各种大型语言模型评估需求。Emily的详细解释和实际演示,为用户提供了一步一步的指导,帮助他们充分利用这一强大功能。

总结

在这个富有洞见的演讲中,Emily深入探讨了在亚马逊云科技上评估大型语言模型(LLM)时,引入自己的数据集、模型和评估指标的复杂性。她首先解释了三个关键能力:自动LLM评估图形用户界面、基于人工的LLM评估,以及FM EVAL库。随后,Emily详细指导了如何格式化数据集,以便与这些工具无缝协作,强调了遵守每种方法的特定要求的重要性。

此外,她阐明了引入自定义模型的各种选择,无论是托管在SageMaker上、第三方模型输出,还是直接指向外部模型如Bedrock或ChatGPT。Emily还揭示了通过fork FM EVAL库并继承评估算法接口来集成自定义评估指标的过程,从而允许根据业务需求定制指标。

在演讲的结尾,Emily进行了一次实践演示,展示了这些概念的实际应用。她逐步演示了格式化数据集、利用SageMaker Studio界面以及利用FM EVAL库评估自定义模型和指标的步骤。Emily全面的指导使开发人员能够充分利用亚马逊云科技进行LLM评估,让他们能够引入自己独特的数据集、模型和评估标准。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 -- 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原来有人天生就是吃销售这碗饭的!网友:上班三天就开了千万大单

原来有人天生就是吃销售这碗饭的!网友:上班三天就开了千万大单

另子维爱读史
2026-02-12 19:09:59
战枪手破门,狼队球员布埃诺将进球献给了遭遇ACL重伤的弟弟

战枪手破门,狼队球员布埃诺将进球献给了遭遇ACL重伤的弟弟

懂球帝
2026-02-19 10:46:13
国乒出发新加坡,林诗栋黄友政一起,王曼昱状态不错,肖导跟赛了

国乒出发新加坡,林诗栋黄友政一起,王曼昱状态不错,肖导跟赛了

奇史怪谈
2026-02-19 10:11:54
1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

谈史论天地
2026-02-08 12:00:10
华尔街之狼闯入中国!贝莱德豪赌14万亿,这回真能全身而退?

华尔街之狼闯入中国!贝莱德豪赌14万亿,这回真能全身而退?

户外钓鱼哥阿旱
2026-02-17 10:27:23
全球炮弹荒爆大瓜:不是造不出,是高端炸药被少数国家焊死了饭碗

全球炮弹荒爆大瓜:不是造不出,是高端炸药被少数国家焊死了饭碗

老谢谈史
2026-02-05 15:27:23
两三块钱的 “硬核装备”!二踢脚为什么被戏称“民间重武器”?

两三块钱的 “硬核装备”!二踢脚为什么被戏称“民间重武器”?

Ck的蜜糖
2026-02-18 08:10:10
华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

观察者海风
2026-01-20 15:14:58
英伟达的天塌了,AI芯片果然被动了手脚!外媒:真有“后门”?

英伟达的天塌了,AI芯片果然被动了手脚!外媒:真有“后门”?

疯狂小菠萝
2026-02-18 20:03:53
黎智英老婆李韵琴,与同伙陈日君,现场旁听黎智英被判20年

黎智英老婆李韵琴,与同伙陈日君,现场旁听黎智英被判20年

南权先生
2026-02-12 15:40:51
霍震霆没想到,刚过完年,霍启山就好事将近,绯闻儿媳身份被深扒

霍震霆没想到,刚过完年,霍启山就好事将近,绯闻儿媳身份被深扒

时间最美的安排
2026-02-18 21:51:03
里奇-保罗:詹姆斯没有义务参加扣篮大赛 赢了人们也会说暗箱操作

里奇-保罗:詹姆斯没有义务参加扣篮大赛 赢了人们也会说暗箱操作

罗说NBA
2026-02-19 07:56:41
中国耻辱!到处洗白日军“侵华事件”,回国参加母亲葬礼被抓捕

中国耻辱!到处洗白日军“侵华事件”,回国参加母亲葬礼被抓捕

云霄纪史观
2025-12-30 00:30:44
马筱梅腹中娃名字曝光了 暗藏小心思!汪小菲逛夜市惊讶:人爆多

马筱梅腹中娃名字曝光了 暗藏小心思!汪小菲逛夜市惊讶:人爆多

达达哥
2026-02-19 10:37:17
深度揭秘 | 中海油原总经理李勇坦白受贿细节:外国代理商开车来,拿个箱子给钱

深度揭秘 | 中海油原总经理李勇坦白受贿细节:外国代理商开车来,拿个箱子给钱

一分为三看人生
2026-01-23 00:08:36
周总理接见一位中医,俩人一握手中医便点明要害,总理:名不虚传

周总理接见一位中医,俩人一握手中医便点明要害,总理:名不虚传

海佑讲史
2026-02-18 15:20:05
赵光义一脉掌权186年后近支尽灭,大宋皇位重回赵匡胤子孙手中

赵光义一脉掌权186年后近支尽灭,大宋皇位重回赵匡胤子孙手中

户外钓鱼哥阿旱
2026-02-19 05:41:40
最高7500万美元!詹姆斯退役巡演版权价值曝光 或重返骑士开启巡

最高7500万美元!詹姆斯退役巡演版权价值曝光 或重返骑士开启巡

郝小小看体育
2026-02-19 07:37:15
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
50岁的赵匡胤去世时,大儿子已经26岁,为何赵光义还能顺利继位

50岁的赵匡胤去世时,大儿子已经26岁,为何赵光义还能顺利继位

历史摆渡
2026-02-12 11:25:03
2026-02-19 11:36:49
大A小i2024
大A小i2024
小小AI爱好者
366文章数 0关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

向德国要1.3万亿欧元后 波兰又喊话俄罗斯"赔钱"

头条要闻

向德国要1.3万亿欧元后 波兰又喊话俄罗斯"赔钱"

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

烧光800亿后,外卖佣金终于开始上涨

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

房产
游戏
数码
亲子
公开课

房产要闻

顶豪抢房潮席卷全国! 中旅馥棠公馆项目395㎡大平层加推入市!

FF之父竟"叛逃"?坂口博信抛下FF14沉迷《DQ7RE》

数码要闻

399元 追觅推出自带线165W带屏移动电源:2C+1A

亲子要闻

春节出去遛娃,试试给孩子捏脊提升阳气

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版