网易首页 > 网易号 > 正文 申请入驻

密苏里大学许东:大模型时代,Prompt 为生物信息学研究带来新动力丨IJAIRR

0
分享至

在生物信息学领域,Prompt不再是炼金术。

作者丨陈鹭伊

编辑丨岑峰

自ChatGPT在2022年横空出世,人工智能领域便迎来了一场新的革命。大语言模型(LLMs)以其卓越的文本处理能力,迅速成为研究者和开发者的新宠。随着这些模型的崛起,如何与它们有效交互的问题也日益凸显,提示词(Prompt)的概念逐渐成为研究的热点。

但什么是提示词?在早期的计算机交互中,提示词是指在提示符(如MS Dos的C:>或Python的>>>)左侧,用户输入以激发系统做出响应的指令。而在大模型的语境中,提示词则是一种引导性的语句或问题,它犹如魔法咒语,激发着大语言模型的潜能,引导它们按照我们的指令生成文本、回答问题或执行任务。

在与大语言模型的互动中,提示词就像是一把打开知识宝库的钥匙。它不仅是一座沟通的桥梁,更是挖掘语言模型深层潜力的工具。ChatGPT的创始人Sam Altman将提示词工程(Prompt Engineering)视为一种用自然语言编程的黑科技,认为这是一种能够带来高回报的技能。

能否让ChatGPT或其他大语言模型给出满意的答案,很大程度上取决于你如何巧妙地使用提示词。随着人工智能生成内容(AIGC)时代的到来,提示词的价值和重要性愈发凸显。

然而,Prompt技术的复杂性远超我们的想象。早期的研究者们在探索Prompt技术时,仿佛是在进行一场炼金术式的探索,充满了不确定性和偶然性。他们通过不断尝试不同的提示词,试图找到能够激发大语言模型最佳表现的“魔法咒语”。这种方法虽然在某些情况下能够奏效,但却缺乏系统性和可复制性。

为了让Prompt技术更进一步,它必须经历一场“从炼金术到化学”的系统发展过程。这意味着我们需要将Prompt技术从一种基于经验的技艺,转变为一门基于科学原理的工程学科。这需要对现有的Prompt技术进行深入的分析和总结,建立起一套完整的理论体系和方法论。

例如:不同的提示词是如何影响大语言模型的理解和生成的?在不同的应用场景下,应该以什么样的原则,去设计和优化提示词?近日,相关论文之一《Iterative Prompt Refinement for Mining Gene Relationships from ChatGPT》,上线期刊《International Journal of Artificial Intelligence and Robotics Research》(IJAIRR)。

该论文聚焦于大语言模型在生物信息学领域的应用,主要研究了如何利用大型语言模型(如ChatGPT)来挖掘基因关系,并提出了一种迭代提示优化技术来提高预测基因关系的准确性。论文为生物信息学研究者使用ChatGPT改善工作流程、提高工作效率提供了一种新的思路。

借论文上线,密苏里大学哥伦比亚分校计算机系许东教授向AI科技评论分享了人工智能大型模型在生命科学领域的影响,以及他对如何更好地将大型语言模型应用于生物信息学研究的思考。

论文链接:https://gairdao.com/doi/10.1142/S2972335324500054

论文引用链接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500054&area=0000000000000001

1

生物信息学:

迎接第二次繁荣期

回望上个世纪90年代,那是一个被形象地称为生物信息学研究的“寒武纪”时期。人类基因组计划的启动、全球蛋白质结构预测竞赛的举办,以及生物学信息量的爆炸性增长,加之信息技术的跨时代发展,共同为生物信息学带来了第一次黄金时代,使其成为当时的前沿学科之一。如今,随着人工智能技术的突破,特别是AI大模型在生物信息学中的应用,我们有望迎来生物信息学的第二个繁荣期。

许东教授正是上世纪90年代生物信息学黄金期的亲历者之一。他指出,在生命科学领域,人工智能大型模型的应用已经变得日益广泛,其应用主要集中在以下几个方面:

  • 蛋白质模型:通过利用蛋白质序列训练出的大模型,可以进行各种蛋白质预测任务,包括新蛋白质的设计;

  • 单细胞模型:单细胞数据量巨大,通常一个单细胞实验就涉及数千到数百万个细胞。基于单细胞转录组数据训练的大模型,能够进行大规模的单细胞数据分析;

  • 医学多模态模型:通过整合医学文本(如病历、医生笔记)、图像和其他检查报告等多种数据类型,训练出的大模型,可以用于医学数据分析;

除了上述三个主要领域外,其他如核酸定位、蛋白质与DNA/RNA的相互作用等方面,也有研究者在开发相应的大模型。这些应用场景能够辅助生物信息学家以更快、更精确的方式处理生物信息学问题,从而提升研究效率并降低成本。

然而,尽管AI大模型在生物信息学领域的应用已经取得了一定的进展,但大模型在生物信息学领域的应用目前仍处于早期发展阶段,并存在着许多挑战。首先遇到的一个问题是,AI大模型需要大量高质量的生物信息学数据,但这些数据的质量和完整性可能存在问题;同时目前AI大模型的解释性和可解释性可能存在问题,“幻觉”的存在严重影响着研究的可靠性。

如何解决上述问题,让AI大模型在生物信息学研究中发挥更大作用?许东告诉AI科技评论,Prompt技术为生物信息学领域提供了一种灵活且易于实施的方法,尤其在数据资源有限的情况下,Prompt技术仍可能成为主流方法之一。

2

用提示学习提升AI模型的精准度

在机器学习领域,将Prompt从“基于经验”转变为“基于科学原理”的做法被称为“提示学习”。聊天机器人之所以在很大程度上依赖于提示,是因为ChatGPT的预训练模型中存在大量知识,为了更好地利用这些知识和能力,OpenAI采用了基于人类反馈强化学习(RLHF)方法,通过人类输入来“比对”语言从而达到人机交互的目的。因此,必须仔细设计聊天机器人的提示,以获得有价值、准确和稳健的响应。

提示学习的核心在于将用户输入的文本转化为特定的提示(prompt)格式。这一过程通常包括两种模式:第一种是自编码模式,采用文本中间占位符的自然语言模板,让大模型在指定占位符让生成答案文本。第二种是自回归模式,给大模型提供问题与背景信息,让大模型自由发挥生成答案文本。这些方法实质上是为预训练语言模型设计任务,包括输入模板、标签样式以及模型输出与标签的对应关系。

论文的研究正是在此基础上,将自回归模式的提示学习用于复杂的生物信息学场景中,并利用迭代提示优化、思维链等技术,通过与ChatGPT的交互,逐步优化提示,以提高预测基因关系的准确性。

(利用 GPT 模型进行基因关系挖掘的迭代提示细化框架。该方法利用 GPT-4 的高级逻辑能力来自主改进提示,并利用 GPT-3.5 的低成本和高速进行初始基于事实的查询处理。)

这项工作的关键点之一是元提示设计(Meta-Prompt Design):元提示为对话机器人设定角色,提示来指导GPT-4进行提示优化,增强回答的专业性。元提示包含具体指令,如改变角色、省略细节等,以提高提示的有效性。

另一关键点则是迭代优化技术的引入,利用GPT-4的能力进行迭代提示优化。首先使用GPT-3.5生成基因关系提示,然后评估这些提示的效果(如F-1分数、精确度和召回率);将预测结果与实际数据(如KEGG数据库)进行比较,识别错误和不足,然后将这些反馈信息用于进一步优化提示;最后将优化后的模型应用于KEGG Pathway Database进行基准测试,以验证其在解析复杂基因关系和疾病相关途径方面的有效性。

此外,论文还引入了思维链(Chain-of-Thought)和思维树(Tree-of-Thought)策略,引导ChatGPT进行更深入的逻辑推理,提高答案的准确性和深度;同时将复杂问题分解为更易于管理的子问题序列,逐步引导ChatGPT构建更完整的答案,这种方法特别适用于复杂的基因关系网络构建。

实验结果表明,通过迭代提示优化技术,ChatGPT在预测基因关系方面的准确性显著提高。特别是在复杂基因关系和疾病相关途径的解析中,展示了其潜力和有效性。

3

生物信息学研究的新动力

“Prompt技术在生物信息学领域具有显著的优势。”许东告诉AI科技评论,首先,Prompt技术的数据需求低,不需要大量的数据即可进行训练,因此在小数据集上表现出色。这对于生物信息学领域尤为重要,因为许多生物医学数据集规模有限;其次,由于是在大型预训练模型的基础上进行操作,Prompt技术易于实施和应用;最后,生物信息学中许多问题本质上是小数据问题,Prompt技术因此具有广泛的应用前景和场景。

在解释迭代提示优化技术如何有效解决大型语言模型中的“幻觉”问题时,许东认为,不仅仅是大型语言模型,人类自身在某些情况下也会出现类似的“幻觉”现象。例如,人们可能会错误地回忆某些事件的细节,这并非有意误导,而是记忆出现了偏差。

大型语言模型的“幻觉”原因大致可分为三类:1)误解用户问题;2)训练数据的混淆导致生成回答时出现混淆;3)缺乏反思能力,未能有效识别和纠正自身的错误。而迭代提示优化技术正是针对这三类原因对症下药,通过迭代优化,模型能够更准确地理解用户的问题和提示,减少误解;同时增强知识概括,有助于模型更好地概括和区分训练数据中的知识,避免信息混淆;最后,迭代优化使模型具备更强的、类似于人类的思考过程自我反思能力,能够识别并改进生成的回答。

与传统方法相比,迭代提示优化技术通过模拟人类的学习和思考过程,使模型在处理复杂问题时更为高效和协调。这种方法比传统的基于规则的系统更具灵活性和适应性,能够处理更广泛的任务和数据类型。因此,通过这种方法,大型语言模型在生成回答时的准确性和可靠性得到了显著提升,减少了“幻觉”现象的发生,从而在生物信息学等领域展现出更大的应用潜力。

许东同时还表示,尽管Prompt技术的应用前景广阔,但其自身也存在一定的局限性,如高度依赖于训练数据的质量和代表性、泛化能力受限等,同时在论文中许东也提到,模型的性能波动和对训练数据的敏感性表明需要进一步的优化和迭代策略。未来的工作可能包括模型定制、更先进的迭代提示算法开发以及在更广泛的研究问题中评估方法的有效性。

“虽然并非所有问题都适合这种方法,但可能相当比例的问题,可能通过大模型和Prompt技术得到更准确的解决方案。”谈及Prompt技术在生物信息学领域的未来潜力,许东充满信心。“大模型在很多领域还有着很大的优化空间,例如现在缺乏专门的生物信息学的大模型,而随着大模型的发展,Prompt技术将在这些模型上发挥更大的作用。”

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
建行储蓄卡未离身却遭连续盗刷,近1.5万元流向三省,深圳警方向三地警方发协查函

建行储蓄卡未离身却遭连续盗刷,近1.5万元流向三省,深圳警方向三地警方发协查函

大风新闻
2026-02-18 17:37:03
官方:广州龙狮正式签约前NBA球员德翁特-伯顿

官方:广州龙狮正式签约前NBA球员德翁特-伯顿

懂球帝
2026-02-19 13:06:06
金晨王安宇剧组夫妻!沙滩上缠绵假戏真做,旁若无人忘我激吻没眼看

金晨王安宇剧组夫妻!沙滩上缠绵假戏真做,旁若无人忘我激吻没眼看

八卦王者
2026-02-19 14:28:52
明朝古墓挖出将军骸骨,颈骨砍断坐实百年传闻,网友泪目:真英雄

明朝古墓挖出将军骸骨,颈骨砍断坐实百年传闻,网友泪目:真英雄

小豫讲故事
2026-02-19 06:00:05
丁勇岱除夕陪妈过年,89岁母亲一人住北京,母子睡客厅1.3米小床

丁勇岱除夕陪妈过年,89岁母亲一人住北京,母子睡客厅1.3米小床

离离言几许
2026-02-18 14:41:18
欧洲小偷,都传疯了,达成了一个行业共识,中国人的钱包,随便拿

欧洲小偷,都传疯了,达成了一个行业共识,中国人的钱包,随便拿

西楼知趣杂谈
2026-02-14 18:35:51
上海门店一夜清零,总部门牌都拆了:又一知名老牌,倒在了春节前

上海门店一夜清零,总部门牌都拆了:又一知名老牌,倒在了春节前

财经保探长
2026-02-18 21:46:05
灰熊官宣:莫兰特因左手肘扭伤至少再伤停两周 本季已缺席33场

灰熊官宣:莫兰特因左手肘扭伤至少再伤停两周 本季已缺席33场

醉卧浮生
2026-02-19 11:21:20
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

我是盲流
2026-01-22 11:37:44
我国一共有六座军事监狱,分布于五大战区,由武警部队负责管理

我国一共有六座军事监狱,分布于五大战区,由武警部队负责管理

咸鱼金脑袋
2026-02-17 12:44:54
余嘉豪正式宣布缺席集训,世预赛之路能否再现助力?

余嘉豪正式宣布缺席集训,世预赛之路能否再现助力?

卿子书
2026-02-19 10:33:34
日本最新民调让人吃惊,近八成日本人表示:已无必要改善中日关系

日本最新民调让人吃惊,近八成日本人表示:已无必要改善中日关系

来科点谱
2026-02-18 07:07:48
白鹿、孟子义前往大孤山后,网友曝多位名人曾前往,引发热议

白鹿、孟子义前往大孤山后,网友曝多位名人曾前往,引发热议

银河史记
2026-02-19 14:12:26
汪小菲透露汪大爷要来台北!筱梅临产来探望,箖箖叫后姥姥为婆婆

汪小菲透露汪大爷要来台北!筱梅临产来探望,箖箖叫后姥姥为婆婆

乐悠悠娱乐
2026-02-19 11:07:17
被骗了?徐彬连续2轮没进巴恩斯利英甲大名单:继续英甲U21

被骗了?徐彬连续2轮没进巴恩斯利英甲大名单:继续英甲U21

邱泽云
2026-02-18 22:14:59
皇俄大佬直言:俄已无力全面升级,再打要动50万动员与民众存款

皇俄大佬直言:俄已无力全面升级,再打要动50万动员与民众存款

老马拉车莫少装
2026-02-17 11:40:19
23岁懒死家中,“中国第一懒人”杨锁到底有多懒,守着肉菜被饿死

23岁懒死家中,“中国第一懒人”杨锁到底有多懒,守着肉菜被饿死

荷兰豆爱健康
2026-02-15 23:40:22
登央视春晚最多的明星排名:真正的常青树,不是李谷一和赵本山

登央视春晚最多的明星排名:真正的常青树,不是李谷一和赵本山

揽星河的笔记
2026-02-19 14:14:34
大衣哥女婿上门拜年,脸上没笑容与朱雪梅保持距离,没带礼品

大衣哥女婿上门拜年,脸上没笑容与朱雪梅保持距离,没带礼品

吴蒂旅行ing
2026-02-18 13:43:20
花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

观察鉴娱
2026-01-27 09:36:51
2026-02-19 15:12:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7090文章数 20730关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

网友称取消酒店订单后凌晨收到店家恐吓信息 多方回应

头条要闻

网友称取消酒店订单后凌晨收到店家恐吓信息 多方回应

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

旅游
家居
游戏
健康
公开课

旅游要闻

欢歌笑语话团圆 新春出游其乐融融年的味道格外浓郁

家居要闻

本真栖居 爱暖伴流年

《生灵重塑》评测:动物本能

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版