本文围绕“DNA的探索”的跨学科教学活动项目,从科学研究的范式的角度,探讨人工智能模型在科学教育中支持跨学科融合教学活动的路径。
在概述了人工智能在科学探究中的多种赋能方式后,作者重点分析了不同的科学研究范式特别是数据密集驱动的第四范式和智能驱动的第五范式对设计人工智能模型参与的跨学科科学探究活动的影响,接着通过“DNA启动子预测”这一具体案例,比较了基于人为设定的字符串规则分析、传统机器学习与人工神经网络这三种方法在预测效果和可解释性上的区别,揭示了不同范式在教学设计中的实施方式,并进一步提出两种跨学科活动设计路径:一是从“数据密集驱动”向“智能驱动”演进,强调技术对学科研究的赋能;二是从“智能驱动”向“数据密集驱动”回溯,注重通过智能发现反向推动学科理解。
具有学科融合特色的教学活动对于科学教育而言,有着重要的意义,它打破了单一学科的“围墙”,将零散知识点和技能构建成认知网络,培养学生综合多学科的知识和技能解决复杂问题的能力。人工智能支持下的跨学科融合活动为科学教育提供了更丰富的素材和更多维的视角,本文将围绕“DNA的探索”这一主题,先概要性地列举一下人工智能在科学探究过程中可能起到的作用,然后,需要重点讨论的是,科学研究的新的范式,也就数据密集驱动的科学研究范式,以及自主智能猜想与发现的驱动,也可以简称为智能驱动的科学研究范式,对建设人工智能支持下的具有学科融合特色的实验教学环境和内容的启发。
人工智能赋能跨学科活动方式的简单列举
人工智能能够从不同角度赋能科学探究活动,如一种大家已经很熟悉的方式,即借助生成式人工智能,通过提示词,或预先创设的智能体,由朴素的“对话”过程,帮助学生开展科学探究活动,或者借助生成式人工智能,实现教学资源的搜集、整理和建设工作,或者利用生成式人工智能,帮助学生在学习过程中,对所学知识和技能实施验证,实现“尝试—反馈—迭代”的闭环过程,或者直接利用生成式人工智能对规模较小的数据进行较为简单的数据分析等等。
有许多科学探究活动本身具有跨学科的特性,如“DNA的结构”是高中生物学中涉及的内容:从生物学角度,它涉及碱基配对与遗传信息传递;从化学角度,DNA结构以脱氧核苷酸为基本单位,通过磷酸二酯键形成线性单链,再经碱基互补配对等作用构建双螺旋,化学作用贯穿DNA结构、功能及动态变化过程;从物理学角度,DNA结构稳定性和力学相关,且物理学手段为理解DNA结构提供了重要支持。
另外,在数学中,碱基排列组合蕴含特定数学规律,为研究DNA序列提供了数学的分析方法,DNA序列比对、功能预测等算法的设计涉及计算机科学的内容,伦理学与社会科学也常围绕基因技术展开讨论,如基因编辑等伦理问题、DNA数据的隐私与数据安全等。以上这些都凸显其具有学科融合特性的知识关联性。生成式人工智能在跨学科知识整合与呈现、复杂概念可视化模拟、个性化学习路径规划、数据分析与解读等方面,都能给予学生非常强大的支持。
除去生成式人工智能,各类人工智能模型可能以多种形式赋能跨学科活动。例如,可以上传不同物种的DNA序列片段,人工智能模型通过比对算法快速找出碱基排列的差异,其中的一个例子是,学生输入氨基酸序列,由人工神经网络模型进行推理,用AlphaFold生成3D模型,并预测蛋白质结构;又如,对于某些研究对象,可能需要自行搭建和训练神经网络模型,使之可以进行特定功能的预测或分类,而对于信息科技教师,可能除了希望学生们亲自体验搭建基于人工智能的数据分析工具的过程,还希望其能了解模型运作底层的算法原理。
传统的基于规则的专家系统也仍然可能在支持跨学科活动中发挥作用。一方面,结构化、逻辑化的专家系统在跨学科活动中,能够弥补学生在专业知识方面的缺陷;另一方面,某个领域的可简单实现的专家系统(尤其在生成式人工智能的支持下),也可以是学生跨学科活动中的较后阶段的任务目标,或可作为学习评价的对象。
人工智能支持下的虚拟仿真与交互式环境为跨学科活动构建了一个动态的实践体验环境。它们通过创建可计算的模拟世界,将不同学科的知识与规则融入其中,迫使参与者打破领域壁垒进行协同思考。例如,在某个探索DNA计算的虚拟实验中,可以模拟核酸酶对DNA链的切割以及碱基的替换与连接过程,从生物学视角,参与者能直观看到DNA链在变化前和变化后的状态,而从信息科技的角度,参与者能尝试用某种特定的变化来实现某个特定的逻辑运算的功能。通过即时、可视化的多变量交互反馈,将抽象的理论关联转化为具象的系统行为,使参与者能直观理解复杂系统中“牵一发而动全身”的跨学科耦合机制,从而催生出更具系统性和创新性的综合解决方案。
以上只是对人工智能参与跨学科教学活动的方式进行简单的列举,而非系统性梳理(这部分研究工作还有待开展),有一些通用性的人工智能支持方式也不再列举(如自适应学习辅助系统),否则难免挂一漏万。在这里是想说明,人工智能可能以各种各样的形式,参与到具有跨学科特征的学习活动中,而本文重点则是要讨论科学研究的新的范式对教师设计跨学科学习活动的启发。
从科研新范式看DNA启动子预测
科学研究范式(托马斯·库恩在《科学革命的结构》中提出此名词),简单来说,就是科学家们在进行研究时所遵循的一套模式和方法,它对科学的发展起着至关重要的引导作用。随着时代的发展,科研范式也在不断演变,从最早的第一范式,逐步发展到如今备受瞩目的第五范式。
第一范式是实验科学范式,它基于实验或经验的归纳总结来发现规律。第二范式是理论科学范式,它以理论为基础开展研究,科学家们通过建立数学模型和理论框架进行演算、归纳、总结,以此来解释自然现象。第三范式是计算机科学范式,科学家们利用计算机仿真模拟复杂自然现象。
与人工智能密切相关的科研范式是第四范式和第五范式,即数据密集驱动的范式和智能驱动的科研范式。第四范式指的是人类主导数据分析过程。科学家通过实验、观测或模拟产生海量数据,在构建结构化数据集后,运用数据挖掘技术进行分析得到规律。例如,阵列射电望远镜、大型粒子对撞机每天产生几个千万亿字节的数据,需要利用统计分析算法从海量数据中发现用过去的科学方法发现不了的新模式、新知识以及新规律。
第五范式指的是人工智能深度参与并部分主导科研流程的智能化模式。它不再局限于被动分析数据,而是主动参与科学发现:人工智能能自主设计实验方案、优化数据采集策略,甚至提出创新性假设。与第四范式相比,第五范式中的人工智能具备一定的“科研自主性”,能突破人类思维局限发现跨领域规律,实现从“数据总结”到“智能创造”的跨越。这种范式的核心是构建“人类—人工智能协同科研生态”,通过“机器猜想”的方式应用于科学智能,或许能将未知的结论推导出来,从而反向推动该领域的发展,得到在经验领域具有的前瞻性的结果。人工智能成为科研伙伴而非单纯工具,推动科研效率和创新维度的质变。
现在,围绕“预测DNA启动子”的问题,来看新的科研范式如何支持跨学科的探究活动。DNA启动子是基因的一段特殊“指挥区”,它能够被RNA聚合酶特异性地识别和结合,起到启动转录过程的开关作用,判断基因序列中的启动子在医学研究和生物技术中有很重要的作用。但是,我们面临一个判断基因序列是不是启动子的问题。假设现在已经有一个数据文件,其中有若干条基因序列,并标明是不是启动子。另外,还有若干条基因序列,并不知道是不是启动子,我们能用怎样的方法,基于已有是不是启动子标签的数据,判别其他基因序列中,哪些更可能是启动子,哪些不是呢?
如果试着给生成式人工智能工具以下提示词:请根据以下大类,列举出常用的预测方法。第一大类是,已知启动子常见特征,人工设定特征字符串,然后按这些特征对不同序列打分,进行评估和预测;第二大类是,查询已知的启动子常见特征,利用训练数据,根据常见特征,用机器学习算法训练出模型,然后利用训练好的模型,评估和预测测试数据;第三大类是,完全不知道任何已知启动子特征,利用训练数据,希望训练模型,自行发现特征或规则,用得到的模型对测试数据进行预测。
生成式人工智能针对三类不同情况给出了很详细的方案,来看一下给出的方案。
第一大类:可以根据关键基因序列、GC含量、碱基分布偏好等特征编写评分程序,或综合多个特征编写评分程序;
第二大类:可以采用逻辑回归、决策树、随机森林、支持向量机等训练模型和预测;
第三大类:可以训练和建立人工神经网络模型,或结合了深度学习的隐马尔可夫模型等进行预测。
第一大类的方法,是用常规的方法分析数据,完全由人主导数据分析过程,并没有体现出数据密集驱动和智能模型驱动的特点,这种方式在许多时候仍然是有效的,但无疑需要专业人士经验的支撑。
第二大类的方法,提供给计算机关键基因序列、GC含量等已知的规则框架,然后利用大量已标注好标签的数据,让计算机去发现某种规律。需要指出的是,虽然规律是计算机自行发现的,但规则的输入和输出关系是由人定义的,并且,一般来说,这些规律是人可以理解的,对应着科学研究第四范式的特征,即“数据密集驱动”的特征。
第三大类的方法,人事先并不知道规律本身是什么,计算机体现出规律发现的自主性,并且,就算是规律的模型被人工智能建立起来,人在短时间内也无法直接理解规律,这就体现了科学研究第五范式,即“智能驱动”的特征。
我们可以试着让生成式人工智能,生成属于以上三大类方式中不同的程序代码,对DNA序列是不是启动子进行预测,并观察其运行效果。例如,分别按字符串特征直接评估打分、采用生成决策树的机器学习训练模型、采用人工神经网络训练模型这三种方式来生成代码,然后采用这些代码分析如下图所示格式的已有的DNA启动子数据集,并观察预测效果。
![]()
DNA启动子数据集局部
用三种不同的代码(均由生成式人工智能生成)对已有的DNA启动子数据集中的DNA序列进行预测,其准确率情况如下表所示(存在一定随机性,仅供参考)。
![]()
决策树的结构是可以理解的,所以可以采用训练生成的决策树的成果,对上述表格中的“字符串特征分析”方法进行改进,提升其准确率。人工神经网络的测试准确率虽然相当高,但由于其模型具有不可解释性,其训练得到的成果很难运用在“字符串特征分析”的方法上。
人工智能模型参与过程中的两种不同的跨学科活动设计路径
在人工智能模型参与过程中,存在两种不同的跨学科活动设计路径,分别是:“数据密集驱动→智能驱动”演进的路径、“智能驱动→数据密集驱动”演进的路径。
在“数据密集驱动→智能驱动”演进的路径中,以学科领域知识为基石,通过传统方法(如实验、理论推导)建立对规律的初步认知,再引入人工智能技术优化或拓展规律发现能力。例如,在DNA启动子预测中,先通过生物学实验验证启动子功能,再利用机器学习模型(如支持向量机、随机森林)分析序列特征、对数据进行训练并给出预测模型,然后,尝试用神经网络自主挖掘更复杂的模式。其技术演进思路是:从“人工设计特征+传统模型”到“深度学习”,体现技术迭代对学科研究的赋能。
在“智能驱动→数据密集驱动”演进的路径中,逻辑起点是以人工智能的自主发现能力为突破口,通过智能模型揭示潜在规律,再反向追溯学科领域知识进行验证与解释,深化对学科本质的理解。例如,在DNA启动子预测中,先用神经网络直接预测启动子,我们首先会发现,的确可以借助模型来实现预测,然后尝试发现模型对某些序列区域(如GC富集区)的敏感性,再通过生物学实验验证这些区域是否为转录因子结合位点,最终归纳出启动子的关键特征(如核心启动子元件、增强子模块)。认知深化:从“黑箱预测”到“可解释性分析”,强调智能模型作为科学探究工具的价值。
“数据密集驱动→智能驱动”路径指向“技术支持科学”的现代研究范式,“智能驱动→数据密集驱动”路径指向体现“科学指导技术”的学科本质。教学中可根据学生认知水平、课程目标及资源条件灵活选择,或通过混合设计实现“技术体验”与“学科深化”的双重目标。
在人工智能在科学教育中的渗透中,第四范式“密集数据驱动”与第五范式“自主智能假设”可以是同一场景下并行的线程:学生既用已知规律训练模型以及跨学科的探究活动,尝试对问题进行解释,也可以借人工智能给出的“黑箱”式判定进行反向追问,从机器输出的不可解释特征出发,深入探索学科专业知识。在此过程中,探究选题如何兼顾“可解释”与“可生成”、活动组织怎样平衡人类预设与人工智能自主、在人工智能充分参与的情况下学生的探究活动和实验质量应当如何评价,这些都成为需要进一步认真研究的问题。
本文作者:
陈凯
上海市位育中学
文章刊登于《中国信息技术教育》
2025年第23期
原文标题:从科学研究的新范式看人工智能对跨学科活动的多样化支持方式——以DNA启动子的预测为例
引用请注明参考文献:
陈凯.从科学研究的新范式看人工智能对跨学科活动的多样化支持方式——以DNA启动子的预测为例[J].中国信息技术教育,2025(23):23-26.
![]()
欢迎订阅
识别上方二维码即可订阅
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.