![]()
![]()
(图/《机械姬》电影剧照)
越是在这样的环境下,女性越需要勇敢发声,即便没有被提问,也要主动寻找机会表达观点、融入讨论,让自己的光芒被看见。
✎记者 | 潘文捷
✎编辑 | Felicia
北京的一个傍晚,林咏华在办公室里接待了我。她微笑着说,自己身为女性,一路走来,得到了许多的鼓励和支持。她带领团队做系统性的创新,也参与和组织了不少行业女性的活动。
林咏华对计算机技术的热爱,始于她在广州本地少年宫上的编程启蒙课。从AppleⅡ上的LOGO语言,到中华学习机上的C语言,她早早便沉浸于代码天地中。为了支持她的兴趣,母亲不惜花掉半年薪水为她购置了一台“286电脑”。于是,她不再满足于常规操作,而是痴迷于钻研底层技巧,例如如何优化有限的内存,让黑白屏幕呈现出模拟彩色的效果。高中时代,管财务的母亲被手抄工资条折磨得眼花,便“委托”女儿帮忙。林咏华一边备战高考,一边通过自学,编写出了一套用于记账发薪的程序。
后来,林咏华在西安交通大学就读,当时她虽然拥有保研名额,但需要找到愿意接收她的导师。她找到系里最有名且以严厉著称的导师——殷勤业。当时,实验室里主要是男生。殷勤业给了林咏华一个月时间去解决一个难题,以此考察她的动手能力。林咏华成功解决了难题之后,殷勤业同意接收她。“在我后续整个研究生学习过程中,殷老师对我的要求很严格,但也给了我很多支持。”林咏华说。
![]()
(图/作者提供)
进入职场后,林咏华有十六七年都在IBM中国研究院工作。“我很幸运,因为IBM本身很鼓励女性走上技术岗位、技术领导岗位。我的上级领导,包括我的mentor(导师),都很帮助我成长。”当时IBM的董事长、首席执行官罗睿兰是一位女性,她在整个公司发起了托举技术领域女性的计划。
林咏华在IBM晋升到技术领域的最高岗位——杰出工程师(Distinguished Engineer)。“罗睿兰女士通过多年的努力,成为IBM首位女性董事长,她也希望有更多的女性能像她这样,走上领导岗位。我相信这是她希望能够帮助更多女性成长的原因。”林咏华说道。
2018年,林咏华被IBM总部任命为IBM中国研究院院长。她不仅是该院成立以来首位在中国本土成长起来的院长,也是首位女性院长。这是标志着其个人职业成就与公司人才发展的重要里程碑。
为了推动AI领先的科研成果实现产业落地,林咏华加入了非营利性研究机构——北京智源人工智能研究院(下文简称“智源”),现担任该研究院的副院长兼总工程师。
在接受《新周刊》的采访时,林咏华谈到了身为一名技术型女性,她如何帮助其他女性共同成长,也谈到了目前她在人工智能领域的一些重要关切和取得的突破。
![]()
女性该怎么“推销”自己?
新周刊:你在IBM中国研究院得到了大量的支持和帮助,你自己后来有做类似的工作吗?
林咏华:我在2017年牵头成立了IEEE女工程师协会北京分会。当时依托IBM中国研究院与众多高校的紧密合作,我们在产学研领域具备了一定影响力,也借此为女性技术人才——无论是科研人员还是工程师——搭建起一个专属平台。2019年我们举办了首届论坛,之后每年延续。如今我已不再担任会长职务了。
这类组织在海外起步较早,例如英伟达GTC大会就设有“女性免费、男性付费”的交流派对,以此吸引更多女性参与。我们创立IEEE女工程师协会北京分会之初,国内还鲜有专门面向女性科技工作者的平台;但如今,包括中国计算机学会在内的多家学会,以及国内许多行业的重要会议,都已设立专门针对女性开发者与研究人员的分论坛,为她们创造交流与见面的机会。
在这些会议上,议题往往更偏向“软性”。参与者中既有经验丰富的分享者,也有不少刚刚步入职场或学术领域的年轻女性,她们常带着困惑而来,或希望拓展人脉。我们的分享虽然会涉及技术,但更多时候是探讨技术女性如何充实自我、突破局限,更清晰地认识自身优势,看见自己未来可能成为的样子。
![]()
(图/来源网站unsplash)
新周刊:很多女性初入职场,可能不是很自信,不知道怎么展现自己。
林咏华:我很早就注意到这个问题。刚入职场时,每个人都会经历从表现平平到逐渐出色、从无人知晓到被人认可的过程。确实有人天生自信,不管做得怎样都信心满满,但大多数人——尤其是中国人——性格较为谦虚内敛,在职业起步阶段,自信心往往还没建立起来。
信心不是一天养成的。那时我意识到,人如果一直不敢表达自己,只会被困在囚笼里。刚参加工作那几年,我经常逼自己在会上必须至少发言一次,就这样一点点把自信建立起来。
当时常有一些从美国来的资深研究员主持圆桌讨论,他们都是我们敬仰的领域专家。IBM也会优先推荐女性研究人员参加讨论。但即便被安排坐到圆桌边,如果自己不主动发言,也是白白浪费机会。为了给专家留下印象,便于日后能有合作的机会,我只能一次次逼迫自己开口。
新周刊:我看到你在过往的采访中说,同样是坐在桌子前,但如果不主动“推销”自己,第一个被提问的人往往不会是女性,尤其是在技术领域。你是怎么打破这个局面的?女性应该如何主动“推销”自己?
林咏华:我相信很多女性技术工作者都经历过类似的局面:坐在会议桌前,如果桌上没有名牌或职务说明,别人往往会默认这些女性从事的是非技术类岗位,或是担任非技术类岗位的领导。我们必须承认,现实中的数据确实如此。尤其在技术类岗位领导层,女性占比低于20%。所以为了不“猜错”被提问者的职务,人们往往会先向男性提问。
越是在这样的环境下,女性越需要勇敢发声,即便没有被提问,也要主动寻找机会表达观点、融入讨论,让自己的光芒被看见。谢丽尔·桑德伯格所著的《向前一步——女性,工作及领导意志》中对我最重要的提醒就是:开会时不要坐在后排,不要因为没被点名而庆幸“逃过一劫”,而是应该主动“向前一步”。这不仅是对女性的鼓励,对男性同样适用。
![]()
《向前一步——女性,工作及领导意志》
[美]谢丽尔•桑德伯格 著
颜筝 译
中信出版社,2013-6
新周刊:参加女性会议和参加普通会议有什么不一样?
林咏华:在当前高校计算机专业中,本科生的男女比例常维持在7∶3,有的学校女性的占比甚至更低;进入技术职场后,女性的占比会进一步下降。这也导致技术会议中男性常占80%甚至90%以上。若一位女性本身性格并不外向,在这样的环境中往往更难主动参与交流。
男性之间可能通过一个拍肩就可以展开对话,而女性技术人员往往缺乏破冰的勇气。但在纯女性场合中,她们更容易放松,也能更快建立起有效联结。女性会议虽不能替代无性别导向的会议,却能让参会者——尤其是学生、青年教师或企业职员——更直接地与院士、教授或技术领袖交流,拓展研究、实习或项目合作的机会。无论男女,融入技术社区、拓展专业人脉都同样重要。
新周刊:我看到你在一个采访中说:“说起来有一阵子我对智源还挺自豪的,当时智源内部的AI系统、AI大模型评测、语言大模型团队的负责人都是女性。”为什么智源有很多女性担任团队负责人?有什么重要的特点或长处能助力她们晋升到这些位置?智源有支持女性的举措吗?
林咏华:我是在2022年发现这个现象的。那时,我们的数据研究组经理是女性,AI系统组经理是女性,语言模型组经理是女性,AI评测组经理也是女性。我在一次IEEE女工程师协会年会上,特意把她们的照片放在一起,很自豪地告诉大家,智源大模型团队从上到下不同层级的领导大都是女性。但这并不是刻意安排的。
我们的人数不多,因此并未刻意推动这类项目,毕竟它们需要大量参与者。坦白说,今天的女性仍须同时承担工作与家庭的双重责任。相较于国内一些大厂,智源为有需要的同事提供了更加灵活的工作条件。在这一灵活体制下,受益更多的无疑是女性同事。
![]()
(图/来源网站unsplash)
新周刊:你认为,身处行业之中,个体是否应该关注自己的性别身份?
林咏华:不需要太关注这件事,否则很容易先把自己矮了半截。但是无论女性还是男性,“向前一步”的做法其实都适用——去表达,更主动地去承担一些责任。
![]()
AI硬件的创新还远远没到滞缓期
新周刊:智源发布的CCI4.0已经成为全球范围内具有影响力的高质量中英文数据集。对于数据集中可能存在的各种偏见(例如文化、性别、地域等),你们是怎么识别、评估和处理的?在构建如此大规模、高质量的数据集时,你们面临的最大技术挑战是什么?
林咏华:原始的数据的确会有很多不同的价值观、偏见等。我们会训练特定的模型,设计各种规则,对数据集进行清洗和过滤。经过清洗和过滤之后,可以大幅减少这些问题对数据集的影响。但是毕竟数据集为中英双语,规模超过30TB,无法保证每一行数据都无误或来源准确。作为数据集的提供方,我们正凭借自有技术能力努力做得更好。
打造开源数据集,最难的是预判用户需求。用户遍布千行百业,众口难调。今年我们采取了两项重要措施:其一,为CCI数据集打上详尽的标签,仅质量维度便分为高、中、低三级,用户可按标签自行过滤;其二,推出工具平台“数据魔方”,从“我们猜用户要什么”转为“用户自己定义要什么”。用户只需用一两句自然语言描述自己的需求,平台即可从海量数据中即时聚合符合条件的数据集并提供下载服务,让每位应用开发者或行业模型开发者都能取用所需数据。我们近期还会开源一项重要的具身智能数据集RoboCOIN,这是全球本体数最多、标注最细、使用最便捷的双臂机器人操作数据集。
![]()
(图/《机械姬》电影剧照)
新周刊:为什么需要提供低质量的数据集?
林咏华:对于特别低质量的数据,我们会直接过滤,但是总会有通过打分来区分的稍低质量的数据。大模型在学习的时候,不能完全依靠高质量数据——如果只见过高质量数据,日后的容错性就比较低。比如,很多时候可能会有一些同音字错误,如果大模型只学习了正确的写法,当咱们问的问题里头掺杂了几个同音错字,它可能就回答不出来了。
同样,我们不仅需要提供成功的数据,也得提供一些失败的数据。见过失败的数据,模型才能够自我纠错。例如让它去拿一瓶水,可能它会将水推倒,那它就知道这瓶水倒了之后,接下来要干什么;如果永远只是正向地告诉它这瓶水该这么拿,那么万一这瓶水倒了,它就不知道该怎么做了。
新周刊:普通人使用AI工具时,常常很难判断各家AI工具的优劣。能否谈谈你们在AI大模型评测方面的理念和方法论?一个客观、科学的评测体系对于引导大模型技术健康发展有多重要?
林咏华:我们一直认为,大模型评测的核心是“以评促优”,即通过评测推动模型变得更加优秀。因此在我们看来,打榜(即让模型在公开的测试平台或榜单上进行“考试”或“擂台PK”,用分数或排名来展示自己当前的能力水平)本身是一件特别次要的事情。如今,众多榜单反复测试的,很多都是常识问答题、数学题、编程题等。逻辑答题能力虽然重要,但如果评测始终围绕这类能力打转,行业便容易忽视对新能力的探索。我们的理念始终是:有能力去设计更新颖的评测维度,可以挖掘模型尚未暴露的问题,并引导大模型企业向这些新能力进发。
智源大模型评测团队自2022年起就持续挖掘和评估大模型能力。语言模型刚兴起时,我们已着手相关工作。2024年,我们多次发版公布结果,并与北京市海淀区教委合作,邀请海淀区教师出了一系列覆盖小学三年级至高中三年级、涵盖多科目的K12新题,确保这些资料是模型从未见过的,再评测模型的测试结果,并与人类智力水平——例如海淀区学生的平均水平,进行对比。
今年年初,我们决定启动全新的推理逻辑评测,原因在于当前大模型的能力已迈上新台阶,沿用旧有评估方法已难以挖掘更多问题。因此,自今年3月开始,我们花费了大半年时间投入全新的、针对逻辑推理能力的题库建设,其中大量题目需人工主观评定,耗时极长。我们针对DeepSeek等模型的逻辑推理的新特性——先输出长段思考过程,再给出结论——搭建了评测集、评测方法和评测基准。我们也刚发布了一套全新的逻辑推理评测体系。
![]()
(图/来源网站unsplash)
当前用户普遍关心的是,面对复杂的、未收录的提问,模型能否答对。但是,模型输出推理需消耗大量token,成本最终仍会折算到消费者或企业的账单上。因此,新评测不仅比较哪种大模型能在逻辑推理上攻克更陌生、更复杂的问题,还要比较哪种大模型能用更少的token、更低的成本给出正确答案。
再举一个例子。大模型有时候输出的答案是对的,但“思考”或者推理的过程可能全是错的;也有一些情况中,过程是对的,但输出的结果却是错的。其实很多时候,这不光是用户关心的问题,大模型企业也很关心——企业方也想从评测里知道,现在大模型普遍存在什么样的问题。
新周刊:你强调打破中心化、封闭的“烟囱式”生态,是什么意思?
林咏华:AI硬件的形态还远远没有收敛。把人脑跟AI芯片对比,人脑可以用百万分之一的功耗、万分之一的训练数据量,就达到与现在大模型持平的智力水平。这说明,人脑无论是在结构的高效性还是在学习方法的高效性上,仍然远优于现有的AI芯片架构或算法模式。正因如此,硬件的颠覆性创新还将持续。
![]()
(图/作者提供)
问题在于,每一款芯片从设计到批量落地,投资都高达几亿元甚至更多。如果上层的软件完全用不起来或者不能适配,新的芯片就无法被大范围、便捷地使用,投资也就打了水漂。这样的话,试问谁还敢再投资下一款创新芯片?这必然阻碍芯片的创新,也阻碍AI能力的提升。
因此,我们希望打造一个开放的计算生态:底层是各种AI芯片,上层是各种AI算法和模型,中间原本是烟囱式垂直割裂的软件生态,现在我们希望与业界一起打造统一开源的基础软件栈,让创新的大模型算法可以用同一套技术栈运行各种AI硬件。
这样做的好处有二:第一,开发者、用户、企业可以按需选用芯片,选择多了,芯片的价格自然下降,使用门槛更低;第二,制作AI硬件的企业和芯片创新企业可以专注于下一代架构创新,而上面的软件栈由社区共同推进,实现产业分工。
这项技术相当具有挑战性。我们目前正在联合多个科研机构的力量,共同打造一套统一开源、面向多种AI芯片的系统软件栈——众智FlagOS,向下要兼顾不同芯片的架构,并让每种芯片都能极致发挥其性能。然而,“统一”与“极致”之间天然存在矛盾——如果只追求统一,所有芯片可能只能停留在中位性能;如果放弃统一,单一芯片虽可做到极致,却失去了通用性。如何平衡两者,是设计上的核心难点。
这是从芯片角度出发的思考。向上层看,还存在用户开发语言发散的问题。用户可能直接在语言层开发AI算法,而语言层本身正逐渐发散成多种编程语言。我们无法强迫开发者只能使用某一种语言。因此,中间技术栈既要平衡下方芯片的差异,又要兼顾上方用户对各类开发语言的选择需求。
新周刊:一种常见的忧虑是把人类与AI对立起来,担忧AI有朝一日会替代或毁灭人类。也有像唐娜·哈拉维这样的女性思想家会用“后人类主义”确立起新的开放式框架,换一个角度去思考人机之间的情感联结。从一个技术实践者的角度看,你如何看待人类与AI的未来?
![]()
《类人猿、赛博格和女人:自然的重塑》
[美]唐娜·哈拉维 著
陈静 译
河南大学出版社,2016-12
林咏华:我始终认为未来必然是人机协同。例如智源在打造众智FlagOS技术栈的过程中,为加快迭代,让生态更蓬勃,我们正在大量使用大模型和AI自动化方式,使技术栈对算法场景的覆盖迭代速度更快。
这个过程本质上就是人机协同:我们构建的技术栈本身服务于AI发展,未来将孕育出更好的芯片与算法;同时,我们也用AI来加速技术栈自身的迭代。今年,我们发布了名为Triton-Copilot的自动化AI工具,用于帮助大模型的开发人员自动生成Triton语言的算子。我们非常相信人机协同的价值。
当然,其中确有必须守住的红线。若在某些场景下刻意用AI作恶,必然引发灾难性后果。这也正是当前人工智能学术界与产业界已形成的共识:AI安全与“AI向善”必须深深刻进所有从业者的脑海,大家共同守住这一底线。所谓“道高一尺,魔高一丈”,因此AI安全研究不可或缺。智源也已确立AI安全的研究方向,专门探讨“矛与盾”的问题。
696期杂志
《她世纪2.0》已上市
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.