胡懿娟教授2024年全职回到北京大学,不是访问,不是兼职,是把美国的正教授职位彻底辞了,带着全套方法、代码和学生培养思路回来的。这事儿在圈内不大声张,但懂行的人心里清楚:不是谁都能这么干,更不是谁想干就能干成。
她2001年在重庆高考拿下数学奥赛第一,保送北大数学科学学院。那时候北大统计还没独立成系,课表上全是实分析、测度论、随机过程——硬核得让很多人退课。她没退,反而扎进去,把数学当语言学,不是为了算对,是为搞懂“不确定性”本身怎么被定义。
2005年去美国读博,选的是生物统计,不是纯数学,也不是临床医学。别人问为什么,她说:“人类基因组测序刚做完,接下来十年,全世界最缺的不是数据,是看懂数据的人。”她去北卡教堂山,那里生物统计系排全美前三,实验室里博士后一边调R包一边翻《NEJM》论文,医生和统计师共用一个白板写模型。
2011年博士毕业,进埃默里大学做助理教授。十三年,从助教到正教授,不是靠发水文,是靠改工具。比如微生物组数据,一个样本测几百万个微生物基因片段,但99%是噪音,传统统计一算就崩。她带队写了新算法,把“假阳性率”压下去,让医院真能拿这结果判断抗生素该不该换。这东西发在JASA、Biometrics这些期刊上,但更关键的是,代码开源在GitHub,名字叫“MicrobiomeStat”,现在全球三十多个实验室在用。
2024年她决定回来,没拖泥带水。埃默里给她留了两年缓冲期,她没要。有人说她是不是家里有事,其实没有;有人说是不是美国不待见华人学者,查公开记录,她2023年还拿了NIH连续五年的R01项目。真正原因简单:国内建了十几个大型人群队列,光测序花了上百亿,但没人能稳稳跑通从“粪便DNA”到“临床建议”的整条线。她回北大,挂靠在北京国际数学研究中心和公共卫生学院两边,办公室门上贴着张A4纸,手写:“今天和朝阳医院消化科查房,下午改beta版本代码。”
![]()
北大给她配了三个人:一个临床医生背景的博士后,一个做高性能计算的工程师,还有一个刚本科毕业、Python半懂不懂但愿意啃《广义线性模型》的本科生。她不要“苗子”,就要“能干活的人”。组会不念PPT,直接打开Jupyter Notebook,跑一遍刚收上来的北京老年糖尿病队列数据,边跑边说:“这儿的零膨胀太狠,得换似然函数,小王你今晚试试带惩罚的LASSO-SVM混合?”
她上课不点名,但学生不敢逃。讲“多重检验校正”,先放一段视频:某三甲医院用普通t检验筛肠道菌群标志物,报出17个“显著关联”,结果临床验证全翻车。然后她敲键盘,一行代码切掉90%假阳性。下课有人问:“老师,这方法能商用吗?”她答:“能,但得先让医生信你写的不是天书。”
她带学生去社区卫生中心,不是拍照,是帮全科医生把半年的慢病随访表转成结构化数据,再现场建一个预测高血压用药依从性的简易模型。模型很简单,就四个变量,但医生说:“比我们以前全凭经验准。”
她没提过“爱国”俩字,简历里也不写“服务国家战略”。她去年在《中华流行病学杂志》发了篇中文综述,标题就叫《微生物组数据分析中容易踩的五个坑》,全文没一个公式,全是截图和报错提示。
有次讲座后被问:“美国条件更好,后悔过吗?”她笑了一下:“在亚特兰大,我改完代码传服务器,等结果要四小时。在北京,我改完代码,顺路去楼下取个快递,回来结果就跑完了。”
![]()
她办公室窗台上摆着个玻璃罐,里面是她自己发酵的泡菜,标签写着“菌群来源:重庆,2024.03.11”。旁边电脑屏保是两行字:
“数据不会说谎。”
“但人得听得懂。”
她回国后第一次组会,进门就问大家:“上周我让你们重跑的那组结直肠癌样本,p值小于0.001的,有几个在验证队列里站住了?”没人答上来。她打开投影,光标停在一个基因通路上,点了三下鼠标,说:“就是这儿。别急着发,先去肿瘤医院,找十个病人,问他们治疗前后的排便习惯。”
说完她关了投影,拎起帆布包走了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.