水皮杂谈 一家之言 兼听则明 偏听则暗
在“文心杯”创业大赛的决赛场,ChatDOC创始人和他的对手不只盯着一千万的彩头。
三年前,后来被比尔·盖茨力荐的美剧《硅谷》第一季上线。喜剧糖纸的包裹下,中国的情境代入者们不仅记住了开场第一幕,那个一众loser在硅谷大腕与明星创业者的派对上眼馋不已的场景,更对MVP——最小化可行性产品的概念,视如圭臬。
而两年后,《Chaos Monkeys》——《混乱的猴子》一书被引进中国。那位从华尔街转战硅谷的“异教徒”安东尼奥·加西亚·马丁内斯的总结陈辞,也愈发深入人心:投资人是钱比时间更多的人;员工是时间比钱更多的人;创业者只不过是把二者连接起来的中间人。
2017年5月,林得苗恰是在这样一个奇特的居间时点推出了本土乃至全球第一款智能文档应用。该如何评价这位出身清华大学计算机系的80后CEO的创业之路?
先说好的一面:大体还算顺利,在极其垂直的金融领域,能与该公司产品能力媲美的对手其实并不算多。甚至,在不少金融机构客户的亲身测评中,这款应用的效果还是最符合需求的。拥有了一批大客户,积攒了些许知名度,获得一些机构的融资后基本结束了“烧钱模式”。在产品面世六年后的2023年,“收支平衡”已是林得苗一个触手可及的财务结论。
那坏的呢?随着中美近年来在科技领域竞逐白热化,以及紧接而至外部环境的各种异动,原先予取予夺的美元基金快速关上了大门,而曾经大肆跑马圈地互不相让的“南北二马”,也开始紧急收缩投资线。标注“成功”的船票的一角,明明就在两指间,却偏偏难以完整撕下。
还好,天无绝人之路!在得知百度举办“文心杯”创业大赛之后,技术出身的林得苗敏锐意识到自己终究等到了一个难得机会。就像那部剧、那本书中描写的“谷歌帮”、“脸书帮”,或者目前风头正盛的“特斯拉帮”的新晋成员。
2023年5月31日,百度董事长兼首席执行官李彦宏在摩根大通全球中国峰会期间宣布,百度将启动"文心杯"创业大赛,最高奖项为价值1000万元早期投资。比起硅谷最著名的创业公司孵化器Y Combinator喜欢在Demo Day(奇迹日)当天派出清一色的50万美元支票,李的大方当然更胜一筹。不过,更关键的,为打造一个更有活力的大模型生态系统,并帮助开发者开发各种AI原生应用,百度还计划设立一个10亿元人民币的投资基金。
也就是说,一颗糖的背后,很可能是一家糖果铺。
Many hands make light work,李彦宏肯定明晓这个道理。在美国,开发者们正基于ChatGPT或其他语言模型来广泛地开发新应用。中国也应当有自己的大模型生态系统,“模型本身是不直接产生价值的,基于基础大模型开发出来的应用才是模型存在的意义”,李彦宏表示。
中国第一场大模型应用层创业大赛的号角就此吹响。百度方面提供了千帆大模型平台、文心大模型等资源,决赛入营团队则专注于AIGC、大模型创新应用方向,基于文心大模型等平台搭建应用,或将大模型与自有产品进行结合。
当一个原本浮游丰盛、水草丰茂的鱼塘里撒下了优质的鱼苗,那么一个生态圈会自然闭环。
不到1个月的报名时间,该活动便吸引了近1000个项目报名参赛,汇聚了大量大模型领域的顶尖人才,包括来自海内外大厂的明星产品经理、资深连续创业者,斯坦福大学、牛津大学、康奈尔大学、清华大学、香港科技大学等名校教授、博士领衔的科研团队,以及来自医疗、金融、法律等传统行业的资深大咖。
经过知名投资人和AI专家的评审和层层筛选,15个优秀项目闯入“决赛圈”进行最终的奖项角逐。林得苗团队创立的ChatDOC项目,正是其中的“幸运儿”。
ChatDOC,一款基于文档智能的专业知识问答助手及阅读平台,用户只需上传文档,和AI进行交互对话,就能立即得到有依据的回答,完成智能摘要、智能审核、分析文档、理解内容、激发灵感等。通过这款产品,用户能够大幅节省机械劳动时间,并且,AI助手在数据产生和审核上的精度也是人工无法企及的。由此,用户的阅读和工作方式被重新定义,整体生产力亦得到质的提升。
林得苗做智能文档应用的灵感,源于2016年前后。彼时中国金融市场开始大跃进,仅入驻新三板的企业即达上万家。林身边不少会计师、审计师以及投行工作的朋友每天需要审阅大量繁琐的报表等文档,而金融相关文档更是动辄几百页,“文档奴“一时比比皆是。林开始思考能否用技术手段代替人工完成相关审阅工作,降低人力成本。
马云起步的灵感,是远赴美国帮人讨债,结果在首次接触互联网浏览器时兴致所至随意输入了“啤酒“,结果只有美国的,德国的,日本的,唯独没有“中国的”。而另一位一度为寻呼台服务的马先生,则是在偶遇以色列人开发的ICQ后,才突然意识到这正是“电脑BP机”。李彦宏本人更是因为一部《走进硅谷》的纪录片,在客串采访雅虎创始人杨致远时开的窍:众里寻他千百度,中国需要自己的搜索引擎。
发现共性痛点,拉满中国需求——有时,就这么简单。三个月时间,ChatDOC的前身AutoDoc便诞生了。这也是全球首款金融文档结构化应用产品,主要针对金融文档内容及数据复核。用户只需上传需要复核的金融文档,经过自动解析和比对,机器会自动标注出数据不一致的地方,基础文本工作的效率在AI助手的帮助下大大提升。
一份500页的招股说明书,一位投行分析师至少需要2天时间才能全面复核完毕;而使用AutoDoc智能文档复核产品,只需要20分钟就能生成一份准确率高达99.9%的纠错报告。
效率,提升了144倍。
虽然没有进行大规模的宣传推广,但仅凭机构之间的“口口相传”,这款产品已经在中国金融圈崭露头角。
“但那时候我们的产品没有使用大模型,现在的ChatDOC则接入了文心大模型,是过去产品的迭代升级版”,林得苗说,“其实,我们一直在等这样一个机会”。
虽然在做自主研发产品时也会进行大量的数据训练,但是与需要通过亿级的语料或者图像进行知识抽取、学习,进而生产亿级参数的大模型相比,前者只能算得上是中学以下级别的“小模型”。但后者的开发需要耗费的人力和物力,也只有像百度这样的大厂才有实力承接。可以这样理解,“小模型”借力大语言模型之后,过往前置的大量基础数据训练从此变得更有用武之地。
文心是百度自主研发的产业级知识增强大模型,包括NLP、CV、跨模态等基础大模型,对话、跨语言、搜索、信息抽取等任务大模型,生物计算领域大模型,行业大模型,以及支撑大模型应用的工具平台,形成了基础-任务-行业三级大模型技术体系。
自2019年3月,百度发布文心大模型1.0版以来,历经四年技术深耕和研发迭代,现已升级到文心大模型3.5版,实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强、插件机制等全面提升。
同时,在文心大模型3.5训练中,采用了飞桨最先进的自适应混合并行训练技术及混合精度计算策略,采用多种策略优化数据源及数据分布,由此大大加快了模型的迭代速度。相较今年3月份的3.0版本,飞桨与文心协同优化,训练速度已是原来的3倍,推理速度更飞升30多倍。
作为昔日惠普中国实验室的研究员,林得苗开发过超清壁纸、限时免费大全等多个在垂直领域内排名第一产品。而当成为一个创业公司CEO后,他对于大模型在应用层的前景有着超出常人的敏感度。“文心杯”创业大赛甫一亮相,林的第一反应也必然是“赶紧冲上去”。
对于产品的未来发展,林得苗有自己判断。
他称,过往主要聚焦垂直金融领域,只是因为去训练每个行业都要付出巨大的成本;而有了文心大模型后,跨行成本变低,不仅可以升级金融领域的产品能力,还能够覆盖更多行业、拓展更多的B端客户。
除了跨越式地提升了自身的产品能力,林得苗还得以通过参赛与各行各业最优秀的潜力股、最优秀的创业者进行切磋交流,切身感受到了大模型生态的旺盛生命力。
而这,也正是百度举行“文心杯”创业大赛的初衷:活跃AI原生应用生态,彻底打开行业想像力,以通用大模型为千行百业赋能。
古希腊神话中,有一条著名的阿里阿德涅之线,那是未来的雅典国王忒休斯走出克里特岛米诺斯迷宫的关键。现在,李彦宏将文心一言变成了那只线团,而更多的林得苗们正视图抓住这条生命之线。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.