网易首页 > 网易号 > 正文 申请入驻

HashData:让大模型“飞入寻常百姓家”

0
分享至

谁是当下中国乃至全球的“科技顶流”?毫无争议,AI大模型是当之无愧的领导者。然而,大模型对于数据、算力、专业人才等方面有极高的要求,对于大多数企业而言,参与新生产力时代需要一种更经济、更简单的方式。那么,普惠的大模型时代会到来吗?大模型在企业中能否实现规模化落地?大模型对数据仓库能够带来什么价值?两者如何实现融合?

在IT168旗下ITPUB企业社区平台主办的第十六届中国系统架构师大会(SACC2023)上,酷克数据首席科学家杨胜文分享了如何将LLM与以HashData为代表的现代企业数据仓库相结合,以实现更加便捷高效的数据处理、模型微调和知识增强的智能应用构建。

杨胜文博士现任酷克数据首席科学家。曾任百度大数据技术委员会主席、主任架构师、大数据部技术负责人,更早前在EMC、Yahoo Beijing Labs、HP Labs China从事研发工作。在大数据分析、数据挖掘、数据智能等领域深耕多年,在互联网用户理解、产业数据智能、人工智能行业应用等领域有着丰富的实践经验。

如何让大模型先“Run”起来?

本届SACC2023以“数字转型架构演进”为主题,按照技术主线分为传统架构与运维技术发展、数字化转型企业架构应用,IT技术前瞻架构等。大会的主会场主要关注企业架构转型,围绕企业的业务架构、应用架构演进历程展开分享,重点讲述企业架构转型中的经验。而AIGC正是本次大会的重点关注方向。

杨胜文在演讲中指出,自去年11月底ChatGPT发布以来,国内外许多厂商都加大了对大语言模型的研发投入,各种模型与应用如雨后春笋般涌现。目前,企业接入大语言模型通常有两种方式:一种是通过公有云直接访问服务,另一种是通过私有化部署。公有云服务具有快速接入、可灵活选择服务供应商等诸多优点,但也存在数据泄漏的风险。私有化部署可以很好地解决数据安全问题,但千亿级参数的大模型在企业落地时面临着硬件成本高昂和专业技术人才短缺的问题。尽管如此,杨胜文认为:普惠的大语言模型时代即将到来,LLM将很快在企业实现规模化应用。这背后有两个切入点。一是充分利用现阶段百亿级参数大语言模型出色的语言理解和生成能力,以极低的成本解决企业当前面临的一些实际问题;二是将LLM与Data Warehouse有机结合,可以使数据处理、模型微调以及基于LLM的智能应用开发变得更加容易,从而大幅降低应用门槛。

目前,大语言模型的参数动辄达到千亿级,然而,在企业落地的时候为什么要退而求其次,选择百亿级参数大模型呢?杨胜文指出,相比于千亿级甚至万亿级参数的模型,百亿级参数的大语言模型能够解决低成本私有化部署的问题。现如今,百亿级参数的模型可以轻松地在消费级显卡甚至移动设备上进行推理,这带来了巨大的成本优势。通过参数高效微调方法(PEFT),只需一张或数张消费级显卡,就能对预训练模型在企业专有数据上进行微调。在私有化部署场景下,硬件资源需求非常低,能够方便地与企业IT系统对接,实现无缝集成,并与各种产品进行连接。

在杨胜文看来,数据仓库为企业打造垂类模型、搭建面向场景的智能应用提供了天然的数据和计算环境。企业数据仓库已经成为企业数据的存储、分析、加工、处理和计算的核心场所,通过把大语言模型带入数据仓库,可以充分利用数据仓库强大的数据处理、分布式计算、大规模向量数据存储与检索等核心优势,一站式完成从数据处理、模型微调到智能应用搭建的全流程。

如何降低LLM应用门槛?

百亿级参数模型是当前推动LLM在企业低成本、规模化落地的重要选择。开源社区的迅猛发展为百亿级参数大语言模型在企业低成本、规模化应用的实现创造了条件。

杨胜文指出,在代码和工具层面,出现了许多优秀的开源项目,使得LLM的训练不再是少数人的专利。在数据层面,也出现了一批非常好的数据集,数据总量超过1万亿个Token,能够满足百亿级参数模型的训练需求。在模型层面,大型商业公司、研究机构和初创公司开发了许多优秀的模型。有了这些优秀的开源工作,训练和微调大语言模型的难度将大幅降低,但仍然存在一定门槛,包括对技术人员、计算资源和更多高质量数据的要求。

杨胜文表示,借助数据仓库技术,可以使大语言模型在企业落地变得更加容易。这里不得不提酷克数据的旗舰产品HashData,它是国内最早实现存算分离的云原生分析型数据仓库产品。每个HashData数据仓库系统由1个元数据集群、若干个计算集群、1个对象存储以及1个管理控制台构成,具备非常优异的弹性和可扩展性。目前,HashData已经为金融、电信、能源等行业的许多重量级客户提供服务,其中在某国有大型银行已部署近3万个节点,节点规模在业内首屈一指。

HashData拥有两种计算引擎:针对SQL查询分析任务的MPP计算引擎,以及针对机器学习和深度学习任务的ML/DL计算引擎,支持各种模型的训练和推理,包括大语言模型的微调和推理。HashData还实现了对大规模向量数据的高效存储和检索,使得基于知识增强的LLM智能应用搭建变得更加简单。

杨胜文介绍说,基于HashData和百亿级参数大语言模型,结合业务需求,可以以极低的成本、极高的效率微调定制若干个领域模型。基于微调产生的各类领域模型以及基于HashData构建的向量知识库,可以轻松搭建包括智能问答、自然语言转SQL、辅助写作、辅助分析等智能应用。

如何释放数据价值?

数据作为企业非常重要的资产,如何通过数据分析、挖掘和预测等方法释放更大的数据价值,促进企业持续健康发展,是当前企业数字化建设的一个关键话题。

杨胜文表示,数据智能和数据分析有不同的层次。目前,描述性分析已经非常成熟并被企业广泛采用,而更高级的预测性分析和决策性分析虽然能够产生更高的价值,但技术复杂度也更高,目前的普及度还远远不够。为了解决这些问题,酷克数据基于HashData开发了下一代In-Database高级分析和数据科学工具HashML,提供了从数据查询处理、高级分析到ML/DL模型的训练、推理和服务部署的全套工具,包括对大语言模型微调和推理的支持。

HashML具有三个主要的产品特点。首先,它简单易用。HashML可以与HashData数据仓库一起安装部署,开箱即用,并通过API标准化,大幅降低学习和使用门槛。其次,它具有卓越的性能。HashML可以根据任务的复杂度确定计算的并行度,对于较为复杂的神经网络模型或大语言模型,可以利用多机多卡实现高效的训练和微调。第三,它提供丰富的算法支持。从传统的统计学习到深度神经网络,以及最新的预训练大模型,HashML都能够提供良好的支持。

HashML为数据科学家、数据工程师和AI应用开发者提供了极大的便利,使他们能够无门槛地使用先进的AI技术。借助HashData和HashML,可以实现大语言模型低成本规模化落地的完整方案,无论是数据处理、模型微调还是面向场景的智能应用构建,一切都将变得更简单。

如今,许多关注数字化建设的企业在数据方面已经积累了很多经验。在杨胜文看来,从数字化到智能化,需要将AI计算尽可能靠近企业数据,而不是将数据拿出来放到一个全新的平台。酷克数据希望围绕企业数据仓库构建统一的数据查询、分析、处理和计算平台,既支持传统数据仓库业务,又支持AI模型的训练、推理和部署,并使得面向各种场景的智能应用开发变得更简单。

杨胜文表示,多元化、普惠的LLM时代必将到来,任何企业都可以借助大语言模型的能力来提升智能化水平。而未来,DATA + LLM将大有可为,特别是当模型与企业数据密切相关时,将会有更多的想象空间。企业可以通过模型微调和应用创新,在自有数据上释放大语言模型的应用潜力,从而充分释放数据价值,实现新的增长点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
连续27个跌停,27万股民遭“闷杀”,实控人套现20亿离场!证监会出手:这家公司及实控人被立案

连续27个跌停,27万股民遭“闷杀”,实控人套现20亿离场!证监会出手:这家公司及实控人被立案

鲁中晨报
2024-06-13 07:35:05
男妇科医生和女患者病房发生关系?大尺度聊天和妻子回应我看傻眼

男妇科医生和女患者病房发生关系?大尺度聊天和妻子回应我看傻眼

听风听你
2024-06-12 21:51:03
黄一山带患罕见病儿子回港,28岁儿子终身坐轮椅,包裹从头到脚

黄一山带患罕见病儿子回港,28岁儿子终身坐轮椅,包裹从头到脚

娱记掌门
2024-06-13 01:09:48
3-0,世界第1大胜,积分榜:日本女排跌至第5,土耳其队反超

3-0,世界第1大胜,积分榜:日本女排跌至第5,土耳其队反超

小马哥谈体育
2024-06-13 21:27:12
乌克兰情报部门负责人:S-500防空系统正在保护俄罗斯刻赤大桥

乌克兰情报部门负责人:S-500防空系统正在保护俄罗斯刻赤大桥

零度Military
2024-06-13 13:15:22
封控后小姐无法挣钱在小区内做生意,结果阳成大白肺,直呼亏大了

封控后小姐无法挣钱在小区内做生意,结果阳成大白肺,直呼亏大了

颤巍巍
2023-01-11 12:34:11
中国男篮公布最新集训名单:郭士强挂帅,广东4人入选、辽宁仅1人

中国男篮公布最新集训名单:郭士强挂帅,广东4人入选、辽宁仅1人

祝晓塬
2024-06-13 20:58:58
演员古天乐,摊上事了!

演员古天乐,摊上事了!

鲁中晨报
2024-06-13 17:19:08
6月13日夜晚,突然传来一个重大消息!又要来大动作吗?

6月13日夜晚,突然传来一个重大消息!又要来大动作吗?

股市皆大事
2024-06-13 18:09:01
可惜没如果?快船记者:若冲出西部的是掘金 那总决赛形势如何?

可惜没如果?快船记者:若冲出西部的是掘金 那总决赛形势如何?

直播吧
2024-06-13 13:53:23
曾经的两个好朋友,已成两敌人,再想买先进装备是没地方可买了

曾经的两个好朋友,已成两敌人,再想买先进装备是没地方可买了

历史与财经
2024-06-12 12:52:02
国内将逐渐停止“心脏支架”手术,做完人就废了?一次性说清楚

国内将逐渐停止“心脏支架”手术,做完人就废了?一次性说清楚

39健康网
2024-06-12 22:00:02
我们真的要见证历史了:统一台湾进入倒计时

我们真的要见证历史了:统一台湾进入倒计时

鬼谷子思维
2024-06-07 11:59:05
第一城!长沙,坐实了!

第一城!长沙,坐实了!

城市财经
2024-06-13 12:10:07
记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

古今档案
2024-05-07 13:04:58
罕见省部级高干在中央党报公开表达“不满”:困惑很久,不吐不快

罕见省部级高干在中央党报公开表达“不满”:困惑很久,不吐不快

华人星光
2024-06-07 19:20:09
6月13日,森林北,愤怒发文!

6月13日,森林北,愤怒发文!

元气少女侃娱乐
2024-06-13 13:42:16
玫瑰的故事:大结局!黄亦玫早已是残壁之身,庄国栋为何不嫌弃?

玫瑰的故事:大结局!黄亦玫早已是残壁之身,庄国栋为何不嫌弃?

娱记掌门
2024-06-12 12:35:14
鲁能夏窗首条锋线大鱼火线到位,已发文告别老东家,足协杯首秀

鲁能夏窗首条锋线大鱼火线到位,已发文告别老东家,足协杯首秀

评球论事
2024-06-13 21:58:13
“非夫妻”的男女开房,若只登记1人信息,被警察查房有啥后果?

“非夫妻”的男女开房,若只登记1人信息,被警察查房有啥后果?

105度的世界
2024-06-13 10:32:14
2024-06-13 22:40:49
ITPUB学院
ITPUB学院
分享技术干货,了解最新动态
789文章数 627关注度
往期回顾 全部

科技要闻

小红书员工仅1/5工龄满2年 32岁就不让进了

头条要闻

苏杰生连任印度外长称要解决中印边境问题 中使馆回应

头条要闻

苏杰生连任印度外长称要解决中印边境问题 中使馆回应

体育要闻

乔丹最想单挑的男人走了

娱乐要闻

森林北报案,称和汪峰的感情遭受压力

财经要闻

私募大佬孙强:中国为什么缺少耐心资本

汽车要闻

升级8155芯片 新款卡罗拉锐放售12.98-18.48万

态度原创

健康
家居
教育
数码
公开课

晚餐不吃or吃七分饱,哪种更减肥?

家居要闻

大城小室 质朴自然的心灵居所

教育要闻

《新杂志》专访云南大学附属中学地理高级教师廖银杏

数码要闻

苹果watchOS 11史诗级更新:Apple Watch终于可以自动监测睡眠了

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版