网易首页 > 网易号 > 正文 申请入驻

一文读懂lambda表达式

0
分享至

作者:youngyan,腾讯PCG数据工程工程师

| 导语 Presto是我们在离线分析中经常用到的查询SQL引擎,我们经常用它来替换Hive和Spark引擎执行SQL,以解决查询速度慢的问题;然而Presto还有一个有用但大家接触不多的特点就是支持lambda表达式,lambda表达式可以实现常规的自定义逻辑。本文通过实际案例,介绍lambda表达式是什么,如何写lambda表达式实现自定义逻辑,以及哪些函数支持用lamba表达式做入参,希望能帮助到同学们,在实际工作中起到事半功倍的效果。

一、前言

Presto是Facebook研发的一种分布式SQL查询引擎,旨在查询分布在一个或多个异构数据源上的大型数据集,解决了Hive查询速度慢和异构数据源等问题,具有以下等特点:

  • 纯内存计算,速度快,提供交互式的查询体验;
  • 通过不同的连接器(connector)插件支持读取异构数据源,进行联邦查询;
  • 基于SQL语言,上手成本低,支持丰富的函数(如reduce函数和lambda表达式)。

公司内部的数据平台也大都支持了Presto引擎,如PCG内部的欧拉、灯塔等,我们在日常的分析中也常使用到Presto引擎来加速查询。另外,灯塔引擎支持了Presto直连查询TDW表后,我们使用这种方式轻松地配置数据看板,省去了之前需要接出到查询引擎(如Impala)的工作和成本。

前面提到了Presto支持lambda表达式,它其实是一种匿名函数,使用lambda表达式可以使得代码简单高效,提高开发效率。因为是编程中的概念,数据分析人员可能接触不多,本文将从lambda表达式是什么,如何写表达式实现自定义逻辑,以及Presto引擎的哪些函数支持lambda入参几个方面,为大家详细讲解lamda表达式的概念和应用,希望有助于数据分析人员之后常用此技能。

二、什么是lambda表达式

lambda表达式是一种匿名函数,其实就是把一段代码赋给了一个变量,最直观的作用就是使得代码变得异常简洁,我们以常用的编程语言Java和Python分别举一个例子:

不采用lambda

采用lambda

Java

Runnable runnable1=new Runnable(){ @Override public void run(){ System.out.println("Running without lambda"); }};Runnable runnable2=()->System.out.println("Running from lambda");

Python

def comp(x): return x["age"]li=[{"age":2,"name":"def"},{"age":,"name":"abc"}]li=sorted(li, key=comp)li=[{"age":,"name":"def"},{"age":1,"name":"abc"}] li=sorted(li, key=lambda x:x["age"])

可以看出lambda表达式提供了以下的功能:

  1. 可以把函数看作是方法参数,或者代码看作是数据;
  2. 可以在不属于任何类的情况下创建函数;
  3. lambda表达式可以像对象一样传递并按需执行。
三、如何写Presto的lambda表达式

可能因为Presto引擎是Java语言开发的,Presto的lambda表达式和Java的比较像,都是使用 -> 符号,我们看下官方给出的几个lambda表达式示例都分别实现了什么功能:

x -> x + 1 --参数加1(x, y) -> x + y --两参数相加x -> regexp_like(x, 'a+') --判断入参是否包含1~n个ax -> x[1] / x[2] --数组下标1的元素除以下标2的元素x -> IF(x > 0, x, -x) --求绝对值x -> COALESCE(x, 0) --空值赋默认值0x -> CAST(x AS JSON) --强转类型x -> x + TRY(1 / 0) --通过返回null处理某种错误,如除以0

我们来看一个我在欧拉-数据洞察上实际写过的SQL逻辑,功能是判断是否有项目的在时间区间内变成了【已过会】,或者开始时间之前的最新状态是【已过会】:

到这我们基本知道lamdba表达式怎么写了。上面这段判断逻辑相对复杂,在其他引擎下可能需要自定义函数,通过lambda表达式可以实现常规的自定义函数,省去了其他引擎需要IDE开发自定义函数代码、打包上传、注册函数等步骤,下面来看下Presto哪些函数支持lambda表达式作为入参来实现简单高效的函数定义。

四、Presto支持lambda表达式的函数

整体归类下来,Presto有三种类型函数支持lambda表达式,分别是map类函数、聚合类函数、array类函数,我们分别进行介绍并给出示例。

本文中的示例在欧拉的数据洞察和DataTalk中运行成功,其他数据平台未进行验证。

1. map类函数

  • map_filter(map(K, V), function(K, V, boolean)) -> map(K, V)#

该函数接收map和lambda表达式为参数,lambda表达式的入参是map的key列表和value列表,返回值是布尔类型。该函数通过lambda表达式的逻辑可以过滤map中的某些键值对,例如想筛选map的键大于10且值为不为空的键值对:

SELECT map_filter(MAP(ARRAY[10, 20, 30], ARRAY['a', NULL, 'c']), (k, v) -> k > 10 AND v IS NOT NULL); 结果:{30=c}

  • map_zip_with(map(K, V1), map(K, V2), function(K, V1, V2, V3)) -> map(K, V3)#

该函数接收2个map和1个lambda表达式为参数,lambda表达式的入参是map的key以及2个map对应key的值,返回值是处理过的值。该函数可以使用lambda表达式将两个map合并打包成新的map,例如想合并两个词频统计的map,相同key的值进行相加:

SELECT map_zip_with(MAP(ARRAY['hadoop', 'flink'], ARRAY[1, 2]), MAP(ARRAY['hadoop', 'spark'], ARRAY[6, 9]) ,(k, v1, v2) -> nvl(v1,0) + nvl(v2,0));结果:{hadoop=7, flink=2, spark=9}

  • transform_keys(map(K1, V), function(K1, V, K2)) -> map(K2, V)

该函数接收map和lambda表达式为参数,lambda表达式的入参是map的key和value,返回值是处理过的key。该函数可以使用lambda表达式将map的key进行转换,生成新的map,例如把key映射成枚举值:

SELECT transform_keys(MAP(ARRAY [1, 2, 3], ARRAY [34, 87, 2]), (k, v) -> case k when 1 then '初始化' when 2 then '进行中' when 3 then '已结束' end); 结果:{初始化=34, 进行中=87, 已结束=2}

  • transform_values(map(K, V1), function(K, V1, V2)) -> map(K, V2)#

该函数与上面的transform_values类似,是将map的value进行转换,生成新的map,不再举例。

  • split_to_map(string, entryDelimiter, keyValueDelimiter, function(K, V1, V2, R)) → map

本来这个函数是字符串函数,因结果是map,我也将其归到map类里。该函数与Hive中的str_to_map方法功能一样,通过指定分隔符将字符串转换成map。不同的是,该函数可以指定lambda表达式来自定义处理key相同的情况,例如我们想在key相同是保留大者就可以这样写:

SELECT(split_to_map('a:1;b:2;a:3', ';', ':', (k, v1, v2) -> greatest(v1,v2))); 结果:{a=3, b=2}2. aggregate(聚合)类函数

  • reduce_agg(inputValue T, initialState S, inputFunction(S, T, S), combineFunction(S, S, S)) → S

该函数是reduce函数,会将所有输入值合并成单值。inputFunction是一个lambda表达式,它会获取输入值以及初始状态initialState以及当前状态,并返回一个新的状态。comblineFunction会把两个状态合并成新状态。我们用这个函数实现sum和min函数大家就知道怎么用了。

SUM:SELECT id, reduce_agg(value, 0, (a, b) -> a + b, (a, b) -> a + b)FROM ( VALUES (1, 2), (1, 3), (1, 4), (2, 20), (2, 30), (2, 40)) AS t(id, value)GROUP BY id;结果:(1, 9)(2, 90)MIN:SELECT id, reduce_agg(value, 999999, (a, b) -> least(a, b), (a, b) -> least(a, b))FROM ( VALUES (1, 2), (1, 3), (1, 4), (2, 20), (2, 30), (2, 40)) AS t(id, value)GROUP BY id;结果:(1, 2)(2, 20)3. array类函数

  • all_match(array(T), function(T, boolean)) → boolean#

该函数是判断是否数组的所有元素均满足某条件,此处lambda表达式需返回boolean类型。例如我们想判断数组元素是否都大于0且小于100的:

SELECT all_match(ARRAY [-1, 1, 2, 3], x -> x > 0 and x < 100)结果:false

  • any_match(array(T), function(T, boolean)) → boolean#

该函数用于数组里有任一元素满足条件即为true,与all_match函数用法一致,不再举例。

  • non_match(array(T), function(T, boolean)) → boolean#

该函数用于数组里没有一个元素满足条件即为true,与all_match函数用法一致,不再举例。

  • array_sort(array(T), function(T, T, int)) -> array(T)#

该函数是数组排序函数,lambda表达式为比较器,返回-1、0、1代表前者小于、等于、大于后者。例如我们想按字符串的长度排序:

SELECT array_sort(ARRAY ['a', 'abcd', 'abc'], (x, y) -> IF(length(x) < length(y), -1, IF(length(x) = length(y), 0, 1)));结果:['a', 'abc', 'abcd']

  • filter(array(T), function(T, boolean)) -> array(T)#

该函数是数组过滤函数,lambda表达式返回boolean类型,false表示元素被过滤掉。

  • find_first(array(E), function(T, boolean)) → E

该函数可按数组下标从最小开始查找,返回满足lambda表达式条件的第一个元素,不过这个函数公司Presto好像不支持。例如想查找数组中排序数组第一个大于0的元素:

SELECT find_first(ARRAY [-8,-3,1,7,9], x -> x > 0)结果:1

  • reduce(array(T), initialState S, inputFunction(S, T, S), outputFunction(S, R)) → R

和前面介绍到的reduce_agg函数不一样的是,reduce_agg函数是行记录的聚合,reduce函数是数组的聚合。使用上类似,例如拼接数组元素到10个字符长度就不再拼接:

SELECT reduce(ARRAY ['a','bb','ccc','dddd','eeeee','ffffff'], '' , (s, x) -> if(length(s)>10, s, concat(s, x)), s -> s);结果:abbcccdddd

  • transform(array(T), function(T, U)) -> array(U)

该函数是map-reduce中的map含义,可将数组通过lambda表达式的逻辑转换成另外一个数组。例如我们想把数字转换成字符串,不够5位的左侧补零:

SELECT transform(ARRAY [1, 15, 222], x -> lpad(cast(x as varchar), 5, '0'))结果:['00001', '00015', '00222']

  • zip_with(array(T), array(U), function(T, U, R)) -> array(R)#

前面介绍的map_zip_with函数是打包两个map,这个函数是打包两个数组。例如我们想对一个数组的每个元素乘以对应的系数:

SELECT zip_with(ARRAY[2, 3, 5], ARRAY[0.5, 1.2, 0.1], (x, y) -> x * y);结果:[1.0, 3.6, 0.5]五、总结

本文介绍了lambda表达式是什么、Presto引擎中的写法,以及哪些高阶函数支持lambda表达式,希望可以帮助到数据分析人员在即席查询或者灯塔看板配置等场景下使用一些Presto的高阶函数,用lambda表达式书写常规的自定义逻辑,省去了其他引擎自定义函数复杂的操作步骤,从而提升工作效率。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“危险的先例”,马来西亚总理发声

“危险的先例”,马来西亚总理发声

观察者网
2026-01-04 20:16:17
陈震老婆遭“骚扰”!

陈震老婆遭“骚扰”!

电动知家
2026-01-04 11:41:46
45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

嫹笔牂牂
2025-12-31 07:07:52
司晓迪给男星船上技术排名!汪峰上不了热搜!

司晓迪给男星船上技术排名!汪峰上不了热搜!

八卦疯叔
2026-01-04 11:45:00
克林根24+12!杨瀚森2+2,开拓者爆冷掀翻马刺,诞生4个不可思议

克林根24+12!杨瀚森2+2,开拓者爆冷掀翻马刺,诞生4个不可思议

球场没跑道
2026-01-04 11:35:42
傻狍子跟兄弟共用炮友

傻狍子跟兄弟共用炮友

毒舌扒姨太
2026-01-04 22:28:02
南博的风刮到国博!山东大叔捐万历鎏金佛像,20年寻踪竟查无此物

南博的风刮到国博!山东大叔捐万历鎏金佛像,20年寻踪竟查无此物

奇思妙想草叶君
2026-01-02 10:54:18
哪些事是外国人到中国后才知道的?网友:你来天朝!你就涨知识吧

哪些事是外国人到中国后才知道的?网友:你来天朝!你就涨知识吧

带你感受人间冷暖
2025-12-24 00:10:09
英媒称,继委内瑞拉之后,伊朗和丹麦可能成为美国的下一个目标

英媒称,继委内瑞拉之后,伊朗和丹麦可能成为美国的下一个目标

山河路口
2026-01-04 23:06:00
中国有可能迎来巨大机遇,美国对委内瑞拉出手,就是在给中...

中国有可能迎来巨大机遇,美国对委内瑞拉出手,就是在给中...

砚底沉香
2026-01-04 12:02:23
内塔尼亚胡:支持美国对委内瑞拉的行动,祝贺特朗普,并向执行的美军致意

内塔尼亚胡:支持美国对委内瑞拉的行动,祝贺特朗普,并向执行的美军致意

扬子晚报
2026-01-04 21:42:52
官媒下场点名!“皇子”登基观众不买账,内娱世袭制为何惹众怒

官媒下场点名!“皇子”登基观众不买账,内娱世袭制为何惹众怒

以茶带书
2025-12-11 12:36:49
2025年北京机动车结构达到全国最优

2025年北京机动车结构达到全国最优

中国能源网
2026-01-04 15:45:11
古巨基也没想到,官宣二胎不到24小时,让人恶心的一幕就发生了

古巨基也没想到,官宣二胎不到24小时,让人恶心的一幕就发生了

无心小姐姐
2026-01-04 23:02:52
狐狸尾巴藏不住了!以为能"毁掉"樊振东,不料自己先被扒个底朝天

狐狸尾巴藏不住了!以为能"毁掉"樊振东,不料自己先被扒个底朝天

观察鉴娱
2025-12-27 10:02:21
袁世凯10个老婆有多美?3个来自青楼,3个来自朝鲜,个个貌美如花

袁世凯10个老婆有多美?3个来自青楼,3个来自朝鲜,个个貌美如花

瑶卿文史
2026-01-04 00:16:54
年薪50万带公司牛奶回家被妻子指责:知情人曝内情,果然有情况

年薪50万带公司牛奶回家被妻子指责:知情人曝内情,果然有情况

奇思妙想草叶君
2026-01-04 15:13:33
历史上根本不存在的10个人物,个个家喻户晓,骗了我们数百年

历史上根本不存在的10个人物,个个家喻户晓,骗了我们数百年

七号说三国
2026-01-04 17:41:57
孕31周女子被打后续:坚持离婚不妥协,官方介入,男子正脸曝光

孕31周女子被打后续:坚持离婚不妥协,官方介入,男子正脸曝光

阿讯说天下
2026-01-04 11:11:24
马卡:FIFA或修改伤停规则以减少拖延时间,今年世界杯或试行

马卡:FIFA或修改伤停规则以减少拖延时间,今年世界杯或试行

懂球帝
2026-01-04 21:00:22
2026-01-05 00:36:49
腾讯技术工程
腾讯技术工程
不止于技术
1358文章数 599关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

特朗普为什么还要掳走马杜罗夫人 美媒分析

头条要闻

特朗普为什么还要掳走马杜罗夫人 美媒分析

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

游戏
健康
本地
数码
军事航空

《鹅鸭杀》手游国服上线/《女神异闻录》30周年纪念活动| 下周玩什么

这些新疗法,让化疗不再那么痛苦

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

数码要闻

大疆Power 1000 Mini户外电源主要配置公布,1月6日发售

军事要闻

美军突袭抓获马杜罗 三个细节值得关注

无障碍浏览 进入关怀版