网易首页 > 网易号 > 正文 申请入驻

解密 Python 迭代器的实现原理

0
分享至

可迭代对象与迭代器

Python 一切皆对象,类型对象定义了哪些操作,决定了实例对象拥有哪些行为。

比如类型对象如果定义了 __iter__,那么其实例对象便被称为可迭代对象(iterable),像字符串、元组、列表、字典、集合等等都是可迭代对象。而整数、浮点数,由于其类型对象没有定义 __iter__,所以它们不是可迭代对象。

from typing import Iterable

print(
isinstance("", Iterable),
isinstance((), Iterable),
isinstance([], Iterable),
isinstance({}, Iterable),
isinstance(set(), Iterable),
) # True True True True True

print(
isinstance(0, Iterable),
isinstance(0.0, Iterable),
) # False False

可迭代对象的一大特点就是它可以使用 for 循环进行遍历,但是能被 for 循环遍历的则不一定是可迭代对象。我们举个例子:

class A:

def __getitem__(self, item):
return f"参数item: {item}"

a = A()
# 内部定义了 __getitem__
# 首先可以让实例对象像字典一样访问属性
print(a["name"]) # 参数item: name
print(a["satori"]) # 参数item: satori

# 此外还可以像可迭代对象一样被 for 循环
# 循环的时候会自动给 item 传值,0 1 2 3...
# 如果内部出现了 StopIteration,循环结束
# 否则会一直循环下去。这里我们手动 break
for idx, val in enumerate(a):
print(val)
if idx == 5:
break
"""
参数item: 0
参数item: 1
参数item: 2
参数item: 3
参数item: 4
参数item: 5
"""

所以实现了__getitem__的类的实例,也是可以被for循环的,但它并不是可迭代对象。

from typing import Iterable
print(isinstance(a, Iterable)) # False

总之判断一个对象是否是可迭代对象,就看它的类型对象有没有实现 __iter__。

可迭代对象我们知道了,那什么是迭代器呢?很简单,调用可迭代对象的 __iter__ 方法,得到的就是迭代器。

迭代器的创建

不同类型的对象,都有自己的迭代器,举个例子。

lst = [1, 2, 3]
# 底层调用的其实是 list.__iter__(lst)
# 从 C 的角度上看,就是 PyList_Type.tp_iter(lst)
it = lst.__iter__()
print(it) #
print(
str.__iter__("")
print(
tuple.__iter__(())

迭代器也是可迭代对象,只不过迭代器内部的 __iter__ 返回的还是它本身。当然啦,在创建迭代器的时候,我们更常用内置函数 iter。

lst = [1, 2, 3]
# 等价于 type(lst).__iter__(lst)
it = iter(lst)

但是 iter 函数还有一个鲜为人知的用法,我们来看一下:

val = 0

def foo():
global val
val += 1
return val

# iter 可以接收一个参数: iter(可迭代对象)
# iter 也可以接收两个参数: iter(可调用对象, value)
for i in iter(foo, 5):
print(i)
"""
1
2
3
4
"""

如果接收的是两个参数,那么第一个参数一定是 callable。进行迭代的时候,会不停地调用接收的可调用对象,每次迭代出来的值便是 callable 的返回值。当返回值等于传递第二个参数 value(在底层被称为哨兵)时,终止迭代。我们看一下 iter 函数的底层实现。

static PyObject *
builtin_iter(PyObject *self,
PyObject *const *args, Py_ssize_t nargs)
PyObject *v;

// iter 函数要么接收一个参数, 要么接收两个参数
if (!_PyArg_CheckPositional("iter", nargs, 1, 2))
return NULL;
v = args[0];
// 如果接收一个参数
// 那么直接使用 PyObject_GetIter 获取对应的迭代器即可
// 可迭代对象的类型不同,那么得到的迭代器也不同
if (nargs == 1)
return PyObject_GetIter(v);
// 如果接收的不是一个参数, 那么一定是两个参数
// 如果是两个参数, 那么第一个参数一定是可调用对象
if (!PyCallable_Check(v)) {
PyErr_SetString(PyExc_TypeError,
"iter(v, w): v must be callable");
return NULL;
}
// 获取value(哨兵)
PyObject *sentinel = args[1];
//调用PyCallIter_New
//得到 calliterobject 对象
/*
该对象位于 Objects/iterobject.c 中
*/
return PyCallIter_New(v, sentinel);
}

以上就是 iter 函数的内部逻辑,既可以接收一个参数,也可以接收两个参数。这里我们只看接收一个可迭代对象的情况,所以核心就在于 PyObject_GetIter,它是根据可迭代对象生成迭代器的关键,我们来看一下它的逻辑是怎么样的?该函数定义在 Objects/abstract.c 中。

PyObject *
PyObject_GetIter(PyObject *o)
// 获取可迭代对象的类型对象
PyTypeObject *t = Py_TYPE(o);
// 我们说类型对象定义的操作,决定了实例对象的行为
// 实例对象调用的那些方法都是定义在类型对象里面的
// 所以obj.func()本质上就是type(obj).func(obj)的语法糖
getiterfunc f;
// 所以这里是获取类型对象的 tp_iter 成员
// 也就是 Python 中的 __iter__
f = t->tp_iter;
// 如果 f 为 NULL
// 说明该类型对象内部的tp_iter成员被初始化为NULL
// 即内部没有定义 __iter__
// 像str、tuple、list等类型对象,它们的tp_iter成员都是不为NULL的
if (f == NULL) {
// 如果 tp_iter 为 NULL,那么解释器会退而求其次
// 检测该类型对象中是否定义了 __getitem__
// 如果定义了,那么直接调用PySeqIter_New
// 得到一个seqiterobject对象
// 下面的PySequence_Check负责检测类型对象是否实现了__getitem__
if (PySequence_Check(o))
return PySeqIter_New(o);
// 走到这里说明该类型对象既没有__iter__、也没有__getitem__
// 因此它的实例对象不具备可迭代的性质,于是抛出异常
return type_error("'%.200s' object is not iterable", o);
else {
// 否则说明定义了__iter__,于是直接进行调用
// Py_TYPE(o)->tp_iter(o) 返回对应的迭代器
PyObject *res = (*f)(o);
// 但如果返回值res不为NULL、并且还不是迭代器
// 证明 __iter__ 的返回值有问题,于是抛出异常
if (res != NULL && !PyIter_Check(res)) {
PyErr_Format(PyExc_TypeError,
"iter() returned non-iterator "
"of type '%.100s'",
Py_TYPE(res)->tp_name);
Py_DECREF(res);
res = NULL;
// 返回 res
return res;

所以我们看到这便是 iter 函数的底层实现,并且当类型对象内部没有定义 __iter__ 时,解释器会退而求其次检测内部是否定义了 __getitem__。

因此以上就是迭代器的创建过程,每个可迭代对象都有自己的迭代器,而迭代器本质上只是对原始数据的一层封装罢了。

迭代器的底层结构

由于迭代器的种类非常多,字符串、元组、列表等等,都有自己的迭代器,这里就不一一介绍了。我们就以列表的迭代器为例,看看迭代器在底层的结构是怎么样的。

typedef struct {
PyObject_HEAD
Py_ssize_t it_index;
//指向创建该迭代器的列表
PyListObject *it_seq;
} listiterobject;

显然对于列表而言,迭代器就是在其之上进行了一层简单的封装,所谓元素迭代本质上还是基于索引,并且我们每迭代一次,索引就自增 1。一旦出现索引越界,就将 it_seq 设置为 NULL,表示迭代器迭代完毕。

我们实际演示一下:

from ctypes import *

class PyObject(Structure):
_fields_ = [
("ob_refcnt", c_ssize_t),
("ob_size", c_void_p)
]

class ListIterObject(PyObject):
_fields_ = [
("it_index", c_ssize_t),
("it_seq", POINTER(PyObject))
]

it = iter([1, 2, 3])
it_obj = ListIterObject.from_address(id(it))

# 初始的时候,索引为0
print(it_obj.it_index) # 0
# 进行迭代
next(it)
# 索引自增1,此时it_index等于1
print(it_obj.it_index) # 1
# 再次迭代
next(it)
# 此时it_index等于2
print(it_obj.it_index) # 2
# 再次迭代
next(it)
# 此时it_index等于3
print(it_obj.it_index) # 3

当 it_index 为 3 的时候,如果再次迭代,那么底层发现 it_index 已超过最大索引,就知道迭代器已经迭代完毕了。然后会将 it_seq 设置为 NULL,并抛出 StopIteration。如果是 for 循环,那么会自动捕获此异常,然后停止循环。

所以这就是迭代器,真的没有想象中的那么神秘,甚至在知道它的实现原理之后,还觉得有点 low。

就是将原始的数据包了一层,加了一个索引而已。所谓的迭代仍然是基于索引来做的,并且每迭代一次,索引自增 1。当索引超出范围时,证明迭代完毕了,于是将 it_seq 设置为 NULL,抛出 StopIteration。

元素迭代的具体过程

我们知道在迭代元素的时候,可以通过 next 内置函数,当然它本质上也是调用了对象的 __next__ 方法。

static PyObject *
builtin_next(PyObject *self,
PyObject *const *args, Py_ssize_t nargs)
PyObject *it, *res;

// 同样接收一个参数或者两个参数
// 因为调用next函数时,可以传入一个默认值
// 当迭代器没有元素可以迭代的时候,会返回指定的默认值
if (!_PyArg_CheckPositional("next", nargs, 1, 2))
return NULL;

it = args[0];
// 第一个参数必须是一个迭代器
if (!PyIter_Check(it)) {
// 否则的话, 抛出TypeError
// 表示第一个参数传递的不是一个迭代器
PyErr_Format(PyExc_TypeError,
"'%.200s' object is not an iterator",
it->ob_type->tp_name);
return NULL;
}
// it->ob_type 表示获取类型对象,也就是该迭代器的类型
// 可能是列表的迭代器、元组的迭代器、字符串的迭代器等等
// 具体是哪一种不重要,因为实现了多态
// 然后再获取 tp_iternext 成员,相当于__next__
// 拿到函数指针之后,传入迭代器进行调用
res = (*it->ob_type->tp_iternext)(it);

// 如果 res 不为 NULL, 那么证明迭代到值了, 直接返回
if (res != NULL) {
return res;
} else if (nargs > 1) {
// 否则的话,说明 res == NULL,
// 这意味着迭代完毕了,或者程序出错了
// 然后看 nargs 是否大于1, 如果大于1, 说明设置了默认值
PyObject *def = args[1];
// 如果出现异常
if (PyErr_Occurred()) {
// 那么就看该异常的种类
// 能否匹配 StopIteration
if(!PyErr_ExceptionMatches(PyExc_StopIteration))
// 如果不是,说明程序的逻辑有问题
// 于是直接return NULL,结束执行
// 然后在 Python 里面我们会看到打印到stderr中的异常信息
return NULL;
// 如果是 StopIteration,证明迭代完毕了
// 但我们设置了默认值,那么就应该返回默认值
// 而不应该抛出 StopIteration,于是将异常回溯栈给清空
PyErr_Clear();
}
// 然后增加默认值的引用计数, 并返回
Py_INCREF(def);
return def;
} else if (PyErr_Occurred()) {
//走到这里说明程序出异常了,并且没有指定默认值
//那么这种情况,不管什么异常都直接抛出
return NULL;
} else {
// 都不是的话,仍是直接抛出 StopIteration
PyErr_SetNone(PyExc_StopIteration);
return NULL;
}
}

以上就是next函数的背后逻辑,实际上还是调用了迭代器的__next__方法。

lst = [1, 2, 3]
it = iter(lst)
# 然后迭代,等价于next(it)
print(type(it).__next__(it)) # 1
print(type(it).__next__(it)) # 2
print(type(it).__next__(it)) # 3
# 但是next可以指定默认值
# 如果不指定默认值,或者还是type(it).__next__(it)
# 那么就会报错,会抛出StopIteration
print(next(it, 666)) # 666

以上就是元素的迭代,但是我们知道内置函数next要更强大一些,因为它还可以指定一个默认值。当然在不指定默认值的情况下,next(it) 和 type(it).__next__(it) 是等价的。

我们仍以列表的迭代器为例,看看 __next__ 的具体实现。

static PyObject *
listiter_next(listiterobject *it)
PyListObject *seq; //列表
PyObject *item; //元素

assert(it != NULL);
//拿到具体对应的列表
seq = it->it_seq;
//如果seq为NULL,证明迭代器已经迭代完毕
//否则它不会为NULL
if (seq == NULL)
return NULL;
assert(PyList_Check(seq));
//如果索引小于列表的长度,证明尚未迭代完毕
if (it->it_index < PyList_GET_SIZE(seq)) {
//通过索引获取指定元素
item = PyList_GET_ITEM(seq, it->it_index);
//it_index自增1
++it->it_index;
//增加引用计数后返回
Py_INCREF(item);
return item;
}
//否则的话,说明此次索引正好已经超出最大范围
//意味着迭代完毕了,将it_seq设置为NULL
//并减少它的引用计数,然后返回
it->it_seq = NULL;
Py_DECREF(seq);
return NULL;
}

显然这和我们之前分析的是一样的,以上我们就以列表为例,考察了迭代器的实现原理和元素迭代的具体过程。当然其它对象也有自己的迭代器,有兴趣可以自己看一看。

小结

到此,我们再次体会到了 Python 的设计哲学,通过 PyObject * 和 ob_type 实现了多态。原因就在于它们接收的不是对象本身,而是对象的 PyObject * 泛型指针。

不管变量 obj 指向什么样的可迭代对象,都可以交给 iter 函数,会调用类型对象内部的 __iter__,底层是 tp_iter,得到对应的迭代器。不管变量 it 指向什么样的迭代器,都可以交给 next 函数进行迭代,会调用迭代器的类型对象的 __next__,底层是 tp_iternext,将值迭代出来。

至于__iter__和__next__本身,每个迭代器都会有,我们这里只以列表的迭代器为例。

回顾整个过程,会发现这是不是实现了多态呢?

Python猫技术交流群开放啦!群里既有国内一二线大厂在职员工,也有国内外高校在读学生,既有十多年码龄的编程老鸟,也有中小学刚刚入门的新人,学习氛围良好!想入群的同学,请在公号内回复『交流群』,获取猫哥的微信 (谢绝广告党,非诚勿扰!)~

还不过瘾?试试它们

如果你觉得本文有帮助

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中央督察江西:大量违法违规项目运行 无视国家规定 对河岸保护不力

中央督察江西:大量违法违规项目运行 无视国家规定 对河岸保护不力

小小包工头阿汾
2024-06-17 08:52:35
社保被查!税务局动真格的了!6月起,这3种行为,可不能再有了!

社保被查!税务局动真格的了!6月起,这3种行为,可不能再有了!

学税
2024-06-16 19:17:27
全跑光了,一家7口套现20亿,把公司卖给了17万股民

全跑光了,一家7口套现20亿,把公司卖给了17万股民

灰鸽观察室
2024-06-15 20:09:36
破案了!龚翔宇哭泣,原因揭晓!球迷错怪蔡斌,真实情况令人愤怒

破案了!龚翔宇哭泣,原因揭晓!球迷错怪蔡斌,真实情况令人愤怒

小豆豆赛事
2024-06-17 11:47:23
CCTV5直播罗马尼亚vs乌克兰:最弱球队登场 难阻西甲金靴开门红

CCTV5直播罗马尼亚vs乌克兰:最弱球队登场 难阻西甲金靴开门红

智道足球
2024-06-17 09:01:14
子女们,准备好了吗?医院护工退出舞台,“无陪护病房”将开启!

子女们,准备好了吗?医院护工退出舞台,“无陪护病房”将开启!

猫小狸同学
2024-06-17 08:20:47
广东城际又贵又慢?国铁不服已经开战!

广东城际又贵又慢?国铁不服已经开战!

李天利爱生活
2024-06-16 05:59:40
瑞士和平峰会上波兰总统杜达提议:将俄罗斯分割为两百个独立国家

瑞士和平峰会上波兰总统杜达提议:将俄罗斯分割为两百个独立国家

橘色数码
2024-06-16 20:18:16
第一次性生活有多痛?进不去怎么办

第一次性生活有多痛?进不去怎么办

喜马拉雅主播暮霭
2024-06-12 09:53:49
网友质疑:阿里巴巴数学竞赛的含金量太低了?原来是开卷考试!

网友质疑:阿里巴巴数学竞赛的含金量太低了?原来是开卷考试!

火山诗话
2024-06-15 05:43:37
姜萍被重点高中家长吐槽:凭啥我儿子做不到,她中专女却能做到?

姜萍被重点高中家长吐槽:凭啥我儿子做不到,她中专女却能做到?

熙熙说教
2024-06-14 17:11:08
国足归化热门首次身披国足战袍亮相,效率堪比金靴,入籍时间敲定

国足归化热门首次身披国足战袍亮相,效率堪比金靴,入籍时间敲定

评球论事
2024-06-16 20:49:31
中方邻国爆发粮食危机,失去中方援助后,反华总统被美彻底抛弃!

中方邻国爆发粮食危机,失去中方援助后,反华总统被美彻底抛弃!

绝对军评
2024-06-17 09:11:21
深圳出租车司机哭诉:出车几小时拉不到一个乘客,能否给一碗饭吃

深圳出租车司机哭诉:出车几小时拉不到一个乘客,能否给一碗饭吃

火山诗话
2024-06-16 06:24:37
四大分卫都成了巨星,谁生涯赚得多?状元艾弗森1.55亿垫底

四大分卫都成了巨星,谁生涯赚得多?状元艾弗森1.55亿垫底

大卫的篮球故事
2024-06-17 13:01:17
新一代058型驱逐舰,满载排水量2.2万吨,会有多强悍呢?

新一代058型驱逐舰,满载排水量2.2万吨,会有多强悍呢?

文雅笔墨
2024-06-17 09:47:00
真想把老公买的避孕套全都给扔了:烦死我了!

真想把老公买的避孕套全都给扔了:烦死我了!

好笑娱乐君每一天
2024-06-17 07:15:09
喝茶对心脏到底是好是坏?医生苦劝:4种茶,一口都不要喝

喝茶对心脏到底是好是坏?医生苦劝:4种茶,一口都不要喝

宋若讲故事
2023-01-18 21:38:26
彻底对国足死心啦!瑞士对匈牙利的比赛才明白,国足是幼儿园水平

彻底对国足死心啦!瑞士对匈牙利的比赛才明白,国足是幼儿园水平

人生趣事悟语
2024-06-17 01:45:53
中国比亚迪进军德国市场,遭民众疯狂抢购!德国车企这下都慌了?

中国比亚迪进军德国市场,遭民众疯狂抢购!德国车企这下都慌了?

蜉蝣说
2024-06-16 23:47:53
2024-06-17 13:30:44
Python猫
Python猫
人生苦短,我用Python。博客:https://pythoncat.top
633文章数 8097关注度
往期回顾 全部

科技要闻

OpenAI可能会迎来重大变化

头条要闻

姜萍走红后有企业上门送5000元 老家门前将修水泥路

头条要闻

姜萍走红后有企业上门送5000元 老家门前将修水泥路

体育要闻

欧洲杯15亿豪阵险翻车:半场梦游 王牌打废

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

省市级税务人士:目前没有全国性查税

汽车要闻

传奇新篇章 全新一代大众迈腾来了

态度原创

房产
本地
亲子
时尚
公开课

房产要闻

强!全国第三!海口房价正在止跌!

本地新闻

能动司法尽“执”履责 ——“交叉执行”高效能

亲子要闻

终于能抱动妹妹了

夏季流行浅色系穿搭,这些技巧你要学会

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版