在Python中,很多對象都是可以通過for語句來直接遍歷的,例如list、string、dict等等,這些對象都可以被稱為可迭代對象。至于說哪些對象是可以被迭代訪問的,就要了解一下迭代器相關的知識了。
迭代器
一個對象存在迭代器對象,即要求這個對象是支持迭代器協議的對象,在Python中,支持迭代器協議就是實現對象的__iter__()和next()方法。其中__iter__()方法返回迭代器對象本身;next()方法返回容器的下一個元素,在結尾時引發StopIteration異常。
__iter__()和next()方法
這兩個方法是迭代器最基本的方法,一個用來獲得迭代器對象,一個用來獲取容器中的下一個元素。
對于可迭代對象,可以使用內建函數iter()來獲取它的迭代器對象:
(注意可迭代對象和迭代器對象的區別,可迭代對象比如list等,通過iter(list)獲得它的迭代器對象,可迭代對象可以重復遍歷,迭代器對象由于next()方法的存在,不可重復遍歷)
例子中,通過iter()方法獲得了list的迭代器對象,然后就可以通過next()方法來訪問list中的元素了。當容器中沒有可訪問的元素后,next()方法將會拋出一個StopIteration異常終止迭代器。
其實,當我們使用for語句的時候,for語句就會自動的通過__iter__()方法來獲得迭代器對象,并且通過next()方法來獲取下一個元素。
iter()方法
iter()方法返回迭代器對象。如果本身是迭代器對象,則iter()方法直接返回這個迭代器對象。反之,如果傳給iter函數的不是迭代器對象,則iter()函數每次都會返回新的迭代器對象。如:
所以,想判斷某個值是迭代器還是非迭代器,可以用該值為參數,兩次調用iter函數,若結果相同則是迭代器。
自定義迭代器
了解了迭代器協議之后,就可以自定義迭代器了。
下面例子中實現了一個MyRange的類型,這個類型中實現了__iter__()方法,通過這個方法返回對象本身作為迭代器對象;同時,實現了next()方法用來獲取容器中的下一個元素,當沒有可訪問元素后,就拋出StopIteration異常。
class MyRange(object):
def __init__(self, n):
self.idx = 0
self.n = n
def __iter__(self):
return self
def next(self):
if self.idx < self.n:
val = self.idx
self.idx += 1
return val
else:
raise StopIteration()
這個自定義類型跟內建函數xrange很類似,看一下運行結果:
myRange = MyRange(3)
for i in myRange:
print i
迭代器對象和可迭代對象
在上面的例子中,myRange這個對象就是一個可迭代對象,同時它本身也是一個迭代器對象。
看下面的代碼,對于一個可迭代對象,如果它本身又是一個迭代器對象(同時實現了__iter__和next()方法),就會有下面的 問題,就沒有辦法支持多次迭代。
為了解決上面的問題,可以分別定義可迭代類型對象和迭代器類型對象;然后可迭代類型對象的__iter__()方法可以獲得一個迭代器類型的對象??聪旅娴膶崿F:
class Zrange:
def __init__(self, n):
self.n = n
def __iter__(self):
return ZrangeIterator(self.n)
class ZrangeIterator:
def __init__(self, n):
self.i = 0
self.n = n
def __iter__(self):
return self
def next(self):
if self.i < self.n:
i = self.i
self.i += 1
return i
else:
raise StopIteration()
zrange = Zrange(3)
print zrange is iter(zrange)
print [i for i in zrange]
print [i for i in zrange]
代碼的運行結果為:
其實,通過下面代碼可以看出,list類型也是按照上面的方式,list本身是一個可迭代對象,通過iter()方法可以獲得list的迭代器對象:
生成器
在Python中,使用生成器可以很方便的支持迭代器協議。生成器通過生成器函數產生,生成器函數可以通過常規的def語句來定義,但是不用return返回,而是用yield一次返回一個結果,在每個結果之間掛起和繼續它們的狀態,來自動實現迭代協議。
也就是說,yield是一個語法糖,內部實現支持了迭代器協議,同時yield內部是一個狀態機,維護著掛起和繼續的狀態。
下面看看生成器的使用:
在這個例子中,定義了一個生成器函數,函數返回一個生成器對象,然后就可以通過for語句進行迭代訪問了。
其實,生成器函數返回生成器的迭代器。 “生成器的迭代器”這個術語通常被稱作”生成器”。要注意的是生成器就是一類特殊的迭代器。作為一個迭代器,生成器必須要定義一些方法,其中一個就是next()。如同迭代器一樣,我們可以使用next()函數來獲取下一個值。
生成器執行流程
下面就仔細看看生成器是怎么工作的。
從上面的例子也可以看到,生成器函數跟普通的函數是有很大差別的。
結合上面的例子我們加入一些打印信息,進一步看看生成器的執行流程:
通過結果可以看到:
當調用生成器函數的時候,函數只是返回了一個生成器對象,并沒有 執行。
當next()方法第一次被調用的時候,生成器函數才開始執行,執行到yield語句處停止
next()方法的返回值就是yield語句處的參數(yielded value)
當繼續調用next()方法的時候,函數將接著上一次停止的yield語句處繼續執行,并到下一個yield處停止;如果后面沒有yield就拋出StopIteration異常。
生成器表達式
在開始介紹生成器表達式之前,先看看我們比較熟悉的列表解析( List comprehensions),列表解析一般都是下面的形式。
[expr for iter_var in iterable if cond_expr]
迭代iterable里所有內容,每一次迭代后,把iterable里滿足cond_expr條件的內容放到iter_var中,再在表達式expr中應該iter_var的內容,最后用表達式的計算值生成一個列表。
生成器表達式是在python2.4中引入的,當序列過長, 而每次只需要獲取一個元素時,應當考慮使用生成器表達式而不是列表解析。生成器表達式的語法和列表解析一樣,只不過生成器表達式是被()括起來的,而不是[],如下:
(expr for iter_var in iterable if cond_expr)
生成器表達式并不是創建一個列表, 而是返回一個生成器,這個生成器在每次計算出一個條目后,把這個條目”產生”(yield)出來。 生成器表達式使用了”惰性計算”(lazy evaluation),只有在檢索時才被賦值(evaluated),所以在列表比較長的情況下使用內存上更有效。
一個例子:
從這個例子中可以看到,生成器表達式產生的生成器,它自身是一個可迭代對象,同時也是迭代器本身。
總結:
本文介紹了Python迭代器和生成器的相關內容。
1. 通過實現迭代器協議對應的__iter__()和next()方法,可以自定義迭代器類型。對于可迭代對象,for語句可以通過iter()方法獲取迭代器,并且通過next()方法獲得容器的下一個元素。
2. 像列表這種序列類型的對象,可迭代對象和迭代器對象是相互獨立存在的,在迭代的過程中各個迭代器相互獨立;但是,有的可迭代對象本身又是迭代器對象,那么迭代器就沒法獨立使用。
3. itertools模塊提供了一系列迭代器,能夠幫助用戶輕松地使用排列、組合、笛卡爾積或其他組合結構。
4. 生成器是一種特殊的迭代器,內部支持了生成器協議,不需要明確定義__iter__()和next()方法。
5. 生成器通過生成器函數產生,生成器函數可以通過常規的def語句來定義,但是不用return返回,而是用yield一次返回一個結果。