collections.Counter類就是專門為這類問題而設計的, 它甚至有一個有用的 most_common()方法直接給了你答案。為了演示,先假設你有一個單詞列表并且想找出哪個單詞出現頻率最高。你可以這樣做:
words = [ 'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes', 'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the', 'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into', 'my', 'eyes', "you're", 'under']
from collections import Counter
word_counts = Counter(words)
# 出現頻率最高的3個單詞
top_three = word_counts.most_common(3)
print(top_three)
# Outputs [('eyes', 8), ('the', 5), ('look', 4)]
討論
作為輸入, Counter對象可以接受任意的由可哈希(hashable)元素構成的序列對象。 在底層實現上,一個 Counter 對象就是一個字典,將元素映射到它出現的次數上。比如:
word_counts['not']
>>>1
word_counts['eyes']
>>>8
如果你想手動增加計數,可以簡單的用加法:
morewords = ['why','are','you','not','looking','in','my','eyes']
for word in morewords:
word_counts[word] += 1
word_counts['eyes']
>>>9
Counter
實例一個鮮為人知的特性是它們可以很容易的跟數學運算操作相結合。比如:
>>> a = Counter(words)
>>> b = Counter(morewords)
>>> a
Counter({'eyes': 8, 'the': 5, 'look': 4, 'into': 3, 'my': 3, 'around': 2,"you're": 1, "don't": 1, 'under': 1, 'not': 1})
>>> b
Counter({'eyes': 1, 'looking': 1, 'are': 1, 'in': 1, 'not': 1, 'you': 1,'my': 1, 'why': 1})
>>> # Combine counts
>>> c = a + b
>>> c
Counter({'eyes': 9, 'the': 5, 'look': 4, 'my': 4, 'into': 3, 'not': 2,'around': 2, "you're": 1, "don't": 1, 'in': 1, 'why': 1,'looking': 1, 'are': 1, 'under': 1, 'you': 1})
>>> # Subtract counts
>>> d = a - b
>>> d
Counter({'eyes': 7, 'the': 5, 'look': 4, 'into': 3, 'my': 2, 'around': 2,"you're": 1, "don't": 1, 'under': 1})
毫無疑問, Counter對象在幾乎所有需要制表或者計數數據的場合是非常有用的工具。 在解決這類問題的時候你應該優先選擇它,而不是手動的利用字典去實現。
需要特別注意的是
# Counter automatically breaks ties the right way (by choosing the smaller label):
Counter([3, 2, 1, 3, 3, 3, 4, 1, 1, 1]).most_common(1)
>>> [(1, 4)]
Counter([1, 2, 3, 1, 1, 1, 4, 3, 3, 3]).most_common(1)
>>> [(1, 4)]