10億個數中找出最大的10000個數（top K問題）

前兩天面試3面學長問我的這個問題（想說TEG的3個面試學長都是好和藹，希望能完成最后一面，各方面原因造成我無比想去鵝場的心已經按捺不住了），這個問題還是建立最小堆比較好一些。

先拿10000個數建堆，然后一次添加剩余元素，如果大于堆頂的數（10000中最小的），將這個數替換堆頂，并調整結構使之仍然是一個最小堆，這樣，遍歷完后，堆中的10000個數就是所需的最大的10000個。建堆時間復雜度是O（mlogm），算法的時間復雜度為O（nmlogm）（n為10億，m為10000）。

優化的方法：可以把所有10億個數據分組存放，比如分別放在1000個文件中。這樣處理就可以分別在每個文件的10^6個數據中找出最大的10000個數，合并到一起在再找出最終的結果。

以上就是面試時簡單提到的內容，下面整理一下這方面的問題：

top K問題
在大規模數據處理中，經常會遇到的一類問題：在海量數據中找出出現頻率最好的前k個數，或者從海量數據中找出最大的前k個數，這類問題通常被稱為top K問題。例如，在搜索引擎中，統計搜索最熱門的10個查詢詞；在歌曲庫中統計下載最高的前10首歌等。

針對top K類問題，通常比較好的方案是分治+Trie樹/hash+小頂堆（就是上面提到的最小堆），即先將數據集按照Hash方法分解成多個小數據集，然后使用Trie樹活著Hash統計每個小數據集中的query詞頻，之后用小頂堆求出每個數據集中出現頻率最高的前K個數，最后在所有top K中求出最終的top K。

有1億個浮點數，如果找出期中最大的10000個？

最容易想到的方法是將數據全部排序，然后在排序后的集合中進行查找，最快的排序算法的時間復雜度一般為O（nlogn），如快速排序。但是在32位的機器上，每個float類型占4個字節，1億個浮點數就要占用400MB的存儲空間，對于一些可用內存小于400M的計算機而言，很顯然是不能一次將全部數據讀入內存進行排序的。其實即使內存能夠滿足要求（我機器內存都是8GB），該方法也并不高效，因為題目的目的是尋找出最大的10000個數即可，而排序卻是將所有的元素都排序了，做了很多的無用功。
第二種方法為局部淘汰法，該方法與排序方法類似，用一個容器保存前10000個數，然后將剩余的所有數字——與容器內的最小數字相比，如果所有后續的元素都比容器內的10000個數還小，那么容器內這個10000個數就是最大10000個數。如果某一后續元素比容器內最小數字大，則刪掉容器內最小元素，并將該元素插入容器，最后遍歷完這1億個數，得到的結果容器中保存的數即為最終結果了。此時的時間復雜度為O（n+m^2），其中m為容器的大小，即10000。
第三種方法是分治法，將1億個數據分成100份，每份100萬個數據，找到每份數據中最大的10000個，最后在剩下的100 * 10000個數據里面找出最大的10000個。如果100萬數據選擇足夠理想，那么可以過濾掉1億數據里面99%的數據。100萬個數據里面查找最大的10000個數據的方法如下：用快速排序的方法，將數據分為2堆，如果大的那堆個數N大于10000個，繼續對大堆快速排序一次分成2堆，如果大的那堆個數N大于10000個，繼續對大堆快速排序一次分成2堆，如果大堆個數N小于10000個，就在小的那堆里面快速排序一次，找第10000-n大的數字；遞歸以上過程，就可以找到第1w大的數。參考上面的找出第1w大數字，就可以類似的方法找到前10000大數字了。此種方法需要每次的內存空間為10^6*4=4MB，一共需要101次這樣的比較。
第四種方法是Hash法。如果這1億個書里面有很多重復的數，先通過Hash法，把這1億個數字去重復，這樣如果重復率很高的話，會減少很大的內存用量，從而縮小運算空間，然后通過分治法或最小堆法查找最大的10000個數。

第五種方法采用最小堆。首先讀入前10000個數來創建大小為10000的最小堆，建堆的時間復雜度為O（mlogm）（m為數組的大小即為10000），然后遍歷后續的數字，并于堆頂（最小）數字進行比較。如果比最小的數小，則繼續讀取后續數字；如果比堆頂數字大，則替換堆頂元素并重新調整堆為最小堆。整個過程直至1億個數全部遍歷完為止。然后按照中序遍歷的方式輸出當前堆中的所有10000個數字。該算法的時間復雜度為O（nmlogm），空間復雜度是10000（常數）。
實際運行：
實際上，最優的解決方案應該是最符合實際設計需求的方案，在時間應用中，可能有足夠大的內存，那么直接將數據扔到內存中一次性處理即可，也可能機器有多個核，這樣可以采用多線程處理整個數據集。

下面針對不容的應用場景，分析了適合相應應用場景的解決方案。

（1）單機+單核+足夠大內存

如果需要查找10億個查詢次（每個占8B）中出現頻率最高的10個，考慮到每個查詢詞占8B，則10億個查詢次所需的內存大約是10^9 * 8B=8GB內存。如果有這么大內存，直接在內存中對查詢次進行排序，順序遍歷找出10個出現頻率最大的即可。這種方法簡單快速，使用。然后，也可以先用HashMap求出每個詞出現的頻率，然后求出頻率最大的10個詞。

（2）單機+多核+足夠大內存
這時可以直接在內存總使用Hash方法將數據劃分成n個partition，每個partition交給一個線程處理，線程的處理邏輯同（1）類似，最后一個線程將結果歸并。
該方法存在一個瓶頸會明顯影響效率，即數據傾斜。每個線程的處理速度可能不同，快的線程需要等待慢的線程，最終的處理速度取決于慢的線程。而針對此問題，解決的方法是，將數據劃分成c×n個partition（c>1），每個線程處理完當前partition后主動取下一個partition繼續處理，知道所有數據處理完畢，最后由一個線程進行歸并。

（3）單機+單核+受限內存
這種情況下，需要將原數據文件切割成一個一個小文件，如次啊用hash(x)%M，將原文件中的數據切割成M小文件，如果小文件仍大于內存大小，繼續采用Hash的方法對數據文件進行分割，知道每個小文件小于內存大小，這樣每個文件可放到內存中處理。采用（1）的方法依次處理每個小文件。

（4）多機+受限內存
這種情況，為了合理利用多臺機器的資源，可將數據分發到多臺機器上，每臺機器采用（3）中的策略解決本地的數據。可采用hash+socket方法進行數據分發。

以下是一些經常被提及的該類問題。

（1）有10000000個記錄，這些查詢串的重復度比較高，如果除去重復后，不超過3000000個。一個查詢串的重復度越高，說明查詢它的用戶越多，也就是越熱門。請統計最熱門的10個查詢串，要求使用的內存不能超過1GB。
（2）有10個文件，每個文件1GB，每個文件的每一行存放的都是用戶的query，每個文件的query都可能重復。按照query的頻度排序。（3）有一個1GB大小的文件，里面的每一行是一個詞，詞的大小不超過16個字節，內存限制大小是1MB。返回頻數最高的100個詞。（4）提取某日訪問網站次數最多的那個IP。
（5）10億個整數找出重復次數最多的100個整數。
（6）搜索的輸入信息是一個字符串，統計300萬條輸入信息中最熱門的前10條，每次輸入的一個字符串為不超過255B，內存使用只有1GB。
（7）有1000萬個身份證號以及他們對應的數據，身份證號可能重復，找出出現次數最多的身份證號。

重復問題
在海量數據中查找出重復出現的元素或者去除重復出現的元素也是常考的問題。針對此類問題，一般可以通過位圖法實現。例如，已知某個文件內包含一些電話號碼，每個號碼為8位數字，統計不同號碼的個數。本題最好的解決方法是通過使用位圖法來實現。8位整數可以表示的最大十進制數值為99999999。如果每個數字對應于位圖中一個bit位，那么存儲8位整數大約需要99MB。因為1B=8bit，所以99Mbit折合成內存為99/8=12.375MB的內存，即可以只用12.375MB的內存表示所有的8位數電話號碼的內容。
版權聲明：本文為博主原創文章，未經博主允許不得轉載。

原文鏈接:http://blog.csdn.net/zyq522376829/article/details/47686867

最后編輯于：2017.12.05 03:34:52

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,825評論 6贊 546
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,814評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,980評論 0贊 384
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 64,064評論 1贊 319
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,779評論 6贊 414
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 56,109評論 1贊 330
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,099評論 3贊 450
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,287評論 0贊 291
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,799評論 1贊 338
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,515評論 3贊 361
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,750評論 1贊 375
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,221評論 5贊 365
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,933評論 3贊 351
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,327評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,667評論 1贊 296
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,492評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,703評論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

10億個數中找出最大的10000個數（top K問題）

10億個數中找出最大的10000個數（top K問題）

以上就是面試時簡單提到的內容，下面整理一下這方面的問題：

有1億個浮點數，如果找出期中最大的10000個？

下面針對不容的應用場景，分析了適合相應應用場景的解決方案。

以下是一些經常被提及的該類問題。

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

10億個數中找出最大的10000個數（top K問題）

以上就是面試時簡單提到的內容，下面整理一下這方面的問題：

有1億個浮點數，如果找出期中最大的10000個？

下面針對不容的應用場景，分析了適合相應應用場景的解決方案。

以下是一些經常被提及的該類問題。

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频