黑人巨大粗物挺进了少妇,久久久久久精品国产三级消防员,婷婷俺去也

最近碰到如下的一個問題如何快速合并兩個大文件？

有A,B兩個文件。這兩個文件都有以下特性

A,B兩個文件每一行都可以被解析為json 格式
A,B兩個文件都比較大(至少大于500M)
A,B兩個文件可以通過將每行轉化為json之后通過某個相同key的值合并
A文件有a行,B文件有b行
A,B兩個文件兩行可以合并的條件是唯一的。

比如 A文件的第一行可以是這樣的一個json

{

? 'id':1,

? 'test': 2

}

B文件的第二行可以是這樣的一個json

{

'id':1,

'test2':3

}

我們可以通過兩個相同的key合并為這樣一個json

{

'id':1,

'test':2,

'test2':3

}

現在的問題就是如何把他們合并？

第一個想法——暴力合并

先讀取A文件的一行數據，然后轉化為json格式
將A某一行的json格式的數據同B文件中的數據一一校驗，判斷兩個數據數據是否可以合并

這個想法的算法復雜度是o(a*b)，當文件的行數很大的時候，情況很堪憂。以我目前的處理的兩個文件來說，兩個文件都是9萬多行。對于cpu來說，他最壞的時候需要90000 * 90000次指令。目前的cpu每秒大概能執行百萬級的指令，那么執行這個合并操作也需要2個小時的時間

第二個方法-先預處理一下

我們可以先算出A文件中哪一行數據可以同B文件中哪幾行的文件。因為合并的條件是唯一的。那么對于我們現在的處理的文件來說是算法復雜度為o(max(a,b))

但是這個算法還是有一個問題，當你已經知道兩個文件哪倆行的文件需要合并的。你如何從這兩個大文件中快速的讀出這兩行文件。

我目前的想法是記錄每一行的偏移量的位置。

記錄偏移量的話我剛開始是想采用以下代碼的方法的。直接把文件中的數據讀到內存中

執行以下代碼,276M 需要2秒,17G 需要10秒

def test_merge(filename):
    start_time = time.time()
    print "start {} function is {}".format(test_merge.__name__, start_time)
    
    f = open(filename, "r")
    line = []
    line.append(0)
    filename_size = os.path.getsize(filename)
    chars = f.read(filename_size)
    count = 0
    for char in chars:
        if char == '\n':
            line.append(count)
        count = count + 1

但是上面的代碼在當文件很大的時候是很容易爆內存的.

所以在此我們可以采用第二個函數可以通過，先計算出每個文件的大小，然后每個讀出根號大小的數

def merge_by_file(filename):
    start_time = time.time()
    print "start {} function is {}".format(merge_by_file.__name__,start_time)
    
    f = open(filename, "r")
    line = []
    line.append(0)
    filename_size = os.path.getsize(filename)
    filename_length = int(math.sqrt(filename_size))
    count = 0
    print filename_length
    for i in xrange(filename_length + 2):
        if count + filename_length < filename_size:
            chars = f.read(filename_length)
            for char in chars:
                count = count + 1
                if char == '\n':
                    line.append(count)
        else:
            chars = f.read(filename_size - count)
            for char in chars:
                count = count + 1
                if char == '\n' and count != filename_size:
                    line.append(count)
            break
    f.close()

由此，我在處理兩個9萬行文件的腳本每次運行的時間縮短到2分鐘。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

如何快速合并兩個大文件

如何快速合并兩個大文件

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

如何快速合并兩個大文件

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频