Binary Search(二分搜索)

二分搜索(binary search),也叫做 折半搜索(half-interval search),對數(shù)搜索(logarithmic search),對半搜索(binary chop),是一種在有序數(shù)組中查找某一特定元素的搜索算法.

二分搜索有幾個變體.特別是,分散層疊(fractional cascading)(將每個數(shù)組里的值集合成一個數(shù)組,元素為11[0,3,2,0] 的形式,括號內的數(shù)字是該值在對應數(shù)組中應該返回的數(shù)字)提高了在多個數(shù)組中查找相同值的效率,高效的解決了一系列計算幾何和其他領域的查找問題).指數(shù)查找(Exponential search)延伸了二分查找到一個沒有邊界的 list.binary search treeB-tree是基于 binary search 延伸的.

原理

搜索時從數(shù)組中間元素開始,如果中間元素正好是要查找的元素,則搜索過程結束;如果中間元素大于或者小于要查找的元素,則在數(shù)組中大于或者小于查找元素的一半中繼續(xù)查找,重復這個過程直到找到這個元素,或者這一半的大小為空時則代表找不到.這樣子每一次比較都使得搜索范圍縮小一半.

步驟

給定一個有序數(shù)組 A 是 A0,...,An-1并保證 A0<=...<=An-1,以及目標值 T.

  1. 令 L 為0,R 為 n-1.
  2. 如果 L>R 則搜索失敗
  3. 令m(中間值元素索引)為最大的小于(L+R)/2的整數(shù)
  4. 如果 Am<T ,令 L=m+1并回到第2步;
  5. 如果 Am>T ,令 R=m-1并回到第2步;
  6. 當 Am=T,搜索結束;T 所在的索引位置為m.

變體

  1. 令 L 為0,R 為 n-1.
  2. 令 m(中間元素索引) 為上限,也就是最小的大于(L+R)/2的值.
  3. 如果 Am>T ,設置 R 為 m-1并且返回第2步
  4. 如果 Am<=T ,設置 L 為m 并且返回第2步.
  5. 直到 L=R ,搜索完成.這時候如果T=Am,返回 m,否則,搜索失敗.

在 Am<=T 的時候,這個變體將 L 設置為 m 而不是 m+1.這個方式的比較是更快速的,因為它在每個循環(huán)里省略了一次比較.但是平均就會多出來一次循環(huán).在數(shù)組包含重復的元素的時候這個變體總是會返回最右側的元素索引.比如 A 是[1,2,3,4,4,5,6,7]查找的對象是4,那么這個方法會返回 index 4,而不是 index 3.

大致匹配

由于有序數(shù)組的順序性,可以將二分搜索擴展到大致匹配.可以用來計算賦值的排名(或稱秩,比它更小的元素的數(shù)量),前趨(下一個最小元素),后繼(下一個最大元素)以及最近鄰.還可以使用兩個排名查詢來執(zhí)行范圍查詢.

  • 排名查詢可以使用調整后的二分搜索來進行.成功時返回m,失敗時返回 L, 這樣就等于返回了比目標值小的元素數(shù)目.
  • 前趨和后繼可以使用排名查詢來進行.當知道目標值的排名,成功時前趨是排名位置的上一個元素,失敗時則是排名位置的元素.它的后繼是排名位置的后一個元素,或是前趨的下一個元素.目標值的最近領可能是前趨或后繼,取決于哪個更接近目標值.
  • 范圍查詢,一旦知道范圍兩邊的值的排名,那么大于邊界最小值且小于邊界最大值的元素排名就是他們的范圍,是否包含邊界值根據(jù)需要處理.

性能分析

時間復雜度
二分查找每次把搜索區(qū)域減少一半,時間復雜度為
O(log_2 n)
(n 是集合中元素的個數(shù))
最差的情況是 遍歷到最后一層,或者是沒有找到該元素的時候,復雜度為 O(\lfloor log_2 n + 1 \rfloor) .

綜合復雜度為 O(log_2 n)

分散層疊(fractional cascading) 可以提高在多數(shù)組中查詢相同值的效率. k 是數(shù)組的數(shù)量,在每個數(shù)組中查詢目標值消耗 O(k log n) 的時間.分散層疊可以將它降低到 O(k+log n).

變體效率分析
相對于正常的二分搜索,它減少了每次循環(huán)的比對次數(shù),但是它必須做完完整的循環(huán),而不會在中間就得到答案.但是在 n 很大的情況下減少了對比次數(shù)的提升不能夠抵消多余的循環(huán)的消耗.

空間復雜度
O(1).尾遞歸,可以改寫為循環(huán).

應用

查找數(shù)組中的元素,或用于插入排序.

二分搜索和其他的方案對比

使用二分搜索的有序數(shù)組在插入和刪除操作效率很低,每個操作消耗 O(n) 的時間.其他的數(shù)據(jù)結構提供了更高效的插入和刪除,并且提供了同樣高效的完全匹配.然而,二分搜索適用于很多的搜索問題,只消耗 O(log n) 的時間.

Hashing

對于關聯(lián)數(shù)組 (associative arrays),哈希表 (hash tables),他們是通過hash 函數(shù)將鍵映射到記錄上的數(shù)據(jù)結構,通常情況下比在有序數(shù)組的情況下使用二分查找要更快.大部分的實現(xiàn)平均開銷都是常量級的.然而, hashing 并不適用于模糊匹配,比如計算前趨,后繼,以及最近的鍵,它在失敗的查詢情況下能給我們的唯一信息就是目標在記錄中不存在.二分查找是這種匹配的理想模式,消耗對數(shù)級別的時間.

Trees

二叉搜索樹(binary search tree) 是一個基于二叉搜索原理的二叉樹(binary tree)數(shù)據(jù)結構.樹的記錄按照順序排列,并且每個樹里的每個記錄都可以使用類似二叉搜索的方法來搜索,平均耗費對數(shù)級的時間.插入和刪除的平均時間也是對數(shù)級的.這會比有序數(shù)組消耗的線性時間要快,并且二叉樹擁有所有有序數(shù)組可以執(zhí)行的操作,包含范圍和模糊查找.

然而二叉搜索通常情況下比二叉搜索樹的搜索更有效率,因為二叉搜索樹很可能會完全不平衡,導致性能稍差.這同樣適用于 平衡二叉搜索樹( balanced binary search trees) , 它平衡了它自己的節(jié)點稍微向完全平衡樹靠攏.雖然不太可能,但是樹有可能只有少數(shù)節(jié)點有兩個子節(jié)點導致嚴重不平衡,這種情況下平均時間損耗和最差的情況差不多都是 O(n) .二叉搜索樹比有序數(shù)組占用更多的空間.

二叉搜索樹因為可以高效的在文件系統(tǒng)中結構化,所以他們可以在硬盤中進行快速搜索.B-tree 泛化了這種樹結構的方法.B-tree 常用于組織長時間的存儲比如數(shù)據(jù)庫(databases)文件系統(tǒng)(filesystems).

Linear search

線性搜索( Linear Search)是一種簡單的搜索算法,它查找每一個記錄直到找到目標值.線性搜索可以在 鏈表(linked list) 上使用,它的插入和刪除會比在數(shù)組上要快.二分搜索比線性搜索要快除非數(shù)組很短.如果數(shù)組必須先被排序,這個消耗必須在搜索中平攤.對數(shù)組進行排序還可以進行有效的近似匹配和其他操作.

Set membership algorithms

一個和搜索相關的問題是集合成員(set membership).所有有關查找的算法,比如二分搜索,都可以用于集合成員.還有一些更適用于集合成員的算法,位數(shù)組(bit array)是最簡單的一個,在鍵的范圍是有限的時候非常有用.它非常快,是需要O(1)的時間.朱迪矩陣(Judy array)可以高效的處理64位鍵.

對于近似結果,布隆過濾器(Bloom filters)是另外一個基于哈希的概率性數(shù)據(jù)結構,通過存儲使用bit array 和多重 hash 函數(shù)編碼的鍵集合. Bloom filters 在大多數(shù)情況下空間效率比bit arrays 要高而不會慢太多:使用了 k 重hash 函數(shù),成員查找只需要 O(k) 的時間.然而, Bloom filters 有一定的誤判性.

其他的數(shù)據(jù)結構

這里存在一些數(shù)據(jù)結構在某些情況下比在有序數(shù)組上使用二分搜索進行查找或其他的操作更加高效.比如,在van Emde Boas trees, fusion trees, 前綴樹(tries), 和位數(shù)組 上進行查找,近似匹配,以及其他可用的操作可以比在有序數(shù)組上進行二分搜索更加的高效.然而,盡管這些操作可以比在無視鍵的情況下比有序數(shù)組上使用更高效,這樣的數(shù)據(jù)結構通常是因為利用了某些鍵的屬性(鍵通常是一些小整數(shù)),因此如果鍵缺乏那些屬性將會消耗更多的空間或時間.一些結構如朱迪矩陣,使用了多種方式的組合來保證效率和執(zhí)行近似匹配的能力.

變體

Uniform binary search

Uniform binary search 不是存儲下限和上限的邊界值,而是中間元素的索引,和從這次循環(huán)的中間元素到下次循環(huán)的中間元素的變化.每一步的變化減少一半.比如,要搜索的數(shù)組是[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11],中間元素是6.Uniform binary search 同時對左邊和右邊的子數(shù)組進行操作.在這個情況下,左邊的子數(shù)組([1, 2, 3, 4, 5]) 的中間元素 3 而右邊的子數(shù)組 ([7, 8, 9, 10, 11]) 的中間元素是 9.然后存儲3 作為兩個中間元素和 6 的差別.為了減少搜索的空間使用,算法同時加上或減去這個和中間元素的改變.這個算法的好處是可以將每次循環(huán)的索引的差別存儲到一個表里,在某些系統(tǒng)里可以提高算法的性能.

image

Exponential search

指數(shù)查找(Exponential Search)將二分搜索拓展到無邊界數(shù)組.它最開始尋找第一個索引是2的冪次方并且要比目標值大的元素的索引.然后,它將這個元素索引設置為上邊界,然后開始二分搜索.指數(shù)查找消耗 \lfloor log_2 x =1 \rfloor 次循環(huán) ,然后二分搜索消耗 \lfloor log_2 x \rfloor 次循環(huán), x 是目標值的位置.指數(shù)查找適用于有界列表,在目標值接近數(shù)組開始的位置的時候比二分查找性能有所提高.

image

Interpolation search

內插搜索(Interpolation search)忽略了目標值的位置,計算數(shù)組的最低和最高元素的距離即數(shù)組的長度.這只有在數(shù)組元素是數(shù)字的時候才能使用.它適用于中間值不是最好的猜測選擇的情況.比如,如果目標值接近數(shù)組的最高元素,最好是定位在數(shù)組的末端.如果數(shù)組的分布是均勻的或者接近均勻的,它消耗 O(log log n) 次比較.

實際上,內插搜索在數(shù)組元素較少的情況下是比二分搜索更慢的,因為內插搜索需要額外的計算.盡管它的時間復雜度增長是小于二分搜索的,只有在在大數(shù)組的情況下這個計算的損耗可以被彌補.

image

Fractional cascading

分散層疊(Fractional cascading) 可以提高在多個有序數(shù)組里查找相同的元素或近似匹配的效率,分別在每個數(shù)組里查找總共需要 O(klogn)的時間, k 是數(shù)組的數(shù)量.分散層疊通過將每個數(shù)組的信息按指定的方式存儲起來將這個時間降低到 O(k+logn) .

它將每個數(shù)組里的值集合成一個數(shù)組,元素為 11[0,3,2,0] 的形式,括號內的數(shù)字是該值在對應數(shù)組中應該返回的數(shù)字)提高了在多個數(shù)組中查找相同值的效率,高效的解決了一系列計算幾何和其他領域的查找問題

分散層疊被發(fā)明的時候是為了高效的解決各種計算幾何學(computational geometry) 問題,但是它同樣適用于其他地方,例如 數(shù)據(jù)挖掘(data mining)互聯(lián)網協(xié)議(Internet Protocal) 等.

實現(xiàn)時的問題

要注意中間值的取值方法,如果使用 (L+R)/2 當數(shù)組的元素數(shù)量很大的時候回造成計算溢出.所以要使用L+(R-L)/2.

示例

C 版本- 遞歸

int binary_search(const int arr[], int start , int end , int khey){
    if (start > end)
      return -1;

    int mid = start +(end - start)/2;   //直接平均可能會溢位,所以用此算法
    if (arr[mid] > khey)
        return binary_search(arr , start , mid - 1 , khey);
    else if (arr[mid] < khey)
        return binary_search(arr , mid + 1 , end , khey);
    else
        return mid;    //最后才檢測相等的情況是因為大多數(shù)搜尋情況不是大于就是小于

}

C 版本- while 循環(huán)

int binary_search(const int arr[], int start, int end, int khey){
    int result = -1;    //如果沒有搜索到數(shù)據(jù)返回 -1

    int mid;
    while (start <= end){
      mid = start + (end - start)/2 ;    //直接平均可能會溢位,所以用此算法
      if (arr[mid] > khey)
          end = mid-1;
      else if (arr[mid] < khey)
          start = mid + 1;
      else{    //最后才檢測相等的情況是因為大多數(shù)搜尋情況不是大于就是小于
          result = mid;
          break;
      }
    }

    return result;

}

Python3 遞歸

def binary_search(arr, start, end, hkey):
    if start > end:
        return -1

    mid = start + (end - start) / 2
    if arr[mid] > hkey:
        return binary_search(arr, start , mid - 1,hkey)
    if arr[mid] < hkey:
        return binary_search(arr, mid + 1, end, hkey)
    return mid

Python3 while 循環(huán)

def binary_search(arr, start, end, hkey):
    result = -1

    while start <= end:
        mid = start + (end - start) / 2
        if arr[mid] > hkey :
            end = mid - 1
        elif arr[mid] < hkey :
            start = mid + 1
        else :
            result = mid
            break

    return result

Java 遞歸

public static int binarySearch(int[] arr, int start, int end, int hkey){
    if (start > end)
        return -1;

    int mid = start + (end - start)/2;    //防止溢位
    if (arr[mid] > hkey)
        return binarySearch(arr, start, mid - 1, hkey);
    if (arr[mid] < hkey)
        return binarySearch(arr, mid + 1, end, hkey);
    return mid;  

}

Java while 循環(huán)


public static int binarySearch(int[] arr, int start, int end, int hkey){
    int result = -1;

    while (start <= end){
        int mid = start + (end - start)/2;    //防止溢位
        if (arr[mid] > hkey)
            end = mid - 1;
        else if (arr[mid] < hkey)
            start = mid + 1;
        else {
            result = mid ;  
            break;
        }
    }

    return result;

}

About Me

我的 GitHub https://github.com/LeonChen1024

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容