轉載自:http://hi.baidu.com/lzpsky/item/899e7df5498c66ce521c262b
索引分為聚簇索引和非聚簇索引。
以一本英文課本為例,要找第8課,直接翻書,若先翻到第5課,則往后翻,再翻到第10課,則又往前翻。這本書本身就是一個索引,即“聚簇索引”。
如果要找"fire”這個單詞,會翻到書后面的附錄,這個附錄是按字母排序的,找到F字母那一塊,再找到"fire”,對應的會是它在第幾課。這個附錄,為“非聚簇索引”。
由此可見,聚簇索引,索引的順序就是數據存放的順序,所以,很容易理解,一張數據表只能有一個聚簇索引。
聚簇索引要比非聚簇索引查詢效率高很多,特別是范圍查詢的時候。所以,至于聚簇索引到底應該為主鍵,還是其他字段,這個可以再討論。
1、MYSQL的索引
mysql中,不同的存儲引擎對索引的實現方式不同,大致說下MyISAM和InnoDB兩種存儲引擎。
MyISAM的B+Tree的葉子節點上的data,并不是數據本身,而是數據存放的地址。主索引和輔助索引沒啥區別,只是主索引中的key一定得是唯一的。這里的索引都是非聚簇索引。
MyISAM還采用壓縮機制存儲索引,比如,第一個索引為“her”,第二個索引為“here”,那么第二個索引會被存儲為“3,e”,這樣的缺點是同一個節點中的索引只能采用順序查找。
InnoDB 的數據文件本身就是索引文件,B+Tree的葉子節點上的data就是數據本身,key為主鍵,這是聚簇索引。非聚簇索引,葉子節點上的data是主鍵 (所以聚簇索引的key,不能過長)。為什么存放的主鍵,而不是記錄所在地址呢,理由相當簡單,因為記錄所在地址并不能保證一定不會變,但主鍵可以保證。
至于為什么主鍵通常建議使用自增id呢?
2、聚簇索引
聚 簇索引的數據的物理存放順序與索引順序是一致的,即:只要索引是相鄰的,那么對應的數據一定也是相鄰地存放在磁盤上的。如果主鍵不是自增id,那么可以想 象,它會干些什么,不斷地調整數據的物理地址、分頁,當然也有其他一些措施來減少這些操作,但卻無法徹底避免。但,如果是自增的,那就簡單了,它只需要一 頁一頁地寫,索引結構相對緊湊,磁盤碎片少,效率也高。
聚簇索引不但在檢索上可以大大滴提高效率,在數據讀取上也一樣。比如:需要查詢f~t的所有單詞。
一個使用MyISAM的主索引,一個使用InnoDB的聚簇索引。兩種索引的B+Tree檢索時間一樣,但讀取時卻有了差異。
因為MyISAM的主索引并非聚簇索引,那么他的數據的物理地址必然是凌亂的,拿到這些物理地址,按照合適的算法進行I/O讀取,于是開始不停的尋道不停的旋轉。聚簇索引則只需一次I/O。
不過,如果涉及到大數據量的排序、全表掃描、count之類的操作的話,還是MyISAM占優勢些,因為索引所占空間小,這些操作是需要在內存中完成的。
鑒于聚簇索引的范圍查詢效率,很多人認為使用主鍵作為聚簇索引太多浪費,畢竟幾乎不會使用主鍵進行范圍查詢。但若再考慮到聚簇索引的存儲,就不好定論了。