五 正確使用索引
一 索引未命中
并不是說我們創建了索引就一定會加快查詢速度,若想利用索引達到預想的提高查詢速度的效果,我們在添加索引時,必須遵循以下問題
1 范圍問題,或者說條件不明確,條件中出現這些符號或關鍵字:>、>=、<、<=、!= 、between...and...、like、
大于號、小于號
不等于!=
between ...and...
like
2 盡量選擇區分度高的列作為索引,區分度的公式是count(distinct col)/count(*),表示字段不重復的比例,比例越大我們掃描的記錄數越少,唯一鍵的區分度是1,而一些狀態、性別字段可能在大數據面前區分度就是0,那可能有人會問,這個比例有什么經驗值嗎?使用場景不同,這個值也很難確定,一般需要join的字段我們都要求是0.1以上,即平均1條掃描10條記錄
#先把表中的索引都刪除,讓我們專心研究區分度的問題
mysql> desc s1;
+--------+-------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+--------+-------------+------+-----+---------+-------+
| id | int(11) | YES | MUL | NULL | |
| name | varchar(20) | YES | | NULL | |
| gender | char(5) | YES | | NULL | |
| email | varchar(50) | YES | MUL | NULL | |
+--------+-------------+------+-----+---------+-------+
rows in set (0.00 sec)
mysql> drop index a on s1;
Query OK, 0 rows affected (0.20 sec)
Records: 0 Duplicates: 0 Warnings: 0
mysql> drop index d on s1;
Query OK, 0 rows affected (0.18 sec)
Records: 0 Duplicates: 0 Warnings: 0
mysql> desc s1;
+--------+-------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+--------+-------------+------+-----+---------+-------+
| id | int(11) | YES | | NULL | |
| name | varchar(20) | YES | | NULL | |
| gender | char(5) | YES | | NULL | |
| email | varchar(50) | YES | | NULL | |
+--------+-------------+------+-----+---------+-------+
rows in set (0.00 sec)
#先把表中的索引都刪除,讓我們專心研究區分度的問題
我們編寫存儲過程為表s1批量添加記錄,name字段的值均為egon,也就是說name這個字段的區分度很低(gender字段也是一樣的,我們稍后再搭理它)
回憶b+樹的結構,查詢的速度與樹的高度成反比,要想將樹的高低控制的很低,需要保證:在某一層內數據項均是按照從左到右,從小到大的順序依次排開,即左1<左2<左3<...
而對于區分度低的字段,無法找到大小關系,因為值都是相等的,毫無疑問,還想要用b+樹存放這些等值的數據,只能增加樹的高度,字段的區分度越低,則樹的高度越高。極端的情況,索引字段的值都一樣,那么b+樹幾乎成了一根棍。本例中就是這種極端的情況,name字段所有的值均為'egon'
#現在我們得出一個結論:為區分度低的字段建立索引,索引樹的高度會很高,然而這具體會帶來什么影響呢???
#1:如果條件是name='xxxx',那么肯定是可以第一時間判斷出'xxxx'是不在索引樹中的(因為樹中所有的值均為'egon’),所以查詢速度很快
#2:如果條件正好是name='egon',查詢時,我們永遠無法從樹的某個位置得到一個明確的范圍,只能往下找,往下找,往下找。。。這與全表掃描的IO次數沒有多大區別,所以速度很慢
分析原因
3 =和in可以亂序,比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意順序,mysql的查詢優化器會幫你優化成索引可以識別的形式
4 索引列不能參與計算,保持列“干凈”,比如from_unixtime(create_time) = ’2014-05-29’就不能使用到索引,原因很簡單,b+樹中存的都是數據表中的字段值,但進行檢索時,需要把所有元素都應用函數才能比較,顯然成本太大。所以語句應該寫成create_time = unix_timestamp(’2014-05-29’)
5 and
條件1 and 條件2:在條件1不成立的情況下,不會再去判斷條件2,此時若條件1的字段有索引,而條件2沒有,那么查詢速度依然很快
在左邊條件成立但是索引字段的區分度低的情況下(name與gender均屬于這種情況),會依次往右找到一個區分度高的索引字段,加速查詢
經過分析,在條件為name='egon' and gender='male' and id>333 and email='xxx'的情況下,我們完全沒必要為前三個條件的字段加索引,因為只能用上email字段的索引,前三個字段的索引反而會降低我們的查詢效率
6 最左前綴匹配原則,非常重要的原則,對于組合索引mysql會一直向右匹配直到遇到范圍查詢(>、<、between、like)就停止匹配,比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)順序的索引,d是用不到索引的,如果建立(a,b,d,c)的索引則都可以用到,a,b,d的順序可以任意調整。
7 其他情況
- 使用函數
select * from tb1 where reverse(email) = 'wupeiqi';
- or
select * from tb1 where nid = 1 or name = 'seven@live.com';
特別的:當or條件中有未建立索引的列才失效,以下會走索引
select * from tb1 where nid = 1 or name = 'seven';
select * from tb1 where nid = 1 or name = 'seven@live.com' and email = 'alex'
- 類型不一致
如果列是字符串類型,傳入條件是必須用引號引起來,不然...
select * from tb1 where email = 999;
普通索引的不等于不會走索引
- !=
select * from tb1 where email != 'alex'
特別的:如果是主鍵,則還是會走索引
select * from tb1 where nid != 123
- >
select * from tb1 where email > 'alex'
特別的:如果是主鍵或索引是整數類型,則還是會走索引
select * from tb1 where nid > 123
select * from tb1 where num > 123
#排序條件為索引,則select字段必須也是索引字段,否則無法命中
- order by
select name from s1 order by email desc;
當根據索引排序時候,select查詢的字段如果不是索引,則不走索引
select email from s1 order by email desc;
特別的:如果對主鍵排序,則還是走索引:
select * from tb1 order by nid desc;
- 組合索引最左前綴
如果組合索引為:(name,email)
name and email -- 使用索引
name -- 使用索引
email -- 不使用索引
- count(1)或count(列)代替count(*)在mysql中沒有差別了
- create index xxxx on tb(title(19)) #text類型,必須制定長度
其他注意事項
- 避免使用select *
- count(1)或count(列) 代替 count(*)
- 創建表時盡量時 char 代替 varchar
- 表的字段順序固定長度的字段優先
- 組合索引代替多個單列索引(經常使用多個條件查詢時)
- 盡量使用短索引
- 使用連接(JOIN)來代替子查詢(Sub-Queries)
- 連表時注意條件類型需一致
- 索引散列值(重復少)不適合建索引,例:性別不適合
三 覆蓋索引與索引合并
#覆蓋索引:
- 在索引文件中直接獲取數據
http://blog.itpub.net/22664653/viewspace-774667/
#分析
select * from s1 where id=123;
該sql命中了索引,但未覆蓋索引。
利用id=123到索引的數據結構中定位到該id在硬盤中的位置,或者說再數據表中的位置。
但是我們select的字段為*,除了id以外還需要其他字段,這就意味著,我們通過索引結構取到id還不夠,還需要利用該id再去找到該id所在行的其他字段值,這是需要時間的,很明顯,如果我們只select id,就減去了這份苦惱,如下
select id from s1 where id=123;
這條就是覆蓋索引了,命中索引,且從索引的數據結構直接就取到了id在硬盤的地址,速度很快
#索引合并:把多個單列索引合并使用
#分析:
組合索引能做到的事情,我們都可以用索引合并去解決,比如
create index ne on s1(name,email);#組合索引
我們完全可以單獨為name和email創建索引
組合索引可以命中:
select * from s1 where name='egon' ;
select * from s1 where name='egon' and email='adf';
索引合并可以命中:
select * from s1 where name='egon' ;
select * from s1 where email='adf';
select * from s1 where name='egon' and email='adf';
乍一看好像索引合并更好了:可以命中更多的情況,但其實要分情況去看,如果是name='egon' and email='adf',那么組合索引的效率要高于索引合并,如果是單條件查,那么還是用索引合并比較合理
六 查詢優化神器-explain
關于explain命令相信大家并不陌生,具體用法和字段含義可以參考官網explain-output,這里需要強調rows是核心指標,絕大部分rows小的語句執行一定很快(有例外,下面會講到)。所以優化語句基本上都是在優化rows。
執行計劃:讓mysql預估執行操作(一般正確)
all < index < range < index_merge < ref_or_null < ref < eq_ref < system/const
id,email
慢:
select * from userinfo3 where name='alex'
explain select * from userinfo3 where name='alex'
type: ALL(全表掃描)
select * from userinfo3 limit 1;
快:
select * from userinfo3 where email='alex'
type: const(走索引)
七 慢查詢優化的基本步驟
0.先運行看看是否真的很慢,注意設置SQL_NO_CACHE
1.where條件單表查,鎖定最小返回記錄表。這句話的意思是把查詢語句的where都應用到表中返回的記錄數最小的表開始查起,單表每個字段分別查詢,看哪個字段的區分度最高
2.explain查看執行計劃,是否與1預期一致(從鎖定記錄較少的表開始查詢)
3.order by limit 形式的sql語句讓排序的表優先查
4.了解業務方使用場景
5.加索引時參照建索引的幾大原則
6.觀察結果,不符合預期繼續從0分析
八 慢日志管理
慢日志
- 執行時間 > 10
- 未命中索引
- 日志文件路徑
配置:
- 內存
show variables like '%query%';
show variables like '%queries%';
set global 變量名 = 值
- 配置文件
mysqld --defaults-file='E:\wupeiqi\mysql-5.7.16-winx64\mysql-5.7.16-winx64\my-default.ini'
my.conf內容:
slow_query_log = ON
slow_query_log_file = D:/....
注意:修改配置文件之后,需要重啟服務
MySQL日志管理
========================================================
錯誤日志: 記錄 MySQL 服務器啟動、關閉及運行錯誤等信息
二進制日志: 又稱binlog日志,以二進制文件的方式記錄數據庫中除 SELECT 以外的操作
查詢日志: 記錄查詢的信息
慢查詢日志: 記錄執行時間超過指定時間的操作
中繼日志: 備庫將主庫的二進制日志復制到自己的中繼日志中,從而在本地進行重放
通用日志: 審計哪個賬號、在哪個時段、做了哪些事件
事務日志或稱redo日志: 記錄Innodb事務相關的如事務執行時間、檢查點等
========================================================
一、bin-log
1. 啟用
# vim /etc/my.cnf
[mysqld]
log-bin[=dir\[filename]]
# service mysqld restart
2. 暫停
//僅當前會話
SET SQL_LOG_BIN=0;
SET SQL_LOG_BIN=1;
3. 查看
查看全部:
# mysqlbinlog mysql.000002
按時間:
# mysqlbinlog mysql.000002 --start-datetime="2012-12-05 10:02:56"
# mysqlbinlog mysql.000002 --stop-datetime="2012-12-05 11:02:54"
# mysqlbinlog mysql.000002 --start-datetime="2012-12-05 10:02:56" --stop-datetime="2012-12-05 11:02:54"
按字節數:
# mysqlbinlog mysql.000002 --start-position=260
# mysqlbinlog mysql.000002 --stop-position=260
# mysqlbinlog mysql.000002 --start-position=260 --stop-position=930
4. 截斷bin-log(產生新的bin-log文件)
a. 重啟mysql服務器
b. # mysql -uroot -p123 -e 'flush logs'
5. 刪除bin-log文件
# mysql -uroot -p123 -e 'reset master'
二、查詢日志
啟用通用查詢日志
# vim /etc/my.cnf
[mysqld]
log[=dir\[filename]]
# service mysqld restart
三、慢查詢日志
啟用慢查詢日志
# vim /etc/my.cnf
[mysqld]
log-slow-queries[=dir\[filename]]
long_query_time=n
# service mysqld restart
MySQL 5.6:
slow-query-log=1
slow-query-log-file=slow.log
long_query_time=3
查看慢查詢日志
測試:BENCHMARK(count,expr)
SELECT BENCHMARK(50000000,2*3);
日志管理