MySQL 排序規則簡介

在日常工作中,對于MySQL排序規則,很少關注,大部分時候都是直接使用字符集默認的排序規則,常常忽視了排序規則的細節問題,了解排序規則有助于更好的理解MySQL字符比較和排序相關的知識

<font color=CornflowerBlue>簡述</font>

說起排序規則就離不開字符集,嚴格來說,排序規則是依賴于字符集的

字符集是用來定義MySQL存儲不同字符的方式,而排序規則一般指對字符集中字符串之間的比較、排序制定的規則。一種字符集可以對應多種排序規則,但是一種排序規則只能對應指定的一種字符集,兩個不同的字符集不能有相同的排序規則

上圖中,Collation 列表示排序方式,Charset 列表示字符集,可以看出 utf8 字符集對應著許多的排序方式,排序方式那一列每一項的值都不一樣,并且每一項都對應唯一一種字符集,在這里是 utf8 字符集

<font color=CornflowerBlue>默認排序規則</font>

  • <font color=CornflowerBlue>字符集的默認排序規則</font>

每種字符集都有一個默認的排序規則, 可以通過下面的SQL語句查詢指定字符集的默認排序規則

mysql> show character set like 'utf8%';
+---------+---------------+--------------------+--------+
| Charset | Description   | Default collation  | Maxlen |
+---------+---------------+--------------------+--------+
| utf8    | UTF-8 Unicode | utf8_general_ci    |      3 |
| utf8mb4 | UTF-8 Unicode | utf8mb4_general_ci |      4 |
+---------+---------------+--------------------+--------+
2 rows in set (0.00 sec)

上面的例子是查詢字符集前綴包含utf8的默認排序方式,從中可以得知:

utf8字符集的默認排序方式是 utf8_general_ci 字符集中字符最大長度占3個字節

utf8mb4 字符集的默認排序方式是 utf8mb4_general_ci 字符集中字符最大長度占4個字節

  • <font color=CornflowerBlue>數據庫的默認排序規則</font>

MySQL服務器的默認字符集可以在 /etc/my.cnf 配置中的 [mysqld] 下修改

例如:現需要把MySQL服務器的默認字符集設置為 utf8, 默認排序規則設置為 utf8_general_ci, 只需要在 /etc/my.cnf 配置文件的 [mysqld] 下添加以下子項

character-set-server=utf8
collation-server=utf8_general_ci

創建數據庫的時候如果沒有指定字符集,會使用MySQL服務器默認字符集和默認排序規則

假如: 在下面例子中,MySQL服務器的默認字符集和默認排序規則分別是 utf8utf8_general_ci

mysql> create database at;
Query OK, 1 row affected (0.00 sec)
mysql> select SCHEMA_NAME,DEFAULT_CHARACTER_SET_NAME,DEFAULT_COLLATION_NAME from INFORMATION_SCHEMA.SCHEMATA where SCHEMA_NAME='at';
+-------------+----------------------------+------------------------+
| SCHEMA_NAME | DEFAULT_CHARACTER_SET_NAME | DEFAULT_COLLATION_NAME |
+-------------+----------------------------+------------------------+
| at          | utf8                       | utf8_general_ci        |
+-------------+----------------------------+------------------------+
1 row in set (0.00 sec)

在上面的例子中,創建了 at 數據庫,創建數據庫的時候沒有為數據庫指定字符集和排序規則,此時會使用 MySQL服務器的默認字符集和排序規則

通過SQL語句查詢 at 數據庫的默認字符集和默認排序規則,結果和MySQL服務器的默認字符集和默認排序規則是一樣的

<font color=CornflowerBlue>排序規則命名以及名字后綴</font>

  • <font color=CornflowerBlue>命名</font>

排序規則的命名是以和它自身關聯的字符集名字開頭的,后面再接一個或多個后綴來表示指定字符集的一種排序規則

例如:utf8_general_ciutf8_bin 就是 utf8字符集的兩種排序規則, latin1_swedish_cilatin1字符集的排序規則

==注意:== binary 字符集只有一種排序規則,并且它的排序規則名字和字符集名字一樣, 也是 binary

  • <font color=CornflowerBlue>后綴</font>

排序規則名字的后綴是有特殊意義的,根據后綴可以知道排序規則是否區分大小寫,是否區分重音,是否是二進制等等,下面列出了部分后綴的說明

_ci : 不區分大小寫, Case-insensitive的縮寫

_cs : 區分大小寫,Case-sensitive的縮寫

_ai : 不區分重音,Accent-insensitive的縮寫

_as : 區分重音,Accent-sensitive的縮寫

_bin : 二進制

<font color=CornflowerBlue>1: 不區分大小寫</font>

mysql> SET NAMES 'utf8' COLLATE 'utf8_unicode_ci';
Query OK, 0 rows affected (0.02 sec)

mysql> select 'a' = 'A';
+-----------+
| 'a' = 'A' |
+-----------+
|         1 |
+-----------+
1 row in set (0.00 sec)

例子中排序規則為 utf8_unicode_ci 是不區分大小寫的,所以字符 a 和字符 A 會被當做相同字符處理

<font color=CornflowerBlue>2: 區分大小寫</font>

mysql> SET NAMES 'latin1' COLLATE 'latin1_general_cs';
Query OK, 0 rows affected (0.00 sec)

mysql> select 'a' = 'A';
+-----------+
| 'a' = 'A' |
+-----------+
|         0 |
+-----------+
1 row in set (0.00 sec)

例子中排序規則為 latin1_general_cs 是會區分大小寫的,所以字符 a 和字符 A 會被認為是兩個不同的字符

<font color=CornflowerBlue>3: 二進制</font>

mysql> SET NAMES 'utf8' COLLATE 'utf8_bin';
Query OK, 0 rows affected (0.00 sec)

mysql>  select 'a' = 'A';
+-----------+
| 'a' = 'A' |
+-----------+
|         0 |
+-----------+
1 row in set (0.00 sec)

mysql> select 'à' = 'a';
+------------+
| 'à' = 'a'  |
+------------+
|          0 |
+------------+
1 row in set (0.00 sec)

上面例子使用的排序規則是 utf8_bin 從結果可以得知:utf8_bin 排序規則區分大小寫,也區分重音字符

<font color=CornflowerBlue>4: 是否區分重音</font>

重音字符是類似 à、ě、ň 的字符,不區分重音是指字符 aàeě 以及 nň 被認為是同一個字符

對于非二進制(后綴為 _bin)的排序規則, 如果排序規則名字后綴不包含
_ai_as, 則排序規則名稱中的 _ci 默認隱含了_ai, _cs默認隱含了_as

例如: utf8_unicode_ci排序規則是不區分大小寫并且隱含不區分重音的

latin1_general_cs 排序規則是區分大小寫并且隱含區分重音的

具體的請查看下面的例子

mysql> SET NAMES 'utf8' COLLATE 'utf8_unicode_ci';
Query OK, 0 rows affected (0.02 sec)

mysql> select 'à' = 'a';
+------------+
| 'à' = 'a'  |
+------------+
|          1 |
+------------+
1 row in set (0.00 sec)

mysql>  SET NAMES 'latin1' COLLATE 'latin1_general_cs';
Query OK, 0 rows affected (0.00 sec)

mysql> select 'à' = 'a';
+------------+
| 'à' = 'a'  |
+------------+
|          0 |
+------------+
1 row in set (0.01 sec)

<font color=CornflowerBlue>查看排序規則</font>

  • <font color=CornflowerBlue>查看數據庫數據庫的排序規則</font>

方法1: INFORMATION_SCHEMA.SCHEMATA表中的 DEFAULT_COLLATION_NAME 字段表示數據庫的排序規則,可以通過下面的SQL語句獲得指定數據庫的排序規則

mysql>  select SCHEMA_NAME,DEFAULT_CHARACTER_SET_NAME,DEFAULT_COLLATION_NAME from INFORMATION_SCHEMA.SCHEMATA where SCHEMA_NAME='at';
+-------------+----------------------------+------------------------+
| SCHEMA_NAME | DEFAULT_CHARACTER_SET_NAME | DEFAULT_COLLATION_NAME |
+-------------+----------------------------+------------------------+
| at          | latin1                     | latin1_swedish_ci      |
+-------------+----------------------------+------------------------+
1 row in set (0.00 sec)

上面的例子是查看 at 數據庫的字符集和排序規則,從結果可以得知:at數據庫的排序規則是latin1_swedish_ci

方法2:直接查詢 collation_database 變量值

mysql> use at;
Database changed
mysql> show variables like 'collation_database';
+--------------------+-------------------+
| Variable_name      | Value             |
+--------------------+-------------------+
| collation_database | latin1_swedish_ci |
+--------------------+-------------------+
1 row in set (0.00 sec)

實例中 use at SQL語句切換到 at 數據庫,然后使用 show variables like 'collation_database'; 語句查詢 at 數據庫的排序規則

  • <font color=CornflowerBlue>查看表的排序規則</font>

方法1:根據數據庫名和表名查看 INFORMATION_SCHEMA.TABLES 表中的 TABLE_COLLATION 字段,可以得到指定數據庫中指定表的排序規則,具體的實例如下所示:

mysql> SELECT TABLE_SCHEMA, TABLE_NAME,TABLE_COLLATION FROM INFORMATION_SCHEMA.TABLES where TABLE_SCHEMA='test' and TABLE_NAME = 'tc';
+--------------+------------+-----------------+
| TABLE_SCHEMA | TABLE_NAME | TABLE_COLLATION |
+--------------+------------+-----------------+
| test         | tc         | utf8_general_ci |
+--------------+------------+-----------------+
1 row in set (0.00 sec)

方法2:執行 show create table 表名 語句查看

mysql> show create table tc\G
*************************** 1. row ***************************
       Table: tc
Create Table: CREATE TABLE `tc` (
  `id` int(11) NOT NULL,
  `a` char(32) NOT NULL,
  `b` char(32) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL,
  `c` char(32) CHARACTER SET latin1 COLLATE latin1_general_cs NOT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8
1 row in set (0.00 sec)

上面的例子中, show create table tc\G 是查看 tc 表的創建語句,一般創建表的時候會指定排序規則,例子中沒有顯示指定表的排序規則,這是因為使用的是字符集的默認排序規則,tc 表的字符集是 utf8 , 默認的排序規則是 utf8_general_ci

  • <font color=CornflowerBlue>查看字段的排序規則</font>

上面 ==查看表的排序規則== 小節的 ==方法2== 是查看表的創建語句,字段的排序規則也可以從表創建語句中查看到,如果沒有顯示指定字段的排序規則,創建表的語句中是看不到排序規則的,這表示該字段使用字符集的默認排序方式

mysql> show create table tc\G
*************************** 1. row ***************************
       Table: tc
Create Table: CREATE TABLE `tc` (
  `id` int(11) NOT NULL,
  `a` char(32) NOT NULL,
  `b` char(32) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL,
  `c` char(32) CHARACTER SET latin1 COLLATE latin1_general_cs NOT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8
1 row in set (0.00 sec)

上面例子中,表 tc的字符集是utf8

字段 a 沒有顯示指定排序規則,則它使用的是utf8字符集的默認排序規則utf8_general_ci

字段 b 的排序規則是 utf8_bin

字段 c 的排序規則是 latin1_general_cs

<font color=CornflowerBlue>修改排序規則</font>

  • <font color=CornflowerBlue>修改數據庫的排序規則</font>

數據庫的默認排序規則可以通過 alter database 數據庫名 collate 新的排序規則名字 SQL語句進行修改

mysql> select SCHEMA_NAME,DEFAULT_CHARACTER_SET_NAME,DEFAULT_COLLATION_NAME from INFORMATION_SCHEMA.SCHEMATA where SCHEMA_NAME='at';
+-------------+----------------------------+------------------------+
| SCHEMA_NAME | DEFAULT_CHARACTER_SET_NAME | DEFAULT_COLLATION_NAME |
+-------------+----------------------------+------------------------+
| at          | utf8                       | utf8_general_ci        |
+-------------+----------------------------+------------------------+
1 row in set (0.00 sec)

mysql> alter database at collate utf8_bin;
Query OK, 1 row affected (0.00 sec)

mysql> select SCHEMA_NAME,DEFAULT_CHARACTER_SET_NAME,DEFAULT_COLLATION_NAME from INFORMATION_SCHEMA.SCHEMATA where SCHEMA_NAME='at';
+-------------+----------------------------+------------------------+
| SCHEMA_NAME | DEFAULT_CHARACTER_SET_NAME | DEFAULT_COLLATION_NAME |
+-------------+----------------------------+------------------------+
| at          | utf8                       | utf8_bin               |
+-------------+----------------------------+------------------------+


mysql> alter database at collate latin1_swedish_ci ;
Query OK, 1 row affected (0.00 sec)

mysql> select SCHEMA_NAME,DEFAULT_CHARACTER_SET_NAME,DEFAULT_COLLATION_NAME from INFORMATION_SCHEMA.SCHEMATA where SCHEMA_NAME='at';
+-------------+----------------------------+------------------------+
| SCHEMA_NAME | DEFAULT_CHARACTER_SET_NAME | DEFAULT_COLLATION_NAME |
+-------------+----------------------------+------------------------+
| at          | latin1                     | latin1_swedish_ci      |
+-------------+----------------------------+------------------------+
1 row in set (0.00 sec)

上面的例子中,at 數據庫初始的字符集和排序規則分別是 utf8utf8_general_ci

SQL語句: alter database at collate utf8_bin; 把字符集和排序規則修改為 utf8utf8_bin

SQL語句: alter database at collate latin1_swedish_ci; 把字符集和排序規則修改為 latin1latin1_swedish_ci

由于latin1_swedish_ci排序規則 是屬于latin1字符集,所以 at 數據庫排序規則修改成 latin1_swedish_ci 之后,字符集相應的也會由 utf8 變成 latin1

  • <font color=CornflowerBlue>修改表的排序規則</font>

通過 alter table 表名 collate 新的排序規則名字; 語句可以修改表的排序規則

注意:上面的語句修改表排序規則,對現有字段的排序規則沒影響,只影響后續新添加字段的默認排序規則

mysql> show create table tc\G
*************************** 1. row ***************************
       Table: tc
Create Table: CREATE TABLE `tc` (
  `id` int(11) NOT NULL,
  `a` char(32) NOT NULL,
  `b` char(32) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL,
  `c` char(32) CHARACTER SET latin1 COLLATE latin1_general_cs NOT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8
1 row in set (0.00 sec)

mysql> alter table tc collate latin1_swedish_ci;
Query OK, 0 rows affected (0.00 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show create table tc\G
*************************** 1. row ***************************
       Table: tc
Create Table: CREATE TABLE `tc` (
  `id` int(11) NOT NULL,
  `a` char(32) CHARACTER SET utf8 NOT NULL,
  `b` char(32) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL,
  `c` char(32) CHARACTER SET latin1 COLLATE latin1_general_cs NOT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1
1 row in set (0.00 sec)

上面例子中,tc表初始的字符集是utf8,默認排序規則是utf8_general_ci 執行 alter table tc collate latin1_swedish_ci;SQL語句把表的排序規則修改成latin1_swedish_ci

由于latin1_swedish_ci排序規則是屬于latin1字符集的,所以此時表的字符集也會修改成latin1

修改表排序規則之前,字段a的排序規則是默認的utf8_general_ci,在創建表的語句中沒有顯示出來

修改排序規則之后,由于表默認的排序規則發生的變化,所以字段a會顯示出它原本的字符集

  • <font color=CornflowerBlue>修改字段的排序規則</font>
mysql> show create table tc\G
*************************** 1. row ***************************
       Table: tc
Create Table: CREATE TABLE `tc` (
  `id` int(11) NOT NULL,
  `a` char(32) CHARACTER SET utf8 NOT NULL,
  `b` char(32) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL,
  `c` char(32) CHARACTER SET latin1 COLLATE latin1_general_cs NOT NULL,
  `d` char(32) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1
1 row in set (0.00 sec)

mysql> alter table tc modify b char(32) not null  collate latin1_general_cs;
Query OK, 0 rows affected (0.05 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show create table tc\G
*************************** 1. row ***************************
       Table: tc
Create Table: CREATE TABLE `tc` (
  `id` int(11) NOT NULL,
  `a` char(32) CHARACTER SET utf8 NOT NULL,
  `b` char(32) CHARACTER SET latin1 COLLATE latin1_general_cs NOT NULL,
  `c` char(32) CHARACTER SET latin1 COLLATE latin1_general_cs NOT NULL,
  `d` char(32) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1
1 row in set (0.00 sec)

上面例子中,字段 b 原始的字符集和排序規則分別是 utf8utf8_bin

語句 alter table tc modify b char(32) not null collate latin1_general_cs;把字段 b 的排序規則修改成 latin1_general_cs, 由于latin1_general_cs 排序規則是屬于latin1字符集, 所以修改之后字段 b 的字符集和排序規則都發生了變化

<font color=CornflowerBlue>小結</font>

本文介紹了MySQL字符集的排序規則,由于篇幅原因,有些點沒有涉及到,更多排序規則有關的細節可以自行查閱MySQL官方文檔

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,578評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,701評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,691評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,974評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,694評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,026評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,015評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,193評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,719評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,442評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,668評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,151評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,846評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,255評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,592評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,394評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380