具體項目中MySql運行效率

背景

背景就是師傅讓我寫一個推薦算法,來推薦我們組空閑的移動設(shè)備給需要使用的人。我們的痛點在于:
1、 不知道誰手頭的手機空閑,往往挨個輪詢借手機;
2、 不知道自己的需求要用什么設(shè)備去測試;
針對這兩個痛點,我們給出了基于語義分析的機型推薦系統(tǒng)和基于用戶行為的設(shè)備推薦系統(tǒng)。暫時我們第一個階段只做設(shè)備推薦系統(tǒng)。


數(shù)據(jù)收集以及清洗:

作為一個推薦系統(tǒng),我們首先要確定數(shù)據(jù)來源。我們使用了日常設(shè)備登記的平臺——設(shè)備登錄系統(tǒng)的后臺數(shù)據(jù)庫。選擇了其中的login表作為數(shù)據(jù)來源。然后,就到了令我痛不欲生的數(shù)據(jù)清理過程。。。

源數(shù)據(jù)分析

首先我來了一句

select count(username) from login;

好家伙,有4000多個用戶?我們組人口流動這么大?4000人縮減到30?WTF?那我們看看到底有哪一些人吧。

select distinct(username) from login;

我去,怎么這么多莫名奇妙的玩意啊?什么用戶名后加一些莫名奇妙的東西的數(shù)據(jù)?什么web JavaScript?老哥,你們當初數(shù)據(jù)都不校驗就直接扔數(shù)據(jù)庫的嗎?你的后臺能力很強。
但又能怎么辦呢?洗唄,我洗,我洗,我洗洗洗。
怎么洗呢?

數(shù)據(jù)清洗

我發(fā)現(xiàn)好像系統(tǒng)有過幾個版本,一種username后加一個\n的,一種加-%的,還有加Customer Header的。來來來,update login set username=substring(username,'\\',1)了解一下。但是手動update總是令人頭疼,怎么破?Python啊,pymysql啊。

核心思想就是:
1、 將所有username按照字符串的順序進行order by,這樣相同開頭的字符串就會在一起

select username from  login order by username

2、 提取最長公共子串,可以采用歸并的想法。def getCommonStr(str1, str2),最后獲得commonStr,然后用下面的代碼:

sql_statement = 'update login set username=\'%s\' where username like \'%s%%\''
cusor.excute(sql_statement % (common_str, common_str))
cusor.commit()

然后就基本清洗了所有用戶名的數(shù)據(jù)。

數(shù)據(jù)分析

數(shù)據(jù)分析相對簡單,就是一些常規(guī)的pandas,matplotlib的操作。但是這些數(shù)據(jù)沒有離散話,源數(shù)據(jù)中usernamedevice_code都是varchar類型的,如果需要離散化,需要在讀取數(shù)據(jù)的時候維護兩個dict或者兩個set兩個list。后來我就想干脆就在login表上進行分解操作吧,將原表分解為devicesusers
sql代碼如下:

insert into devices(code) select distinct(code) from login where code like 'TKMB%';
insert into users(username) select distinct(username) from login where code like 'TKMB%';

然后更新原表就出了大問題。

原表更新

第一種方案:

Database changed
mysql> insert into my_login_table (user_id, device_id, applogintime)
    -> (select tmp_table.user_id, devices.id, tmp_table.applogintime
    -> from (select users.id as user_id, login.applogintime as applogintime, login.code as code from users, login where users.username = login.username and login.code like 'TKMB%') as tmp_table, devices
    ->     where devices.code = tmp_table.code);
Query OK, 584591 rows affected (2 hours 21 min 12.56 sec)
Records: 584591  Duplicates: 0  Warnings: 0

好家伙,兩個小時,再看看效果

select count(*) from my_login_table;
ERROR 2006 (HY000): MySQL server has gone away
No connection. Trying to reconnect...
Connection id:    27
Current database: ptest

+----------+
| count(*) |
+----------+
|  1169182 |
+----------+
1 row in set (0.29 sec)

多了一倍的數(shù)據(jù)量。有問題有問題。
這時候我想是不是應(yīng)該建立索引并采用連接?
果斷嘗試:

mysql> alter table devices add index unique(code);
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'unique(code)' at line 1
mysql> alter table devices add unique devices_index(code);
Query OK, 0 rows affected (0.43 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> alter table users add unique users_index(username);
Query OK, 0 rows affected (0.20 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> delete * from my_login_table;
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near '* from my_login_table' at line 1
mysql> delete from my_login_table;
Query OK, 1169182 rows affected (4.10 sec)

mysql> show index from devices;
+---------+------------+---------------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table   | Non_unique | Key_name      | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+---------+------------+---------------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| devices |          0 | PRIMARY       |            1 | id          | A         |         412 |     NULL | NULL   |      | BTREE      |         |               |
| devices |          0 | devices_index |            1 | code        | A         |         412 |     NULL | NULL   |      | BTREE      |         |               |
+---------+------------+---------------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
2 rows in set (0.00 sec)

mysql> insert into my_login_table (user_id, device_id, applogintime)
    -> (select tmp_table.user_id, devices.id, tmp_table.applogintime
    -> from (select users.id as user_id, login.applogintime as applogintime, login.code as code from users inner join login
    ->     on users.username = login.username) as tmp_table inner join devices
    ->     on devices.code = tmp_table.code);
Query OK, 584591 rows affected (2.93 sec)
Records: 584591  Duplicates: 0  Warnings: 0

3秒,完勝!!!

原因分析

內(nèi)連接的中間過程數(shù)據(jù)規(guī)模不是兩張表的笛卡爾乘積;而多表where查詢采用兩張表的笛卡爾積,在where的時候才過濾數(shù)據(jù)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,106評論 6 542
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,441評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,211評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,736評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,475評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,834評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,829評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,009評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,559評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 41,306評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,516評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,038評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,728評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,132評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,443評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,249評論 3 399
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,484評論 2 379

推薦閱讀更多精彩內(nèi)容