今天在我的程序猿Q群里無意間討論了這個問題,扎一想,這不太可能吧。理由是
****使用騰訊QQ的人非常之多,幾乎人手一個吧。在線聊天,斗圖,視頻,每秒得多少數據啊。這數據量太大了,因此不可能的。****
因為本人也是IT人士,還有目前有一些大數據方面的積累,開始判斷是有可能的。下面咱們讓數據說話,以下一些數據來自于互聯網,精準與否暫不在本次討論范圍內。以下分析我盡量讓非專業人士看懂,但你必須有加減乘除的能力。
騰訊號稱擁有9億注冊用戶,我就當做真的了!騰訊自1998年11月11日創立,我們為了計算方便取整吧,且認為騰訊距今已經創立20年了。且假設這9億用戶從創建至今一直沒有人數變化,且每天活躍,注冊用戶等于活躍用戶,一切為了計算簡單。每個人每天聊天5千字,一年365天不停歇。這個相當厲害了,韓寒說過一天寫500字一年后都可以出20萬字的小說了。那么我們就可以算出來,所有用戶這20年里,聊天字數。
公式: 9億用戶x 一天5千字 x 365天 x 20年 = 總聊天字數
9億x5000x365x20 = 328500000億個字
好了,我說明一點,在計算機中,文字存儲占用空間是非常小的。但是圖片和視頻的數據量一般很大,我們暫時不考慮圖片和視頻這些,只考慮聊天文字記錄。那么在計算機中我們常常聽到的內存卡64G的,這個G就是GB 。下面有個數據
1G的硬盤空間 大約存儲漢字字數為 5億個
這里沒有考慮文件壓縮算法,咱們為了方便計算。對了,我要說明一點騰訊開通會員,才可以手機,電腦同步聊天記錄,所以證明聊天記錄在服務端存儲著呢。但是會員也不是能無限制的看20年前的聊天記錄,目前支持的是能看到1個月內的囧 。所以這些數據不是以文件存儲在離線硬盤上的。 這些估計是存儲在在線硬盤里的囧(好想用專業術語比如Hadoop,NOSQL,集群)
我們假設聊天記錄出現之后,會在當天合適的時間,比如凌晨三點變成文本存儲在離線硬盤里,每天都這個操作,操作了20年。那么現在的硬盤空間至少多少呢。上面2個數據就算出來了。
328500000億字 ÷ 5億字/GB = 65700000GB
我們再普及一下硬盤存儲的單位換算
1024GB = 1TB
1024TB = 1PB
1024PB = 1EB
因此可以用PB或者EB來表示需要的空間大小是
65700000 / 1024 = 64160TB
64160 / 1024 = 63PB
63 / 1024 = 0.06EB
目前據我所知,使用PB做為存儲是主流,當然想谷歌,臉書,騰訊,百度,阿里,估計用上EB級別的存儲。
好了,我們接著算,一共是63PB,就可以存儲20年9億活躍用戶的聊天文字記錄了。
那么存儲設備多少錢呢,我們知道一般1TB硬盤400人民幣。但是服務器的存儲硬盤盒我們平常使用的不一樣呢,會貴一些,所以1PB的存儲設備市場價是50萬美元,按人民幣當天匯率 6.8算。
63 x 50 = 3150 萬美元
3150 x 6.8 = 21420萬人民幣 ~ 2.2億人民幣
所以單算存儲設備的錢,不加上電費,人工成本,場地費,維護費,稅等等 最終結論是
存儲騰訊QQ從1998年到現在9億人每天5千字的文字聊天記錄需要63PB硬盤存儲空間,越等于2.2億人民幣。
對于騰訊這個市值26425億港元(約3389億美元)的龐然大物來講,這些設備錢只是九牛一毛了。所以今后再有人問你,騰訊會保存所有聊天記錄嗎? 會,一定會,必須會。