rebar生成relup文件加載module順序引發的erlang熱升級失敗

問題描述

12.19號,在對erlang應用做熱升級的時候,升級失敗,出錯信息如下:
<pre><code>
escript: exception error: no match of right hand side value {error, {code_change_failed,<7845.1231.0>,hook_heroes_sup,
225273894003706867532273251651138786370, {'EXIT', {undef,
[{mongo_user_info,init,[],[]}, {hook_heroes_sup,init,1,
[{file,"src/hook_heroes_sup.erl"}, {line,44}]}, {supervisor,code_change,3,
[{file,"supervisor.erl"},{line,607}]}, {gen_server,system_code_change,4,
[{file,"gen_server.erl"},{line,685}]}, {sys,do_change_code,5,
[{file,"sys.erl"},{line,477}]}, {sys,do_cmd,6,[{file,"sys.erl"},{line,405}]}, {sys,handle_system_msg,8,
[{file,"sys.erl"},{line,318}]}, {proc_lib,init_p_do_apply,3,
[{file,"proc_lib.erl"},{line,239}]}]}}}}
</code></pre>

問題分析

出錯信息分析

根據出錯信息來看,主要是mongo_user_info的init方法沒定義,而mongo_user_info的init()方法確實是這次熱升級新加入的方法。

relup文件分析

查看relup文件,重點來看看和這次熱升級失敗有關的三個模塊,這里一定要注意他們的出現的順序。
<pre><code>
{"2.16",
[{"2.15.28",[],
[{load_object_code,{hook_heroes,"2.16",
[...,mongo_index,...,hook_heroes_sup,...,mongo_user_info,...]}},
...
{load,{mongo_index,brutal_purge,brutal_purge}},
...
{suspend,[hook_heroes_sup]},
{load,{hook_heroes_sup,brutal_purge,brutal_purge}},
{code_change,up,[{hook_heroes_sup,[]}]},
{resume,[hook_heroes_sup]},
...
{load,{mongo_user_info,brutal_purge,brutal_purge}},
...
[{"2.15.28",[],[point_of_no_return]}]}.
</code></pre>

2.15.8的hook_heroes_sup和2.16的hook_heroes_sup代碼區別在于
增加了init方法中:
<pre><code>
mongo_index:init()
</code></pre>
mongo_index:init()方法實現如下:
<pre><code>
mongo_user_info:init().
</code></pre>
至此,可以從代碼級別到relup文件理清楚了:mongo_index、hook_heroes_sup、mongo_user_info三個模塊了,其中,hook_heroes_sup的行為模式是super_visor,是應用頂級監控樹。

hook_heroes_sup依賴于mongo_index,mongo_index又依賴于mongo_user_info。
relup文件就是執行熱升級順序的文件,按照官方文檔說明如下:
<pre>
The release upgrade file describes how a release is upgraded in a running system.
</pre>

分析為什么出錯

看relup文件中hook_heroes_sup的操作:
<pre><code>
{suspend,[hook_heroes_sup]},
{load,{hook_heroes_sup,brutal_purge,brutal_purge}},
{code_change,up,[{hook_heroes_sup,[]}]},
{resume,[hook_heroes_sup]},
</code></pre>
首先掛起hook_heroes_sup這個進程,然后把新的hook_heroes_sup代碼load進來,隨后,執行supervisor的code_change方法。查閱源碼
supervisor的code_change方法如下:
<pre><code>
code_change(_, State, _) ->
case (State#state.module):init(State#state.args) of
{ok, {SupFlags, StartSpec}} ->
case catch check_flags(SupFlags) of
ok ->
{Strategy, MaxIntensity, Period} = SupFlags,
update_childspec(State#state{strategy = Strategy,
intensity = MaxIntensity,
period = Period},
StartSpec);
Error ->
{error, Error}
end;
ignore ->
{ok, State};
Error ->
Error
end.
</code></pre>
看出來,當一個supervisor熱升級的時候,會重新執行init()方法。那么問題來了,新的init()方法里面有mongo_index:init()代碼,實際調用了mongo_user_info的init()方法,但是根據relup文件,
<pre><code>
{load,{mongo_user_info,brutal_purge,brutal_purge}},
</code></pre>
這個mongo_user_info的新代碼加載,出現在新hook_heroes_sup加載的后面,自然,執行新的hook_heroes_sup的init()方法,是找不到新mongo_user_info的方法的。所以出錯。
這里說明,rebar生成的relup文件,沒有對這種類型的模塊依賴做檢查。

驗證
  • 對relup文件的模塊順序手動進行調整
    {load,{mongo_user_info,brutal_purge,brutal_purge}}的代碼順序加載到{suspend,[hook_heroes_sup]}之前,再次對系統從2.15.28到2.16進行熱升級。
    升級結果成功
  • 反向驗證
    再次把mongo_user_info調整到原來的位置,再次對對系統從2.15.28到2.16進行熱升級。仍然出現文章開頭的錯誤
  • 正向驗證和反向驗證證明之前的分析是正確的。
深層次原因

從上面的分析,我們可以得到稍微抽象一點的描述,rebar生成熱更新文件的順序造成熱升級失敗問題:
暫且把這種依賴順序稱為"rebar-dead"依賴順序。

  • 新增module1,方法f1(),
  • f1()依賴于舊模塊的module2的新方法f2()
  • 熱更新的時候,會執行module1的f1()。

這樣的依賴順序,rebar生成的relup文件就一定會報錯。因為rebar生成的relup文件把新增的模塊放在前面,修改的模塊放在后面。

至于rebar生成relup文件的過程,和新增模塊、刪除模塊、修改模塊的順序,后面會有詳細分析。

如何避免

避免這類問題對熱生級錯誤的方法有很多,分為代碼、工具、運維三個層面

  • 代碼層面

    • 避免在應用頂級監控supervisor的init()方法中,出現前面描述的模塊依賴"rebar-dead"依賴順序,因為這樣一定會出錯。
    • 方法1:最粗暴的做法,就是永遠不改變supervisor的init()方法,這樣熱升級永遠不會執行init()方法。代碼層面,需要有一個類似于sys_init的函數,來封裝之后可能新加入的代碼;這樣上線后,需要手動執行方法。
    • 方法2:新增module1的新方法,不要依賴舊模塊的新接口;(不過這點也許繞不過)
  • 工具層面
    分為熱升級文件修改和熱升級運行時修改:

    熱升級文件修改

    • 方法1:修改rebar源碼,自己加入依賴順序檢測;有點兒類似于gc中的應用檢測,導致調整.appup文件,是我們想要的順序

    熱升級運行修改:

    • 方法3:修改release_handler函數,應該可以做到,暫時還沒想出來;
  • 運維層面

    • 每次熱升級前面,一定要在內網環境先嘗試;
    • 使用release_handler:check_install_release()函數,先檢測是否能熱升級成功;
    • 如果失敗,人肉檢測

總結:

  • 線上問題,直覺很重要--@宋梟_CD
  • 需要正反驗證問題,來證實猜想。正所謂:“大膽假設,小心求證”
  • 關于熱升級

熱升級對于使用erlang構建的游戲服務端應用來說,非常重要;每一次的熱升級失敗,都必須排查原因。后續肯定還有沒有遇到的問題,還是要仔細分析。

  • 關于避免rebar生成有問題熱更新文件的問題
    • 工具層面代價比很高,需要深入掌握所有熱升級的每一個細節;代碼層面對于需求來說,也許繞不過;運層最簡單,人工成本最高。需要根據項目的大小、進展以及團隊的人員、技術深度來取舍。
    • rebar 3.0也許會解決這樣的問題,期待。
    • 這應該算是rebar工具的問題,不算是erlang系統的問題。erlang把生成app_up的文件權利給予了開發者。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,825評論 6 546
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,814評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,980評論 0 384
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 64,064評論 1 319
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,779評論 6 414
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,109評論 1 330
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,099評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,287評論 0 291
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,799評論 1 338
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,515評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,750評論 1 375
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,221評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,933評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,327評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,667評論 1 296
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,492評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,703評論 2 380

推薦閱讀更多精彩內容