第二屆拍拍貸魔鏡杯數(shù)據(jù)應用大賽于2017年4月10日啟動,決賽路演于9月2日在上海舉行。相較于去年,今年的題目更專注于實用性,對開發(fā)能力提出了更多更高的要求。比賽可以從以下三個參考方向來展開角逐,和去年的三個子賽題基本對應:
- 投標類:開發(fā)一款投標工具,幫助投資人實現(xiàn)投資收益的優(yōu)化,并自動高效地完成從選標到投標的全過程。可能包括部分策略開發(fā)等分析相關工作,更重要的是能夠調用投標接口完成投標功能;
- 分析類: 基于拍拍貸平臺的整體數(shù)據(jù)(類比上交所大盤)或投資者個人的投資歷史數(shù)據(jù)(經(jīng)授權),運用數(shù)據(jù)科學技術進行分析或挖掘,為投資人提供有價值的信息、建議等個性化服務;
- 創(chuàng)意類:不包含在前兩類內(nèi)容中的有價值的產(chǎn)品或服務。創(chuàng)意類方向不設任何限制,基于現(xiàn)有的數(shù)據(jù)與資源,發(fā)揮創(chuàng)造力,做出一個讓自己滿意、也被市場認可的有價值的作品。
作品思路
既然要搞,就搞個大的。與其單獨做投標類、分析類或創(chuàng)意類中的一種,不如三者兼顧,做一個功能完善的系統(tǒng)出來。
作品的思路在初賽階段便已想好:通過知情、知己兩個模塊,分別對平臺數(shù)據(jù)和個人記錄進行分析和展示(分析類);通過知心模塊,使用多種方法和模型實現(xiàn)投標功能(投標類);最后再擴充下數(shù)據(jù)、開發(fā)個社區(qū),做個功能性聊天機器人(創(chuàng)意類)。這樣一來,五臟俱全、要啥有啥、一套帶走,可以說做了整個生態(tài)。
但是后來才慢慢發(fā)現(xiàn),這個思路,從一開始就是錯誤的。
先介紹下比賽的評審機制,大賽分為初賽、復賽、決賽三輪,進入決賽的10支隊伍需要參加決賽路演答辯。比賽獎金共計10W美金,30%由大眾投資人投票決定,70%由決賽現(xiàn)場的專家評委決定。其實對投資人和評委而言,真正關心的,只是簡單好用的投標工具,其它可有可無的也許根本不在意。
而我在很多內(nèi)容上消耗了時間和精力,其結果便是投標功能做得不夠完善、不夠全面,所以30%即3W美金的大眾投資人投票中,我只拿到了1000多一點,在決賽10支隊伍中排第八。而投標做得比較好的三支隊伍,分別拿到了1W3、4k、3k,因此在決賽開始前便取得了一個很高的起點,對于決賽專家評委的評審也會起到一定的引導作用。
畢竟這不是一個算法比賽,工作量多、模型性能都不重要,投資人要看到的是選標策略對應的出標量、預期收益、逾期率等回溯指標,所以關鍵得做好投標功能、穩(wěn)定運營、積累群眾基礎,才能在大眾評審部分拿到一個好的成績,在決賽答辯中獲取一個更高的起點。如果我能一開始便認清這一點,集中精力去做好投標功能,也許就可以取得更好的結果了。
諷刺的是,拿到1W3大眾評審票、一直讓人充滿期待的隊伍,在決賽現(xiàn)場的答辯內(nèi)容卻十分單薄,他們用的方法,竟然只是人工構建了一棵決策樹,然后將每個葉節(jié)點的篩選條件作為一種選標策略。主講人的演講毫無波瀾,評委問起問題來也支支吾吾。盡管如此,他們最后還是拿了2W獎金、獲得了第一名,前期的群眾基礎起了很大的作用。
決賽答辯
決賽答辯設在上海的喜馬拉雅藝術中心大觀舞臺,現(xiàn)場還是很高大上的。看到舞臺兩邊的10個位子了嗎?對,就是給10個隊伍的隊長坐的……
這個隊長位子長這樣,讓人亞歷山大。
我在第四個答辯,還算順利,稿子背得很熟。
最后一共拿了10693刀,排第四,在決賽答辯中漲了9000多刀,算是10支隊伍中漲得比較多的了。
第一名是之前提到的那個隊伍,從1W3漲到2W,漲得還沒我多,主要是前期群眾基礎好;第二名是拍拍標師,他們隊伍有五個人,而且確實在這個比賽上花了大量時間和精力,他們的作品做得也十分優(yōu)秀和完善,因此最終拿了一個額外的名譽大獎,雖然沒有獎金,但確實是對他們實力的認可。而我主要靠自己一個人,花的時間也不算多,拿到這樣的結果也算滿意了。
當然,還是有些遺憾,如果一開始專注做投標,說不定能取得更好的結果。
作品詳情
以下是答辯的PPT和演講內(nèi)容。
大家好,我是DI團隊的張宏倫,作品名稱是,拍知心
拍拍貸的出現(xiàn)帶來了一系列變革,例如降低了借款人的借款門檻,提高了投資人的投資利潤
對投資人而言,最為重要的問題,便是如何進行選標。一般而言,選標的依據(jù)主要取決于標的特征、借款人特征、投資人特征三大類因素
因此,我們工作的研究核心,便是如何在收益最大化、風險最小化的前提下,為投資人選擇最適合的標的
我們的系統(tǒng)架構如下:通過知情、知己兩個模塊,對平臺標的數(shù)據(jù)和個人投資記錄進行全面的分析和展示;使用基于策略、基于學習、基于推薦三種方法,實現(xiàn)知心這一智能投資顧問模塊;在此基礎上,我們進行了多源異構數(shù)據(jù)擴充、開發(fā)了拍粉社區(qū)互動平臺,并使用積累的數(shù)據(jù)和語料,搭建了拍知心這一垂直領域的智能聊天機器人,為投資人提供各方面的決策建議和輔助功能
首先讓我們概覽一下數(shù)據(jù),比賽官方提供了LC、LP、LCIS三類數(shù)據(jù),它們之間可以通過ListingId這一字段進行對齊
我們通過知情實現(xiàn)平臺概覽,從基本統(tǒng)計、分類統(tǒng)計、密度分布、認證分析、還款分析、指標對比六個角度對拍拍貸整體投資數(shù)據(jù)進行分析,輔助投資人全面綜合地了解平臺概況
這是作品實現(xiàn)中的平臺概覽頁面
我們通過知己實現(xiàn)個人中心,從資產(chǎn)概況、投資偏好、歷史統(tǒng)計、分類統(tǒng)計、期限分析、逾期分析六個角度對投資人歷史投資記錄進行分析,輔助投資人更好地了解個人投資行為
這是作品實現(xiàn)中的個人中心頁面
我們使用以下三種方法,實現(xiàn)知心這一智能投資顧問模塊。基于策略對應專家系統(tǒng),主要使用人工經(jīng)驗;基于學習對應機器學習,主要使用模型和算法;基于推薦對應推薦系統(tǒng),主要使用數(shù)據(jù)之間的關聯(lián)和相似。我們?nèi)诤狭硕喾N方法,互相取長補短,從而實現(xiàn)更好的效果
基于策略是指使用預先設定好的投資策略對標的進行處理和篩選,對于可投標的,如果滿足啟用中的任意策略,則投資相應的金額。這里我們設計了四項系統(tǒng)策略
當然,還可以設計更多的賠標策略和信用標策略,但在我們看來,無非都是使用更豐富的條件組合,以及更復雜的篩選規(guī)則。我們認為,基于策略的自動投標,拍精靈等現(xiàn)有工具已經(jīng)做得足夠完善,所以我們希望把更多的精力放在,探索如何將機器學習和人工智能應用到投資選標中來。除了快,我們還想做到準和個性化
因此,我們使用機器學習和深度學習等方法,在經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)重塑、特征工程等步驟處理后,實現(xiàn)了標的量化模型,ListingNet,從安全評分和逾期概率兩個角度來評估標的。這兩項任務的定義如下,都屬于有監(jiān)督學習中的分類問題
ListingNet的模型結構中主要包含了三塊內(nèi)容:邏輯回歸、隨機森林等基分類器,多個XGBoost模型集成學習,由全連接層組成的神經(jīng)網(wǎng)絡。同時,基分類器的輸出經(jīng)過Stacking之后,作為二級特征進一步輸入到XGBoost和神經(jīng)網(wǎng)絡中
我們對ListingNet的模型性能進行了評測,在安全評分和逾期概率兩項任務上,ListingNet的Accuracy和AUC都取得了最好的結果。我們使用以下公式來實現(xiàn)投資的個性化,其中前兩項分別表示標的安全評分和投資人是否追求逾期收益,后兩項用于表示投資人的利率偏好和期限偏好
除此之外,我們還基于推薦系統(tǒng),使用基于內(nèi)容的協(xié)同過濾和基于模型的協(xié)同過濾,通過計算標的相似度和用戶相似度,為投資人推薦感興趣的標的
完成了知情、知己、知心等工作之后,我們進行了數(shù)據(jù)擴充,從拍拍貸、網(wǎng)貸之家、今日頭條等網(wǎng)站上,獲取了聊天語料、問答數(shù)據(jù)、領域本體、知識圖譜等各種類型的數(shù)據(jù),經(jīng)過相關的NLP處理后,轉化成有用的數(shù)據(jù)資產(chǎn)
我們還開發(fā)了拍粉社區(qū)互動平臺,集資訊、問答、分享等常用社交功能于一體,為投資人提供各方面服務的同時,進一步積累更多的用戶產(chǎn)生內(nèi)容
在已有數(shù)據(jù)和語料的基礎上,我們實現(xiàn)了面向拍拍貸用戶的垂直領域聊天機器人,拍知心,為投資人提供直接的對話服務。拍知心主要使用了基于規(guī)則、基于檢索、基于學習三種方法來生成對話,這里我們著重介紹一下基于學習的實現(xiàn)原理
基于學習,是指使用基于深度LSTM網(wǎng)絡的自編碼器模型,將用戶輸入轉換成文本詞向量序列,學習到對應的隱層表示后,再轉換成輸出文本詞向量序列,從而可以得到任意輸入內(nèi)容的對話輸出,即Sequence to Sequence Learning,屬于生成式學習模型,對話生成效果好,但對數(shù)據(jù)需求量大、訓練成本較高
我們將以上功能全部實現(xiàn)并部署到網(wǎng)站上,包括平臺概覽、個人中心、投資顧問、拍粉社區(qū)四個頁面,可以通過以下鏈接訪問我們的網(wǎng)站(訪問網(wǎng)站需要拍拍貸授權,所以需要注冊拍拍貸賬號,不過注冊賬號之后,可能會有拍拍貸工作人員電話聯(lián)系,詢問是否有借款或投資意向。所以如果只是想看一下產(chǎn)品展示,那么看展示視頻即可),讓我們一起來看一段展示視頻,https://v.qq.com/x/page/n0538boxfjx.html
最后,對我們的作品進行一個總結。我們通過知情、知己、知心,分別為投資人提供平臺概覽、個人中心、投資顧問三項功能,新的投資數(shù)據(jù)可用于更新相應的模塊。通過擴充數(shù)據(jù)和用戶數(shù)據(jù)實現(xiàn)拍知心聊天機器人,拍粉社區(qū)則不斷地積累新的用戶數(shù)據(jù),從而形成數(shù)據(jù)閉環(huán),共同打造一個智能投資數(shù)據(jù)生態(tài)系統(tǒng)
我們的團隊成員有兩位,都是上海交通大學的博士生
以上就是我們的作品內(nèi)容,拍知心,最懂你的智能投資顧問,謝謝大家!