Java(熟練掌握后端的基礎(chǔ)組件,如監(jiān)控系統(tǒng),部署系統(tǒng),數(shù)據(jù)庫(kù),消息隊(duì)列,RPC,負(fù)載均衡等)
熟悉常用的算法和數(shù)據(jù)結(jié)構(gòu)、(操作系統(tǒng)、編譯原理有基本的了解),清楚代碼時(shí)間與空間復(fù)雜度
NLP自然語(yǔ)言處理(分詞,詞性標(biāo)注、實(shí)體識(shí)別、意圖識(shí)別、情感分析、語(yǔ)法分析、語(yǔ)義分析、情感分析、摘要、自然語(yǔ)言生成等對(duì)話系統(tǒng)中的相關(guān)工作)
熟悉常用的自然語(yǔ)言處理方法,包括但不限于HMM、CRF、word2vec;機(jī)器翻譯、計(jì)算機(jī)視覺、語(yǔ)音識(shí)別
Python
文本挖掘技術(shù)(實(shí)現(xiàn)文本聚類分類,知識(shí)提取、知識(shí)圖譜構(gòu)建、實(shí)體消歧、語(yǔ)義搜索等研發(fā)工作)
熟悉主流的no?sql數(shù)據(jù)庫(kù),如mongoDB、HBase、redis;
了解常見的消息系統(tǒng),例如mq、kafaka
神經(jīng)網(wǎng)絡(luò)等核心算法
常用機(jī)器學(xué)習(xí)算法和工具
基于數(shù)據(jù)驅(qū)動(dòng)的人工智能算法
量化平臺(tái)后端引擎算法研究與系統(tǒng)開發(fā)工作
TCP/IP、HTTP等各種常用通訊協(xié)議
實(shí)際的CAAS或PAAS的開發(fā),以及使用經(jīng)驗(yàn)
負(fù)責(zé)制定網(wǎng)絡(luò)數(shù)據(jù)抓取規(guī)則,數(shù)據(jù)的提取、清洗、入庫(kù)以及匯總的開發(fā)工作;
負(fù)責(zé)傳統(tǒng)網(wǎng)頁(yè)、電商網(wǎng)站、社會(huì)化媒體網(wǎng)站等互聯(lián)網(wǎng)數(shù)據(jù)的高效采集與正確解析;
網(wǎng)絡(luò)爬蟲,query分析,文本分類,topic聚類等
負(fù)責(zé)搜索爬蟲的核心技術(shù)研究與開發(fā),搜索前沿爬蟲技術(shù)并實(shí)踐;網(wǎng)頁(yè)采集、Hbase等相關(guān)開發(fā)經(jīng)驗(yàn)者優(yōu)先,從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息
大規(guī)模分布式互聯(lián)網(wǎng)爬蟲系統(tǒng)的開發(fā)和維護(hù),提升網(wǎng)頁(yè)抓取效率和質(zhì)量。
熟悉Hadoop/Lucene/Nutch/Solr等開源工具者優(yōu)先;熟悉hadoop、spark、storm等大數(shù)據(jù)分析平臺(tái)
搭建自己的GIT-HUB