機(jī)器學(xué)習(xí)概述
什么是機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支。人工智能的研究是從以“推理”為重點(diǎn)到以“知識(shí)”為重點(diǎn),再到以“學(xué)習(xí)”為重點(diǎn),一條自然、清晰的脈絡(luò)。機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一個(gè)途徑,即以機(jī)器學(xué)習(xí)為手段解決人工智能中的問題。機(jī)器學(xué)習(xí)算法是一類從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律(模型),并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的算法
為什么需要機(jī)器學(xué)習(xí)
21世紀(jì)機(jī)器學(xué)習(xí)又一次被人們關(guān)注,而這些關(guān)注的背后是因?yàn)檎麄€(gè)環(huán)境的改變,我們的數(shù)據(jù)量越來越多,硬件越來越強(qiáng)悍。急需要解放人的生產(chǎn)力,自動(dòng)去尋找數(shù)據(jù)的規(guī)律。解決更多專業(yè)領(lǐng)域的問題。機(jī)器學(xué)習(xí)已廣泛應(yīng)用于數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理、生物特征識(shí)別、搜索引擎、醫(yī)學(xué)診斷、檢測(cè)信用卡欺詐、證券市場(chǎng)分析、DNA序列測(cè)序、語音和手寫識(shí)別、戰(zhàn)略游戲和機(jī)器人等領(lǐng)域.
開發(fā)機(jī)器學(xué)習(xí)應(yīng)用程序的步驟
(1)收集數(shù)據(jù)
我們可以使用很多方法收集樣本護(hù)具,如:制作網(wǎng)絡(luò)爬蟲從網(wǎng)站上抽取數(shù)據(jù)、從RSS反饋或者API中得到信息、設(shè)備發(fā)送過來的實(shí)測(cè)數(shù)據(jù)。
(2)準(zhǔn)備輸入數(shù)據(jù)
得到數(shù)據(jù)之后,還必須確保數(shù)據(jù)格式符合要求。
(3)分析輸入數(shù)據(jù)
這一步的主要作用是確保數(shù)據(jù)集中沒有垃圾數(shù)據(jù)。如果是使用信任的數(shù)據(jù)來源,那么可以直接跳過這個(gè)步驟
(4)訓(xùn)練算法
機(jī)器學(xué)習(xí)算法從這一步才真正開始學(xué)習(xí)。如果使用無監(jiān)督學(xué)習(xí)算法,由于不存在目標(biāo)變量值,故而也不需要訓(xùn)練算法,所有與算法相關(guān)的內(nèi)容在第(5)步
(5)測(cè)試算法
這一步將實(shí)際使用第(4)步機(jī)器學(xué)習(xí)得到的知識(shí)信息。當(dāng)然在這也需要評(píng)估結(jié)果的準(zhǔn)確率,然后根據(jù)需要重新訓(xùn)練你的算法
(6)使用算法
轉(zhuǎn)化為應(yīng)用程序,執(zhí)行實(shí)際任務(wù)。以檢驗(yàn)上述步驟是否可以在實(shí)際環(huán)境中正常工作。如果碰到新的數(shù)據(jù)問題,同樣需要重復(fù)執(zhí)行上述的步驟
機(jī)器學(xué)習(xí)工程師做什么
互聯(lián)網(wǎng)公司機(jī)器學(xué)習(xí)工作、數(shù)據(jù)挖掘工程師們工作內(nèi)容是什么?
- 研究各種算法,設(shè)計(jì)高大上模型?
- 深度學(xué)習(xí)的應(yīng)用,N層神經(jīng)網(wǎng)絡(luò)?
- ...
大部分復(fù)雜模型的算法精進(jìn)都是數(shù)據(jù)科學(xué)家在做
大多數(shù)程序員
- 跑數(shù)據(jù),各種map-reduce,hive SQL,數(shù)據(jù)倉庫搬磚
- 數(shù)據(jù)清洗,數(shù)據(jù)清洗,數(shù)據(jù)清洗
- 分析業(yè)務(wù),分析case,找特征
- 常用算法跑模型
我們應(yīng)該怎么做
- 學(xué)會(huì)分析問題
- 掌握算法基本思想,學(xué)會(huì)對(duì)問題用相應(yīng)的算法解決
- 學(xué)會(huì)利用簡便的庫或者框架解決問題