大數據題目

  1. 以下兩種描述分別對應哪兩種對分類算法的評價標準?()
    (a) 警察抓小偷,描述警察抓的人中有多少個是小偷的標準。
    (b) 描述有多少比例的小偷給警察抓了的標準。
    答案:Precision(準確率), Recall(召回率)

  2. 當決策樹的規模變得太大時,即使訓練誤差還在繼續降低,但是檢驗誤差開始增大,導致模型__________
    答案:過擬合

  3. 熵是為消除不確定性所需要獲得的信息量,投擲均勻正八面體骰子的熵是______
    答案:3比特

  4. 在一次分類挖掘任務中,獲得的結果是TP(truepositive)=100,TN(truenegative)=89,FP(falsepositive)=25,FN(falsenegative)=23,那么該數據集中預測樣本為正樣本(positivesample)的準確率為____,負樣本的召回率是______。
    答案:80/100,89/(89+25)

  5. 數據線性可分的含義
    答案:可以畫出一條直線(超平面)來將數據區分開

  6. 關聯分析中三個重要指標
    答案:最小支持度、置信度指標,另一個重要指標是lift(提升度)指標

  7. ID3算法是一個著名的決策樹生成方法,它采用( ) 來選擇能夠最好地將樣本分類的屬性。而同樣為決策樹生成方法的C4.5算法采用( )來選擇能夠最好地將樣本分類的屬性。
    答案:信息增益 信息增益比

  8. 決策樹是用_______ 作為結點,用_______作為分支的樹結構。
    答案:屬性 屬性值

  9. 當決策樹的規模變得太大時,即使訓練誤差還在繼續降低,但是檢驗誤差開始增大,導致模型 。
    答案:過度擬合

  10. 聚類算法有哪些分類
    答案:基于劃分的聚類、基于密度的聚類、層次聚類方法、基于網格的聚類方法、基于模型的聚類方法
    K-Means聚類(基于劃分的聚類)、DBSCAN(基于密度的聚類)

  11. 評價聚類有效性的外部指標
    答案:Jaccard系數(Jaccard Coefficient,JC)、FM指數(Fowlkes and Mallows Index,FMI)、Rand指數(Rand Index,RI)和標準化互信息(normalized mutual information)

  12. 軟二分類(soft binary classification)給出預測樣本屬于某個類的概率,其典型的評價指標有( ),典型的軟二分類算法有( )。
    答案:AUC, Logistic回歸

  13. 線性回歸是用( )來求解回歸方程最優系數值的。
    答案:最小二乘法

  14. Hadoop 2.x 中HDFS默認塊的大小為( )MB。
    答案:128MB

  15. Hadoop安裝方式:
    答案:單機模式、偽分布模式和分布模式

  16. Hadoop框架中最核心的設計是為海量數據提供存儲的( )和對數據進行計算的( )。
    答案:HDFS MapReduce

  17. 設X={A,B,C, D}是頻繁項集,則可由X產生( )個關聯規則。
    答案:14個

  18. 下列哪個程序通常與 NameNode 在一個節點啟動? ( )
    A. SecondaryNameNode B. DataNode
    C. TaskTracker D. Jobtracker
    答案:D

  19. k折交叉驗證一般k取( )
    5或10

  20. HDFS 中的 Block 默認保存幾份?( )
    A. 3 份 B. 2 份 C. 1 份 D. 不確定
    答案:A

  21. 決策樹中不包含下列哪種結點?
    A. 根結點 B. 內部結點 C. 外部結點 D. 葉結點
    答案:C

  22. 下面()不是常用的知識表示形式
    A.規則 B. 知識基 C. 網絡權值 D. 神經網絡
    答案:D

  23. 屬于分類器評價或比較尺度的有:
    答案:預測準確度 、召回率和計算復雜性

  24. 以下哪個算法不是分類算法 ( )
    A DBSCAN B C4.5 C Na?ve Bayes D Logistic回歸
    答案:A

  25. 熵是為消除不確定性所需要獲得的信息量,投擲均勻正八面體骰子的熵是:
    答案:3比特

  26. 關于Hadoop的SecondaryNameNode哪項是正確的? ( )
    A. 它是 NameNode 的熱備分
    B. 它對內存沒有要求
    C. 它的目的是幫助NameNode合并編輯日志,減少NameNode啟動時間
    D. SecondaryNameNode應與NameNode部署到一個節點
    答案:C

  27. 通過聚集多個分類器的預測來提高分類準確率的技術稱為 ()
    A 組合(ensemble) B 聚集(aggregate)
    C 合并(combination) D 投票(voting)
    答案:A

  28. 在現實世界的數據中,元組在某些屬性上缺少值是常有的。處理該問題的各種方法有( )
    答案:忽略元組、使用一個全局常量填充空缺值、使用屬性的平均值填充空缺值、使用最可能的值填充空缺值等。

  29. ( )、數據規模、稀疏性和( )等數據特性都對聚類分析具有很強影響。
    高維性、噪聲和離群點

  30. 數據預處理中的ETL指的是()、()和() 。
    抽取 轉換 裝載

  31. 關于K均值和DBSCAN的比較,以下說法不正確的是( )。
    A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。
    B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
    C、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。
    D、K均值可以發現不是明顯分離的簇,即便簇有重疊也可以發現,但是DBSCAN會合并有重疊的簇。
    答案:A

  32. 下列算法屬于聚類算法的是( )
    A. DBSCAN B. KNN C. ID3 D. Apriori
    答案:A。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基于密度的聚類算法

  33. 下列哪項通常是集群的最主要瓶頸( )
    A. CPU B. 網絡 C. 內存 D. 磁盤IO
    答案:D

  34. 將原始數據進行集成、變換、維度規約、數值規約是在以下哪個步驟的任務? ( )
    A. 頻繁模式挖掘 B. 分類和預測
    C. 數據預處理 D. 數據流挖掘
    答案:C

  35. Hadoop Client 端上傳文件的時候下列哪項正確( )
    A. 數據經過 NameNode 傳遞給 DataNode
    B. Client 端將文件切分為 Block,依次上傳
    C. Client 只上傳數據到一臺 DataNode,然后由 NameNode 負責 Block 復制工作
    D. Client 只上傳數據到多臺 DataNode,然后由 DataNode 負責 Block 復制工作
    答案:B

  36. 分類模型的誤差大致分為兩種:訓練誤差(training error)和泛化誤差(generalization error)
    答案:√

題37.png
  1. 簡述K均值算法的聚類過程
    答案:
    (1)任意選擇k個對象作為初始的簇中心;
    (2) repeat
    (3) 根據簇中對象的平均值, 將每個對象(重新)賦給最類似的簇;
    (4) 更新簇的平均值, 即重新計算每個簇中對象的平均值;
    (5) until 不再發生變化
    通常, 采用平方誤差準則作為收斂函數, 其定義如下



    其中, mi是簇Ci的平均值
    該準則試圖使生成的結果簇盡可能緊湊, 獨立

  2. KDD過程不包含(  )。
    A.數據準備    B.數據建模  
    C. 數據挖掘   D. 結果的解釋和評估
    答案:B

  3. 為什么說na?ve Bayesian分類法是na?ve(樸素)的?
    答案:樸素貝葉斯分類法假定一個屬性值對給定類的影響獨立于其它屬性值。這個假定稱為類條件獨立性。作此假定是為了簡化所需要的計算,并在此意義下成為“樸素的”。

題41.png
  1. 關聯分析中具有較高支持度的項集必然具有較高的置信度。
    答案:×

  2. 聚類方法DBSCAN是相對抗噪聲的,并且能夠處理任意形狀和大小的簇。
    答案:√

  3. 離散屬性總是具有有限個值。
    答案:×

  4. Boosting的一個優點是不會過擬合
    答案:×

  5. Hadoop 支持數據的隨機讀寫。
    答案:×

  6. 分類和回歸都可用于預測,分類的輸出是離散的類別值,而回歸的輸出是連續數值。
    答案:√

  7. 離群點可以是合法的數據對象或者值。
    答案:√

  8. Hadoop 是 Java 開發的,所以 MapReduce 只支持 Java 語言編寫。
    答案:×

題50.png

距離.png
  1. 簡述大數據的4V特征?
    答案:
    4個V(即Volume、Variety、Value、Velocity)來概括大數據的特征。
    1)數據體量巨大(Volume)。大數據典型的容量已在TB級,而一些大企業的數據量已經接近EB量級。
    2)數據類型繁多(Variety)。這種類型的多樣性也讓數據被分為結構化數據和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求。
    3)價值密度低(Value)。價值密度的高低與數據總量的大小成反比。如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。
    4)處理速度快(Velocity)。從數據的生成到消耗,時間窗口非常小,可用于生成決策的時間非常少。

  2. 下表中給出一組年薪數據,其中X表示大學畢業生畢業后的工作的年數,而Y表示對應的年收入,我們采用一元線性回歸表示年薪和工作年數之間的關系,回歸系數采用最小二乘法求解,請求解出大學畢業生年薪與工作年數之間的線性回歸方程,并用該方程預計出畢業10年的大學生的年薪為多少,給出計算過程?





  3. 決策樹分類算法ID3是用信息增益來做屬性選擇度量的,下表是一個關于在某種天氣條件下打網球的例子,請用信息增益計算方法求出屬性outlook的信息增益值。如果知道Gain(Temperature)=0.029,Gain(Humidity)=0.151,Gain(Wind)=0.048,應該用哪個屬性做決策樹的根節點。這里,Outlook---天氣,Overcast---陰天,Humidity---濕度


    題53.png

    答案:

  • 數據集中包含14個樣本,其中8個正樣本(yes),6個負樣本(no)。則這些元組的期望信息(即熵)為:
    Info(D)=-8/14log2(8/14) -6/14log2(6/14)= 0.9852
  • 現在觀察每個屬性的期望信息需求。
    在屬性Outlook中,對于sunny,正樣本數為2,負樣本數為3;
    對于屬性overcast,正樣本數為4,負樣本數為0;
    對于屬性rain,正樣本數為3,負樣本數為2。
    按照Outlook劃分樣本得到的期望信息為:
    5/14 * ( -2/5log22/5 –3/5log23/5) + 4/14 * ( -3/4log23/4-1/4log21/4) + 5/14 * ( -3/5log23/5 –2/5log22/5)=0.3467+0.2318+0.3467=0.9252
    Gain(outlook)=0.9852-0.9252=0.06
  • 比較其它屬性的信息增益值,最大的是屬性Humidity,應以它為根節點。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 單選題 1. 某超市研究銷售紀錄數據后發現,買啤酒的人很大概率也會購買尿布,這種屬于數據挖掘的哪類問題?(A) A...
    山的那邊是什么_閱讀 33,756評論 2 59
  • 1. 章節主要內容 “聚類”(clustering)算法是“無監督學習”算法中研究最多、應用最廣的算法,它試圖將數...
    閃電隨筆閱讀 5,084評論 1 24
  • Spring Cloud為開發人員提供了快速構建分布式系統中一些常見模式的工具(例如配置管理,服務發現,斷路器,智...
    卡卡羅2017閱讀 134,991評論 19 139
  • 概述及標簽體系搭建 1 概述 隨著信息技術的迅速發展和信息內容的日益增長,“信息過載”問題愈來愈嚴重,愈發帶來很大...
    JinkeyAI閱讀 22,941評論 10 241
  • 現在標題黨的人越來越多,寫的文章也大多是批評教育的內容。可是這類文章叫我看,看啥。筆者自己本人都沒修身,還想見人去...
    沐府墓主閱讀 324評論 0 0