機器學習面試一般題

一般性問題

蘋果

1.假設你面臨著數百萬用戶,每個用戶有數百筆交易,涉及成千上萬種產品。你如何對這些用戶進行有意義的分類?

微軟

2.請描述一個你參與的項目,講講它有什么獨特之處。

3.如何用高基數(high-cardinality)處理類別特征(categorical feature)?

4.如何 summarize 一個 Twitter feed?

5.在應用于機器學習算法之前,清理數據的步驟是什么?

6.如何測量數據點之間的距離?

7.請定義方差(variance)。

8.請描述箱形圖(box plot)和直方圖(histogram)之間的區別,并舉出用例。

Twitter

9.你會用哪些 feature 來為用戶構建一個推薦算法?

Uber

10.選一個你真正喜歡的產品或 app,說說你打算怎么改進它。

11.如何在分布(distribution)中找到異常點(anomaly)?

12.如果分布中的某種特定趨勢是由于一個異常點,你將如何著手調查?

13.你如何評估 Uber 對交通和駕駛狀況的影響?

14.你會用哪些參數來追蹤 Uber 的付費廣告是否真正獲得了新客戶?你會用什么辦法來算出一個理想的新客戶獲取成本?

LinkedIn

15.大數據工程師,你能解釋一下什么是 REST 嗎?

機器學習類問題

谷歌

16.你為什么要用特征選擇?

17.如果兩個預測因子高度相關,對邏輯回歸系數的影響是什么?系數的置信區間是多少?

18.高斯混合模型(Gaussian Mixture Model)和 K-Means 的區別是什么?

19.如何為 K-Means 拾取 k ?

20.何時應用高斯混合模型?

21.假設一個聚類模型的標簽是已知的,如何評估該模型的性能?

微軟

22.舉一個你自豪的機器學習項目的例子。

23.描述任意一個機器學習算法。

24.描述Gradient Boosting 是如何工作的。

25.數據挖掘:描述一下決策樹模型。

26.數據挖掘:神經網絡是什么?

27.闡釋一下偏差-方差權衡(Bias-Variance Tradeoff)。

28.如何處理不平衡的二元分類?

29.L1 和 L2 正則化有何不同?

Uber

30.你會用什么 feature 來預測 Uber 司機是否會接受一次乘車請求?你會用什么有監督學習算法來解決這一問題?如何比較算法的結果?

LinkedIn

31.給出并描述三種不同的核函數,及各自的應用條件。

32.描述一種機器學習中使用的方法。

33.如何處理稀疏數據?

IBM

34. 如何防止過擬合?

35. 如何處理數據中的離群值(outlier)?

36. 與分類模型相比,如何分析回歸模型的預測性能?

37. 與簡單的線性回歸模型相比,如何評估邏輯回歸模型?

38. 有監督學習和無監督學習的區別是什么?

39. 交叉驗證(cross-validation)是什么?為什么要使用交叉驗證?

40. 用于評估預測模型的矩陣(matrix)名稱是什么?

41. 邏輯回歸系數和比值比(Odds Ratio)之間的關系是什么?

42. 主成分分析(Principal Component Analysis,PCA)和線性和二次判別分析(Linear & Quadratic Discriminant Analysis ,LDA & QDA)之間的關系是什么?

43. 如果你有一個分類變量(categorical dependent variable),以及一個混合分類和連續變量(a mixture of categorical and continuous independent variables),你會用什么算法、方法或工具來進行分析?

44. 商業分析:邏輯和線性回歸的區別是什么?如何避免局部極小值(localminima)?

Salesforce

45. 你會使用什么數據和模型來測量損耗/流失?如何測量模型的性能?

46. 請嘗試對非技術人員解釋一種機器學習算法。

Capital One

47. 如何開發一個預測信用卡詐騙的模型?

48. 如何處理缺失或不良數據?

49. 如何從已有特征中得出新特征?

50. 在客戶性別預測中,如果你只有 100 個數據點,你的預測可能會出現什么問題?

51. 假設已有兩年的交易記錄,你會用哪些特征來預測信用風險?

52. 請設計一個會下三連棋(Tic-tac-toe)的AI 程序。

Zilow

53. 請解釋一下什么是過擬合,以及如何避免。

54. 為什么 SVM 需要在支持向量間最大化margin?

Hadoop

Twitter

55. 如何用 Map/Reduce 將大圖形分割成小塊,并根據數據的快速/動態變化并行邊緣計算?

56. 數據工程師:給定一個粉絲list,格式為:123, 345234, 678345, 123…其中第一列是粉絲 ID,第二列是被粉者 ID。目標是找到所有互粉組(如上例中的 123,345)。當 list 超出內存時,如何使用 Map / Reduce 解決問題?

Capital One

57. 數據工程師:Hadoop 序列化(serialization)是什么?

Explain a simple Map/Reduce problem.

58. 闡釋一個簡單的 Map / Reduce 問題。

Hive

LinkedIn

59. 數據工程師:請寫一個輸出情感分數的 Hive UDF。例如,假如好=1,壞=-1,平均數=0,那么餐廳得到的「食物好,服務差」的評價,得分可能為 1 - 1 = 0

Spark

Capital One

60. 數據工程師:請闡述在 Spark 中,RDD 如何使用 Scala 語言工作?

統計和概率問題

谷歌

61. 請向非技術人員解釋交叉驗證(Cross-validation)。

Describe a non-normal probability distribution and how to applyit.

62. 請描述非正態概率分布(non-normal probability distribution)以及如何應用。

微軟

63. 數據挖掘:什么是異方差(heteroskedasticity),如何解決?

Twitter

64. 已有 Twitter 用戶數據,如何測量參與度(engagement)?

Uber

65. 時間序列(Time Series)預測技術是什么?

66. 闡釋主成分分析(PCA)及其使用的方程。

67. 如何解決多重共線性(Multicollinearity)?

68. 請寫出推特和Facebook 上優化廣告費用支出的方程。

Facebook

69. 從一副牌中抽取兩張,同一花色的出現概率是多少?

IBM

70. ?p-value 和置信區間是什么?

Capital One

71. 數據分析師:假設你有 70 顆紅色彈珠,綠色和紅色彈珠的比例是 2 :7,請問綠色彈珠有多少顆?

72. 紐約市的日常上下班交通數據分布應該是什么樣子的?

73. 一個骰子,扔 6 次出現 1 個 6 的幾率,與扔 12 次至少出現兩個 6 的幾率,以及扔 600 次至少出現 100 次 6 的幾率,哪個最大?

PayPal

74. 中心極限定理(Central Limit Theorem)是什么,如何證明?有何應用?

編程和算法

谷歌

75. 數據分析師:請寫一個判定任意二進制樹height 的程序。

微軟

76. 請創建一個檢查某個詞是否是回文的函數。

Twitter

77. 請構建一個冪集(power set)。

How do you find the median of a very large dataset?

78. 如何在一個巨大的數據集中找到中位數?

Uber

79. 數據工程師:編寫一個計算給定數字平方根(精確到百分位)的函數。然后用緩存機制優化函數,避免冗余計算。

Facebook

80. 假設有兩個二進制字符串,寫一個將它們加在一起的函數,不使用任何內置的字符串到 int 的轉換或解析工具。例如:如果給你的函數二進制字符串 100 和 111,它應該return 1011。你的解決方案的空間和時間復雜性是怎樣的?

81. 寫一個函數,輸入兩個已排序的 list,在一個排序 list 中輸出其并集。

LinkedIn

82.數據工程師:編寫代碼,確定一個字符串中的括號是否平衡?

83. 如何在一個二進制搜索樹中找到第二大element?

84. 寫一個函數,輸入兩個排序的向量,輸出一個排序的向量。

85. 面對一個數字流輸入,如何在運行中找到最頻繁出現的數字?

86. 寫一個函數,可以將一個數字加到另一個數字上,就像 pow()函數一樣。

87. 將一個大字符串拆分成有效字段,存儲在字典中。如果字符串無法拆分,return “false”。你的解決方案的復雜性是怎樣的?

Salesforce

88. 查找文檔最常用的詞的計算復雜性是什么?

89. 面對10 TBs 的非結構化客戶數據,如何發現并提取有價值的信息?

Capital One

90.數據工程師:如何「拆散」兩個數列(就像 SQL 中的 JOIN 一樣,只不過是反過來)?

91. 創建一個可以做添加的函數,數字表示為兩個linked list。

92.?創建一個計算矩陣和的函數。

93. 如何用 Python 讀取一個非常大的制表符分隔的數字文件,以計算每個數字出現的頻率?

Paypal

94. 寫一個函數,讓它能在 O(n)時間內讀取一個句子并逆向打印出來。

95. 寫一個函數,輸入一個數列,可以在O(n) ?時間內將其按所有可能性分成兩列數組,然后打印出這兩個數組之間可能的最大差值。

96. 寫一個執行合并排序的程序。

SQL 問題

微軟

97. 數據分析師:定義和解釋聚集索引和非聚集索引之間的不同。

98. 數據分析師:return 表的行計數有哪些不同的方法?

Facebook

99. 數據工程師:給定一個原始數據表,如何用 SQL 執行 ETL(Extract,Transform,Load)以獲取所需格式的數據?

100. 如何編寫一個 SQL 查詢,計算涉及兩個連接的某個確定屬性的頻率表?如果希望 ORDER BY 或 GROUP BY 某些屬性,需要做哪些變化?如何描述 NULL?

LinkedIn

101.數據工程師:如何提高 ETL(Extract, Transform, Load)的吞吐量(throughput)?

智力和文字游戲

谷歌

102. 有 10 包彈珠,每包里有 10 個彈珠。其中一包和其他包重量不同,如果只能進行一次稱重,如何找出這一包?

Facebook

103. 你準備坐飛機去西雅圖,想知道要不要帶傘。你給西雅圖的三位朋友分別打電話。每個朋友都有 2/3 的幾率說真話,1/3 的幾率在騙你。如果他們都說「會下雨」,西雅圖下雨的概率是多少?

104. 假設有一個等邊三角形,三個角上都有一只螞蟻,每只隨機選擇方向,沿著三角形的邊走,那么這些螞蟻不發生碰撞的幾率是多少?如果有 n 只螞蟻在一個有 n 個角的多邊形中,概率又是多少?

105. 在 100 階乘(即 100!)里有多少個零?

Uber

106. 假設你在一家醫院工作。患者就診的頻率符合泊松分布(Poisson Distribution),而醫生照顧患者的頻率符合均勻分布(Uniform Distribution)。請寫一個函數或一段代碼,能夠給出患者的平均等待時間和醫生在任意一天所照顧到的患者總數。

LinkedIn

107. 你在爬一個有 n 階臺階的樓梯,你可以用任何 k 數量的步驟。那么,到達樓梯頂部有多少不同的方式?(這是樓梯問題的修改版)

fbUPi@??9??

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,983評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,772評論 3 422
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,947評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,201評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,960評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,350評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,406評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,549評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,104評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,914評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,089評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,647評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,340評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,753評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,007評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,834評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...

推薦閱讀更多精彩內容