机器学习面试问题
機器學習面試問題
1、區分機器學習和深度學習
機器學習是人工智能的一個子集,它為機器提供了自動學習和改進的能力,無需任何明確的編程。
而深度學習,機器學習的子集,能夠做出直覺決策的人工神經網絡。
2、你對Recall和Precision這個術語有什么了解?
召回被稱為真正的正面率。它指的是您的模型聲明的陽性數量與整個數據中可用陽性數量的比較。
精度,或者稱為正預測值,基于預測。它是模型聲稱的準確陽性數量的測量值,與模型實際聲明的陽性數量相比較。
3、監督機器學習和無監督機器學習之間的區別?
在監督學習中,機器在標記數據的幫助下進行訓練,即用正確答案標記的數據。
而在無監督機器學習中,模型通過自己發現信息來學習。與監督學習模型相比,無監督模型更適合于執行困難的處理任務。
4、什么是K-means和KNN
K-means是一種無監督算法,用于聚類問題的過程,KNN或K最近鄰是一種監督算法,用于回歸和分類過程。
5、什么使分類與回歸不同
這兩個概念都是監督機器學習技術的一個重要方面。通過分類,輸出被分類為用于進行預測的不同類別。而回歸模型通常用于找出預測和變量之間的關系。分類和回歸之間的關鍵區別在于,在前者中,輸出變量是離散的,而在后者中是連續的。
6、您將如何處理數據集中的缺失數據?
數據科學家面臨的最大挑戰之一是數據丟失問題。您可以通過多種方式對缺失值進行歸因,包括分配唯一類別,刪除行,使用均值/中值/模式替換,使用支持缺失值的算法,以及預測缺失值等等。
7、您對歸納邏輯編程(ILP)有何了解?
機器學習的子領域,歸納邏輯編程通過使用邏輯編程來開發預測模型來搜索數據中的模式。該過程假定邏輯程序是假設或背景知識。
8、您需要采取哪些步驟來確保不會過度使用特定型號?
當模型在訓練期間提供大量數據時,它開始從數據集中的噪聲和其他錯誤數據中學習。這使得模型難以學習除了訓練集之外概括新實例。有三種方法可以避免機器學習中的過度擬合。第一種方法是保持模型簡單,第二種方法是使用交叉驗證技術,第三種方法是使用正則化技術,例如LASSO。
9、什么是合奏學習?
或者,集合方法被稱為學習多分類器系統或基于委員會的學習。集合方法是指構建分類器集的學習算法,然后對新數據點進行分類以選擇其預測。該方法訓練了許多假設以解決相同的問題。集合建模的最佳示例是隨機森林樹,其中許多決策樹用于預測結果。
10、命名機器學習項目中所需的步驟?
實現良好工作模型應采取的一些關鍵步驟是收集數據,準備數據,選擇機器學習模型,模型訓練,評估模型,調整參數,最后是預測。