特徵工程是數據科學和機器學習中的重要術語。 數據科學家把 80% 的時間用於處理特徵工程任務,餘下20% 的時間用於訓練機器學習 (ML) (*3)。 詳細來說,過程中,選擇、轉換、提取、組合和操作原始數據,是產生分析或預測建模所需變數的關鍵過程 (*2)。
透過建立準確的預測模型,我們可以應用它來預測獨特的業務環境,例如消費者在電子商務中的重複購買行為等 (*4),使你的公司能夠更清晰地掌握市場狀況,做出更精準的決策,賺取更多的利潤。以下簡單介紹 5 個基本步驟,可以幫助決策者輕鬆了解數據科學家將提供哪些幫助(*1 和 *2),這些步驟是:數據淨化、數據轉換、特徵提煉、特徵取捨、特徵迭代。
創建特徵
原始資料可以儲存為不同的格式,例如圖像、文字檔案、影片、照片。 在資料標記的最初階段,我們需要識別客戶資料的類型。
數據淨化
為了應對當前複雜的商業環境,一些企業必須長期儲存各種數據集。 刪除不相關的數據(離群值)或修改數據是不錯的開始,進一步使數據更具可讀性和對建模更有價值。
數據轉換
從Datacube客戶的經驗來看,他們通常會因為數據長期儲存在不同的系統中,且格式不一致而感到困擾(*1),而之前沒有聘請數據專家的作任何整合工作。 因此,下一步我們必須將數據集標準化或轉換為統一格式,例如從分類變數到數值變量,以便我們可以充分利用這些有價值的數據來幫助業務。
特徵取捨和提煉
因素或變數群是巨大的、原始的、抽象的,甚至是令人困惑的。 在此過程中,數據科學家可以應用統計和分析技術來幫助您將多個目標變數,分組為一個子特徵群,最終能識別模型中的多個優異的特徵群。
特徵迭代
可以提煉特徵群,並將其分組為多個子集。 透過在運行 ML 演算法時,應用這些子集和演算方法,模型的表現便可以透過分數來衡量,然後按高下排名,稍後用視覺化圖象,以供管理層獲取洞察力的巿場分析 (*1)。 因此,我們可以進一步添加、刪除或保留的特徵群,這確實有助於提高模型預測。
在了解了特徵工程的流程後,有些人可能會認為它純粹是技術性的,應該將其交給數據科學家,但事實並非如此。 身為老闆、決策者、管理階層,您實際上可以被授權參與數據管理的某些部分,讓我們在第 2 部分討論更多內容。
進一步閱讀 (*):
- https://aws.amazon.com/what-is/feature-engineering/
- https://corporatefinanceinstitute.com/resources/data-science/feature-engineering/
- https://www.youtube.com/watch?v=DkLQtGqQedo
- https://www.researchgate.net/publication/366279094_A_Feature_Engineering_and_Ensemble_Learning_Based_Approach_for_Repeated_Buyers_Prediction
關於我們的機器學習能力 :
https://www.datacube.hk/aibook/
#Big_data #data_management #feature_engineering #artificial_intelligence #predictive_model #AIBook #machinelearning #decision_maker