Python 數據分析 實作專案-1
此專案是我首次將 Python 應用於實際的數據分析,與一位資深期貨研究員合作進行。研究員提供了 2007 年至 2012 年間的日交易記錄,涵蓋了 6 年、71 個月、1,474 個交易日,包含期貨成交紀錄共 2.87 億筆資料(287,259,643 筆)及期貨交易人部位資料共 57,000,509 筆。總計資料量達 344,260,152 筆,內容包含投資人身份碼、成交價格、口數、商品代號與分類等關鍵資訊。
研究目的是從大量交易行為中找出導致投資者離開期貨市場的因素。透過此專案,我更深入了解了 Python 的強大性能,不僅能高效處理大數據,還具備豐富的工具資源,使數據分析更精確且高效。以下是此專案的主要分析步驟:
定義離場行為
離場標準化定義:將連續數月無成交量的投資者視為「離場」標準。
數據標籤:在數據中為「離場」的投資者標記標籤,以便在後續分析中比對離場與未離場投資者的行為差異。
數據結構示例如下:
描述性統計分析
對投資者的整體交易行為進行描述性統計分析,包括市場報酬率、波動度、月成交量、留倉量、契約偏好和投資人類型,以捕捉離場投資者的行為特徵。
行為特徵分析
交易頻率和持倉變化:檢查每位投資者的交易頻率和持倉量的波動,並比較離場和未離場投資者之間的顯著行為差異。
綜合各項數據結構如下:
機器學習建模
離場預測模型:採用隨機森林等機器學習模型來預測投資者的離場行為,根據歷史行為數據識別可能離場的投資者。
視覺化與結果展示