Python 數據分析 實作專案-1

此專案是我首次將 Python 應用於實際的數據分析,與一位資深期貨研究員合作進行。研究員提供了 2007 年至 2012 年間的日交易記錄,涵蓋了 6 年、71 個月、1,474 個交易日,包含期貨成交紀錄共 2.87 億筆資料(287,259,643 筆)及期貨交易人部位資料共 57,000,509 筆。總計資料量達 344,260,152 筆,內容包含投資人身份碼、成交價格、口數、商品代號與分類等關鍵資訊。

研究目的是從大量交易行為中找出導致投資者離開期貨市場的因素。透過此專案,我更深入了解了 Python 的強大性能,不僅能高效處理大數據,還具備豐富的工具資源,使數據分析更精確且高效。以下是此專案的主要分析步驟:

  1. 定義離場行為

    • 離場標準化定義:將連續數月無成交量的投資者視為「離場」標準。

    • 數據標籤:在數據中為「離場」的投資者標記標籤,以便在後續分析中比對離場與未離場投資者的行為差異。

    • 數據結構示例如下:

      年月

      交易人id

      留下(=1)

      或離開(=0)市場

      t-1

      市場報酬率

      t-1

      市場波動度

      t-1

      月成交量

      t-1

      留倉量

      t-1

      大型(=1)或小型(=0)

      契約交易偏好

      t-1

      投資人類型1

      t-1

      投資人類型2

      200701

      xxxxxxxxxx

      1

      0.07848

      0.18165

      40.25

      0.3333

      1

      1

      0

  2. 描述性統計分析

    • 對投資者的整體交易行為進行描述性統計分析,包括市場報酬率、波動度、月成交量、留倉量、契約偏好和投資人類型,以捕捉離場投資者的行為特徵。

  3. 行為特徵分析

    • 交易頻率和持倉變化:檢查每位投資者的交易頻率和持倉量的波動,並比較離場和未離場投資者之間的顯著行為差異。

  4. 綜合各項數據結構如下:

    年月

    交易人id

    留下(=1)

    或離開(=0)市場

    t-1

    市場報酬率

    t-1

    市場波動度

    t-1

    月成交量

    t-1

    留倉量

    t-1

    大型(=1)或小型(=0)

    契約交易偏好

    t-1

    投資人類型1

    t-1

    投資人類型2

    t-1

    PGR-PLR

    t-1

    當年始

    累積損益

    t-1

    2007年始

    累積損益

    200701

    xxxxxx

    1

    0.07848

    0.18165

    40.25

    0.3333

    1

    1

    0

    0.218182

    31745

    1580

  5. 機器學習建模

    • 離場預測模型:採用隨機森林等機器學習模型來預測投資者的離場行為,根據歷史行為數據識別可能離場的投資者。

  6. 視覺化與結果展示

Python 個人專案 學習紀錄