Python 數據分析 實作專案-3 利用機器學習進行商品分類

利用機器學習進行商品分類 (Side Project)

專案期間:2021/10 ~ 2021/10

背景

專案的起點是面對一個擁有 14 萬筆商品的資料庫,但原有的分類不夠精確。若手動重新分類,將耗費大量時間與人力,因此我決定利用這個挑戰作為學習機器學習的契機,通過自動化來提升分類效率。

專案流程

第一步:NLP 處理商品文本特徵
我首先對每筆商品的名稱與描述進行自然語言處理(NLP),抽取其中的中文關鍵字,並將這些關鍵字作為商品的主要特徵,以便後續的機器學習模型可以更精確地進行分類。

第二步:建立訓練樣本
從總商品資料中隨機挑選前 100 筆與後 100 筆的資料作為初始訓練樣本。參考目標為蝦皮的商品分類,這些樣本用於訓練模型的初步分類能力。

第三步:模型訓練
將已標記分類的樣本導入機器學習模型進行訓練,選擇合適的分類算法來提升模型的準確性與泛化能力,讓模型可以更好地適應商品分類的需求。

第四步:分類預測
利用訓練完成的模型,對其餘未分類的商品進行自動分類。模型依據訓練得到的分類特徵,為每個商品自動匹配最適合的分類,並將結果輸出到資料庫中。

第五步:商品銷售分析與應用
最後,針對近五年內的成交訂單數據,分析每個商品分類的銷售情況,統計各分類的銷量和市場需求,為日後的電商決策提供數據支持。

專案成果與展望

本專案不僅解決了原先商品分類模糊的問題,還提升了數據處理效率。透過機器學習模型,成功實現了自動化商品分類。未來,可以將此模型應用到更多樣的商品數據,以持續優化分類效果,並配合市場趨勢,制定更精確的電商策略。

Python 個人專案