盡用 kaggle 4 步曲

Nov 22 / Pen Kwok
第1步: 學習一門編程語言 Programming Language

流行的編程語言有很多,比如 R、C/C++、Python 等,基本上它們都提供類似的功能。如果你沒有偏好,我建議從 Python 開始,因為它非常流行,特別是在機器學習 Machine Learning 領域, 如果您在學習過程中遇到任何問題,你可以很容易地從其他用戶那裡得到答案。

Nysus 提供了一個有用的 Python 課程。你可以點擊這裡了解更多。


第2步: 學習如何處理數據

現實生活中的數據通常都都會比較散亂,需要進行 Pre-processing 才可以有效利用。加載 Loading、清理 Cleaning 和可視化數據 Visualization 的能力是數據科學中的關鍵一步,因為它會影響您在整個模型訓練 Model Traning 過程中做出的各種決定。https://www.kaggle.com/learn/data-visualization


第3步: 訓練您的第一個機器學習模型

在開始使用 Kaggle 之前,我建議一些比較簡單、易於管理的 DataSet 上訓練模型 Model Training。這樣可以讓您熟悉機器學習和避免處理複雜的數據問題。
https://www.kaggle.com/learn/intro-to-machine-learning

關鍵是開始養成良好的習慣,例如將數據集拆分為單獨的訓練集 Training Set 和測試集 Validation Set,交叉驗證以避免過度擬合 Over-fitting,以及使用適當的成效指標 Performance Metrics。


第4步: 參加一些入門級比賽

入門級比賽非常適合初學者,因為它們為您提供了一個低風險的學習環境,並且還可以得到了許多 Tutorial 的支持。通過這些比賽,您將學到很多現實生活中的數據科學知識,並更好地解決各種問題。

https://www.kaggle.com/competitions?hostSegmentIdFilter=5


之後你更加可以参加進楷比賽,鍛鍊技術,甚至可以贏取奨項。


恭喜!完成這4個步驟後,您應該已經掌握了數據科學家的必要基礎技能。
然後您可以開始開發特定領域,例如計算機視覺 Computer Vision、自然語言處理 Natural Language Processing、會話式聊天機器人 Conversation Chatbot、推薦系統 Recommender System等。

祝您在學習數據科學的旅程中取得圓滿成功!

Author: Pen Kwok

Deep Learning. Data Analytics. Digital Marketing.
About me
I like Dire Straits, Utada Hikaru, Tat Ming Pair and Faye Wong. Playing around a circuit board, from Apple II to NVIDIA Jetson nano, is always a pleasure.

推薦課程:

緊貼最新職場、進修、新科技資訊
馬上訂閱 Nysus Newsletter

Thank you!