0

我是一名受過教育的機械工程師,我的第一份工作是在鋼鐵行業。
我穿著那些沉重的膠靴和塑料頭盔,在大型高爐和軋鋼廠里做著危險的工作。至少這么說,雖然做了很多安全措施,但我知道如果發生了什么不好的事情,什么也救不了我。也許跑鞋能幫上忙,至于頭盔?我只想說鋼水的溫度是 1370 攝氏度。
我意識到基于我的恐懼,這份工作不適合我,所以我找到了新的目標,在 2011 年左右進入分析和數據科學領域。從那時起,mooc 就成了我學習新事物的首選,我在那里學到了很多新東西。有好有壞。
現在到了 2020 年,隨著數據科學領域的日新月異,學習數據科學的資源并不缺乏。但這也常常給初學者帶來一個困擾:從哪里開始學習,學習什么?互聯網上有很多優質的資源,但這意味著也有很多不好的資源。
當談到學習時,過多的選擇往往會導致停滯,因為選擇會讓人陷入焦慮。
在 The Paradox of Choice — Why More Is Less 這本書中,Schwartz 認為消除消費者的選擇可以大大減少購物的焦慮。對數據科學課程來說也是如此。
這篇文章旨在為迷茫的初學者提供建議,從哪里開始他們的數據科學之旅有很多選擇。
1)Python 3 編程專業化
和 Python 2.7 說再見!
首先,你需要一種編程語言。這個來自密歇根大學的課程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.13674876714&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Fpython-3-programming)教你學習使用 Python 并自己創建東西。
你將學習變量、條件和循環等編程基礎知識,并獲得一些學習材料,如關鍵字參數、列表理解、lambda 表達式和類繼承。
你可能還想通過我的 Python Shorts 獲得更好的理解。

頁面網址:https://towardsdatascience.com/tagged/python-shorts
2)Python 應用數據科學
先做,后理解
在充分理解機器學習之前,我們需要先體驗一下它。
應用數據科學為你介紹了許多應該了解的現代機器學習方法。雖然它們并不是完全一樣的,但你會得到建立你的模型的工具。
這種基于技能的專業課程向具有基本 python 或其他語言編程背景,并希望通過流行的 python 工具包(如 pandas、matplotlib、scikit learn、nltk)應用統計、機器學習、數據可視化、文本分析和社交網絡分析以及 networkx,以深入了解他們的數據的學習者。
你可能還想瀏覽一下我的一些文章,同時了解一下這個專業領域:

網址:https://towardsdatascience.com/minimal-pandas-subset-for-data-scientists-6355059629ae


3)機器學習理論與基礎
完成以上課程后,你將變成「初學者」,恭喜!
你知道你學的東西是什么,你知道如何實現某些事情。
然而,你并沒有完全理解所有這些模型背后的所有數學原理。
你需要了解 clf.fit 背后的原理,是時候面對現實了。除非你了解模型背后的數學原理,否則沒人會認真對待你。
如果你不明白,你就無法改進它。
Game Changer 機器學習課程來了!它包含了許多機器學習算法背后的數學原理。
我將把這門課當作一門必修課,因為這門課程激勵了我進入這個領域,而且 Andrew Ng 是一位偉大的導師。這是我開始學習的第一門課程。
這門課程包含了回歸,分類,異常檢測,推薦系統,神經網絡等知識,還有很多很棒的建議。在學習本課程的同時,你可能還需要瀏覽我的一些文章:

網址:https://towardsdatascience.com/the-hitchhikers-guide-to-feature-extraction-b4c157e96631

網址:https://towardsdatascience.com/the-5-classification-evaluation-metrics-you-must-know-aa97784ff226


4)學習統計推斷
「事實是不變的,但統計數字是靈活的。」
——Mark Twain
我的老師 ?etinkaya-Rundel 教授這門推論統計學的課程(https://www.coursera.org/learn/inferential-statistics-intro?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&siteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0 ),沒有比這更簡單的課程了。
她是一位優秀的講師,很好地解釋了統計推斷的基本原理——這是一門必修課。
你將學習假設檢驗、置信區間以及數值和分類數據的統計推斷方法。
你可能還想通過我的一些文章,加深理解:

網址:https://towardsdatascience.com/p-value-explained-simply-for-data-scientists-4c0cd7044f14

5)學習數據科學相關的 SQL 基礎知識
SQL 是所有數據 ETL 的核心
雖然我們覺得通過創建模型和提出不同的假設,可以完成更多的工作,但數據處理的作用是不可低估的。
而且,隨著 SQL 在 ETL 和數據處理任務中的廣泛應用,每個人都應該知道一點 SQL,這一定會有用。
SQL 也已經成為使用 Apache Spark 等大數據工具的事實標準。這個來自 UC Davis 的 SQL 教程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.15198708466&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Flearn-sql-basics-data-science )將教你 SQL 基礎知識以及如何使用 SQL 進行分布式計算。
來自課程網站:
通過完成四個逐步增加難度的 SQL 項目,你將涵蓋諸如 SQL 基礎知識、SQL 分析、AB 測試、使用 Apache Spark 的分布式計算等主題。
你可能還想通過我的一些文章加深理解:

網址:https://towardsdatascience.com/learning-sql-the-hard-way-4173f11b26f1

網址:https://towardsdatascience.com/the-hitchhikers-guide-to-handle-big-data-using-spark-90b9be0fe89a

網址:https://towardsdatascience.com/5-ways-to-add-a-new-column-in-a-pyspark-dataframe-4e75c2fd8c08
6)高級機器學習
你可能不同意,但到目前為止,我們所做的一切都是沒有多大用處的。學習材料是結構化的,數學知識是最少的。但你已經為下一步做好了準備。這種高級機器學習課程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.11973317656&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Faml)由頂級 Kaggle 機器學習實踐者和歐洲核子研究中心的科學家采用了另一種學習方法,他們會講解許多晦澀難懂的概念,并指導你了解過去的事情是如何工作的,以及機器學習世界中最新的進步。網站上是這樣說的:
該專業介紹了深度學習、強化學習、自然語言理解、計算機視覺和貝葉斯方法。頂級 Kaggle 機器學習實踐者和 CERN 科學家將分享他們解決現實世界問題的經驗,并幫助你填補理論和實踐之間的空白。
你可能想看看我的一些文章,同時了解本課程的一些材料:

網址:https://towardsdatascience.com/mcmc-intuition-for-everyone-5ae79fff22b1

網址:https://towardsdatascience.com/tagged/nlp-learning-series
7) 深度學習
深度學習就是未來
Andrew NG 又回到了他的深度學習專業。
Andrew Ng 以一種通俗易懂的方式完成了對困難概念的講解。他所遵循的術語與網絡上所有其他教程和課程都不一樣,我希望它能流行起來,因為它對理解所有基本概念非常有幫助。
摘自專業網站:
了解深度學習的基礎,了解如何構建神經網絡,并學習如何領導成功的機器學習項目。你將了解卷積網絡、RNNs、LSTM、Adam、Dropout、BatchNorm、Xavier/He 初始化等。你將從事醫療保健、自動駕駛、手語閱讀、音樂生成和自然語言處理等方面的案例研究。
你可能想看看我的一些文章,同時試圖了解本課程的一些材料:

網址:https://towardsdatascience.com/an-end-to-end-introduction-to-gans-bf253f1fa52f

8) Pytorch
我通常從不提倡學習工具,但在這里我提倡。原因是,Pytorch 令人難以置信,使用它你將能夠閱讀代碼,研究許多最新的論文。Pythorch 已經成為從事深度學習的研究人員默認的編程語言,它只會對我們的學習產生推動作用。
學習 Pythorch 的一種結構化方法學習 Pythorch 相關的深神經網絡課程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.14805039480&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Flearn%2Fdeep-neural-networks-with-pytorch)。以下來自課程網站:
課程將從 Pytorch 的張量和自動微分包開始。然后每個部分將涵蓋不同的模型,從基本原理開始,如線性回歸和 logistic/softmax 回歸。其次是前饋型深層神經網絡、作用不同的激活函數,歸一化層和脫落層。然后介紹卷積神經網絡和遷移學習。最后,還將介紹其他一些深度學習方法。
你也可以看看我的這篇文章,我試著解釋如何使用PyTorch:

網址:https://towardsdatascience.com/moving-from-keras-to-pytorch-f0d4fff4ce79
9)AWS 機器學習入門
秘訣:你知道什么不重要,你展示什么才重要。
在構建一個偉大的機器學習系統時,有很多事情需要考慮。但作為數據科學家,我們常常只擔心項目的某些部分。
但我們有沒有想過,一旦我們擁有了模型,我們將如何部署它們呢?
我見過很多ML項目,其中很多項目注定要失敗,因為它們從一開始就沒有生產計劃。
擁有一個好的平臺,并了解該平臺如何部署機器學習應用程序,將在現實世界中發揮重大作用。這門關于實現機器學習應用程序的 AWS 課程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.14884356434&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Flearn%2Faws-machine-learning)就承諾了這一點。
本課程將教你:
如何使用帶有內置算法和 Jupyter notebook 實例的 Amazon SageMaker 構建、訓練和部署模型。
如何使用 Amazon-AI 服務構建智能應用程序,如 Amazon-Comprehend、Amazon-Rekognition、Amazon-Translate 等。
你也可以看看我的這篇文章,文章討論了應用程序,并解釋了如何做生產計劃。



10)數據結構和算法
算法。是的,你需要它們。
算法和數據結構是數據科學的組成部分。雖然我們大多數的數據科學家在學習的時候并沒有學習一門專門的算法課程,但它們都是必不可少的。
許多公司將數據結構和算法作為招聘數據科學家面試過程的一部分。它們需要和對數據科學算法充滿熱情,因此,你可能需要一些時間來研究算法、數據結構的問題。
我發現學習算法的最佳資源之一是 UCSanDiego 在 Coursera 上的算法課程(https://click.linksynergy.com/deeplink?id=lVarvwc5BD0&mid=40328&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Fdata-structures-algorithms )。摘自網站:
你將學習解決各種計算問題的算法技術,并將使用你選擇的編程語言實現大約 100 個算法編碼問題。沒有任何一門在線算法課程能讓你在下一次面試中解決各種編程挑戰。
你可能還想看看我的一些文章,同時了解一些在這個專業領域的資料。

網址:https://towardsdatascience.com/three-programming-concepts-for-data-scientists-c264fc3b1de8


網址:https://towardsdatascience.com/dynamic-programming-for-data-scientists-bb7154b4298b

網址:https://towardsdatascience.com/handling-trees-in-data-science-algorithmic-interview-ea14dd1b6236
via:https://towardsdatascience.com/top-10-resources-to-become-a-data-scientist-in-2020-99a315194701
雷鋒網雷鋒網雷鋒網