从何开始学习数据科学?小哥用亲身经历告诉你如何少走弯路

企业动态
如果我不得不重新开始学习数据科学,从我自身的角度为了能够更好地学习,我设计了一下这条道路,供大家参考。

大数据文摘出品

来源:medium

编译:徐玲、Aileen

几天前,我开始考虑如果必须重新开始学习机器学习和数据科学,我将从哪里开始?有趣的是,我如今想象的路径与我刚开始时实际走的路径完全不同。

我知道我们每个人都以不同的方式学习。有些人喜欢视频,有些人只喜欢看书,很多人需要参加付费课程去感受更多的压力。没关系,重要的是真的去学习并且享受其中。

如果我不得不重新开始学习数据科学,从我自身的角度为了能够更好地学习,我设计了一下这条道路,供大家参考。

如你所见,我最喜欢的学习方法是从简单入手,逐渐研究复杂的内容。这意味着从实际示例开始,然后转向更抽象的概念。

一、Kaggle微课程

我知道从这里开始可能很奇怪,许多人希望从最沉重的基础和数学视频开始,以充分了解每种ML模型背后发生的事情。但是从我的角度出发,从实用和具体的角度出发有助于更好地了解整个情况。

此外,每门小课程需要只大约4个小时才能完成,因此预先设定达到这些小目标会增加额外的动力。

1. Python

如果你熟悉Python,则可以跳过此部分。在这里,你将学习基本的Python概念,这些概念将帮助你开始学习数据科学。虽然关于Python的很多事情对你来说仍然是个谜,但是随着我们的前进,你将通过实践学习它。

价格:免费

链接:https://www.kaggle.com/learn/python

2. Pandas

Pandas将为我们提供开始使用Python处理数据的技能。我认为4小时的微课程和实际示例足以使人们对可以做的事情有一个概念。

价格:免费

链接:https://www.kaggle.com/learn/pandas

3. 数据可视化

数据可视化也许是最被低估的技能之一,但它也是最重要的技能之一。它将使你完全了解要使用的数据。

价格:免费

链接:https://www.kaggle.com/learn/data-visualization

4. 机器学习入门

令人兴奋的部分开始了!你将学习基本的概念,以开始训练机器学习模型。这些在未来之路上至关重要的概念,你必须了解的非常清楚。

价格:免费

链接:https://www.kaggle.com/learn/intro-to-machine-learning

5. 中级机器学习

这是对前面的补充,但是在这里,你将第一次使用分类变量,并处理数据中的空字段。

价格:免费

链接:https://www.kaggle.com/learn/intermediate-machine-learning

应该清楚的是,这5个微课程不是线性过程,你可能必须在它们之间反反复复才可以记住这些概念。当你在Pandas上工作时,你可能必须回到Python课程以记住你学到的一些知识,或者转到pandas文档以了解在“机器学习入门”课程中看到的新功能。所有这一切都很好,真正的学习就是这样发生的。

现在,如果你意识到前5门课程将为你提供进行探索性数据分析(exploratory data analysis,EDA)和创建基础模型(以后你将可以对其进行改进)的必要技能,因此,现在是开始简单的Kaggle竞赛并将你学到的知识付诸实践的最佳时机。

二、Kaggle竞赛

1. 泰坦尼克号

在这里,你将把在入门课程中学到的知识付诸实践。刚开始时可能有点吓人,不要关心是否在排行榜中排名第一,而是学习。在本竞赛中,你将学习有关这类问题的分类和相关指标,例如精度(precision),召回率(recall)和准确性(accuracy)。

链接:https://www.kaggle.com/c/titanic

2. 房价

在本竞赛中,你将应用回归模型并了解诸如RMSE之类的相关指标。

链接:https://www.kaggle.com/c/home-data-for-ml-course

至此,你已经具有丰富的实践经验,并且会觉得自己可以解决很多问题,但很有可能是你不完全了解所使用的每种分类和回归算法背后的情况。因此,这是我们必须学习所学知识的基础的原因。

三、可以参考的书籍和课程

许多课程都是从这里开始的,但是至少我以前做过一些实践性的工作后,我才能更好地吸收这些信息。

1. 《数据科学从零开始(Data Science from Scratch)》

此时,我们将暂时将自己与pandas,scikit-learn和其他Python库分开,以务实的方式了解这些算法“背后”的知识。

这本书读起来很轻松,它带了每个主题的Python示例,并且没有太多数学运算。我们想了解算法的原理,但是从实践的角度来看,我们不想因阅读大量密集的数学符号而灰心。

价格:26美元

如果你学到这里,我会说你很有能力从事数据科学工作,并且了解了解决方案背后的基本原理。因此,在这里我建议你继续参加更复杂的Kaggle竞赛,参加论坛讨论并探索在其他参与者解决方案中发现的新方法。

2. 在线课程:吴恩达《机器学习》

在这里,我们将看到许多我们已经学到的东西,但是我们将观看该领域一位引领者的解释,他的方法将更加数学化,因此这将是深入理解我们模型的绝佳方法。 

价格:不带证书免费,带证书79美元

链接:https://www.coursera.org/learn/machine-learning

3. 《统计学习的要素(The elements of Statisitcal Learning )》

繁重的数学部分现在才开始。

(想象一下,如果我们从一开始学习数据科学就读这本书,那将一直是一条多么艰难的道路!我们可能会早早的就放弃了。)

价格:60美元,斯坦福网页上有官方免费版本:

https://web.stanford.edu/~hastie/ElemStatLearn/printings/ESLII_print12.pdf

4. 在线课程:吴恩达《深度学习》

此时,你可能已经读到过深度学习和使用过某些深度学习模型。但是在这里,我们将学习神经网络的基础,它们是如何实现和应用现有的不同体系结构的。

价格:49美元/月

链接:https://www.deeplearning.ai/deep-learning-specialization/

至此,之后的路很大程度上取决于你自己的兴趣,你可以专注于回归和时间序列问题,或者可以更深入地学习深度学习。

相关报道:

https://towardsdatascience.com/if-i-had-to-start-learning-data-science-again-how-would-i-do-it-78a72b80fd93

【本文是51CTO专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】

     大数据文摘二维码

戳这里,看该作者更多好文

 

责任编辑:赵宁宁 来源: 51CTO专栏
相关推荐

2020-05-11 13:46:34

数据科学家数据科学大数据

2010-08-09 09:55:31

路由器设置误区

2021-07-26 11:10:39

互联网编程计算机

2018-08-14 11:00:13

面试职场薪水

2009-03-13 08:58:04

AOL裁员实习

2009-03-30 09:11:29

血汗工厂炒作内幕

2014-02-18 09:37:57

2015-10-29 11:35:53

零基础前端设计

2011-06-16 10:46:34

打印机体验

2015-07-30 10:19:29

阿里巴巴面试经历

2009-01-22 12:15:03

NetApp数据管理企业管理

2011-04-28 16:41:15

HP双面打印

2016-09-30 15:55:54

DataMining大数据时代

2011-04-29 10:31:36

数据中心虚拟化

2010-03-22 11:57:23

云计算

2009-05-08 09:23:52

网管故障病毒

2009-02-02 13:54:49

忠告成长涉世之初

2018-07-04 13:53:08

2015-07-02 10:50:55

SDN
点赞
收藏

51CTO技术栈公众号