写作比写代码难多了?给数据科学家的写作指南

大数据 数据分析
数据科学家有好的写作技巧能够提高沟通效率。但我们常常会因为写作能力不足感到困扰。下面一套体系可以突破这些障碍,可以帮你掌握一些数据科学写作的通用准则。

[[244504]]

大数据文摘出品

编译:罗然、瓜瓜、蒋宝尚

写作是每个人都想多做一些的事情,但是常常不知道从哪里开始。

数据科学家有好的写作技巧能够提高沟通效率。但我们常常会因为写作能力不足感到困扰。

下面一套体系可以突破这些障碍,可以帮你掌握一些数据科学写作的通用准则。虽然写作没有秘诀,但是有一些实用性的小技巧可以帮助我们更好地养成高效写作的习惯:

  • 以99%为目标:一项不***但是完成了的项目,比一项没有完成的***项目要好。
  • 坚持很有帮助:你写得越多,事情就越容易。
  • 不要担心资质:在数据科学中,没有门槛可以阻拦你做出贡献或者求知。
  • ***的工具就是完成工作:不要过度优化你的写作软件,博客平台,或者是开发环境。
  • 更广泛更深度地阅读:借用,融合,提高别人的想法。

***是一种高估:以90%为目标

[[244505]]

我克服过***的心理障碍,和我从别人那里听到过最多的困难就是“我的写作、数据科学能力不够好”。这可能是妄自菲薄:当你思考一个项目的时候,人们往往会觉得自己没有办法达到***,所以他们连头都不会开。换句话说,他们让***变成了优秀的敌人。

错误的观点在于:只有***无瑕的项目才是值得被分享的。然而,一个完成了但有瑕疵的项目远比永远完不成的***项目要好。

虽然在很多领域大家都期待一个***的表现,但撰写博文跟别的事情不一样。

写作的时候,为了文章更加可读多做几次修改,但是不要追求完全没有错误。在实践中,90%为目标,超过了就是额外的成就。发表一篇有些错误的文章总比完全不发表要好。另外如果你担心语法/文风,我推荐免费软件Grammarly。

Grammarly:https://www.grammarly.com/

在某些时候,工作的回报会低于你投入的时间。知道如何止损是最重要的技能。不然让***成为你半途而废的借口,不要为了取得不可能的100%而感到压力。如果你已经犯了一些错误了,那么你将有机会通过发表并获得反馈来进一步学习。

尝试去发表不***的工作,然后积极地回应建设性的意见,这样你下次就不会再犯同样的错误。

只做一次不会让你变得更好:坚持很重要

[[244506]]

当10000小时工作法被证伪了以后(事实证明专注于练习,所谓的“刻意练习”,没有你练习的数量来得重要),人们开始强调积累更多的经验。写作不是需要特殊技能的工作,但是需要重复练习来取得进步。

写作不是一件简单的事情,但是随着你练习得越来越多,会变得越来越简单。而且,写作是一个正反馈的循环:你写得越多,技能就会更好,从而鼓励你写更多。

只要开始了,你就过了最难的那一关。

如果你坚持写作,你会改变自己的意识形态,从“我需要从其他事情中找时间来写作”变成了“现在我完成了项目,是时候像往常一样写作了。”对你所做的每个项目进行记录,强化了一个概念:写作不是一个多余的事务,而是数据科学的核心。

写作通常不是为了分享文章。当你进行一个分析时,尝试在你的Jupyter Notebook中增加更多文本来解释你的思路。这是我开始写博客的方式:我开始从头到尾标注我的笔记本,然后意识只需要再增加一点工作量就可以把它变成文章。再者就是,当你开始为你的代码增加更多解释的时候,以后的你自己或是阅读你作品的同事会感谢现在的你。

写最开始的几篇文章像是额外的任务,但是习惯了以后这件事就不多余了,当它变成我工作中被接受的一部分以后就变得很容易了。习惯的力量很强大,写作也跟其他习惯一样。

头衔在数据科学里是没有意义的:不要担心资历

[[244507]]

回忆你上次安装python工具包或者是从Github上拷贝一个路径的时候,你搜索了有卓越学历的作者吗?你只看由专业软件工程师撰写的代码吗?当然不是:在看作者履历(如果你真的在意)之前你会先看路径里的内容。

这样的概念同样运用在数据科学文章之中:文章是以质量来评判的不是作者资历。在网上没有发表的门槛。不需要特定的证书,没有象牙塔供你攀登,没有考试来让你通过,没有门卫把你阻拦在学习和写作数据科学之外。虽然一个学位可以很有用,但在为数据科学做贡献的时候它一定不是必要的。

在这篇很棒的文章里,Rachel Thomas,一个专业的机器学习研究员对于为什么高级学位在深度学习中不是必要的阐述了他的观点。这个名单是一部分在深度学习领域有贡献的非PHD:

一部分在深度学习领域有贡献的非PHD:http://www.fast.ai/2018/08/27/grad-school/

在数据科学中,获得新知识的能力比教育背景更重要。如果你对某个学科的学习没有信心,那么有大量的学习资源供你选择。个人推荐Udacity,Coursera,以及使用Scikit-Learn和TensorFlow这两个工具手把手教你机器学习等。当然还有很多其他资源可供选择。

不要因为你认为自己没有背景而放弃自己参与项目的机会。人们在网上阅读文章之前不会考虑作者的头衔,所以不用担心背景。此外,一旦你意识到你的文凭来自哪里并不重要的时候,你会发现这样更容易学习,因为你可以不再将普世教育视为唯一的信息库。对于数据科学,可以从互联网上学到所需的一切,通常比在课堂上更快。

保持开放的态度也很重要:只要当我不完全确定我使用的方法是正确的时候,我都会在我的文章中说明这一点,并且欢迎任何人的指正。还没有标准的方法来研究数据科学,但仍然可以从其他有经验解决类似问题的人那里学到很多东西。

学习数据科学应该有这样的意识:学习任何必要的东西来使自己有承担任何数据科学项目的能力,并且保持一个谦虚的心态愿意接受建议。

能完成工作的工具就是***的工具

[[244508]]

Windows操作系统vs MacOS操作系统;R语言vs Python;Sublime vs Atom vs PyCharm;媒体vs自己的博客。这些对比都是没有意义的,有意义的是使用能解决问题的工具。

虽然更多功能听起来很棒,但它们通常会妨碍工作。一般来说,尽量让事情变得简单。建议是使用Medium,有限的功能,让你专注于内容,而不是花时间按照我的想法尝试去给内容排版。

所以,更多的选项意味着投入更多的时间来定制这些选项,而只有更少的时间来完成应该做的事情。

我之前陷入了工具优化的循环:我被说服转向新的技术并花时间学习这些功能,然而***只是被告知这项技术已经过时。不管怎样,又会出现新的技术或工具声称会让效率提高。我不久前停止在IDE(集成开发环境)之间切换,***决定使用Jupyter + Sublime Text,因为额外的东西几乎没有多大的用处,因为只用来编写代码。

当有足够的理由切换工具时,不反对切换工具,但仅仅为了新颖性而切换工具并不是提高效率的方法。如果你真的想要开始,请选择一个工具并坚持下去。如果启动项目并发现工具中缺少某些内容,那么可以开始寻找所需内容。在自己知道需要这些功能之前,不要选择拥有更多功能的华丽新工具(这也适用于购买汽车)。换句话说,不要让工作例程的优化妨碍工作。

选择一个策略并坚持下去!

哪里可以找到你的灵感:广泛而深入地阅读

[[244509]]

在与他人隔绝的情况下,伟大的想法不会自己出现。相反,它们是通过将旧概念应用于新问题、混合两个现有想法或改进经过验证的设计而产生的。找出写什么的***方法是阅读其他数据科学家们正在研究的方向。当我困在一个问题中或需要一些新的写作想法,我不可避免地开始阅读。

此外,如果你对自己的写作风格不自信,那么先模仿你最喜欢的作家。查看他们的文章的结构,以及他们如何处理问题,并尝试将相同的框架应用于项目和文章。每个人都必须从某个地方开始,借鉴别人的技术上写文章是没有必要有羞耻感的。最终,你会发展出自己的写作风格,其他人也就可以学习你的写作风格。

建议广泛和深入地阅读,在开发和探索之间找到平衡。开发和探索问题是机器学习中的一个经典,特别是在强化学习中:我们有一个代理人需要在全面了解环境中找到平衡,这就需要在探索知识和他认为将带来***回报的行动之间做出选择。

通过广泛的阅读,探讨数据科学的许多不同的领域,并深入阅读,发展我们的特定领域的专业知识。你可以把这个应用到你的写作和数据科学的实践技能,你已经有-开发-学习新的技术-探索这样一条线路。

对选择项目的***建议是从小做起。项目只会随着你工作的进展而增长,而且不管你分配给项目多少时间,它都要花更长的时间。承担一个完整的机器学习项目可能是很诱人的,但是如果你仍然试图学习Python,那么只能在同一时间选择一件事情。也就是说,如果你有足够的信心去承担整个项目,那就去做吧!没有比实践更有效的学习方法,尤其是在一个问题中处理这些片段。

结论

与任何长延迟回报的工作一样,写作有时也会很困难。然而,有一些具体的行动使过程更容易,并产生积极的反馈回路。写作没有秘诀,最多就只有减少开始写作时的犹豫,从而开始并帮助你继续前进。当开始或推进数据科学事业时,记住这些小贴士,建立并保持一个富有成效的写作习惯。

相关报道:

https://towardsdatascience.com/practical-advice-for-data-science-writing-cc842795ed52

【本文是51CTO专栏机构大数据文摘的原创文章,微信公众号“大数据文摘( id: BigDataDigest)”】

     大数据文摘二维码

戳这里,看该作者更多好文

责任编辑:赵宁宁 来源: 51CTO专栏
相关推荐

2017-08-04 15:53:10

大数据真伪数据科学家

2023-03-20 13:39:00

数据分析开源

2012-12-26 10:51:20

数据科学家

2018-02-28 15:03:03

数据科学家数据分析职业

2018-12-24 08:37:44

数据科学家数据模型

2012-12-06 15:36:55

CIO

2019-04-11 17:24:48

数据科学可视化白皮书

2015-08-25 13:20:29

数据科学

2020-03-20 14:40:48

数据科学Python学习

2016-04-11 14:15:06

数据科学数据挖掘工具

2018-10-16 14:37:34

数据科学家数据分析数据科学

2012-06-12 09:33:59

2022-04-12 09:30:00

共享代码块数据集数据科学家

2015-06-11 10:27:29

数据科学家

2016-05-11 10:36:16

数据科学家数据科学大数据

2019-07-05 10:29:17

大数据数据科学家

2018-03-20 15:17:26

数据科学家数据科学招聘

2018-12-06 13:08:30

数据科学家大数据数据科学

2018-03-01 15:34:20

数据科学面试招聘

2017-01-23 16:00:25

数据科学家大数据数学家
点赞
收藏

51CTO技术栈公众号