首页 | 

公司业务

像数据科学家一样思考:12步指南(上)

?????发布时间:?????2019-04-15

从图像中可以看出,这3个阶段包含12个不同的任务。

我想用这篇文章总结这12个步骤,因为我相信任何有抱负的数据科学家都可以从熟悉它们中受益。 第一阶段:准备数据科学项目始于准备。 你需要建立你所知道的、拥有的、能得到什么、你在哪里以及你想成为什么样。

最后一个是最重要的,数据科学项目需要有目的和相应的目标。

只有当你有了明确的目标时,才能开始调查可用资源以及实现这些目标的所有可能性。

1-设定目标数据科学项目与许多其他项目一样,主要目标应在项目开始时设定。 在设定目标后,你所做的所有工作都是利用数据、统计数据和编程来实现这些目标。 首先,数据科学的每个项目都是有一个客户的。

有时,客户是向你或你的企业支付费用的人,例如,客户或承包代理商。 在学术界,客户可能是一位要求你分析数据的实验室科学家。 有时,客户是你的老板或其他同事。 无论客户是谁,他们都会对可能从你那里得到的东西抱有一些期望。

为了理解这些期望,你需要对客户提供的数据提出好的问题。

提出好的问题是一项重要且微妙的挑战,因为改变世界的是问题。 在他们的假设中好的问题是具体的,但好的答案是可衡量的而且不必要太多的成本。 虽然有时候好问题、相关数据或富有洞察力的分析比其他要素更容易获得,但这三者对于获得有用的答案至关重要。 任何旧问题,数据和分析的产品并不总是一个答案。 值得注意的是,你需要在项目的每个步骤中都要深思熟虑,而且关键性的要素必须存在。

例如,如果你个好问题但不相关的数据,则很难找到答案。 开始的时候是在数据和答案的背景下评估项目目标的好时机。 通常,初始目标的设定需要考虑一些商业目的。 如果你不从事商业活动,例如,你正在进行研究,那么目的通常是对结果进行一些外部使用,例如在特定领域中推进科学知识或为其他人提供分析工具。 虽然目标源于项目本身的背景,但每个目标都应该通过基于数据科学的实用过滤器来实现。

此过滤器包括以下几个问题:(1)有什么可能(2)什么是有价值的(3)什么是有效的将此过滤器应用于好问题、可能的答案、可用数据和可预见的障碍,可以帮助你实现一系列可靠、有价值且高效的项目目标。 2-探索数据数据科学项目准备阶段的第二步是探索现有数据。 下图显示了数据科学家可能访问数据的3种基本方式。 数据可以是文件系统上的文件,数据科学家可以将文件读入他们最喜欢的分析工具中。

数据也可以在数据库中,数据库也在文件系统上,但是为了访问数据,数据科学家必须使用数据库的接口,这是一个帮助存储和提取数据的软件层。

最后,数据可能位于应用程序编程接口(API)之后,API是数据科学家与某些系统之间的软件层。 熟悉数据可能需要接触到表单以及如何查看和操作这些表单,以下是其中一些:平面文件(csv,tsv)、HTML、XML、JSON、关系数据库、非关系数据库、API。

有时你无法决定选择哪种格式,数据会以你想象不到的格式出现,但你必须处理它。

如果你发现某个格式效率低下、笨拙或不受欢迎,你可以尝试设置可能使事情变得更容易的辅助数据存储格式,但需要花费大量时间和精力来设置辅助数据商店。 但对于访问效率至关重要的应用程序而言,这个成本是值得的。 对于较小的项目,也许不是。

当你到达那里时,你必须越过那座桥。 现在你已经了解了常见的数据形式,你需要对它们进行侦察。 以下是你应该考虑的方法:Google搜索,组合不同的数据源,从网络爬虫或自行收集它们。 就个人而言,我是网络爬虫的忠实粉丝。 Webscraper必须做的两件重要事情是以编程方式访问大量URL并从页面中捕获正确的信息。

如果你想在Facebook上了解你的朋友网络,理论上可以编写一个脚本来访问所有朋友的Facebook个人资料,保存个人资料页面,然后解析这些页面以获取他们的朋友列表,访问他们的朋友配置文件等等。

3-数据整理第三步是数据整理,就是将困难、非结构化或其他任意格式获取数据和信息转换为传统软件可以使用的内容的过程。 整理不是一项任务,并不可以事先准确地规定步骤,因为每个案例都不同,需要解决的问题也不一样。 在整理之前,好的整理归结为可靠的计划,然后进行一些猜测和检查,看看哪些有效,花费一点时间进行数据整理可以为你减少很多痛苦。 通常,数据整理计划的选择应在很大程度上取决于你在首次调查数据时发现的信息。 如果你可以想象解析数据或以某种假设的方式访问它,你可以尝试编写一个执行操作的脚本。 数据整理是一个不确定的过程,因此最好先探索一下,然后根据你所看到的内容制定整理计划。

没有一种方法或一种工具可以实现使混乱数据清洁的目标。 市面上有许多工具可以做很多事情,但没有一个工具能够处理任意格式数据。 数据以如此多的形式存在,并且出于不同的目的,甚至目前没有一个应用程序能够以任意目的读取任意数据。

简而言之,数据整理是一个不确定的事情,需要在特定情况下使用特定工具来完成工作。

你可以尝试使用文件格式转换器或专有数据管理器并编写脚本来处理数据。 4-评估数据在开发以数据为中心的产品之前,了解数据内容值得花费一点时间和精力。

如果你对数据有更多了解,你将在整个数据科学项目的每一步做出更明智的决策,并在获益到最后。 如果没有初步的评估,你可能会遇到异常值、偏差、精、特异性或数据其他固有的问题。 为了更好地发掘这些数据并更好地了解数据,整理数据后的第一步应该是计算一些描述性统计数据。 描述性统计是定量描述信息集合的主要特征或定量描述本身的学科。 考虑描述、最大值、最小值、平均值、数据集的摘要。 如果不提及推论统计数据,通常很难讨论描述性统计数据。 推论统计是指你在没有完全统计数据的情况下得出的结论。

对于数据集,你可以说以下内容:。

 

 

 

 

 

 

 

 

 

 

 

    分享到: