什么是数据工程?

数据工程学

什么是数据工程?

 

即使您在数据处理领域不起作用,您也可能听说过数据工程师。您可能有模糊的想法,以至于他们以某种方式在我们的世界中漂浮的巨大数据感。但是你仍然可以留下这个问题,“什么是数据工程?”

简单地说,数据工程是制作分析师和数据科学家可访问的所有数据的方法。它需要一堆巨大的垃圾,让它变成我们可以使用的东西。阅读了解有关数据工程的更多信息,为什么对我们的现代世界至关重要。

什么是数据工程?

在我们的信息时代世界中,能够管理,跟踪和解释数据至关重要。它允许我们从Facebook上的旧朋友那里完成一切,以通过优步致电。数据科学家还可以帮助公司更好地了解客户以及如何满足他们的需求。

但是,虽然数据科学家正是与这些数字一起工作,但数据工程师在后台使得可以进行分析。数据工程师构建允许移动和存储数据的系统,以便可以分析它。如果数据在您的房子中运行水,则数据工程师是安装管道的管道器,使其进出您的家。

复杂的视觉效果

分析的层次结构

有一些不同的数据工程,彼此构建,如金字塔。为了拥有最高水平的数据工程和科学(发生)(人工智能 和深度学习),你必须先建立基础水平。

最基本的数据科学和工程级别是集合,然后是运动和存储。然后,您可以开始在汇总和标记之前探索和转换数据。最后,您可以开始学习并优化数据,并且在最高级别,您可以开始教授计算机为您工作。

建立数据仓库

数据工程师的第一件事之一必须在他们设置系统时要做的是构建数据仓库。像真实仓库一样,这些功能用于将数据存储在有组织的系统中。这使得管理数据并以公司或研究项目的增长更容易管理系统。

电脑可以执行 每秒20亿次运营,但是当谈到通过数据进行排序时,这种速度可能不够。没有适当的仓储,试图让电脑找到特定的数据,就像尝试在一英里长的海滩上找到一个特定的沙子。数据仓库让计算机直接进入那些沙子的位置而不是必须检查每个单独的谷物。

饼状图

建设和维护数据管道

数据流水线是如何在它发现的情况下移动数据。将它们当作数据仓库中的传送带。一旦电脑找到它正在寻找的数据,它就将其丢弃在“传送带”上返回到所需的位置。

数据流水线结构有三个基本步骤:提取,变换和负载。传感器拾取一系列数据并将其转换为转换位置。在那里,系统将该数据转换为可以读取和使用的东西,然后加载数据以将其传送到另一个传感器。

选择框架

有不同的框架您可以使用来管理此提取,传输,加载(ETL)进程。在他们选择ETL框架时需要考虑一些因素公司。

你想要看的第一件事是配置;您想要一个满足您需求的配置。您还要确保您的框架将在出现问题时监控并提醒您。您还应检查框架如何处理历史数据。

不同的范式选项

有两种不同的范式选项可以选择for ETL:以jvm为中心和以sql为中心。中心内置了JVM的ETL 像Java这样的语言 和scala。工程师更喜欢此选项,因为它涉及以更令人命令的方式管理数据转换。

SQL中心ETL在比JVM型号更改的方式定义。他们是 以SQL为中心 和表格,以及像这种模式的数据科学家,因为它比Java和Scala更容易学习。这允许您将时间集中在实际数据上而不是计算机语言以了解数据。

数据建模与标准化

当您开始设置数据库时,您需要考虑从该表中需要进一步下行的信息。例如,如果您在数据集中收集名称,则可能无法认为在单独的列中收集第一个和姓氏。当您决定按字母顺序按姓氏按字母顺序组织您的人员列表时,这成为问题。

数据建模可帮助您设计一个能够生成所需的报告的系统。在此过程中需要考虑的一个因素是您是否希望您的数据表归一化(全部安装到一个标准的字段集)或非规范化(所有可用数据中以符合最佳的字段)。 标准化数据 更容易快速处理,但是非规范化的数据可以提供更广泛的视图,进入您正在分析的内容。

市场趋势

事实和维度表

有可能构建 非规范数据表 从事实表和尺寸表中,两个较小的标准化表。事实表是包含无法计时事务数据的简单表。因此,当您在快餐店购买汉堡包时,他们的系统可能会记录交易的时间和成本。

维度表会跟踪特定实体如何随时间变化。所以回到我们快速的食物例子,一个尺寸表可能会跟踪每周用来订购汉堡包的事实,现在你只每月订购一次汉堡包,或者现在你订购了鸡块。维度表可以使用事实表来收集此信息。

数据分区

提高数据库效率的一个好方法是分区数据。这是一种将大数据集切换为块的方式,因此您不必立即管理整个笨重的系统。

将其视为在文件柜抽屉中有文件文件夹。不必拔出整个抽屉来排序,可以举起一个文件夹。

通过DateStamp分区数据的一种常用方法。可以为每日数据运行创建新的日期分区,因此您可以查看特定日期的数据是什么。我们的快餐餐厅可以看到去年3月9日在全球范围内购买了多少汉堡包。

回填历史数据

建立新数据系统的挑战之一是您希望能够查看您之前收集的所有数据,而不仅仅是您向前移动的数据。但很难组织与新系统的数据;这是回填的历史数据进入的地方。该系统允许您使用现有数据并将其排序到新系统中,因此可以轻松访问它作为新数据。

DateStamps也可以在这里非常有帮助。新系统可以通过旧数据并通过收集的日期进行分区。从那里,将数据放入其他子类别中的数据变得更加容易。您还可以使用动态分区一次执行多个插入,因此回填变得更快,更容易。

从管道到框架

管道是一种重要的数据工程,但它们的顺序非常复杂。如果您使用的是单身,独立管道,您必须为要在数据库中执行的每个功能构造一个新的管道。这将是一幅类似于从水塔到你家的单独管道和另一个居住的房子,另一个到邻居的房子,以及透露在污水处理厂的单独的下水道线。

数据框架允许您在飞行中生成数据流水线和定向非循环图。这可以自动化数据工作流程,允许您更有效地管理数据。您发现可以自动化的模式并将这些任务委托给您的计算机,而不是在又一遍地执行相同的任务。

增量计算框架

在数据工程中可以使用几种不同的框架。增量计算框架可以允许您查看许多客户与新产品一起参与的信息,而无需查看所有客户都与您公司拥有的所有互动的整个数据库。

在增量计算框架中,脚本将构建一个摘要表,该表将从当前从上一天从上一个被审议的分区统一到表中的摘要表。它们将更新昂贵的指标并创建一个表,其中可以从摘要表中从一个单日分区查询这些度量。

回填框架

即使有多次分区插入一次,回填仍然可以是一个繁琐的过程。您正在考虑潜在的数量的数据,并试图将其捆绑到一个新的组织系统中。回填框架可以自动化这些工作流程并使过程更加简单。

用户首先指定他们想要并行化回填的进程,以及每个进程应该回填的天数。然后框架创建一个管道,该管道将并行化这些回填任务,执行Sanity Checks和Swap Stage Tables与生产表。在此过程结束时,您将有一个完整的回填表可以去。

全球度量框架

在许多业务中,公司的不同部分可能需要不同的关键绩效指标。大多数情况下,这些组可能需要大量的事实表加入到更少数量的维度表。您可以创建一个全局度量框架,使每个人都可以更轻松地访问所需的表的特定组合。

您首先从原子事实表中输入许多指标,在最终表中,您想要的尺寸,主要和外键用于加入,以及更多。然后,框架会自动生成从适当的维度和原子事实表创建的非正规表。

实验报告框架

成长公司的关键是尝试不同的想法,但你需要 知道哪个想法工作 并且哪些别的。这是一个实验报告框架进来的地方。这些框架可以允许数据科学家运行数百或数千个实验,而无需每个专用科学家的实验。

用户首先指定他们想要运行的实验,追踪哪些指标以及有关实验的任何其他相关信息。该框架然后计算指定的指标和相应的维度。从那里,根据您的框架是多么复杂,它可能会做一些下游处理,以使数据更易于管理。

数据类型视觉效果

了解有关数据工程的更多信息

如今,我们世界中的一切都耗尽了数据,从我们看到的各种广告中我们看到我们的手机上的应用程序甚至我们的病历。没有数据工程的任何此数据都不可以。数据工程使我们可以存储,运输和解释在我们世界中传播的大量数据。

如果您想回答更多问题,“什么是数据工程?”在Boost Labs查看我们的其余部分。我们喜欢创建观看数据的方法,与之交互,并以赋予客户及其利益相关者的方式分享。学习更多关于 我们的服务 并开始充分利用您今天的数据。

最近贴文

在脸书上分享
分享到Twitter
分享LinkedIn.