DataFocus如何通过中间表进行数据清洗

2020/11月/11BI 3.0, 大数据技术与运用0 条评论

如何用DataFocus对Excel表中数据进行处理?

在日常工作中,数据来自各种渠道,获得的信息多而杂,那么,如何轻松进行数据处理呢?接下来,我们来简单看下Excel表在DataFocus系统中的清洗处理。

导入Excel数据表

数据处理于分析之前,我们需要先将本地Excel数据表导入到DataFocus系统中,大致流程如下:

  1. 数据表管理模块的“导入表”栏下选择导入本地文件(或资源管理功能模块中点击“创建资源”按钮)。
  2. 选定“EXCEL”文件类型,并在选择本地文件后点击“上传“。
  3. 上传成功后的 Excel表配置信息界面,可以选择导入的列、重新命名表名及列名、修改列类型等等,配置完成确认无误后点击“确定”完成上传。

多表之间的处理

2.1 关联关系的建立

2.1.1 关联关系

关联关系,指表与表之间的关联关系。多个已经创建过关联关系的数据表,可以在搜索模块一起进行数据分析。

2.1.2 创建关联

在DataFocus的数据表管理模块,进入某数据表的详情界面,可以看到关联关系的窗口。新增关联关系时,该数据表默认为源表,需要进行维度表、连接类型、连接筛选(选填)、源列、目标列等内容的设置。

维度表是指要与该表建立关联关系的数据表,点击目标表的输入框会出现系统里现有的所有表,可以直接选择或输入自己想要关联的表;

连接类型分为:内连接、左连接、右连接及全连接;

连接筛选是对关联数据行进行筛选,点击“+筛选条件”即可逐条增加筛选条件。

源列是显示该表中所有的数据列,点击源列的输入框会出现该表中所有的列名及其数据类型;

目标列是显示目标表中所有的数据列。点击目标列的输入框会出现该表中所有的列名及其数据类型;

选择要匹配的数据列等信息后,点击确定以完成关联关系的添加。若对一张目标表有多个需要关联的列,可以通过点击源列下方的‘+’按钮增加新的源列及目标列的输入框。

需要注意的是,在创建表关联关系时,表关联不能出现回路和闭环。

图2. 1 创建关联关系

2.2 中间表的制作

2.2.1 中间表

中间表,将系统内多张表的数据抽取保存到一张表中。在DataFocus系统中,有两种中间表,问答中间表和关联中间表。

问答中间表,在搜索页面中通过搜索分析,将得出的结果点击“操作”按钮,保存的中间表。

关联中间表,在资源管理页面(或数据表管理页面),点击“创建资源”按钮,创建的中间表。

2.2.2 创建中间表

在资源管理页面点击创建中间表,进入编辑界面后:

  1. 页面左上角的“选择数据表”中选择要作为数据源的表,被选中的表会显示在‘选择数据表’的下方。选择数据表中所需的列,被选中的列名则显示在右侧页面;
  2. 点击“增加公式”创建的公式列,可同样添加至中间表;
  3. 可以点击“中间表列名”栏下方的列名称,修改中间表中显示的列名,修改公式名需在左下方添加公式处修改公式名;
  4. 误选或不想要的列,在操作栏右侧,直接点击“删除”按钮以在使用栏中除去,删除公式需在左下方点击公式名右侧的“删除”按钮,删除公式;
  5. 若是使用2张或2张以上的数据表来创建中间表,则需在“我的关联关系”中构建选中的所有表之间的关联关系。若是选择的表在资源管理中已建立关联关系,那么点击“我的关联关系”会直接显示选中表早前建立的关联关系。(用多表创建中间表,表与表之间必须要建立关联关系。其创建方式与前文提到的关联关系创建方式相同。 )
  6. 点击“中间表名”对该中间表进行命名,可在“描述”中对该中间表进行描述;
  7. 最后,点击“确定”按钮,创建完成该中间表。

图2. 2 创建中间表

到这里,我们简单了解了在DataFocus系统中对多个Excel数据表的处理,后面的文章,我们将更加细致了解针对数据进行的清洗处理。

0条评论

递交一条评论

邮箱地址不会被公开。 必填项已用*标注

2021 DataFocus Cloud新品直播发布会

AI驱动,SaaS部署,引领数据分析云时代!