文档中心

文档中心
数据洞察平台 X-Insight 产品文档

 

产品介绍

 

集智平台,从数据到价值,从看见到预见。(Sight,Insight,Foresight)

 

平台概述

 

集智数据价值挖掘平台是数据智能中心结合互联网保险业务特点,通过沉淀数据分析师/算法工程师在工作中的最佳实践建立的全链路数据价值挖掘平台。平台贯通了数据价值挖掘中的数据接入、数据处理、数据服务三大步骤,将数据与业务无缝结合。

 

集智平台包含如下四大组件。

 

  • 数据流水线

 

用于数据连接、同步及数据处理、数据建模。其基本组成是数据处理Processors以及由Processors组成的Flow。Processors分为可视化Processors及代码Processors。可视化Processors用于简单的数据处理,无需编写代码便可完成数据操作,而针对复杂的数据处理,数据流水线则提供了代码Processors,可以通过编写SQL、Shell等代码来灵活的操作数据。Flow则分为实时Flow及离线Flow,分别支持亚秒级的实时流处理及T+N的离线任务。另外值得一提的是,数据建模操作也可以在数据流水线中完成,同样支持离线建模及实时建模。通过Processors和Flow的组合可以保证输出的数据对于数据服务是“开箱即用”的。

 

  • 数据洞察引擎

 

用于加速海量数据分析,存在于数据处理中的数据建模这一步。为了应对不同特征的数据,数据洞察引擎包含两种分析引擎,分别为支持预计算的Kylin及支持Ad hoc的Clickhouse。Kylin有优秀的查询表现,可以做到PB级数据的亚秒级查询,但是随着维度的增加Kylin会遇到“维度爆炸”的问题,导致模型占用空间过大。针对这种情况,我们引入了Clickhouse这一组件,在维度很多的情况下,可以通过Clickhouse进行分析。虽然查询性能会比Kylin稍差,但是可以很好的解决“维度爆炸”的问题。

 

  • 可视化分析平台

 

其用户是数据分析人员,产出是对人的数据服务,即图形化报表。目标是辅助数据分析人员以可视化、拖拽式的方式快速进行数据洞察及图形报表创建。同时,图像报表可以被无缝的嵌入到业务系统中,而这一过程基本是无代码的。极大的加速了数据到价值的产出速度。

 

  • 机器学习平台

 

其用户是算法工程师,产出是对系统的数据服务,即数据API。机器学习平台的生成的算法可以被融入数据流水线中,进而被轻松的封装为数据API,大大降低了将算法融入业务的门槛。

 

 

集智平台架构及与ODPS数据平台、数据应用的关系

 

产品特征

 

  • 实时

 

多种计算引擎满足不同离线、实时场景下的秒级响应

 

  • 智能

 

可以通过机器学习平台集成丰富算法,让智能带来更多预见

 

  • 跨平台

 

移动端、Web、大屏,随时随地洞察及分享见解

 

  • 业务无缝集成

 

洞察结果可通过图表URL或数据API无缝集成至业务系统

 

  • 安全

 

企业级的权限管理,私有化部署,保证数据安全

 

主要功能

  • 多数据源连接和提取

 

支持所有主流数据源的接入、无埋点数据采集及高性能的数据同步工具。

 

  • 自助数据准备

 

丰富的数据处理组件,可视化配置数据准备过程,强大的任务调度功能,支持任务全生命周期状态监控,异常告警及自动重执行。

 

  • 交互式视觉探索

 

亿级数据的交互式、视觉化探索,拖拽式多维分析,多层级下钻。

 

  • 嵌入式高级分析

 

轻松使用平台内置的高级算法分析,也可以导入和集成机器学习平台开发的高级分析模型。

 

  • 企业级权限控制及业务集成

 

兼顾企业数据安全及业务流程打通,数据洞察能力可被无缝嵌入业务系统。

 

关键概念

 

维度

 

在集智平台中的建模过程中,所有非数值型(字符型、时间型)字段被自动识别为维度。

 

度量

 

在集智平台中的建模过程中,所有数值型字段被自动识别为度量。

 

指标

 

指标是对维度/度量的聚合

 

可视化分析

 

可视化快速入门

 

第一步:连接数据

 

【1】通过导航栏进入数据连接面板,点击“新建连接”按钮;      

 

           

【2】选择需要连接的数据类型,进入详情页填入数据库配置信息;

 

目前支持的数据类型有MySQL, ES 和 Excel。另外也供了模板数据供功能试用。

               

【3】保存后即可在数据连接页面管理已添加的数据;如果没有数据可添加,也可使用系统配置的样例数据。

 

第二步:添加项目

 

项目页面左侧区域是展示和添加项目的功能区。在左侧区域上方点击“添加项目”可创建一个新的项目,创建成功后,右侧出现相应的画布功能区,在画布区点击“添加画布”按钮,可以为该项目添加一个新的画布。

               

 

第三步:创建报表或页面

 

【1】点击画布卡片即可进入工作页面,在开始前,您可选择我们提供的各种数据模板或者直接进行创作;

 

【2】工作区上方工具栏是集智平台支持的各类图表控件、组件,根据您的数据选择需要的控件,点击添加至画布;

 

               

【3】在画布上选中已添加的图表控件,左侧会显示已添加的“数据”,在“数据”中选择图表需要绑定的字段,即可绘制出数据图表。 

   

             

可针对具体的字段进行处理,包括窗口函数(可对值类字段进行求和、计数等;对时间字段可选按照日、月或年聚合),同环比(可对值类字段执行同环比计算),字段编辑(修改字段名称、设置小数位数及百分比)。

 

                

【4】页面右侧会显示图表的“设计”内容,可以对图表的标题、字体、背景、边框、轴、辅助线等内容进行样式设置;

 

               

【5】完成所有的画布图标创作后,点击右上角文件中的“发布”按键,即可将已编辑的内容一键发布。

发布类型有加密发布和公开发布,加密发布后,访问发布内容需要输入密码(密码在加密发布时会自动生成)。

               

 

以下是可视化部分的详细介绍

 

集智平台上提供强大的可视化效果,让数据以最生动直观的形式展现出来。

进入【我的项目】界面,中间栏可以看到创建的项目和参与的项目。

 

 

 

如果要添加项目,击添加项目,填写项目信息,完成项目添加。

 

项目画布

 

进入项目,可以看到自己创建的画布。如果要添加画布,点击添加画布,并给画布命名。

 

 

也可以点击【导入文件】,导入本地画布。

 

画布模板

 

点击画布进入编辑页面,选择画布模板。目前提供的模版有保险销售模板、风控监测模板、缺陷月报模板。之后集智平台会提供更多更优质的行业模版。

 

【保险销售模板】保险销售相关人员可使用此模版进行视觉化工作。模版包含对销售量,销售额及购买保险人群分析等信息的多维度可视化展示。

 

【风控监测模板】风控相关人员可使用此模版进行视觉化工作。模版包含对风险验证、不同类型拦截量及验证通过率等信息的多维度可视化展示。

 

【缺陷月报模板】测试人员可使用缺陷月报模版迅速搭建可查看测试进度等多维度统计信息的可视化面板。

 

 

示例选择了空白模板。您可以点击【模板库】随时更换模板。

 

图表编辑

 

点击【图表】,选择合适的图表。示例选择了折线图。

 

 

折线图出现在了画布上。可以拖拽来更改图表在画布上的大小。图表右上角为Toolbar,现共有五个控件,他们的作用分别为:

 

【1】图表与表格的转换。可以将图表转换成表格,再按一次可以重新回到图表模式。

 

【2】图表类型转换。可以将已经做好的图表换成其他可替换的图表。

 

【3】刷新数据。

 

【4】排序。可以将绑定的值按照一定规则排序。如按照日期升序/降序,按照利润升序/降序。您可以根据自己的需要来选择。

 

【5】全屏或退出全屏。

 

【6】删除图表。

 

 

数据绑定

 

左侧栏选择数据。可以使用API接入数据、上传的数据、模板数据、建模数据。示例选择模板数据的销售模板数据。

 

字段设置

 

数据值

 

规则

 

设置数据更新时间和数据的数量限制。

 

 

 

筛选器

 

筛选器是用条件过滤资料的工具,您可以使用筛选器查看、展示您所关注的焦点资料。集智平台为不同场景、不同用户提供了两种筛选器——组件筛选器、页面筛选器。

 

组件筛选器,适用于业务/设计人员在搭建报表或大屏产品时,对数据进行过滤。

 

 

页面筛选器,用于页面中各图表的联动筛选。

 

 

复合字段

 

复合字段用于画布层级的数据聚合。

 

点击添加字段,选择数段类型,设置表达式。操作如下图所示。

 

 

设置完成后,在值一栏中可以绑定自定义自段,即会展现利润差值随时间变化的面积图表。

 

 

模式选择

 

设计

 

无限模式

 

当您需要添加大量的图表,或制作长报表时,可开启无限模式。所有图表将按从左到右,从上到下的顺序依次添加,并自动延长画布。图表间可实现自动对齐,此模式可供您快速添加并制作长数据报表。

 

               

图层模式

 

图层模式是集智平台为不同的图表制作场景设计的更高级的图表排版功能,默认不为您开启图层模式。当您想设计数据大屏、复杂报表等项目,并且需要多个图表迭加以实现制作效果时,您可以启用图层模式。

 

开启图层模式后,画布上的图表即可支持多图表迭加,您可通过右侧按钮调节各图表的图层顺序。

 

提示:现阶段产品打开无限模式或图层模式后无法关闭,请谨慎使用!

               

 

容器属性

 

您可以对图表容器进行个性化设置。

 

 

主题

 

容器主题。共有四种主题,您可以根据需要选择。

 

 

图表配色。个性化设置图例、画布背景、标题等颜色。

 

 

更多设置。进一步设置图表颜色、字体、间距的具体配置。

 

 

发布

点击保存画布,并发布。可启用加密功能,也可公开发布。另外可选择是否允许使用外网环境访问。之后,您可以在发布管理中管理您已发布的项目。

 

注:保存控件也有备份功能,即克隆您的画布。

 

 

导出

导出功能可以把您的看板导出为json文件。

 

图表

 

集智平台支持多种图表类型,帮助您将数据以最好的形式进行分析和展现。

 

图表的生成步骤:

 

1、进入画布,点击”图表“控件,选择需要的图表类型。

 

2、选择要分析的数据,在字段栏目设置值、规则和筛选器,以及进行复合字段的计算和分段。

 

3、可以在右侧”模式选择“中设置图表的样式、画布的主题。

 

下面为您介绍每种图表类型。

 

 

指标卡

概述:指标卡是一种用来展示某个指标的图表,来反映具体某个关心的指标的数值(如KPI指标)。通常以标题和数值相结合的方式展现。

适用场景:展示某个具体数值。

 

绘制规则:选择一个需要被展示的值。点击指标卡,点击左侧要绑定的数据,数据即会展现在指标卡上。点击右侧模式选择,调整样式。

 

样例展示:

 

 

表格

 

概述:表格以列为维度展示数据。

 

适用场景:多种维度数据的展示。

 

绘制规则:选择几个你关心的数据(分类),表格会按照列把数据展示出来

样例展示:

 

 

透视表

 

概述:透视表是一种交互式的表格。

 

适用场景:快速汇总数据。

 

绘制规则:选择行列维度,以及你想要根据此维度汇总的数据值。数据会按照列维度聚合展示。样例选择了根据地区和险种两个维度来聚合利润值。每一行每一列的数据也会被汇总计算。

 

样例展示:

 

 

高级透视表

 

概述:高级透视表和透视表的区别在于,高级透视表可以分别从横向和纵向汇总数据。

 

适用场景:用于分别合计不同维度的数据。

 

绘制规则:设置多个行和列,多个值(一般是一个行维度,一个列维度,两个想要被聚合的值)

 

样例展示:

 

 

 

 

折线图

 

概述:折线图是一种由笛卡尔坐标系、一些点和线组成的统计图表。常用来表示数值随连续时间的变化,反映一定趋势。

 

适用场景:同一(多个)变量随时间的变化。

 

绘制规则:选择一个分类作为X轴,选择一个值作为Y轴。曲线反应值的变化。绑定数据后,还可以对数据进行筛选。

 

样例展示:

 

 

簇型柱状图

 

概述:簇型柱状图是一种用来比较各个类别内的值的统计图表。

 

适用场景:分析由层级关系的数据。用于比较同一层级下的不同数据。

 

绘制规则:选择一个分类,将关心的两至三个数据按照分类展示。

 

样例展示:

 

 

堆积柱状图

 

概述:堆积柱状图是一种用来分解整体、比较各部分的图。常被用于比较不同类别的数值。而且,它的每一类数值内部,又被划分为多个子类别,这些子类别一般用不同的颜色来指代。

 

适用场景:对比不同类别数据的数值大小。同时对比每一类数据中,子类别的构成及大小。

 

绘制规则:绑定数据,选择一个分类,两个想要在次分类下展示的数据。这两类数据会以子类的形式堆积展示。你可以直观感受到数据量的对比。样例按照地区来计算保险总价,又根据渠道来细分总价的来源。

 

样例展示:

 

 

簇型条形图

 

概述:簇型条形图是一种比较各个类别内的值的统计图表。和簇型柱状图的区别是,簇型条形图沿垂直轴组织类别,沿水平轴组织数值。

 

适用场景:分析层级关系的数据。

 

绘制规则:操作步骤同簇型柱状图。

 

样例展示:

               

 

堆积条形图

 

概述:堆积条形图和堆积柱状图类似,是用来分解整体、比较各部分的统计图表。和堆积柱状图的不同在于,堆积条形图从纵向视觉角度展示数据。

 

适用场景:对比不同类别数据的数值大小。同时对比每一类数据中,子类别的构成及大小。

 

绘制规则:操作方式同堆积柱状图。

 

样例展示:

 

 

饼状图

 

概述:饼状图是一个划分为几个扇形的圆形统计图表。每个扇形的面积表示该类占总体的比例。

 

适用场景:突出某部分在整体中的占比。

 

绘制规则:饼状图可以显示各部分比例,也可以做成旭日图的形式,通过调整内外径大小,在圆中间显示总值。

 

样例展示:

 

 

面积图

 

概述:面积图是一种随随有序变量的变化,反映数值变化的统计图表。

 

适用场景:在连续自变量下,一组或多组数据的变化趋势。

 

绘制规则:操作同折线图。

 

样例展示:

 

 

堆积面积图

 

概述:堆积面积图是一种展示数值变化趋势与总量变化趋势的统计图表。它在折线图的基础上,将折线与自变量坐标轴之间的区域填充起来,每个数据的起点是上一个数据的终点。

 

适用场景:有时间关联的多组数据的变化情况。

 

绘制规则:选择一个维度和多个度量(是要被比较的值)。又或者选择一个值,利用图例对值进行细分。也可以作为多组数据来比较。

 

样例展示:

 

 

漏斗图

 

概述:漏斗图是一种用于单流程分析的统计图表。在开始和结束之间由N个流程环节组成。开始时是100%,每个环节用梯形表示,经过每个环节依次减少。漏斗图的各个环节有逻辑上的顺序关系,所有流量应该是同一个度量值。通过漏斗图可以直观看出各部分流程的占比,发现情况,帮助人们做出决策。

 

适用场景:分析业务流程推进情况,如跟踪用户的转化率、跟踪广告营销的进度、揭示线性流程中的瓶颈。

 

绘制规则:样例展示了不同操作的占比流量分析。

 

样例展示:

 

 

散点图

 

概述:散点图是将所有数据以点的形式展现在平面直角坐标系上的统计图表。至少需要两个以上不同变量,一个沿X轴绘制,另一个沿Y轴绘制,每个点在X、Y轴上都有一个确定的位置。众多的散点叠加后,有助于展示数据集的“整体景观”,从而帮助分析两个变量之间的相关性,或找出趋势和规律。数据点越多,比较的效果就越明显。

 

适用场景:展示数据整体趋势,分析变量之间的相关性。

 

绘制规则:样例展示了房地产公司漏楼盘的房龄、均价分布趋势。X轴是房龄,Y轴是均价。

 

样例展示:

 

   

桑基图

概述:桑基图是一种表现流程的示意图,常用于描述一组值到另一组值的流向,分支的宽度代表数据流量的大小。其特点在于“能量守恒”,即开始流量和结束流量相同。

 

适用场景:表现分配情况、归类情况,以及变化和流动情况。常应用于页追踪用户状态、能源、材料、金融等数据的比较和趋势分析。

 

绘制规则:样例展示了销售员和险种之间的利润流动情况。即每个销售员为每个保险贡献了多少利润。

 

样例展示:

 

 

热力图

 

概述:热力图是一种通过对比色块来显示数据的统计图表。通过颜色的深浅来反映数值大小、热度等信息。可用于反应数据在两个维度上的值与变化规律。热力图能够容纳较多的数据,但是难以将色块转换为精确的数字,所以需要额外标注。

 

适用场景:查看总体情况、发现异常值、显示多个变量之间的差异,以及检测变量之间存在的相关性。

 

绘制规则:样例展示了不同地区不同渠道销售利润。绑定两个分类成为X轴、Y轴,绑定一个值作为色块数据。

 

样例展示:

 

 

日历图

 

概述:日历图是通过不同颜色来反映数值大小信息的图表。

 

适用场景:反映一个时间周期内数值及其变化规律。一般是一个月内每一天的数据。

 

绘制规则:选择一个时间维度,参照此维度展示想要的数据。样例展示了哨兵在三月份的日用量。白色的表示没有数据。

 

样例展示:

 

 

雷达图

 

概述:雷达图通过在多边形坐标轴上定位数据,展现不同指标的分布。雷达图可从多个角度对不同的项目进行比对,展示彼此间的差距。

 

适用场景:分析企业经营状况,业绩水平。

 

绘制规则:样例展示了不同公司在不同指标上的分布,能看出哪些公司的房价高,哪些公司的房龄高等等。

 

样例展示:

 

 

双轴图

 

概述:双轴图是柱状图和折线图的组合,通常用于在一个图表中,展示不同对象的两组不同维度的数据,可用于反应数据走势、数据同比环比等各种情况。

 

适用场景:反映数据走势,数据同环比。

 

绘制规则:一个分类,一个以上值。

 

样图展示:(分类-险种;值-利润、数量)

 

 

树状图

 

概述:树状图是是一种由不同大小的嵌套式矩形来显示树状结构数据的统计图表。在矩形树图中,父子层级由矩形的嵌套表示。在同一层级中,所有矩形依次无间隙排布,他们的面积之和代表了整体的大小。单个矩形面积由其在同一层级的占比决定。

 

适用场景:在固定的绘图空间内表示层级占比。

 

绘制规则:一个以上树形层级,一个面积大小。

 

样图展示:

 

 

仪表盘

 

概述:仪表盘常用于数据分析领域,是一种用于展示某种数据指标的工具。和指标卡不同的是,仪表盘能够展现数据所在的范围。

 

适用场景:数据分析,展现某个具体指标。

 

绘制规则:绑定一个自己关心的数据指标。

 

样图展示:(值--利润;目标值--总价)

 

 

图表高级功能

 

条件格式

 

功能:可以通过条件格式来增添表格的数据条,更加直观的展示数值的大小情况;对文字颜色进行修改,区分不同数据。

 

操作方法:

 

1.绑定数据,添加表格图表;

 

2.鼠标悬停在对应文本字段上,点击 “+” 中的条件格式,进行规则制定,可以修改文字颜色;同理悬停在值类字段时,可以增减多个数据条及文字颜色。    

 

 

同环比

 

功能:同环比多用于分析数据的走势,其中同比是某个周期的时段与上个周期的相同时段比较;环比是某个时段与上一个时长相等的时段作比较。

 

操作方法:

 

1.选择指标卡,选择对应数值;

 

2.点击 “+” 选择同环比;

 

3.选择对比类型、数据设置及时间字段。

 

辅助线

 

功能:辅助线可以添加图表的预警指标 。

 

操作方法:

 

1.添加图表,绑定数据;

 

2.在右侧的模式选择中添加辅助线,有三种线型选择,还可修改线型、颜色、粗细等外观。

 

当选择垂直x轴时,输入辅助线名称、y截距等;

 

 

当选择垂直y轴时,同理输入x截距等内容;

 

 

选择斜线时,同理输入斜率与y截距等。

 

 

 

可地图

 

集智平台提供针基于地理位置的可视化分析能力(地图),可以使用经纬度数据来分析和查看不同地域的数据情况。

 

操作步骤

 

1、进入“画布”,选择“地图”控件;

 

2、添加“图层管理”,选择想要的可视化效果;

 

3、点击图层,在左侧选择要分析的数据,设置维度、颜色、大小以及标签等信息,可进行数据筛选;

 

4、可以在右侧”模式选择“中设置图表的样式。

 

轨迹图

轨迹地图以地图为背景,绘制某个维度数值的变化轨迹。

 

气泡图

 

气泡地图以地图为背景,在上面绘制气泡。将气泡展示在制定的地理区域内(如省、地区),气泡的面积代表了数据大小。

 

飞线图

 

飞线图表示不同城市之间在某个维度上的关联。

 

区域图

 

区域图展示某个维度值在不同区域之间的分布,用于大致了解不同区域的业务状况。

 

分析

 

流量漏斗图

 

图表中的漏斗图可以直观展现各部分流程的占比分析各部分业务流量占比。流量漏斗图可以同时展现流量占比、流量随时间的变化趋势、流量的具体数值,并根据不同的类别动态改变,是一个综合多种图表的分析方法。

 

操作步骤

 

1、点击分析控件,选择流量漏斗图。

 

2、绑定数据,添加字段、指标、时间趋势。画布上展现了漏斗图(各个险种的流量占比)和折线图(不同险种利润随时间变化的趋势)

 

3、可以选择对比分析表,进行数据下钻。勾选感兴趣的数值行,漏斗图和折线图会随之变化。最多只可对比两组数据。

 

 

关系图

 

关系图用节点和连线来表示事务的相互关系,节点大小代表数量,连线表示关系。选择两个连接节点,再选择节点大小的维度。图示展现了不同险种在不同渠道的利润。

 

 

路径分析

 

路径分析主要根据用户在APP或网站中点击的行为日志,分析用户在APP或网站中各个模块的流转规律及特点,挖掘用户的访问或点击模式,进而实现一些特定的业务用途。

 

操作步骤:

 

1.点击分析控件,选择路径分析。

 

2.绑定数据及字段。

 

3.单机对应节点,可选中该路径,展示访问量及其在总量中占比。

样图展示:

 

 

和弦图

 

和弦图用不同颜色的圆环和弧长来表示数据间的关系和流量,圆环代表数据节点,弧长表示数据量大小。内部不同颜色的连接带,表示数据关系的流向及数量级,连接带的颜色由对应节点双方数量大的一方决定。和弦图适合在空间有限,数据关系复杂且重视关系大于流量的情况下使用。

 

操作步骤

 

1.点击分析控件,选择和弦图。

 

2.绑定数据,添加来源节点和目标节点,并绑定值字段。

 

3.hover节点时,可以查看此节点的人数及占比;同理hover连接时,可以查看某节点及其对应节点的人数及占比。

 

样图展示:

 

 

组件

 

集智平台提供了多种组件,搭配图表进行使用。

 

 

下钻分析

 

选择关心的数据,选择下钻,可以从更深的维度观察这个数据。也可以进行聚焦、数据排除。

 

 

成员管理

在成员管理界面,可以按成员角色来筛选显示成员。也可以直接输入名称进行搜索。

 

 

选中成员,进行批量编辑,赋予成员其他角色权限。也可批量删除。

 

 

添加成员。选择要添加的成员。赋予角色。

 

 

发布管理

 

进入发布管理界面,可以查看您发布的画布信息。可进行更改发布状态、复制链接、删除操作。

 

 

ODPS任务流程

 

ODPS任务是集智平台使用频率最高的功能之一。ODPS任务需要配合保险调度平台和集智平台完成。在调度平台完成数据配置,在集智平台完成数据流水线、可视化分析。

 

流程如下:

 

1、在众安保险调度平台进行数据源配置、任务配置、上传json配置。

 

2、进入集智平台,新建ETL项目,生成授权信息,并根据授权信息完成调度json配置。

 

3、新建流水线任务,选择离线或实时。完成任务设置,其中只能选择触发性任务类型。

 

4、在ODPS节点中上传json文件,完成ODPS配置。

 

5、完成后续任务配置,等待任务触发。

 

ODPS调度细节教程可以参考https://shimo.im/docs/K1Mx1NctPLkzsrgi

 

数据连接

 

进入数据连接页面,可以看到自己的数据。可以进行查询、删除操作。

 

 

新建数据连接。集智平台提供多种数据源。

 

【1】示例数据。包括数据源和比特币数据。模板数据包含地图模板数据、缺陷模板数据和销售模板数据。

 

【2】数据库。目前支持MySQL、ES数据库。

 

 

【3】文件上传。目前支持Excel文件。

 

 

数据ETL

数据ETL快速入门

 

点击申请项目,填写信息。

 

 

新建一个任务,并进行任务运行设置,然后进入任务页面(也可之后再设置)

 

 

拖动旁边的数据表、处理节点、DAG节点来形成工作流。

 

 

点击保存,再点击运行,任务开始运行。可以返回到任务处理页面进行调度跟踪。

 

 

数据添加之后,可以进行ETL分析。ETL对业务系统的数据经过抽取、清洗、转换,将分散、零乱、不规范的数据整合为规范的数据,为您提供分析依据。

 

在数据ETL页面可以看到自己创建或参与的项目。对于任务,可以按名称搜索任务,按状态搜索任务(离散或实时),也可以编辑、删除、跟踪任务。

 

 

 

对于项目成员,可以进行添加、删除操作。

 

 

点击新建任务,填写任务信息,进入任务构建页面。左侧栏是数据表、处理节点和DAG节点。中间是画布,右侧是详情。拖动节点到画布。错误则会显示警告。

 

 

新建任务类型

 

离线与实时

 

离线任务是T+N得到结果的任务,实时是秒级甚至亚秒级得到数据结果的任务。

 

 

任务运行设置

 

周期性与触发性

 

周期性任务会提前设置一个开始日期与结束日期,任务会在这个周期内运行。

 

触发性任务需要一个触发条件才会运行。一种是ODPS节点触发,数据仓库的调度平台会写一个文件标志内容更新,当查询到到特定路径中有此

文件便会触发任务。另一种是手动触发,手动设置触发条件。

 

输出分区

 

分区把一张表的数据分成多个区块,避免大量数据的读写操作,提高工作效率。从逻辑上看仍然是一张表。一般按照时间来分区。

 

 

数据表

 

数据表为此项目关联的库内所有已存在的表,即本此项目产生的所有中间表及结果表。点击数据表,右侧栏显示节点详情,可以根据搜索列名查看数据类型。

 

 

处理节点

 

导入节点

 

导入节点从数据库中导入数据。选择数据库(目前支持MySQL和HDFS),填写信息,填写过滤条件(使用SQL where语句)。如果数据导入新建表,则新建一个表,并选择是否分区;如果数据导入已有表,选择目标数据表。

 

 

ODPS节点

 

ODPS节点用于将ODPS内数据同步至集智平台,可以通过上传保险调度平台配置json文件完成设置(具体流程参考“ODPS任务流程”)

 

 

SQL节点

 

SQL节点通过输入SQL语句处理数据。

 

 

SHELL节点

 

SHELL节点通过上传SHELL文件对数据进行处理。

 

 

JOIN节点

 

JOIN节点用于连接不同的数据表。节点详情中,可以编辑节点名称和描述。选择主表。也可以点击筛选行列来选择连接方式。

 

注:主表可以选择存储主要信息的表,将其他表与之关联。而筛选行列一般是选择主表中的某一映射值。

 

 

分发节点

 

分发节点用于切分数据。

 

 

DAG节点

 

DAG节点是已经构建好的同一项目DAG图中的节点。节点配置已经完成,可以直接拖拽使用。

 

 

调度跟踪

 

任务创建成功后,返回至项目页面。启动任务,任务状态变为“运行中”。点击跟踪,查看任务运行历史

 

对于每一次运行,可以单独查看节点日志,也可以重跑该次任务。

 

 

数据建模

 

数据建模快速入门

 

1.填写基础信息

 

 

2.选择建模方式和数据源

 

 

3.选择维度与度量

 

 

4.选择优化方式

 

 

5.构建模型

 

返回到数据建模页面,查找刚才新建的模型,点击构建操作。

 

 

良好的数据模型能够降低由数据冗余带来的计算和存储成本,帮助数据人员快速查询数据,提高使用数据的效率。

 

进入数据建模页面,可以看到全部模型、我创建的模型、我申请的模型。可以新建模型, 也可对已有模型进行管理操作。

 

 

建模之数据源

 

主要表与连接表

 

主要表一般是选定的一张具有主要属性的表,通过内连接/左外连接与其他表相关联。

 

内连接:根据两张表共有的属性来连接,即两张表的交集。例如,拥有同一个id值的数据。

 

左外连接:根据主要表的属性来匹配连接表,如果连接表中没有匹配的数据,则为空数据。它与内连接的区别是,例如连接表中没有id为111100的数据,内连接表不会出现这条数据,左外连接表会出现这条数据,连接表中的属性值为空。

 

连接条件

 

在主要表和连接表之间,连接条件是某一属性值相等。

 

 

建模之维度与度量

 

维度是观察数据的角度,一般是一组离散的值。例如时间,险种。度量是拟聚合的数据,是聚合运算的结果,一般是一组连续的值。例如利润。如此,建立了一张以时间、险种为维度聚合利润的表。

 

 

优化方式

 

集智平台提供两种方式:预计算与MPP

 

预计算

 

集智平台采用星型模型构建数据仓库模型,使用一张事实表和多个维度表通过预先的JOIN操作生成一张大表,并根据维度来计算度量,之后可以直接查询,避免了后续重复计算,提高了性能。

 

勾选预计算维度,添加指标。维度是观察数据的角度,指标即您想要计算的度量值。例如,计算不同地区险种的利润,则维度是地区和险种,指标是利润。预先计算就会根据地区和险种将数据聚合起来,计算出某个地区,某个险种的利润。

 

注意:由于预先计算要计算各种维度的组合的结果,当维度大的时候组合结果会特别多,所以当维度大的时候(维度个数大于18)建议使用MPP数据库。

 

MPP数据库

 

 

MPP即massively parallel processing,将任务并行地分散到多个服务器和节点上,在每个节点上计算完成后,将各自部门的结果汇总在一起得到最终结果。选择合适的时间和时间格式来将数据分区。

 

数据权限

 

洞察新权限平台支持对可视化项目、数据模型、数据处理项目等进行权限管理,支持直接给用户授权数据权限和通过角色给用户赋予权限。

 

给用户赋权给用户配置权限有两个路径:

 

通过角色赋权

 

使用角色赋权的路径更灵活,从长远来看的便捷性也更好,一般推荐使用这种方式赋权。

步骤如下:

 

1)在角色管理中创相应角色;

 

 

2、编辑角色的数据权限,给予角色相应的数据模型权限、可视化项目权限,数据项目权限

 

 

3、在角色用户列表中,填写用户的邮箱,支持在文本框中填写多个用户邮箱,点击确认完成赋权。

tips:使用,分割用户邮箱可以快速添加多个邮箱,如下图的两个邮箱,编辑好文本zhuyinghua@zhongan.com,zhouzeyu@zhongan.com”复制到文本框可快速添加用户。

 

 

通过用户赋权

 

通过用户赋权的路径更适用于临时赋予权限或者比较零散的权限需求

 

步骤如下:

 

1、通过用户管理的菜单打开界面,输入用户姓名找到用户,点击编辑按钮;

 

 

2、在弹框中选择数据权限tab,选择要添加的数据类型tab,勾选要赋予用户的权限,即可完成对用户的赋权。

 

 

通过组织架构赋权


 


 

1.选择对应组织架构


 


 

2、在弹框中选择数据权限tab,选择要添加的数据类型tab,勾选要赋予用户的权限,即可完成对用户的赋权。