ETL使用说明

1、ETL概念

  • ERP数据源:各类ERP的账套、数据存放的实体
  • DW:数据仓库,将各个ERP的数据打通后保存的地方。
  • ETL:Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载 ,从ERP数据库,抽取所需数据到DW的过程。
  • SQL任务:仅在同一个数据源中进行数据操作,比如一个删除的任务,如下图所示,选择任务类型为SQL任务,数据源为 需要在此数据源上进行的操作(一般是数据仓库),事务类型一般默认。
  • 数据流任务:在两个数据源之间进行数据的抽取,比如需要 数据源(ourwaytes_yxw)中脚本中的查询结果 抽取到 目的数据源中(yxwmysql)的 目的表(f_trans_bills_temp)
  • 增量【按月】【按年】【按日】是系统自有的参数
增量年:当前时间是2019年7月26日时,选择增量年,
数值输入0,则增量就是从2019年1月1日【当年】
如果输入1,就是从2018年1月1日开始,
如果输入是2,则是从2017年1月1日开始。
增量月:当前时间是2019年7月26日时,选择增量月,
数值输入0,则增量就是从2019年7月1日【当月】,
如果输入1,就是从2019年6月1日开始,
如果输入是2,则是从2019年5月1日开始。
增量日:当前时间是2019年7月26日时,选择增量日,
数值输入0,则增量就是从2019年7月26日【当日】,
如果输入1,就是从2019年7月25日开始,
如果输入是2,则是从2019年7月24日开始
 

2、ETL界面说明

登录系统后,点击ETL设置进入ETL界面,如下图所示
  • ETL首页主要分为3部分,分别为模块的快速链接、调度计划列表和计划执行日志分析,如下图所示
数据资源:包括数据连接、驱动管理、变量管理
  • 数据源连接:建立源和目标的各种数据连接,依据预先设置的数据驱动模板进行配置。数据连接采用 JDBC 方式,配置完成后可通过连接测试进行正确性验证
 
  • 驱动管理:对数据驱动的模板配置信息进行维护,用于新增一种新数据驱动的模板,也可以修改默认数据驱动的模板配置
  • 变量管理:对变量进行设置管理
作业流程:包括文件夹,作业流程
  • 新建文件夹

左边的作业流列表默认只有“主文件夹”,用户可以右击新建文件夹,输入文件名称和对此文件的描述,点击“确认”即可新建完成。

注意:文件夹名称不可重复、不可输入特殊字符“\”以及空格。

  • 新建作业流

用户可以点击“新建流程”,输入相应的信息进行确认即可。新建的作业流会自动增加一个START节点

选择作业流程会出现相对应流程节点

选择刚才创建好的作业流后,会出现工具栏以及绘图区域,从左侧的组件栏中鼠标点击并拖放相应的组件到右边的画布区域。

  • 作业组件:平台为用户提供了三种作业组件,即三种转换任务。拖放此模块的节点为新增节点。
  • 当前节点:当前流程图所有的节点,拖放此模块节点为复制该节点
  • 所有节点:此用户下所有作业流的节点但不包括START节点,拖放此模块的节点为引用或复制。
  • 新增:增加一个新的节点
  • 复制:节点存在当前流程图叫复制,复制则是复制它的节点及明细信息。
  • 引用:节点不存在当前流程图叫引用,引用则是一个明细修改,所有引用的明细都会被修改。
  • 添加连线

点击源节点的锚点(节点上的绿色图标),然后再点击目标节点,会在两个节点间创建一条连线,点击连线或通过连线的右键菜单可以更改连线的状态。连线的状态有 4 种:

  • 成功(绿色):节点执行成功或条件判断为真时执行下一节点。
  • 错误(红色):节点执行出错或条件判断为假时执行下一节点。
  • 无条件(蓝色):节点执行成功或出错都无条件的执行下一节点。但如果是手工中断时,则停掉后续任务的执行。
  • 失效(灰色):连线设为失效后,后续路径不再执行。

连线的类型也可以通过右键菜单更改,类型包括3种:曲线、直线和折线。

执行监控:包括执行监控、日志查询
计划调度:包括文件夹与新建计划