利用轻易云进行数据ETL:钉钉薪资福利申请集成到MySQL

  • 轻易云集成顾问-卢剑航

钉钉数据集成到MySQL——薪资福利付款申请案例分享

在企业日常管理中,钉钉作为一个高效的协同办公平台,已经成为不可或缺的一部分。而将这些分散在不同系统中的数据进行有效整合,是实现业务智能化和决策快速响应的关键环节。本文将聚焦于一个具体的技术案例:如何通过轻易云数据集成平台,将钉钉中的薪资福利付款申请数据顺利、高效地集成到MySQL数据库中。

方案概述

我们的主要任务是通过调用钉钉的数据接口topapi/processinstance/get实时抓取薪资福利付款申请的数据,并利用轻易云提供的API execute 将其批量写入到MySQL数据库中。在这个过程中,我们需要处理接口分页、限流问题,以及确保大量数据能够可靠且高效地写入目标数据库。同时,为了保障整个数据流动过程无缝衔接,我们还充分利用了轻易云的数据质量监控、异常检测与错误重试机制。

数据获取与处理

首先,通过自定义定时任务调度器来定期调用钉钉的API topapi/processinstance/get 获取最新的薪资福利付款申请记录。为了避免遗漏和重复抓取,我们设计了一套可靠的数据增量拉取方案,并结合分页策略来应对大规模数据请求带来的挑战。此外,针对可能出现的限流情况,通过设置合理的重试机制和缓冲队列来最大程度上保障数据获取过程稳定顺畅。

数据转换与映射

由于从钉钉获取到的数据结构可能并不完全符合MySQL数据库预设表格格式,因此我们进一步使用了可视化的数据流设计工具和自定义转换逻辑,对原始数据进行清洗、转换及映射,以适应特定业务需求。这一步骤不仅优化了存储效率,还提高了后续BI分析报表生成过程中的性能表现。

数据写入与监控

考虑到高吞吐量需求以及大批量写入过程中可能出现的问题,我们采用批次提交方式,通过API execute 实现事务性插入操作。同时,实现全程集中监控,对每一次提交操作进行实时跟踪,一旦发现异常则立即触发告警并自动执行错误重试机制,从而确保系统能够持续稳定运行,不会因为短暂故障而导致整体流程中断。

以上就是本次技术案例实施背后的核心思路及主要步骤,在后续内容中我们将详细剖析每个环节所涉及的重要技术点及解决方案。 如何对接企业微信API接口

钉钉接口topapi/processinstance/get在数据集成中的应用

在数据集成的生命周期中,调用源系统接口是至关重要的一步。本文将详细探讨如何使用轻易云数据集成平台调用钉钉接口topapi/processinstance/get获取并加工数据,以实现薪资福利付款申请的数据集成。

调用钉钉接口获取审批实例数据

首先,我们需要通过钉钉提供的API接口topapi/processinstance/get来获取审批实例的数据。该接口支持POST请求,并且需要传递一系列参数来指定查询条件。以下是元数据配置中的关键字段及其作用:

  • process_code: 审批流的唯一码,用于标识具体的审批流程。在我们的案例中,值为PROC-ACC5D9FF-80F5-48F0-AA5C-EE53760DD915
  • start_timeend_time: 用于指定查询时间范围,分别代表审批实例开始和结束的时间。这两个字段使用Unix时间戳(毫秒)表示,并通过函数动态生成。
    • start_time: _function {LAST_SYNC_TIME}*1000
    • end_time: _function {CURRENT_TIME}*1000
  • size: 分页参数,每页大小,最多传20。
  • cursor: 分页查询的游标,最开始传0,后续传返回参数中的next_cursor值。

配置请求参数

在轻易云平台中,我们可以通过配置元数据来自动填充这些请求参数。以下是一个示例配置:

{
  "api": "topapi/processinstance/get",
  "effect": "QUERY",
  "method": "POST",
  "number": "number",
  "id": "id",
  "idCheck": true,
  "request": [
    {
      "field": "process_code",
      "label": "审批流的唯一码",
      "type": "string",
      "describe": "这里填写钉钉表单的id",
      "value": "PROC-ACC5D9FF-80F5-48F0-AA5C-EE53760DD915"
    },
    {
      "field": "start_time",
      "label": "审批实例开始时间。Unix时间戳,单位毫秒。",
      "type": "string",
      "describe": "Help",
      "value": "_function {LAST_SYNC_TIME}*1000"
    },
    {
      "field": "end_time",
      "label": "审批实例结束时间,Unix时间戳,单位毫秒",
      "type": "string",
      "describe": "Help",
      "value": "_function {CURRENT_TIME}*1000"
    },
    {
      "field": "size",
      "label": "分页参数,每页大小,最多传20。",
      "type": "string",
      "describe": "",
      "value": 20
    },
    {
      "field": 'cursor',
      'label': '分页查询的游标,最开始传0,后续传返回参数中的next_cursor值。',
      'type': 'string',
      'describe': '',
    }
  ],
  'autoFillResponse': true
}

数据清洗与转换

在获取到原始数据后,需要进行清洗和转换,以便后续写入目标系统。在轻易云平台上,可以通过内置的数据处理功能对数据进行清洗和转换。例如:

  1. 字段映射:将钉钉返回的数据字段映射到目标系统所需的字段。例如,将process_instance_id映射为目标系统中的instance_id
  2. 数据格式转换:将日期格式从Unix时间戳转换为标准日期格式。
  3. 过滤无效数据:移除不符合业务规则的数据,例如状态为“已取消”的审批实例。

写入目标系统

最后一步是将清洗和转换后的数据写入目标系统。在本案例中,是将薪资福利付款申请的数据写入BI崛起系统。这一步通常涉及调用目标系统的API接口或数据库操作。

通过上述步骤,我们可以实现从钉钉获取薪资福利付款申请数据,并经过清洗、转换后写入BI崛起系统,从而完成整个数据集成过程。这不仅提高了业务流程的自动化程度,还确保了数据的一致性和准确性。 数据集成平台可视化配置API接口

使用轻易云数据集成平台进行ETL转换并写入MySQLAPI接口

在数据集成生命周期的第二阶段,我们需要将源平台的数据进行ETL(提取、转换、加载)处理,最终写入目标平台。在本案例中,我们将钉钉的薪资福利付款申请数据转换为BI崛起平台能够接收的格式,并通过MySQLAPI接口写入目标数据库。

数据请求与清洗

首先,我们从钉钉平台提取薪资福利付款申请的数据。为了确保数据的完整性和准确性,需要对原始数据进行清洗和预处理。这一步骤包括去除冗余字段、标准化日期格式、校验字段值等。

数据转换与写入

接下来是关键的ETL转换步骤。我们需要将清洗后的数据按照目标平台MySQLAPI接口所需的格式进行转换。以下是元数据配置,用于定义如何将源数据字段映射到目标数据库表字段:

{
  "api": "execute",
  "effect": "EXECUTE",
  "method": "POST",
  "idCheck": true,
  "request": [
    {
      "field": "main_params",
      "label": "main_params",
      "type": "object",
      "describe": "111",
      "children": [
        {"field": "bfn_id", "label": "id", "type": "string", "value": "{bfn_id}"},
        {"field": "center", "label": "申请所属中心", "type": "string", "value":"{{申请所属中心}}"},
        {"field": "department", 
         ...
        },
        ...
        {"field": "biz_action", 
         ...
        }
      ]
    }
  ],
  ...
}

配置说明

  1. API调用配置api字段指定了要调用的API方法,这里是execute,表示执行一个SQL命令。
  2. 请求方法method字段指定了HTTP请求方法,这里是POST
  3. ID检查idCheck字段设置为true,表示在执行操作前会检查记录是否存在,以避免重复插入。
  4. 请求参数request部分定义了要传递给API的参数,其中每个子字段对应目标数据库表中的一个列。

SQL语句配置

在元数据配置中,还包含了具体的SQL语句,用于将转换后的数据插入到目标数据库表中:

{
  ...
  "otherRequest":[
    {
      ...
      {
        field: "main_sql",
        label: "main_sql",
        type: string,
        describe: 111,
        value: "
          REPLACE INTO salary_benefit_payment_application (
            bfn_id, center, department, purpose, estimated_payment_date, total_amount, payment_method, payee_name, payee_account, payee_bank, actual_payment_amount, expense_type, other_expenses, expense_amount, create_time, finish_time, originator_userid, originator_dept_id, status, result, business_id, originator_dept_name, biz_action
          ) VALUES (
            :bfn_id,:center,:department,:purpose,:estimated_payment_date,:total_amount,:payment_method,:payee_name,:payee_account,:payee_bank,:actual_payment_amount,:expense_type,:other_expenses,:expense_amount,:create_time,:finish_time,:originator_userid,:originator_dept_id,:status,:result,:business_id,:originator_dept_name,:biz_action
          );
        "
      }
    }
  ]
}

该SQL语句使用了REPLACE INTO命令,如果记录已经存在,则更新现有记录,否则插入新记录。每个占位符(如:bfn_id, :center等)对应于前面定义的请求参数。

实际操作步骤

  1. 提取数据:从钉钉平台提取薪资福利付款申请的数据。
  2. 清洗数据:对提取的数据进行清洗和预处理。
  3. 映射字段:根据元数据配置,将清洗后的数据字段映射到目标数据库表字段。
  4. 执行SQL:通过API调用执行SQL语句,将转换后的数据写入目标数据库。

通过上述步骤,我们实现了从钉钉到BI崛起平台的数据无缝对接,确保了数据的一致性和完整性。这一过程充分利用了轻易云平台提供的全生命周期管理功能,大大提升了业务效率和透明度。 打通金蝶云星空数据接口