利用轻易云实现ETL转换：聚水潭数据写入MySQL实战

2023-11-29 19:10:51
轻易云集成顾问-彭亮

聚水潭数据集成到MySQL技术案例分享：聚水潭-供应商信息查询-->BI卡卡-供应商信息表_copy

在本技术案例中，我们将讨论如何有效地实现从聚水潭系统获取供应商信息，并将处理后的数据可靠地写入MySQL数据库。这一过程不仅仅是简单的数据迁移，而是一个包括实时监控、异常检测、定制化转换逻辑等多个环节的复杂系统对接任务。

首先，通过调用聚水潭提供的API接口/open/supplier/query，我们能够定时抓取并汇总最新的供应商数据信息。为了确保数据不漏单且高效传输，我们设计了一套批量集成机制，将大规模的数据快速写入到MySQL数据库。在此过程中，借助平台支持的数据流设计工具和自定义数据转换逻辑，使得整个数据流水线更加直观易管理，也避免了各类业务场景可能遇到的数据格式差异问题。

其次，为解决接口分页与限流的问题，我们使用了智能调度策略，对每次请求进行合理控制，以保证不会出现超限或丢失情况。同时，针对MySQL端进行了细致的映射对接和优化配置，如使用API execute 实现高效插入操作，并辅以严格的质量监控措施，一旦发现异常即刻触发错误重试机制，从而提升整体任务的可靠性和稳定性。

通过这种有序而全面的方法，不仅提高了聚水潭至MySQL系统之间数据交换的透明度和效率，还为企业资源管理提供了一种高效且可执行的解决方案。打通用友BIP数据接口

调用聚水潭接口获取并加工数据的技术案例

在数据集成过程中，调用源系统接口获取数据是至关重要的一步。本文将详细探讨如何通过轻易云数据集成平台调用聚水潭接口/open/supplier/query，获取供应商信息并进行数据加工。

接口概述

聚水潭提供的/open/supplier/query接口用于查询供应商信息。该接口采用POST请求方式，主要参数包括页数、每页大小、修改开始时间和修改结束时间。以下是元数据配置中的关键字段：

page_index: 页数，默认值为1。
page_size: 每页大小，默认值为50。
modified_begin: 修改开始时间，动态值为上次同步时间。
modified_end: 修改结束时间，动态值为当前时间。

请求参数配置

在轻易云数据集成平台中，我们需要配置请求参数以确保能够正确调用接口并获取所需数据。以下是请求参数的具体配置：

{
  "field": "page_index",
  "label": "页数",
  "type": "string",
  "describe": "页数",
  "value": "1"
},
{
  "field": "page_size",
  "label": "每页大小",
  "type": "string",
  "describe": "每页大小",
  "value": "50"
},
{
  "field": "modified_begin",
  "label": "修改开始时间",
  "type": "string",
  "describe": "修改开始时间",
  "value": "{{LAST_SYNC_TIME|datetime}}"
},
{
  "field": "modified_end",
  "label": "修改结束时间",
  "type": "string",
  "describe": "修改结束时间",
  "value": "{{CURRENT_TIME|datetime}}"
}

数据请求与清洗

在完成请求参数配置后，我们可以通过轻易云平台发起对聚水潭接口的调用。返回的数据通常包含多个字段，其中包括供应商ID、名称、状态等信息。在数据清洗阶段，我们需要对这些字段进行处理，以确保其符合目标系统的要求。

例如，对于返回的供应商状态字段，如果其值为布尔类型，我们可能需要将其转换为字符串类型以便后续处理：

def clean_data(response_data):
    for record in response_data:
        if 'enabled' in record:
            record['enabled'] = 'true' if record['enabled'] else 'false'
    return response_data

数据转换与写入

在完成数据清洗后，我们需要将数据转换为目标系统所需的格式，并写入到目标数据库或表中。在本案例中，我们将清洗后的供应商信息写入到BI卡卡的供应商信息表中。

假设目标表结构如下：

CREATE TABLE supplier_info (
    supplier_id INT PRIMARY KEY,
    supplier_name VARCHAR(255),
    enabled BOOLEAN,
    modified_time TIMESTAMP
);

我们可以使用以下SQL语句将清洗后的数据插入到目标表中：

INSERT INTO supplier_info (supplier_id, supplier_name, enabled, modified_time)
VALUES (%s, %s, %s, %s)
ON DUPLICATE KEY UPDATE
supplier_name = VALUES(supplier_name),
enabled = VALUES(enabled),
modified_time = VALUES(modified_time);

自动填充响应

为了简化操作流程，提高效率，轻易云平台支持自动填充响应功能。这意味着在调用接口并获取响应后，平台会自动解析并填充相应的数据字段，无需手动处理。这一功能极大地提升了数据集成过程的自动化程度和准确性。

条件过滤

在某些情况下，我们可能需要对返回的数据进行条件过滤。例如，仅保留状态为启用（enabled）的供应商信息。可以通过以下条件过滤配置实现：

{
  [
    {
      "field": "enabled",
      "logic": "in",
      "value":"true"
    }
  ]
}

通过上述配置，可以确保仅处理符合条件的数据记录，从而提高数据质量和处理效率。

综上所述，通过轻易云数据集成平台调用聚水潭接口/open/supplier/query，我们能够高效地获取、清洗和转换供应商信息，并将其无缝写入到目标系统中。这一过程不仅提升了业务透明度和效率，也确保了数据的一致性和准确性。如何开发企业微信API接口

利用轻易云数据集成平台实现ETL转换并写入MySQLAPI接口

在数据集成的生命周期中，第二步是将已经集成的源平台数据进行ETL（Extract, Transform, Load）转换，并最终写入目标平台。在本案例中，我们将聚水潭的供应商信息查询结果转化为BI卡卡的供应商信息表，并通过MySQLAPI接口写入目标平台。

数据请求与清洗

首先，从聚水潭获取供应商信息。假设我们已经完成了数据请求和初步清洗，得到了如下结构的数据：

{
    "suppliers": [
        {
            "name": "供应商A",
            "supplier_id": "001"
        },
        {
            "name": "供应商B",
            "supplier_id": "002"
        }
    ]
}

数据转换与写入

接下来，我们需要将上述数据转换为MySQLAPI接口能够接收的格式，并写入到目标平台。根据提供的元数据配置，我们需要构建一个SQL插入语句。

元数据配置解析

根据元数据配置，主要涉及以下几个部分：

主参数（main_params）：这是对应主语句内的动态参数，包括co_name（供应商公司名）和supplier_co_id（供应商编号）。
主语句（main_sql）：这是首次执行的SQL语句，将会返回lastInsertId。具体语句如下：
```
INSERT INTO querymysupplier (
   co_name,
   supplier_co_id
) VALUES (
   :co_name,
   :supplier_co_id
);
```

数据映射与转换

我们需要将从聚水潭获取到的数据映射到上述SQL语句中的参数。具体步骤如下：

遍历从聚水潭获取到的供应商信息。
对每个供应商信息，提取name和supplier_id字段，并映射到SQL语句中的:co_name和:supplier_co_id。

示例代码如下：

import requests

# 假设已经获取到聚水潭的数据
data = {
    "suppliers": [
        {"name": "供应商A", "supplier_id": "001"},
        {"name": "供应商B", "supplier_id": "002"}
    ]
}

# MySQL API URL
mysql_api_url = 'http://your-mysql-api-endpoint/execute'

# 遍历每个供应商信息并构建请求
for supplier in data['suppliers']:
    payload = {
        'main_params': {
            'co_name': supplier['name'],
            'supplier_co_id': supplier['supplier_id']
        },
        'main_sql': """
            INSERT INTO querymysupplier (
                co_name,
                supplier_co_id
            ) VALUES (
                :co_name,
                :supplier_co_id
            );
        """
    }

    # 发送POST请求到MySQL API接口
    response = requests.post(mysql_api_url, json=payload)

    if response.status_code == 200:
        print(f"Successfully inserted supplier {supplier['name']}")
    else:
        print(f"Failed to insert supplier {supplier['name']}: {response.text}")

接口调用与错误处理

在实际应用中，除了基本的数据映射和转换，还需要考虑接口调用的稳定性和错误处理。例如：

重试机制：在网络不稳定或目标平台暂时不可用时，可以增加重试机制。
日志记录：记录每次接口调用的结果，以便后续追踪和问题排查。
异常处理：捕获并处理各种可能出现的异常，如网络超时、数据格式错误等。

示例代码加入重试机制和日志记录：

import requests
import logging
from time import sleep

# 设置日志配置
logging.basicConfig(level=logging.INFO)

# 重试机制配置
MAX_RETRIES = 3
RETRY_DELAY = 5  # seconds

def insert_supplier(supplier):
    payload = {
        'main_params': {
            'co_name': supplier['name'],
            'supplier_co_id': supplier['supplier_id']
        },
        'main_sql': """
            INSERT INTO querymysupplier (
                co_name,
                supplier_co_id
            ) VALUES (
                :co_name,
                :supplier_co_id
            );
        """
    }

    for attempt in range(MAX_RETRIES):
        try:
            response = requests.post(mysql_api_url, json=payload)

            if response.status_code == 200:
                logging.info(f"Successfully inserted supplier {supplier['name']}")
                return True
            else:
                logging.error(f"Failed to insert supplier {supplier['name']}: {response.text}")

        except Exception as e:
            logging.error(f"Exception occurred: {e}")

        sleep(RETRY_DELAY)

    return False

# 遍历每个供应商信息并插入数据库
for supplier in data['suppliers']:
    success = insert_supplier(supplier)
    if not success:
        logging.error(f"Failed to insert supplier {supplier['name']} after {MAX_RETRIES} attempts")

通过上述步骤，我们成功地将聚水潭的供应商信息查询结果经过ETL转换，并通过MySQLAPI接口写入目标平台，实现了不同系统间的数据无缝对接。这不仅提升了业务透明度和效率，也确保了数据处理过程的全生命周期管理。用友BIP接口开发配置