将数据转换并写入MySQL的ETL实现技术

2021-07-30 06:48:03
轻易云集成顾问-卢剑航

聚水潭数据集成到MySQL的实现案例

在企业数据管理及其分析需求日益增长的背景下，实现聚水潭与MySQL系统的数据对接成为了关键。本文将介绍如何通过轻易云数据集成平台，将聚水潭中的"其他出入库单"数据高效同步至BI花花尚的"其他出入库表"，以支持业务智能化决策。

数据抓取与写入机制

为了确保能够定时、可靠地从聚水潭系统中抓取所需数据，我们利用API接口/open/other/inout/query进行实时调用。该接口不仅能处理大批量的数据请求，还提供了分页和限流功能，这使得我们能顺利应对海量记录的数据获取需求。同时，为了解决频繁调用可能带来的性能问题，我们采用批量集成策略，通过轻易云的高吞吐能力，短时间内将大量聚水潭中的业务记录导入到MySQL数据库中。

数据转换与映射

在实际操作过程中，不同系统间常常存在数据格式差异，这就要求我们灵活运用自定义转换逻辑。在这个项目中，通过轻易云可视化的数据流设计工具，我们设置了专门针对“其他出入库单”的转换规则，以确保每一条记录都能准确地转为符合目的表结构要求的数据格式。此外，借助API /batchexecute 实现快速写入，使得我们的存储过程更具效率和稳定性。

异常处理与监控

为了保障整个流程的平稳运行，对异常情况需要有提前预案。首先，在调用聚水潭API时引入错误重试机制，当发生网络波动或接口超时时可以自动进行多次重试，以提高成功率；其次，在MySQL端配置告警系统和日志记录，一旦出现写操作失败等异常情况立即触发报警，并保留详细日志供事后分析。这种全方位、多层次的监控手段极大提升了任务执行过程中的透明度和可追溯性，有力保障了数据对接工作的质量与稳定性。

钉钉与CRM系统接口开发配置

调用聚水潭接口获取并加工数据的技术案例

在数据集成生命周期的第一步中，调用源系统接口获取数据是至关重要的一环。本文将详细探讨如何通过轻易云数据集成平台调用聚水潭接口 /open/other/inout/query 获取并加工数据。

接口配置与请求参数

首先，我们需要配置接口的元数据，以便正确调用聚水潭的API。根据提供的元数据配置，以下是我们需要设置的主要参数：

API路径: /open/other/inout/query
请求方法: POST
主要字段:
- modified_begin: 修改起始时间
- modified_end: 修改结束时间
- status: 单据状态
- date_type: 时间类型
- page_index: 第几页
- page_size: 每页多少条

这些字段中，modified_begin 和 modified_end 用于指定时间范围，通常使用上次同步时间和当前时间来确定。status 和 date_type 用于过滤特定类型的数据，而分页参数 (page_index, page_size) 则用于控制每次请求的数据量。

请求示例

以下是一个典型的请求示例：

{
  "modified_begin": "2023-10-01T00:00:00",
  "modified_end": "2023-10-02T00:00:00",
  "status": "confirmed",
  "date_type": "modified",
  "page_index": "1",
  "page_size": "50"
}

在实际操作中，我们会动态填充这些参数，例如使用模板变量来替换具体的时间值：

{
  "modified_begin": "{{LAST_SYNC_TIME|datetime}}",
  "modified_end": "{{CURRENT_TIME|datetime}}",
  "status": "",
  "date_type": "",
  "page_index": "1",
  "page_size": "50"
}

数据清洗与转换

在获取到原始数据后，需要进行清洗和转换，以确保数据符合目标系统的要求。根据元数据配置中的 autoFillResponse 和 condition_bk，我们可以自动填充响应并进行条件过滤。例如，我们只需要类型为“其他退货”和“其他入仓”的记录，可以通过以下条件进行过滤：

"condition_bk":[[{"field":"type","logic":"in","value":"其他退货,其他入仓"}]]

数据扁平化处理

由于响应的数据结构可能包含嵌套字段，我们需要对其进行扁平化处理，以便更方便地写入目标系统。在元数据配置中，通过设置 beatFlat 参数，我们可以指定需要扁平化处理的字段，例如：

"beatFlat":["items"]

这意味着我们将对响应中的 items 字段进行扁平化处理，将其展开为单独的记录。

实践案例

假设我们从聚水潭接口获取到以下原始响应：

{
    "data": {
        "total_count": 2,
        "items": [
            {
                "io_id": "1001",
                "type": "其他退货",
                ...
            },
            {
                "io_id": "1002",
                "type": "其他入仓",
                ...
            }
        ]
    }
}

经过条件过滤和扁平化处理后，我们得到如下结果：

[
    {
        "io_id": "1001",
        "type": "其他退货",
        ...
    },
    {
        "io_id": "1002",
        "type": "其他入仓",
        ...
    }
]

这些清洗和转换后的数据即可用于后续的数据写入阶段。

通过以上步骤，我们实现了从聚水潭接口获取并加工数据，为后续的数据集成打下了坚实基础。这一过程不仅提高了数据处理效率，也确保了数据的一致性和准确性。电商OMS与WMS系统接口开发配置

数据转换与写入目标平台 MySQL 的技术实现

在数据集成生命周期的第二步中，我们需要将已经集成的源平台数据进行ETL转换，并转为目标平台 MySQL API 接口所能够接收的格式，最终写入目标平台。本文将详细介绍如何利用元数据配置来实现这一过程。

元数据配置解析

在本案例中，我们的目标是将聚水潭系统中的出入库单数据转换并写入到 BI 花花尚系统的 MySQL 数据库表 other_inout_query 中。以下是元数据配置的详细解析：

{
  "api": "batchexecute",
  "effect": "EXECUTE",
  "method": "SQL",
  "number": "id",
  "id": "id",
  "name": "id",
  "idCheck": true,
  "request": [
    {"field":"id","label":"主键","type":"string","value":"{io_id}-{items_ioi_id}"},
    {"field":"io_id","label":"出仓单号","type":"string","value":"{io_id}"},
    {"field":"io_date","label":"单据日期","type":"string","value":"{io_date}"},
    {"field":"status","label":"单据状态","type":"string","value":"{status}"},
    {"field":"so_id","label":"线上单号","type":"string","value":"{so_id}"},
    {"field":"type","label":"单据类型","type":"string","value":"{type}"},
    {"field":"f_status","label":"财务状态","type":"string","value":"{f_status}"},
    {"field":"warehouse","label":"仓库名称","type":"string","value":"{warehouse}"},
    {"field":"receiver_name","label":"收货人","type":"string","value":"{receiver_name}"},
    {"field":"receiver_mobile","label":"收货人手机","type":"string","value":"{receiver_mobile}"},
    {"field":"receiver_state","label":"收货人省","type":"string","value":"{receiver_state}"},
    {"field":"receiver_city","label":"收货人市","type":"string","value":"{receiver_city}"},
    {"field":"receiver_district","label":"收货人区","type":...

上述配置定义了从源平台获取的数据字段及其对应的目标字段。每个字段都有一个 value 属性，用于指定从源数据中提取的具体值。

数据转换过程

字段映射：首先，根据元数据配置中的 request 部分，将源平台的数据字段映射到目标平台的数据字段。例如，io_id 映射为 出仓单号，io_date 映射为 单据日期 等等。
主键生成：通过 {io_id}-{items_ioi_id} 的方式生成唯一主键 id，确保每条记录在目标数据库中的唯一性。

SQL语句构建：根据 otherRequest 部分中的 main_sql 字段，构建 SQL 插入语句：

REPLACE INTO other_inout_query (id, io_id, io_date, status, so_id, type, f_status, warehouse, receiver_name, receiver_mobile, receiver_state, receiver_city, receiver_district, receiver_address, wh_id, remark, modified, created, labels, wms_co_id, creator_name, wave_id, drop_co_name, inout_user, l_id, lc_id, logistics_company, lock_wh_id, lock_wh_name, items_ioi_id,...)
VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ..., ?)

批量执行：通过 API 接口调用，将构建好的 SQL 语句和映射后的数据批量写入到 MySQL 数据库中。

实现细节

API 调用：
- 使用 batchexecute 方法，通过 HTTP POST 请求将 SQL 语句和参数发送到 MySQL API 接口。
- 确保请求体中包含所有必要的字段和值，以便 API 能够正确解析并执行插入操作。
错误处理：
- 在执行 SQL 插入时，需要捕获可能出现的异常，例如主键冲突、数据格式错误等。
- 可以通过设置 idCheck: true 来确保在插入之前进行主键检查，避免重复插入。
性能优化：
- 使用批量插入 (batch execute) 来提高数据写入效率。
- 设置合理的批量大小（例如 limit: 1000），以平衡内存使用和网络传输效率。

示例代码

以下是一个简化的 Python 示例代码，用于演示如何实现上述过程：

import requests
import json

# 配置元数据
metadata = {
    # ... (省略部分内容)
}

# 构建请求体
def build_request_body(data):
    request_body = {
        "main_sql": metadata["otherRequest"][0]["value"],
        "params": []
    }

    for record in data:
        params = []
        for field in metadata["request"]:
            value = record.get(field["value"].strip("{}"), "")
            params.append(value)
        request_body["params"].append(params)

    return request_body

# 批量执行API调用
def batch_execute(data):
    url = 'http://your-mysql-api-endpoint/batchexecute'
    headers = {'Content-Type': 'application/json'}

    request_body = build_request_body(data)

    response = requests.post(url, headers=headers, data=json.dumps(request_body))

    if response.status_code == 200:
        print("Data inserted successfully")
    else:
        print("Error:", response.text)

# 示例数据
data = [
    # ... (示例记录)
]

# 执行批量插入
batch_execute(data)

通过以上步骤，我们可以有效地将源平台的数据转换并写入到目标 MySQL 数据库中，实现不同系统间的数据无缝对接。如何对接用友BIP接口