数据集成平台中的ETL转换与MySQLAPI写入实施指南

2023-06-14 19:47:32
轻易云集成顾问-胡秀丛

聚水潭库存盘点数据集成到MySQL的技术实现

在复杂的业务环境中，实现不同系统之间的数据无缝对接是企业高效运营的重要保障。本文将探讨如何通过轻易云数据集成平台，将聚水潭（Jushuitan）库存盘点数据精准、高效地集成到MySQL数据库，确保业务连续性和高质量的数据管理。

任务背景

本次技术案例涉及的是从聚水潭获取库存盘点数据，然后批量写入到BI彩度平台中的MySQL数据库，并呈现在库存盘点表中，以便用于后续的数据分析和报表生成。具体步骤如下：

调用聚水潭接口 /open/inventory/count/query 获取实时库存盘点数据。
处理分页与限流问题 确保大规模数据能够顺利抓取并不遗漏。
自定义转换逻辑 将聚水潭返回的数据结构映射为符合MySQL要求的格式。
批量写入MySQL 利用 batchexecute API 实现大量数据快速写入，并确保事务稳定性。

接口调用与分页处理

为了保证每次请求都能获取完整而准确的数据，我们需要合理设置API调用参数。例如，通过传递适当的页尺寸（page size）和当前页数(page num)，来逐步提取全部所需记录。这不仅减少了单次请求的数据负载，也避免了因频繁访问造成聚水潭服务器限流的问题。

{
    "api": "/open/inventory/count/query",
    "params": {
        "warehouse_id": 12345, // 仓库ID，根据实际情况设置
        "page_size": 100,
        "page_num": 1
    }
}

上述示例展示了一次典型API调用参数设定，其中 page_size 和 page_num 是关键字段，用于控制返回结果的大小和页码。此外，通过统计总记录条数，可以动态调整分页策略，优化网络传输效率及响应速度。

自定义转换与快速写入

由于聚水潭原始返回结果可能含有冗余或非必要字段，我们需要设计自定义逻辑，将其转换为目标表格能够接受且标准化后的形式。在这一过程中，您可以使用可视化工具设计并验证这些转化规则，使得整个过程更加直观透明。当所有准备工作完成后，可利用 MySQL 的 batchexecute API 批量提交已转换好的记录，提高插入性能并减少数据库锁等待时间，从而加速整体操作速度。

-- 示例 SQL 插入语句结构：
INSERT INTO inventory_check (product_id, warehouse_id, stock_quantity, updated_at
![打通企业微信数据接口](https://pic.qeasy.cloud/D36.png~tplv-syqr462i7n-qeasy.image)
### 调用聚水潭接口获取并加工数据

在轻易云数据集成平台中，调用聚水潭接口`/open/inventory/count/query`是实现数据集成生命周期的第一步。本文将详细探讨如何配置和调用该接口，并对返回的数据进行加工处理。

#### 接口配置与调用

首先，我们需要了解接口的基本信息和请求参数。根据元数据配置，聚水潭的库存盘点查询接口采用POST方法，主要用于查询库存盘点信息。以下是请求参数的详细说明：

- `page_index`: 表示第几页，从第一页开始，默认值为1。
- `page_size`: 每页多少条记录，默认值为30，最大值为50。
- `modified_begin`: 修改起始时间，与结束时间必须同时存在，时间间隔不能超过七天。
- `modified_end`: 修改结束时间，与起始时间必须同时存在。
- `io_ids`: 指定盘点单号，多个用逗号分隔，最多50个，与时间段不能同时为空。
- `status`: 单据状态，包括Confirmed（生效）、WaitConfirm（待审核）、Creating（草拟）、Archive（归档）、Cancelled（作废）。

以下是一个示例请求体：

```json
{
  "page_index": "1",
  "page_size": "50",
  "modified_begin": "{{LAST_SYNC_TIME|datetime}}",
  "modified_end": "{{CURRENT_TIME|datetime}}",
  "status": "Confirmed"
}

数据清洗与转换

在获取到原始数据后，需要对其进行清洗和转换，以便后续的数据写入和分析。以下是一些常见的数据清洗与转换操作：

字段映射：将聚水潭返回的数据字段映射到目标系统所需的字段。例如，将io_id映射为目标系统中的inventory_id。
数据过滤：根据业务需求过滤掉不必要的数据。例如，只保留状态为Confirmed的记录。
格式转换：将日期格式从字符串转换为标准的日期格式，以便于后续处理。
增量更新：通过比较上次同步时间和当前时间，只提取新增或修改过的数据，以减少数据处理量。

以下是一个示例代码片段，用于实现上述操作：

import requests
import json
from datetime import datetime, timedelta

# 配置请求参数
params = {
    "page_index": "1",
    "page_size": "50",
    "modified_begin": (datetime.now() - timedelta(days=7)).strftime('%Y-%m-%d %H:%M:%S'),
    "modified_end": datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    "status": "Confirmed"
}

# 发起POST请求
response = requests.post("https://api.jushuitan.com/open/inventory/count/query", data=json.dumps(params))
data = response.json()

# 数据清洗与转换
cleaned_data = []
for record in data['records']:
    cleaned_record = {
        'inventory_id': record['io_id'],
        'product_code': record['product_code'],
        'quantity': record['quantity'],
        'last_modified': datetime.strptime(record['modified_time'], '%Y-%m-%d %H:%M:%S')
    }
    cleaned_data.append(cleaned_record)

# 输出清洗后的数据
print(json.dumps(cleaned_data, indent=4, default=str))

自动填充与延迟处理

元数据配置中提到的autoFillResponse和delay参数也需要注意：

autoFillResponse: 如果设置为true，系统会自动填充响应结果，无需手动处理。这可以简化部分工作流程，但也可能限制自定义处理的灵活性。
delay: 表示延迟处理的秒数。在某些情况下，为了避免频繁调用API导致系统负载过高，可以设置适当的延迟。

通过以上步骤，我们可以高效地调用聚水潭接口获取库存盘点数据，并对其进行必要的清洗和转换，为后续的数据写入和分析打下坚实基础。用友与外部系统接口集成开发

数据集成平台生命周期中的ETL转换与写入MySQLAPI接口

在数据集成的过程中，将源平台的数据转换为目标平台能够接收的格式并写入，是一个至关重要的步骤。本文将深入探讨如何通过轻易云数据集成平台，将聚水潭的库存盘点查询数据转换并写入BI彩度的库存盘点表，具体到MySQLAPI接口。

配置元数据解析

首先，我们需要理解元数据配置中的各个字段及其作用。以下是元数据配置的详细说明：

{
  "api": "batchexecute",
  "effect": "EXECUTE",
  "method": "POST",
  "idCheck": true,
  "request": [
    {"field": "type", "label": "单据类型", "type": "string", "value": "{type}"},
    {"field": "io_id", "label": "盘点单号", "type": "string", "value": "{io_id}"},
    {"field": "io_date", "label": "单据日期", "type": "string", "value": "{io_date}"},
    {"field": "status", 
     ...
    }
  ],
  ...
}

API和Method：这里指定了API接口为batchexecute，请求方法为POST，表示我们将通过HTTP POST方法批量执行数据操作。
ID Check：设置为true，表示在进行数据操作时需要进行ID校验。
Request字段：这是一个包含多个字段的数组，每个字段对应一个具体的数据项，如单据类型、盘点单号、单据日期等。这些字段将在ETL过程中被映射和转换。

数据请求与清洗

在ETL过程开始之前，我们需要从源平台（聚水潭）获取库存盘点查询的数据，并对其进行清洗。假设我们已经完成了这一步，现在我们有一组干净的数据等待转换。

数据转换

接下来，我们需要将这些源数据转换为目标平台（BI彩度）所能接收的格式。根据元数据配置，我们可以构建如下的SQL语句：

REPLACE INTO inventory_count_query 
(type, io_id, io_date, status, warehouse, creator_name, remark, wh_id, wms_co_id, modified, items_io_id, items_ioi_id, items_sku_id, items_i_id, items_name, items_properties_value, items_r_qty, items_qty, items_batch_id, items_product_date, items_supplier_id, items_expiration_date) 
VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)

在实际操作中，这些占位符将被具体的数据值所替换。例如：

REPLACE INTO inventory_count_query 
(type, io_id, io_date, status, warehouse, creator_name, remark, wh_id, wms_co_id, modified, items_io_id, items_ioi_id, items_sku_id, items_i_id, items_name, items_properties_value, items_r_qty, items_qty, items_batch_id, items_product_date, items_supplier_id,
items_expiration_date) 
VALUES ('盘点', 'PD20231001', '2023-10-01', 'Confirmed', '主仓库', '张三', '', '1', '001', '2023-10-01 12:00:00', 'PD20231001', 'PD20231001001', 'SKU12345', 'I12345', '商品A', '红色;M码', '100', '-5', 'BATCH001', '2023-09-30', 'SUP001',
'2024-09-30')

数据写入

完成数据转换后，我们使用轻易云提供的API接口将这些数据写入目标平台。具体操作如下：

构建HTTP请求：根据元数据配置，构建HTTP POST请求，将转换后的SQL语句作为请求体发送到batchexecute API。
发送请求：利用HTTP客户端库（如curl、Postman或编程语言内置的HTTP库）发送请求，并处理响应。

示例代码（Python）：

import requests

url = "<轻易云API_ENDPOINT>/batchexecute"
headers = {
    'Content-Type': 'application/json'
}
payload = {
    # 根据元数据配置构建请求体
    ...
}

response = requests.post(url=url,
                         headers=headers,
                         json=payload)

if response.status_code == 200:
    print("Data successfully written to MySQL")
else:
    print("Failed to write data:", response.text)

通过上述步骤，成功实现了从聚水潭到BI彩度库存盘点表的数据集成。在这个过程中，轻易云提供了全透明可视化的操作界面，使得每个环节都清晰易懂，并实时监控数据流动和处理状态，大大提升了业务透明度和效率。如何对接金蝶云星空API接口