从聚水潭调用数据并进行清洗转换的实战指南

使用轻易云实现聚水潭到MySQL的数据ETL流程

2023-07-03 12:07:50
轻易云集成顾问-彭亮

聚水潭-商品信息查询 --> BI崛起-商品信息表：聚水潭数据集成到MySQL的技术实现

在构建高效的数据集成方案中，如何可靠地将聚水潭平台上的商品信息快速且准确地对接至MySQL数据库，是提升业务分析能力和优化决策支持的重要步骤。本文将分享一个具体案例，通过轻易云数据集成平台，将聚水潭的商品信息成功同步至BI崛起系统中的MySQL数据库。

本次集成任务以“聚水潭-商品信息查询-->BI崛起-商品信息表”为目标，选用了/open/sku/query接口来抓取聚水潭的SKU（Stock Keeping Unit）详细数据，同时利用 batchexecute API接口完成向MySQL大批量写入操作。在整个过程当中，我们不仅要处理API调用过程中的分页和限流问题，还需要针对两者之间的数据格式差异进行适配和转换，并保证数据不会遗漏。

首先，为确保海量的SKU数据能够及时响应并被正确处理，我们特别关注了以下关键技术点：

定时及可靠性： 通过调度器定时触发 /open/sku/query 接口，从而周期性获取最新的SKU数据信息。这一步骤避免了手工操作的不确定性，提高了自动化程度。
分页与限流: 为应对API请求限制，采用分页抓取策略，确保每次请求都能从上一次结束的位置继续抓取，以防止超出单次调用限额。同时，通过异常重试机制，实现对部分失败请求的自动恢复。
自定义数据转换: 对于从聚水潭获取到的数据，根据业务需求进行了必要的信息提取、字段映射和格式转换，以确保其符合后续在MySQL数据库中存储使用。
高吞吐量写入: 利用 MySQL 批量插入功能 (batchexecute) 实现高效率的大规模数据导入，有效缩短更新延迟时间，使得系统始终保持最新状态。
实时监控与告警: 配置了集中监控和告警系统，对每个步骤进行实时追踪。无论是抓取过程中还是写入阶段，如果出现任何异常情况，都能迅速收到通知并采取相应措施，大幅提升稳定性和可维护性。

通过以上步骤，可以显著提高从聚水潭到BI崛起系统间的数据传输效率，并最大化减少可能存在的问题。而这些精细化配置无疑让企业在实施过程中，更加游刃有余，为未来更多复杂的数据集成场景提供坚实基础。金蝶与MES系统接口开发配置

调用聚水潭接口获取商品信息并进行数据加工

在数据集成生命周期的第一步，我们需要调用聚水潭的商品信息查询接口/open/sku/query，以获取源系统的数据，并对其进行初步加工。本文将详细探讨如何配置和使用该接口，确保数据能够顺利流入后续的处理环节。

接口配置与调用

首先，我们需要了解该接口的基本配置和请求参数。根据提供的元数据配置，接口使用POST方法进行调用，主要参数如下：

page_index: 开始页，从第一页开始，默认值为1。
page_size: 每页条数，默认30条，最大50条。
modified_begin: 修改起始时间，与结束时间必须同时存在，时间间隔不能超过七天。
modified_end: 修改结束时间，与起始时间必须同时存在，时间间隔不能超过七天。

这些参数确保我们能够分页获取商品信息，并且可以通过时间范围过滤出最近修改的数据。

请求参数示例

为了更好地理解请求参数的设置，我们可以参考以下示例：

{
  "page_index": "1",
  "page_size": "50",
  "modified_begin": "{{LAST_SYNC_TIME|datetime}}",
  "modified_end": "{{CURRENT_TIME|datetime}}"
}

在这个示例中，{{LAST_SYNC_TIME|datetime}}和{{CURRENT_TIME|datetime}}分别代表上次同步时间和当前时间，这两个占位符将在实际调用时被具体的时间值替换。

数据清洗与转换

在成功获取到商品信息后，我们需要对数据进行清洗和转换，以便后续写入目标系统。在轻易云数据集成平台中，可以通过可视化操作界面对数据进行处理。以下是一些常见的数据清洗步骤：

字段映射：将源系统中的字段映射到目标系统中的相应字段。例如，将sku_id映射到目标系统中的商品ID字段。
数据格式转换：将日期、数值等字段转换为目标系统所需的格式。例如，将日期格式从YYYY-MM-DD HH:MM:SS转换为目标系统所需的格式。
数据过滤：根据业务需求过滤掉不需要的数据。例如，只保留状态为启用（enabled=1）的商品信息。

示例代码

以下是一个简单的Python示例代码，用于调用聚水潭接口并处理返回的数据：

import requests
import json
from datetime import datetime, timedelta

# 设置请求URL和头部信息
url = "https://api.jushuitan.com/open/sku/query"
headers = {
    "Content-Type": "application/json"
}

# 设置请求参数
params = {
    "page_index": "1",
    "page_size": "50",
    "modified_begin": (datetime.now() - timedelta(days=7)).strftime("%Y-%m-%d %H:%M:%S"),
    "modified_end": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
}

# 发起POST请求
response = requests.post(url, headers=headers, data=json.dumps(params))

# 检查响应状态码
if response.status_code == 200:
    data = response.json()
    # 对返回的数据进行处理，例如字段映射、格式转换等
    for item in data.get("items", []):
        sku_id = item.get("sku_id")
        # 其他处理逻辑...
else:
    print(f"请求失败，状态码：{response.status_code}")

实时监控与异常处理

在实际应用中，实时监控和异常处理也是至关重要的一环。轻易云数据集成平台提供了实时监控功能，可以帮助我们及时发现并解决问题。例如，当接口调用失败或返回异常数据时，可以通过平台的告警机制及时通知相关人员进行处理。

通过上述步骤，我们能够高效地调用聚水潭接口获取商品信息，并对其进行初步加工，为后续的数据处理奠定坚实基础。这不仅提升了业务透明度和效率，也确保了数据的一致性和准确性。用友BIP接口开发配置

使用轻易云数据集成平台进行ETL转换并写入MySQLAPI接口

在数据集成生命周期的第二步，我们需要将已经集成的源平台数据进行ETL（Extract, Transform, Load）转换，转为目标平台 MySQLAPI 接口所能够接收的格式，并最终写入目标平台。本文将详细探讨这一过程中的技术细节和实现方法。

1. 数据提取与清洗

首先，我们从源平台聚水潭中提取商品信息数据。这些数据包括商品编码、款式编码、商品名称等多个字段。为了确保数据的准确性和一致性，需要对提取的数据进行清洗和预处理。例如，去除重复记录、填补缺失值以及标准化字段格式等。

2. 数据转换

在完成数据清洗后，我们需要将这些数据转换为目标平台 MySQLAPI 接口所能接收的格式。根据提供的元数据配置，我们可以看到需要映射的字段及其对应关系：

{
  "api": "batchexecute",
  "effect": "EXECUTE",
  "method": "POST",
  "number": "id",
  "id": "id",
  "name": "id",
  "idCheck": true,
  "request": [
    {"field":"sku_id","label":"商品编码","type":"string","value":"{sku_id}"},
    {"field":"i_id","label":"款式编码","type":"string","value":"{i_id}"},
    {"field":"name","label":"商品名称","type":"string","value":"{name}"},
    {"field":"short_name","label":"商品简称","type":"string","value":"{short_name}"},
    {"field":"sale_price","label":"销售价","type":"string","value":"{sale_price}"},
    {"field":"cost_price","label":"成本价","type":"string","value":"{cost_price}"},
    {"field":"properties_value","label":"颜色规格","type":"string","value":"{properties_value}"},
    {"field":"c_id","label":"类目id","type":"string","value":"{c_id}"},
    {"field":"category","label":"分类","type":"string","value":"{category}"},
    {"field":"enabled","label":"是否启用","type":"string","value":"{enabled}"},
    {"field":"weight","label":"重量","type":"string","value":"{weight}"},
    {"field":"market_price","label":"市场价","type":"string","value":"{market_price}"},
    {"field":...}
  ],
  "otherRequest": [
    {
      "field": "main_sql",
      "label": "主语句",
      "type": "string",
      "describe": "SQL首次执行的语句，将会返回:lastInsertId",
      "value": 
        `REPLACE INTO sku_query 
        (sku_id, i_id, name, short_name, sale_price, cost_price, properties_value, c_id, category, enabled, weight, market_price, brand, supplier_id, supplier_name, modified, sku_code, supplier_sku_id, supplier_i_id, vc_name, sku_type, creator, created, remark, item_type, stock_disabled, unit, shelf_life, labels,
        production_licence,l,w,h,is_series_number,
        other_price_1,...)
        VALUES`
    },
    {
      "field": "limit",
      "label": "limit",
      "type": "string",
      "value": "1000"
    }
  ]
}

3. 数据加载

完成数据转换后，即可通过MySQLAPI接口将数据写入目标数据库。在此过程中，我们使用POST方法调用batchexecute API，将转换后的数据批量插入到MySQL数据库中。

以下是一个示例代码片段，展示了如何通过HTTP请求将转换后的数据发送到MySQLAPI接口：

import requests
import json

# 定义API URL和Headers
url = 'http://your-mysql-api-endpoint/batchexecute'
headers = {'Content-Type': 'application/json'}

# 构建请求体
payload = {
  'main_sql': 'REPLACE INTO sku_query (sku_id,i_id,name,...other_fields...) VALUES',
  'request': [
    {'sku_id': '12345', 'i_id': 'A1', 'name': 'Product A', ...other_fields...},
    {'sku_id': '67890', 'i_id': 'B2', 'name': 'Product B', ...other_fields...},
    ...
  ],
  'limit': '1000'
}

# 将请求体转为JSON格式
data = json.dumps(payload)

# 发起POST请求
response = requests.post(url, headers=headers, data=data)

# 检查响应状态
if response.status_code == 200:
    print('Data successfully loaded into MySQL.')
else:
    print(f'Failed to load data: {response.text}')

技术要点总结

字段映射与转换：确保源平台的数据字段正确映射到目标平台的字段，并进行必要的数据类型转换。
批量操作：使用批量操作提高数据加载效率，避免逐条插入导致性能瓶颈。
错误处理：在实际操作中，需添加错误处理机制，以便及时发现并解决可能出现的问题。

通过上述步骤，可以高效地将源平台的数据经过ETL处理后，成功写入到目标MySQL数据库中，实现系统间的数据无缝对接。用友与WMS系统接口开发配置