使用轻易云平台进行ETL转换和数据写入

2022-08-06 02:00:03
轻易云集成顾问-林峰

案例分享：金蝶云星空数据集成到轻易云集成平台

在实际企业信息化中，系统间的数据对接与集成是一个常见且重要的环节。本案例将聚焦于通过轻易云集成平台实现金蝶云星空数据无缝对接，以确保仓库管理信息实时同步。具体方案名为“查询金蝶仓库对应表”，涵盖了从获取到处理、写入的整个流程。

集成框架及步骤概述

为了确保数据准确性和及时性，我们需首先调用金蝶云星空的API接口executeBillQuery以抓取最新的数据。这一步骤我们采用定时任务机制来保证数据的可靠更新，并结合错误重试策略以应对网络波动或临时故障。同时针对分页大数据处理，设计了合理的限流控制机制。

轻易云集成平台支持批量快速写入功能，为大量分步获取的数据提供高效存储解决方案。在完成初步抓取后，通过映射规则，将不同格式的数据进行转换并导入至指定目标表中。此过程中亦带出了异常处理与日志记录，这不仅帮助追踪问题，还能根据需求做出调整优化。

技术细节解析

如何调用executeBillQuery接口：
- 首先必须确定请求参数，包括时间戳、认证信息等。
- 采用异步方式发起HTTP请求，以提高并发效率。
- 对返回结果进行解析，并按业务逻辑提取需要的信息字段。
分页及限流问题处理：分页函数能够有效分割超大体量数据，使得每次传输均保持稳定可控。我们设置了动态调整阈值的方法，根据当前服务器负荷决定每页大小，从而避免由于过度加载引起的问题。此外，为防止暴力访问导致API封禁，我们使用Token Bucket算法限流，通过平滑输出速率来保护系统安全性及响应速度。
格式差异转译：数据从JSON结构转换为关系型数据库所需格式，是本案例的一大难点之一。凭借灵活自定义的数据映射功能，用户可以设定转换规则，在保存前就完成必要转化，如数值类型校验、日期格式规范化等操作，大幅简化后续分析和应用工作量。
监控和日志记录：每个步骤都嵌有详细的状态反馈与日志记载，无论成功还是失败，都有迹可循。如同黑匣子一般，把所有行为全程记录下来。一旦发生异常，可以追溯具体操作并快速定位修正。目前已开通邮件通知服务，即便偶尔离

调用金蝶云星空接口executeBillQuery获取并加工数据

在数据集成过程中，调用源系统的API接口是至关重要的一步。本文将详细探讨如何通过轻易云数据集成平台调用金蝶云星空的executeBillQuery接口，以获取并加工所需的数据。

接口概述

金蝶云星空的executeBillQuery接口主要用于查询特定表单的数据。该接口采用POST方法，支持多种查询参数和分页功能。以下是元数据配置中的主要字段：

api: executeBillQuery
method: POST
number: FNumber
id: FID

请求参数配置

根据元数据配置，我们需要构建一个包含多个字段的请求体。这些字段包括实体主键、仓库名称、仓库编码等。以下是请求参数的详细说明：

{
  "FID": "实体主键",
  "FName": "旺店通仓库名称",
  "FNumber": "旺店通仓库编码",
  "FDescription": "描述",
  "F_PBLH_MAPPINGTYPE": "映射类型(多选)",
  "F_PBLH_WMSTYPE": "是否云仓",
  "F_PBLH_KINGDEESTOCK.fnumber": "金蝶仓库",
  "F_PBLH_OrgId_apv.fnumber": "仓库组织"
}

此外，还有一些其他请求参数，用于分页和过滤：

{
  "Limit": 2000,
  "StartRow": "",
  "TopRowCount": "",
  "FilterString": "FApproveDate>='{{LAST_SYNC_TIME|dateTime}}'",
  "FieldKeys": [],
  "FormId": "PBLH_WDTSTOCK"
}

实际调用示例

为了更好地理解如何调用该接口，以下是一个实际的请求示例：

{
  "FormId": "PBLH_WDTSTOCK",
  "FieldKeys": ["FID", "FName", "FNumber", "FDescription", 
                "F_PBLH_MAPPINGTYPE", 
                "F_PBLH_WMSTYPE", 
                "F_PBLH_KINGDEESTOCK.fnumber", 
                "F_PBLH_OrgId_apv.fnumber"],
  "FilterString": "",
  "Limit": 2000,
  "StartRow": ""
}

在这个示例中，我们指定了表单ID为PBLH_WDTSTOCK，并选择了多个字段进行查询。同时，通过设置分页参数Limit为2000，我们可以一次性获取最多2000条记录。

数据清洗与转换

获取到原始数据后，需要对其进行清洗和转换，以便后续处理。具体步骤如下：

数据清洗：去除无效或重复的数据。例如，可以通过检查主键（如FID）来确保每条记录的唯一性。
数据转换：将原始数据转换为目标系统所需的格式。例如，将日期格式从YYYY-MM-DD转换为MM/DD/YYYY，或者将数值型字段从字符串转换为整数。

以下是一个简单的数据清洗与转换示例代码（假设使用Python）：

import json

def clean_and_transform(data):
    cleaned_data = []
    for record in data:
        if record['FID'] and record['FID'] not in [r['FID'] for r in cleaned_data]:
            transformed_record = {
                'ID': int(record['FID']),
                'Name': record['FName'],
                'Code': record['FNumber'],
                'Description': record['FDescription'],
                'MappingType': record['F_PBLH_MAPPINGTYPE'],
                'IsCloudWarehouse': record['F_PBLH_WMSTYPE'] == 'Yes',
                'KingdeeWarehouseCode': record['F_PBLH_KINGDEESTOCK.fnumber'],
                'OrganizationCode': record['F_PBLH_OrgId_apv.fnumber']
            }
            cleaned_data.append(transformed_record)
    return cleaned_data

# 示例调用
raw_data = '[{"FID":"1","FName":"Warehouse A","...}]' # 假设这是从API返回的原始JSON数据
data = json.loads(raw_data)
cleaned_data = clean_and_transform(data)
print(cleaned_data)

总结

通过轻易云数据集成平台调用金蝶云星空的executeBillQuery接口，可以高效地获取所需的数据。在此过程中，合理配置请求参数并进行必要的数据清洗与转换，是确保数据质量和一致性的关键步骤。希望本文提供的技术细节能帮助您更好地理解和应用这一过程。用友BIP接口开发配置

使用轻易云数据集成平台进行ETL转换并写入目标平台

在数据集成生命周期的第二步中，我们需要将已经集成的源平台数据进行ETL转换，并最终写入目标平台。本文将详细探讨如何利用轻易云数据集成平台的API接口，完成这一过程。

数据请求与清洗

首先，我们需要从源系统（例如金蝶仓库）获取原始数据。这一步通常涉及到通过API或数据库连接来提取数据。假设我们已经成功获取了这些数据，接下来我们需要对其进行清洗和预处理。这包括但不限于以下操作：

去重：删除重复记录。
缺失值处理：填补或删除缺失值。
数据类型转换：确保每个字段的数据类型符合目标平台的要求。

数据转换

在完成初步的数据清洗后，接下来就是将这些数据转换为目标平台所能接受的格式。这里我们重点介绍如何利用轻易云集成平台的API接口来实现这一过程。

配置元数据

根据提供的元数据配置，我们需要设置如下参数：

{
  "api": "写入空操作",
  "effect": "EXECUTE",
  "method": "POST",
  "idCheck": true
}

这些参数定义了我们将要调用的API接口及其相关属性：

api: 指定了我们将调用的API名称，这里是“写入空操作”。
effect: 定义了API调用的效果，这里是“EXECUTE”，表示执行操作。
method: 指定了HTTP请求方法，这里是“POST”。
idCheck: 表示是否需要进行ID检查，这里为true。

调用API接口

在实际操作中，我们需要编写代码来调用这个API接口。以下是一个Python示例，展示如何使用requests库来实现这一过程：

import requests
import json

# 定义API URL和头部信息
api_url = "https://your-api-endpoint.com/execute"
headers = {
    "Content-Type": "application/json",
    "Authorization": "Bearer your_access_token"
}

# 准备要发送的数据
data = {
    # 根据实际需求填充要发送的数据
}

# 发起POST请求
response = requests.post(api_url, headers=headers, data=json.dumps(data))

# 检查响应状态码
if response.status_code == 200:
    print("Data successfully written to the target platform.")
else:
    print(f"Failed to write data. Status code: {response.status_code}")

在这个示例中，我们首先定义了API URL和必要的头部信息，然后准备要发送的数据。接着，通过requests.post方法发起POST请求，并检查响应状态码以确认操作是否成功。

数据写入

一旦数据成功转换并通过API接口发送到目标平台，最后一步就是确认这些数据已经正确写入。根据我们的元数据配置，“idCheck”为true，这意味着在写入之前会进行ID检查，以确保不会发生重复记录或冲突。

通过这种方式，我们可以确保整个ETL过程高效、准确地完成，从而实现不同系统间的数据无缝对接。

以上即为利用轻易云数据集成平台进行ETL转换并写入目标平台的详细技术流程，希望对您的实际操作有所帮助。如何开发钉钉API接口