从金蝶云到轻易云的数据ETL转换与写入

2023-11-02 17:31:14
轻易云集成顾问-叶威宏

金蝶云星空数据集成到轻易云集成平台：一个高效的解决方案

在本文中，我们将详细探讨如何实现金蝶云星空的数据无缝对接到轻易云集成平台，重点分享一次实际运行的项目——"金蝶销售订单查询"。通过深入解析API接口调用、数据处理和出错重试机制等技术细节，展示我们是如何确保数据完整性和系统稳定性的。

首先，让我们来看一看这个系统对接案例中的核心任务——从金蝶云星空获取销售订单数据，并将这些数据快速而可靠地写入到轻易云集成平台。这次集成过程中，主要面对以下几个关键挑战：

如何调用金蝶云星空接口executeBillQuery：为了有效抓取销售订单信息，我们使用了金蝶提供的executeBillQuery API，这需要精确配置请求参数以确保正确的数据返回。
定时可靠的抓取金蝶云星空接口数据：采用计划任务调度机制，在指定时间间隔内自动拉取最新订单，有效避免因网络波动或服务器负载引起的数据遗漏问题。
批量集成本地化缓存及内存管理: 大量订单数据需要先在本地进行缓冲，然后再批量写入至目标平台，从而极大提升处理效率，并减少API调用次数。
处理分页和限流问题: 针对大规模多页结果，需要设计分页逻辑，以及合理控制API请求频率，以防止触发服务端限流措施。
异常处理与错误重试机制：在整个操作流程中不可避免会遇到各种意外情况，比如网络故障、API调用失败等。因此实施了完善的异常捕捉和智能重试策略，确保即使发生错误也不影响全局操作进展。
实时监控与日志记录：实现全过程监控并记录每个步骤状态，通过日志审计功能追踪所有操作轨迹，为后续分析与优化提供依据。

通过上述方法，不仅实际解决了具体业务需求，还为未来其他项目提供了一套行之有效的数据集成功能模块。在下一部分内容中，我们将逐步揭示各技术细节以及代码实现过程，以便读者能够更好理解整个解决方案。打通企业微信数据接口

调用金蝶云星空接口executeBillQuery获取并加工数据

在数据集成的生命周期中，调用源系统接口获取数据是至关重要的第一步。本文将详细介绍如何通过轻易云数据集成平台调用金蝶云星空的executeBillQuery接口，获取销售订单数据并进行初步加工。

接口配置与请求参数

首先，我们需要配置元数据来定义API调用的细节。以下是我们在轻易云平台上配置的元数据：

{
  "api": "executeBillQuery",
  "method": "POST",
  "number": "FBillNo",
  "id": "FSaleOrderEntry_FEntryID",
  "pagination": {
    "pageSize": 500
  },
  "idCheck": true,
  "request": [
    {"field":"FSaleOrderEntry_FEntryID","label":"FSaleOrderEntry_FEntryID","type":"string","value":"FSaleOrderEntry_FEntryID"},
    {"field":"FID","label":"FID","type":"string","value":"FID"},
    {"field":"FBillNo","label":"单据编号","type":"string","value":"FBillNo"},
    {"field":"FDocumentStatus","label":"单据状态","type":"string","value":"FDocumentStatus"},
    {"field":"FSaleOrgId_FNumber","label":"销售组织","type":"string","value":"FSaleOrgId.FNumber"},
    {"field":"FDate","label":"日期","type":"string","value":"FDate"},
    {"field":"FCustId_FNumber","label":"客户","type":"string","value":"FCustId.FNumber"},
    {"field":"FSaleDeptId_Fnumber","label":"销售部门","type":"string","value":"FSaleDeptId.Fnumber"},
    {"field":"FReceiveAddress","label":"收货地址","type":"string","value":"FReceiveAddress"},
    {"field":"FBillTypeID_Fnumber","label":"单据类型","type":"string","value":"FBillTypeID.Fnumber"},
    {"field":"FBusinessType","label":"业务类型","type":"string","value":"FBusinessType"},
    {"field": "FHEADLOCID", "label": "交货地点", "type": "string", "value": "FHEADLOCID"},
    // ... (省略部分字段)
  ],
  "otherRequest": [
    {"field": "Limit", "label": "最大行数", "type": "string", "describe": "金蝶的查询分页参数", "value": "{PAGINATION_PAGE_SIZE}"},
    {"field": "StartRow", "label": "开始行索引", "type": "string", "describe": "金蝶的查询分页参数", "value": "{PAGINATION_START_ROW}"},
    {"field": "TopRowCount", "label": "返回总行数", "type": "int", "describe": ""},
    {"field": "FilterString", 
        "label": 
        "过滤条件",
        "type":
        "string",
        "describe":
        "示例写法 FSupplierId.FNumber = 'VEN00010' and FApproveDate>=",
        "value":
        "FApproveDate>='{{LAST_SYNC_TIME|dateTime}}'"
   },
   {
        "field":
        "FieldKeys",
        "label":
        "需查询的字段key集合",
        "type":
        "array",
        "describe":
        "金蝶分录主键ID格式：FPOOrderEntry_FEntryId,其它格式 FPurchaseOrgId.FNumber",
        "parser":{
                "name":
                "ArrayToString",
                "params":
                ","
       }
   },
   {
        "field":
        "FormId",
        "label":
        "业务对象表单Id",
        "type":
        "string",
        "describe":
        "必须填写金蝶的表单ID如:PUR_PurchaseOrder",
        "value":
        SAL_SaleOrder
   }
 ]
}

请求与响应处理

在配置好元数据后，我们可以通过轻易云平台发起对executeBillQuery接口的请求。以下是一个典型的请求体示例：

{
  "_FormId_":"",
  "_FieldKeys_":"",
  "_FilterString_":"",
  "_TopRowCount_":"",
  "_Limit_":"",
  "_StartRow_":"",
}

该请求体会根据元数据中的配置自动填充相应字段和参数。特别需要注意的是，分页参数（如Limit和StartRow）以及过滤条件（如FilterString）会动态生成，以确保每次请求都能获取最新的数据。

数据清洗与转换

在获取到原始数据后，我们需要对其进行清洗和转换，以便后续处理。以下是一些常见的数据清洗操作：

字段映射：将原始字段名映射为目标系统所需的字段名。
数据类型转换：将字符串类型的数据转换为日期、数值等目标类型。
缺失值处理：对于缺失或异常值进行填补或删除。

例如，对于日期字段FDate，我们可能需要将其从字符串格式转换为标准日期格式：

import datetime

def convert_date(date_str):
    return datetime.datetime.strptime(date_str, '%Y-%m-%d').date()

数据写入

经过清洗和转换的数据可以写入目标系统。这一步通常包括以下操作：

建立数据库连接：连接到目标数据库或系统。
批量插入：使用批量插入技术提高写入效率。
事务管理：确保数据一致性，避免部分失败导致的数据不完整问题。

例如，使用Python连接MySQL数据库并进行批量插入：

import mysql.connector

def insert_data(data):
    conn = mysql.connector.connect(user='user', password='password', host='127.0.0.1', database='database')
    cursor = conn.cursor()

    insert_query = ("INSERT INTO sales_order "
                    "(order_id, order_date, customer_id, total_amount) "
                    "VALUES (%s, %s, %s, %s)")

    cursor.executemany(insert_query, data)

    conn.commit()
    cursor.close()
    conn.close()

通过以上步骤，我们可以高效地从金蝶云星空获取销售订单数据，并将其集成到目标系统中。这不仅提高了数据处理效率，也确保了业务流程的一致性和透明度。打通企业微信数据接口

金蝶销售订单查询数据的ETL转换与写入轻易云集成平台

在数据集成生命周期的第二步，我们将已经从源平台（金蝶）集成的销售订单数据进行ETL转换，使其符合目标平台（轻易云集成平台API接口）的格式要求，并最终写入目标平台。本文将深入探讨这一过程中涉及的技术细节和实现方法。

数据请求与清洗

首先，从金蝶系统中提取销售订单数据。假设我们已经通过API或数据库连接获取了原始数据，这些数据通常包含订单号、客户信息、商品详情、数量、价格等字段。在这个阶段，我们需要对这些原始数据进行清洗，确保数据的完整性和准确性。例如：

去除重复记录
处理缺失值
格式化日期和数值

# 示例代码：清洗原始数据
import pandas as pd

# 假设从金蝶系统获取的数据存储在dataframe中
df = pd.read_csv('sales_orders.csv')

# 去除重复记录
df.drop_duplicates(inplace=True)

# 处理缺失值，例如将缺失的客户信息填充为'未知'
df['customer_name'].fillna('未知', inplace=True)

# 格式化日期
df['order_date'] = pd.to_datetime(df['order_date'], format='%Y-%m-%d')

数据转换

接下来，我们需要将清洗后的数据转换为轻易云集成平台API接口能够接收的格式。根据提供的元数据配置，目标API接口为“写入空操作”，使用POST方法，并且需要进行ID检查（idCheck: true）。

首先，我们定义目标API所需的数据结构。假设目标API要求的数据格式如下：

{
    "order_id": "12345",
    "customer": {
        "name": "张三",
        "id": "C001"
    },
    "items": [
        {
            "product_id": "P001",
            "quantity": 2,
            "price": 100.0
        }
    ],
    "total_amount": 200.0,
    "order_date": "2023-10-01"
}

我们需要将金蝶系统中的销售订单数据转换为上述格式。

# 示例代码：转换数据格式
def transform_order_data(row):
    return {
        "order_id": row['order_id'],
        "customer": {
            "name": row['customer_name'],
            "id": row['customer_id']
        },
        "items": [
            {
                "product_id": row['product_id'],
                "quantity": row['quantity'],
                "price": row['price']
            }
        ],
        "total_amount": row['quantity'] * row['price'],
        "order_date": row['order_date'].strftime('%Y-%m-%d')
    }

transformed_data = df.apply(transform_order_data, axis=1).tolist()

数据写入

最后一步是将转换后的数据通过轻易云集成平台API接口写入目标平台。根据元数据配置，我们使用POST方法，并且在写入前进行ID检查。

import requests

api_url = 'https://api.qingyiyun.com/write_empty_operation'
headers = {'Content-Type': 'application/json'}

for order in transformed_data:
    # ID检查逻辑（示例）
    if not check_order_id(order['order_id']):
        response = requests.post(api_url, json=order, headers=headers)
        if response.status_code == 200:
            print(f"Order {order['order_id']} written successfully.")
        else:
            print(f"Failed to write order {order['order_id']}: {response.text}")

在上述代码中，check_order_id函数用于检查订单ID是否已存在，以避免重复写入。

def check_order_id(order_id):
    # 示例ID检查逻辑，可以通过查询数据库或调用API实现
    existing_ids = get_existing_order_ids()
    return order_id in existing_ids

def get_existing_order_ids():
    # 示例函数，返回已存在的订单ID列表
    return ["12345", "67890"]

通过以上步骤，我们完成了从金蝶系统到轻易云集成平台的数据ETL转换和写入过程。这一过程确保了数据在不同系统之间无缝对接，同时保证了数据的一致性和完整性。钉钉与CRM系统接口开发配置