全面详解：轻易云平台下的采购入库单数据清洗与入库

2022-08-16 16:28:15
轻易云集成顾问-冯潇

聚水潭数据集成到MySQL：采购入库单对接BI初本

在实际业务场景中，如何高效、准确地将聚水潭系统中的采购入库单数据集成到MySQL数据库，是一个常见但又复杂的技术挑战。本次我们探讨的是一种具体的解决方案，通过轻易云数据集成平台，将聚水潭的采购入库单(/open/purchasein/query API)无缝对接至BI初本中的采购入库表，并确保数据处理过程中不漏单、不重写。

数据抓取与转换逻辑配置

首先，我们需要定时可靠地从聚水潭接口抓取采购入库数据。得益于轻易云平台的任务调度与监控功能，我们可以设置定时任务，每隔一定时间自动调用聚水潭提供的数据查询API，从而获取最新的采购入库记录。在这个过程中，我们还需要关注分页和限流问题，以避免因请求频率过高造成API访问失败。

其次，为了适应不同系统间的数据结构差异，需要自定义数据转换逻辑。使用轻易云提供的可视化数据流设计工具，可以非常直观地映射和转换字段。例如，聚水潭返回的数据可能包含多层嵌套结构，而MySQL表则要求扁平化处理，这就需要进行相应的数据解包和平铺操作。此外，还需根据业务需求进行字段映射，如将"purchaseId"映射为"MySQL_PurID"，以保持一致性。

大量数据快速写入技术

在完成初步的数据转换后，需要将这些大体量、高频次更新的数据可靠、高效地批量写入MySQL数据库。这里采用的是MySQL提供的batchexecute API，通过优化批量插入操作，实现高吞吐量的数据写入能力。同时借助集中式监控和告警系统，实时跟踪每个批次操作的状态并及时发现异常情况。一旦检测到错误，可通过预设重试机制进行自动修复，从而保证整个流程的一致性和可靠性。

质量控制与日志管理

为了保证最终存储在MySQL中的数据信息高度准确，全程启用了严密的数据质量监控手段，对每一条记录执行校验规则，一旦发现异常立即报警并开始处理。这种方式不仅提高了系统整体稳定性，还为日后的审计工作打下坚实基础。此外，通过实施详细日志记录策略，可以追溯每一次接口调用、每一项转化操作以及所有数据库交互，使问题排查更具透明度和可操纵性。

以上步骤构建起一个端到端、安全高效且高度可拓展性的采销管理系统，有力支撑企业决策分析及用友与SCM系统接口开发配置

调用聚水潭接口/open/purchasein/query获取并加工数据的技术案例

在数据集成过程中，调用源系统接口是关键的一步。本文将详细探讨如何通过轻易云数据集成平台调用聚水潭接口/open/purchasein/query获取采购入库单数据，并对其进行初步加工处理。

接口配置与请求参数

首先，我们需要配置调用聚水潭接口的元数据。以下是该接口的元数据配置：

{
  "api": "/open/purchasein/query",
  "effect": "QUERY",
  "method": "POST",
  "number": "io_id",
  "id": "io_id",
  "name": "io_id",
  "idCheck": true,
  "request": [
    {"field":"page_index","label":"第几页","type":"int","describe":"从1开始","value":"1"},
    {"field":"page_size","label":"每页数量","type":"int","describe":"最大不超过50","value":"30"},
    {"field":"modified_begin","label":"修改起始时间","type":"string","describe":"起始时间和结束时间必须同时存在，时间间隔不能超过七天，与采购单号不能同时为空","value":"{{LAST_SYNC_TIME|datetime}}"},
    {"field":"modified_end","label":"修改结束时间","type":"string","describe":"起始时间和结束时间必须同时存在，时间间隔不能超过七天，与采购单号不能同时为空","value":"{{CURRENT_TIME|datetime}}"},
    {"field":"po_ids","label":"采购单号列表","type":"string","describe":"与修改时间不能同时为空.采购单号最大不能超过30条"},
    {"field":"io_ids","label":"采购入库单号列表","type":"string","describe":"与修改时间不能同时为空.采购入库单号最大不能超过30条"},
    {"field":"so_ids","label":"线上单号","type":"string","describe":"与修改时间不能同时为空"}
  ],
  "autoFillResponse": true,
  "beatFlat": ["items"]
}

请求参数详解

page_index: 指定请求的页码，从1开始。
page_size: 每页返回的数据条数，最大不超过50。
modified_begin: 数据修改的起始时间，格式为字符串，必须与modified_end一起使用。
modified_end: 数据修改的结束时间，格式为字符串，必须与modified_begin一起使用。
po_ids: 可选参数，指定要查询的采购单号列表。
io_ids: 可选参数，指定要查询的采购入库单号列表。
so_ids: 可选参数，指定要查询的线上单号。

数据请求与清洗

在实际操作中，我们通常会根据上次同步的时间（LAST_SYNC_TIME）和当前时间（CURRENT_TIME）来设置modified_begin和modified_end。这样可以确保我们只获取到最新修改的数据，从而提高数据同步效率。

例如：

{
  "page_index": 1,
  "page_size": 30,
  "modified_begin": "{{LAST_SYNC_TIME|datetime}}",
  "modified_end": "{{CURRENT_TIME|datetime}}"
}

发送POST请求后，我们会得到一个包含多个采购入库单信息的响应。为了便于后续处理，可以利用平台提供的自动填充响应功能（autoFillResponse），将响应中的数据直接映射到目标表结构中。

数据转换与写入

在获取到原始数据后，需要对其进行必要的数据清洗和转换。例如，将日期格式统一、去除无效字段等。轻易云平台支持多种数据转换操作，如字段映射、类型转换等。

假设我们需要将聚水潭返回的数据写入到BI系统中的“采购入库表”，可以通过以下步骤实现：

字段映射：将聚水潭返回的数据字段映射到BI系统对应表中的字段。例如，将聚水潭中的io_id映射到BI系统中的purchase_in_id。
类型转换：确保所有字段的数据类型一致。例如，将字符串类型的日期转换为日期类型。
去重处理：根据业务需求，对重复数据进行过滤或合并处理。

具体操作示例如下：

{
  "source_field": {
    "io_id": "purchase_in_id",
    ...
  },
  "transformations": [
    {
      "operation": "convert_type",
      "source_field": "date_string",
      "target_field": "date",
      "target_type": "datetime"
    },
    ...
  ]
}

通过上述步骤，我们可以高效地完成从聚水潭接口获取数据并写入到目标系统的全过程。这不仅提升了数据处理效率，也确保了数据的一致性和准确性。用友与WMS系统接口开发配置

轻易云数据集成平台中的ETL转换及写入MySQL API接口

在数据集成的生命周期中，ETL（Extract, Transform, Load）过程是关键的一环。本文将深入探讨如何使用轻易云数据集成平台，将已经集成的源平台数据进行ETL转换，并最终写入目标平台MySQL API接口。

数据转换与写入的元数据配置

在本案例中，我们需要将聚水潭的采购入库单数据转化为BI初本的采购入库表格式，并通过MySQL API接口写入目标数据库。以下是元数据配置的详细说明：

{
  "api": "batchexecute",
  "effect": "EXECUTE",
  "method": "SQL",
  "number": "id",
  "id": "id",
  "name": "id",
  "idCheck": true,
  "request": [
    {"field":"id","label":"主键","type":"string","value":"{io_id}-{items_ioi_id}"},
    {"field":"io_id","label":"入库单号","type":"string","value":"{io_id}"},
    {"field":"ts","label":"数据库行版本号","type":"string","describe":"https://docs.microsoft.com/zh-cn/sql/t-sql/data-types/rowversion-transact-sql?view=sql-server-ver16","value":"{ts}"},
    {"field":"warehouse","label":"仓库名称","type":"string","value":"{warehouse}"},
    {"field":"po_id","label":"采购单号","type":"string","value":"{po_id}"},
    {"field":"supplier_id","label":"供应商编号","type":"string","value":"{supplier_id}"},
    {"field":"supplier_name","label":"供应商名称","type":"string","value":"{supplier_name}"},
    {"field":"modified","label":"修改时间","type":"string","value":"{modified}"},
    {"field":"so_id","label":"线上单号","type":"string","describe":"对应采购入库页面的线上单号(且对应采购入库上传的external_id)","value":"{so_id}"},
    {"field":"out_io_id","label":"外部单号","type":"string","value":"{out_io_id}"},
    {"field":"status","label":"状态","type": "string", "describe": "状态(WaitConfirm待入库;Confirmed已入库;Cancelled取消；Archive归档；OuterConfirming外部确认中) ","value": "{status}" },
    {"field": "io_date", "label": "入库日期", "type": "string", "value": "{io_date}" },
    {"field": "wh_id", "label": "仓库编号", "type": "string", "describe": "主仓=1，销退仓=2，进货仓=3，次品仓=4，自定义1仓=6，自定义2仓=7，自定义3仓=8", "value": "{wh_id}" },
    {"field": "wms_co_id", "label": “分仓编号”, “type”: “string”, “value”: “{wms_co_id}”},
    // ...省略部分字段...
  ],
  “otherRequest”: [
    {
      “field”: “main_sql”,
      “label”: “主语句”,
      “type”: “string”,
      “describe”: “SQL首次执行的语句，将会返回:lastInsertId”,
      “value”: “REPLACE INTO purchasein_query(id, io_id, ts, warehouse, po_id, supplier_id, supplier_name, modified, so_id, out_io_id, status, io_date, wh_id, wms_co_id, remark, tax_rate, labels, archived, merge_so_id,type, creator_name,f_status,l_id,items_ioi_id,items_sku_id,items_i_id ,items_unit ,items_name ,items_qty ,items_io_i d ,items_cost_price ,items_cost_amount ,items_remark ,items_batch_no ,items_tax_rate,sns_sku_i d,sns_sn) VALUES”
    },
    {
      “field”: “limit”,
      “label”: “limit”,
      “type”: “string”,
      “value”: “1000”
    }
  ]
}

数据请求与清洗

在ETL过程中，首先要从源系统请求数据并进行清洗。上述元数据配置中的request部分定义了从源系统获取的数据字段及其映射关系。例如，{"field":“id”,“label”:“主键”,“type”:“string”,“value”:“{io_i d}-{ items_ioi_i d }”} 表示生成目标系统中的主键字段id是由源系统中的io_i d和items_ioi_i d组合而成。

数据转换

数据清洗完成后，需要对其进行转换，以符合目标系统MySQL API接口所需的数据格式。这里主要涉及字段类型转换、值映射以及必要的数据处理逻辑。例如：

将时间戳字段ts 转换为符合数据库行版本号格式。
将状态字段 status 映射为目标系统所需的枚举值。

数据写入

在完成数据转换后，通过执行SQL语句将处理后的数据批量写入目标MySQL数据库。元数据配置中的 otherRequest 部分定义了主要执行的SQL语句：

REPLACE INTO purchasein_query(id, io_i d , ts , warehouse , po_i d , supplier_i d , supplier_name , modified , so_i d , out_io_i d , status , io_date , wh_i d , wms_co_i d , remark , tax_rate , labels ， archived ， merge_so_i d ， type ， creator_name ， f_status ， l_i d ， items_ioi_i d ， items_sku _ id ， items _ i _ id ， items_unit ， items_name ， items_qty ， items_io _ id ， items_cost_price ， items_cost_amount ， items_remark ， items_batch_no ， items_tax_rate ， sns_sku _ id ， sns_sn ) VALUES

该语句采用 REPLACE INTO 的方式，可以确保如果记录已经存在则更新，不存在则插入，从而实现幂等性操作。

批量执行与性能优化

为了提高性能，通常会设置批量执行限制，例如上例中的 limit:1000 表示每次批量处理1000条记录。这种方式能够有效减少网络开销和数据库负载，提高整体处理效率。

通过以上步骤，我们实现了从聚水潭到BI初本采购入库表的数据ETL转换及写入过程。这一过程充分利用了轻易云数据集成平台提供的可视化操作界面和全异步、多异构系统支持特性，使得复杂的数据处理任务变得简单高效。钉钉与WMS系统接口开发配置