使用轻易云平台进行ETL转换：从VC年级列表到金蝶云星空

2023-01-15 14:13:35
轻易云集成顾问-吕修远

查询VC年级列表对接金蝶年级：技术案例分享

背景

在本次系统集成中，我们专注于将美国人vc文档的数据高效、可靠地集成到金蝶云星空。这一过程通过调用美国人vc文档接口/v3/students，获取所需的学生数据，并使用金蝶云星空提供的API batchSave 进行批量数据写入。本文重点说明如何处理数据格式差异、分页和限流问题，以及异常处理与错误重试机制。

通过轻易云平台实现这项复杂工作，全程可视化操作界面和实时监控能力极大简化了我们的配置难度。然而，本次分享不聚焦平台功能，而是细致剖析具体技术实践方案。

美国人vc文档API调用

为确保获取全部需要的数据，我们首先要定时可靠地抓取来自美国人vc文档的接口数据。在实际运行过程中，涉及到如何避免漏单以及对分页与限流策略的合理应用。例如：

分页处理：对于学生信息，多数情况下返回结果可能分多个页码，需要我们持续地请求每一页以确保完整性。
限流机制：面对大量请求时，应当根据API服务商提供的限制条件（如QPS）适当调整调用频率，以防止触发封锁或降低服务质量。

def fetch_vc_data(page_number):
    url = f"https://api.vcdoc.com/v3/students?page={page_number}"
    response = requests.get(url)
    if response.status_code == 200:
        return response.json()
    else:
        raise Exception("Data retrieval error")

数据格式转换与映射

从API返回的数据结构往往不能直接用于目标系统。本案例中，美国人vc文档中的学生记录字段名和内容需要根据业务需求转换映射至金蝶云星空相应字段。

def transform_vc_to_kingdee(vc_student):
    return {
        "studentId": vc_student["id"],
        "gradeName": vc_student["grade"]
        # 更多字段对应关系...
    }

实施这一转化步骤前，针对两端不同的数据格式设计详细映射规则非常关键。此外，还需考虑字段缺失或不匹配情况的容错处理，提高整个集成流程稳定性。

继续完善此部分后，可以启动批量写入阶段，将已转换好的数据推送至金蝶云星空。用友与外部系统接口集成开发

调用源系统美国人vc文档接口/v3/students获取并加工数据

在数据集成的生命周期中，调用源系统接口是至关重要的第一步。本文将详细探讨如何通过轻易云数据集成平台调用美国人vc文档接口/v3/students，并对获取的数据进行初步加工。

接口配置与调用

首先，我们需要配置元数据以便正确调用API接口。根据提供的元数据配置，我们可以看到以下关键信息：

API路径: /v3/students
请求方法: GET
分页参数: X-Page-Size 和 X-Page-Number
响应自动填充: autoFillResponse 设置为 true

具体配置如下：

{
  "api": "/v3/students",
  "effect": "QUERY",
  "method": "GET",
  "number": "grade_level",
  "id": "grade_level",
  "name": "{random}",
  "idCheck": true,
  "request": [
    {
      "field": "X-Page-Size",
      "label": "X-Page-Size",
      "type": "string",
      "value": "1000"
    },
    {
      "field": "X-Page-Number",
      "label": "X-Page-Number",
      "type": "string",
      "value": "1"
    }
  ],
  "autoFillResponse": true
}

请求参数设置

为了确保我们能够获取到完整的数据集，需要设置分页参数。这里我们将每页大小设为1000条记录，并从第一页开始请求。

{
  "X-Page-Size": "1000",
  "X-Page-Number": "1"
}

数据请求与清洗

通过上述配置，我们可以发起HTTP GET请求来获取学生数据。轻易云平台会自动处理分页逻辑，确保所有数据都能被完整拉取。

在实际操作中，可能会遇到以下几种情况需要特别注意：

分页处理：如果数据量较大，需要处理多页返回结果。
错误处理：需要捕获并处理API调用过程中可能出现的错误，如网络问题、权限不足等。
数据清洗：获取的数据可能包含冗余或不符合业务需求的字段，需要进行清洗和过滤。

数据转换与写入

在完成数据请求和初步清洗后，下一步是将数据转换为目标系统所需的格式，并写入目标系统。在本案例中，我们需要将VC年级列表对接到金蝶年级。

假设我们从API返回的数据格式如下：

[
  {
    "student_id": 12345,
    "name": "John Doe",
    "grade_level": 10,
    ...
  },
  ...
]

我们需要提取并转换其中的grade_level字段，以匹配金蝶系统的年级格式。这一步通常涉及字段映射和数据格式转换。

例如，将VC年级映射到金蝶年级可能需要如下规则：

{
  "10": "高一",
  ...
}

实际操作示例

以下是一个简化的Python代码示例，用于展示如何通过HTTP请求获取数据并进行初步处理：

import requests

# 配置API请求参数
url = 'https://api.example.com/v3/students'
headers = {
    'X-Page-Size': '1000',
    'X-Page-Number': '1'
}

# 发起GET请求
response = requests.get(url, headers=headers)

# 检查响应状态码
if response.status_code == 200:
    data = response.json()

    # 数据清洗与转换
    processed_data = []
    for student in data:
        grade_level = student.get('grade_level')
        if grade_level is not None:
            # 假设有一个映射函数 map_grade_level()
            mapped_grade = map_grade_level(grade_level)
            processed_data.append({
                'student_id': student['student_id'],
                'name': student['name'],
                'mapped_grade': mapped_grade
            })

    # 将处理后的数据写入目标系统（示例）
    write_to_target_system(processed_data)
else:
    print(f"Error: {response.status_code}")

def map_grade_level(grade):
    mapping = {
        '10': '高一',
        # 添加其他映射规则
    }
    return mapping.get(str(grade), '未知')

def write_to_target_system(data):
    # 实现写入目标系统的逻辑
    pass

通过上述步骤，我们实现了从美国人vc文档接口获取学生数据，并进行了初步加工，为后续的数据转换与写入奠定了基础。用友与外部系统接口集成开发

使用轻易云数据集成平台进行ETL转换并写入金蝶云星空

在数据集成生命周期的第二步中，重点在于将已经集成的源平台数据进行ETL转换，并转为目标平台金蝶云星空API接口所能够接收的格式，最终写入目标平台。本文将详细探讨如何利用轻易云数据集成平台完成这一过程。

API接口配置与元数据解析

为了实现数据从源平台到金蝶云星空的顺利传输，我们需要配置相应的API接口。以下是一个典型的元数据配置示例：

{
  "api": "batchSave",
  "method": "POST",
  "idCheck": true,
  "operation": {
    "rowsKey": "array",
    "rows": 50,
    "method": "batchArraySave"
  },
  "request": [
    {
      "field": "FCreateOrgId",
      "label": "创建组织",
      "type": "string",
      "parser": {
        "name": "ConvertObjectParser",
        "params": "FNumber"
      },
      "value": "102"
    },
    {
      "field": "FUseOrgId",
      "label": "使用组织",
      "type": "string",
      "parser": {
        "name": "ConvertObjectParser",
        "params": "FNumber"
      },
      "value": "102"
    },
    {
      ...
    }
  ],
  ...
}

数据请求与清洗

在ETL过程中，首先需要从源系统请求数据，并对其进行清洗和预处理。假设我们从VC年级列表中获取数据，这些数据可能包含不同格式和冗余信息，需要通过清洗步骤去除无效部分并标准化格式。

数据转换

接下来是关键的转换步骤。我们需要将清洗后的数据转化为金蝶云星空API能够识别和处理的格式。这一步主要涉及字段映射和格式转换。

字段映射：根据元数据配置，将源系统中的字段映射到目标系统所需的字段。例如，将VC年级列表中的grade_level字段映射到金蝶云星空中的FNumber字段。
格式转换：有些字段可能需要特定的格式，例如JSON对象或特定编码。在上述元数据配置中，FName字段需要转化为包含多个语言键值对的JSON对象，这可以通过自定义解析器（如ConvertJson）实现。

{
  ...
  {
    field: 'FName',
    label: '金蝶组织名称',
    type: 'string',
    value: '[{"Key":1033,"Value":"{grade_level}"},{"Key":2052,"Value":"{grade_level}"}]',
    parser: { name: 'ConvertJson' }
  }
  ...
}

数据写入

完成转换后，通过调用金蝶云星空API接口将数据写入目标系统。根据元数据配置，使用POST方法批量保存（batchSave）操作：

{
  api: 'batchSave',
  method: 'POST',
  idCheck: true,
  operation: { rowsKey: 'array', rows: 50, method: 'batchArraySave' },
  request: [
    { field: 'FCreateOrgId', label: '创建组织', type: 'string', value: '102' },
    { field: 'FUseOrgId', label: '使用组织', type: 'string', value: '102' },
    ...
  ],
  otherRequest: [
    { field: 'FormId', label: '业务对象表单Id', type: 'string', value: 'BAS_PreBaseDataThree' },
    { field: 'Operation', label: '执行的操作', type: 'string', value: 'BatchSave' },
    { field: 'IsAutoSubmitAndAudit', label: '提交并审核', type: 'bool', value: true }
  ]
}

在这个过程中，确保所有必要字段都已正确填充，并且符合目标系统的数据验证规则。例如，FormId必须填写金蝶的表单ID，如BAS_PreBaseDataThree。

通过以上步骤，我们可以实现从源平台到金蝶云星空的数据无缝对接。这不仅提升了数据处理效率，还确保了业务流程的一致性和可靠性。钉钉与ERP系统接口开发配置