
助睿实验选做数据抽取——使用助睿ETL抽取多种文件数据一、实验背景1.1 实验目的本次实验旨在通过助睿数智Uniplore平台的 ETL 数据集成模块掌握多种文件格式数据的抽取与基本加工方法具体包括掌握使用CSV 文件输入组件读取 CSV 格式数据并结合字段选择、计算器、数值范围等组件完成数据转换与输出掌握使用CSV 文件输入组件读取文本文件TXT数据学习分隔符配置、字段剔除与数据链路验证的方法掌握使用Excel 输入组件读取 Excel 文件数据学习工作表选择、字段自动解析与目标字段筛选理解 ETL 流程中数据抽取Extract与转换Transform的核心逻辑体会零代码数据集成工具在实际业务中的应用价值1.2 实验环境平台名称助睿在线实验平台访问地址https://lab.guilian.cn/使用产品助睿数智Uniplore——AI驱动的一站式零代码数据智能服务平台系统子平台助睿ETL数据集成平台产品官网Uniplore iDIS-大数据智能全流程服务平台-BI数据可视化工具该平台支持从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码操作适用于高校教学与企业数据加工。1.3 处理流程本次实验围绕三种主流文件格式分别构建转换流CSV 文件抽取CSV 文件输入 → 字段选择 → 计算器日期差计算→ 数值范围绩效评定→ 文本文件输出文本文件抽取CSV 文件输入读取 TXT→ 字段选择移除 Venue 字段→ 空操作数据验证Excel 文件抽取Excel 输入 → 字段选择保留 education、employment→ 空操作数据验证二、实验步骤2.1 数据准备以下数据文件均从助睿 ETL 平台的「公共空间」中获取本案例中「从 CSV 文件中读取数据」小节将使用project.csv数据文件本案例中「从文本文件中读取数据」小节将使用足球比赛数据文件usa_201209.txt本案例中「从 Excel 中读取数据」小节将使用购房者信息数据文件custinfo.xlsx。获取数据文件操作如下登录助睿 ETL 平台选择「数据集成」模块找到「我的项目」点击项目右侧的「…」按钮选择「打开项目」进入目标项目页面点击页面右侧的「公共空间」切换至「数据资源」标签页找到资源名称为porject.csv的文件点击该文件右侧的「更多」按钮选择「导出」选项在弹出的「导出数据资源到项目空间」窗口中确认待导出文件为project.csv选择导出路径如/根目录点击「确定」按钮完成导出到「文件库」中。切换至左侧导航栏的「文件库」标签页点击右键菜单中的「刷新」按钮查看已导出至项目空间的文件资源。2.2 从 CSV 文件中读取数据本案例将通过助睿 ETL 编写工作流实现对 CSV 文件数据的提取与加工。首先从 CSV 文件中提取项目信息数据然后以项目的【start_date】开工日期和【end_date】结束日期计算项目执行天数并基于该天数设定项目的【performance】绩效等级最终完成项目绩效的自动化评估与数据标准化。实现逻辑如下通过「CSV 文件输入」组件从 CSV 文件中读取原始项目数据使用「字段选择」组件筛选并保留后续计算所需的关键字段在「计算器」组件中新建【diff_date】字段用于计算开工日期与结束日期之间的间隔天数完成天数计算后通过「数值范围」组件根据间隔天数的区间规则自动生成并设置新的输出字段【performance】的值完成项目绩效的判定。具体操作如下步骤 1新建转换流进入项目切换到「组件库」标签页拖拽「CSV 文件输入」组件至画布配置如下图所示步骤 2双击「CSV 文件输入」组件在弹出的窗口中单击 浏览文件通过文件浏览器组件选择目标文件配置如下图所示步骤 3在文件浏览器组件中选中需要读取的 CSV 文件「porject.csv」点击确定文件浏览器组件会自动解析文件路径并回填至「CSV 文件输入」组件中配置如下图所示步骤 4在完成文件路径的填写后可通过「CSV 文件输入」组件的获取字段功能自动解析CSV文件结构提取文件中的字段。具体操作在「CSV 文件输入」组件下方的数据区域点击右键选择 获取字段配置如下图所示步骤 5在完成数据字段配置后可通过组件的「预览」功能查看数据读取结果验证数据是否正常加载、字段是否解析正确结果如下图所示步骤 6在上述过程中我们完成了CSV文件的数据解析与读取。接下来将读取的数据进行初步加工。将「字段选择」组件拖至画布建立从「CSV 文件输入」组件到「字段选择」组件的连接配置如下图所示步骤 7双击「字段选择」组件打开组件配置窗口在默认的Tab页签选择和修改中右键点击并选择「获取字段」获取前一个组件「CSV 文件输入」传递过来的字段信息配置如下图所示步骤 8在「字段选择」组件的配置窗口中选择和修改页签提供了字段管理功能可对字段信息如名称、长度、精度等进行调整。在本节案例中不涉及到字段信息的调整所以这里保持默认即可配置如下图所示步骤 9完成「字段选择」组件的配置后拖拽「计算器」组件至画布建立从「字段选择」组件到「计算器」组件的连接此时弹出的提示框中有两个可选值主输出步骤和错误步骤。主输出步骤是指正常数据的处理链路错误步骤是错误数据的处理链路。因为字段选择组件涉及到字段信息的修改字段类型、长度数据在进行类型、长度等转换过程中会出错这些出错的数据就会流入错误数据处理链路而正常的数据就会流入主输出数据链路。在本节案例中我们只处理正常数据因此选择「主输出步骤」。配置如下图所示步骤 10双击「计算器」组件进入配置界面点击「插入」新增一行配置此时相当于增加一个数据计算逻辑。在「计算器」组件中一个数据计算逻辑由新字段、计算公式、字段A/B/C等结构组成。新字段是指计算逻辑输出的字段计算公式指数据的计算方法字段A/B/C是指计算逻辑的输入数据。界面如下图所示步骤 11在「新字段」列手动输入字段名diff_date在「计算」下拉列表中选择Date A - Date B (in days)「字段 A」下拉列表选择end_date「字段 B」下拉列表选择start_date「值类型」下拉列表选择Integer完成配置后点击「确认」。此时的数据计算逻辑是计算项目开始时间start_date和项目结束时间end_date之间的天数差并将计算结果存储在字段diff_date。配置界面如下图所示步骤 12在完成计算器组件的配置后拖拽数值范围组件至画布建立从计算器到数值范围之间的连接配置如下图所示步骤 13双击「数值范围」组件打开组件配置窗口在「输入字段」下拉列表中选择diff_date在「输出字段」处手动输入字段名performance并按业务规则配置「范围最小≤x 最大」区间即根据项目天数差diff_date对项目进行评价并将评价值存储在字段performance中评价规则如下下界为 0、上界为 30评价值为excellent下界为 30、上界为 180评价值为very good下界为 180、上界为 360评价值为good下界为 360评价值为poor完成配置后点击「确认」。「数值范围」组件配置界面如下图所示步骤 14拖拽「文本文件输出」组件至画布建立从「数值范围」组件到「文本文件输出」组件的连接配置界面如下图所示步骤 15双击「文本文件输出」组件打开组件配置窗口完成文件输出路径、字段映射等相关配置手动输入「文件名称」为porject_output手动输入「扩展名」为csv即通过「文本文件输出」组件将数据写入到porject_output.csv文件中。切换至「内容」标签页将「分隔符」手动修改为英文逗号,即输出的文件中以,分割字段配置如下图所示切换至「字段」标签页在字段列表区域右键单击选择「获取字段」自动加载上游组件传递的所有字段信息即将上游组件传递的字段都写入到文件中完成后点击「确认」保存设置结果如下图所示步骤 16完成所有步骤后整个转换工作流视图如下图所示步骤 17点击画布左上角的「运行」按钮在弹出的提示框中点击「启动」即可运行整个转换流程。运行结果如下图所示步骤 18运行转换后文件库中生成一个porject_output.csv表数据如下图所示2.3 从文本文件中读取数据本小节将利用足球比赛数据演示如何使用助睿 ETL 平台完成文本数据的标准化读取、字段筛选与结果验证。数据包含比赛日期、比赛地点、主客队、比分等关键字段我们通过三步核心操作实现数据处理数据接入通过「CSV 文件输入」组件读取文本文件数据验证文件路径、字段解析与数据格式的正确性确保源数据能被 ETL 平台正常识别字段筛选使用「字段选择」组件按需筛选出后续分析所需的关键字段如比赛日期、主客队、比分剔除无关字段精简数据结构结果验证搭配「空操作什么也不做」组件接收数据该组件仅接收数据不做任何业务处理核心作用是测试数据是否能从上游组件完整传递到输出环节验证整个流程的连通性确保后续流程的稳定性。具体操作如下步骤 1新建转换拖拽「CSV 文件输入」组件至画布配置界面如下图所示步骤 2双击组件打开配置窗口在「文件名」栏「浏览文件」选择待读取的足球比赛数据文件usa_201209.txt。然后将「列分隔符」设置为英文分号;需与文件实际分隔符格式保持一致。最后勾选「包含列头行」选项即使用文件中第一行的数据作为字段名称。配置界面如下图所示步骤 3配置完成后在下方数据预览区域的空白处右键单击在弹出的菜单中选择「获取字段」即可自动解析并加载文本文件中的字段信息。完成配置后点击「确认」按钮保存配置界面如下图所示步骤 4选中「CSV 文件输入」组件右键单击并选择「预览输出」查看数据读取结果验证数据是否正常加载、字段解析是否正确预览效果如下图所示步骤 5将「字段选择」和「空操作什么也不做」组件依次拖拽至画布建立从「CSV 文件输入」→「字段选择」→「空操作什么也不做」的连接在弹出的步骤选择提示框中均选择「主输出步骤」完整转换如下图所示步骤 6双击「字段选择」组件进入配置界面切换至「移除」标签页在空白区域先「获取字段」再「删除选中行」仅保留需要移除的Venue字段点击「确认」完成字段剔除配置。此时「字段选择」组件将移除字段流中的Venue字段不再将其传递给下一个组件配置界面如下图所示步骤 7点击画布左上角的「运行」按钮在弹出的提示框中点击「启动」运行整个转换流程执行结果如下图所示步骤 8选中「空操作什么也不做」组件右键单击并选择「预览」查看经过字段筛选后的数据输出结果验证字段剔除是否生效、数据传递是否完整结果如下图所示2.4 从 Excel 文件中读取数据在基于购房决策影响因素如购房者年龄、性别、学历、月薪、家庭人数等开展数据建模分析前需要先对原始数据进行过滤与筛选。本案例使用助睿 ETL 平台读取获取到的购房者信息数据Excel 文件通过字段选择操作筛选出业务分析所需的目标字段完成数据的基础预处理。具体操作如下步骤 1新建转换工作流在「组件库」中拖拽「Excel 输入」组件至画布配置界面如下图所示步骤 2双击组件打开配置窗口点击「浏览」按钮使用文件浏览器组件选择待读取的 Excel 文件。步骤 3再点击「增加」按钮将文件添加至「选中的文件」中完成基础文件配置即通过 Excel XLSXStreaming引擎解析和读取 custinfo.xlsx 文件。配置界面如下图所示步骤 4切换至「内容」标签页完成相关配置勾选「头部」「非空记录」在「编码」下拉列表中选择「UTF-8」即 custinfo.xlsx 文件中第一行为字段名称只读取文件中非空记录且文件编码为 UTF-8。配置界面如下图所示步骤 5切换至「工作表」标签页点击页面下方的「获取工作表名称」按钮此时组件将读取文件并获取文件的工作簿信息。配置界面如下图所示步骤 6在弹出的工作表选择窗口中勾选该工作表前的复选框。点击两栏中间的右向箭头按钮将选中的Sheet1工作表添加至右栏列表中完成后点击「确定」按钮。此时组件只会读取工作簿Sheet1的数据。配置界面如下图所示步骤 7切换至「字段」标签页在空白区域右键单击选择「获取来自头部的字段」选项此时组件会读取文件的工作簿Sheet1的第一行数据并解析成字段信息。配置如下图所示步骤 8将字段名称、数据类型等属性自动加载到字段列表中点击「确认」按钮。配置界面如下图所示步骤 9从「组件库」中拖拽「字段选择」组件、「空操作什么也不做」组件至画布按「Excel 输入」→「字段选择」→「空操作什么也不做」的顺序依次建立组件连接在弹出的连接线类型选择提示框中均选择「主输出步骤」完整转换流程如下图所示步骤 10双击「字段选择」组件进入配置界面在「选择和修改」标签页右键单击选择「获取字段」自动加载上游「Excel 输入」组件的所有字段信息仅保留目标字段「education」「employment」点击「确认」按钮完成字段配置配置界面如下图所示步骤 11点击画布左上角的「运行」按钮点击「启动」流程执行结果如下图所示步骤 12选中「空操作什么也不做」组件右键单击并选择「预览输出」查看经过 Excel 数据读取、字段筛选后的最终数据输出结果验证目标字段筛选是否生效、数据传递是否完整结果如下图所示三、实验结果3.1 CSV 文件抽取结果通过「CSV 文件输入」→「字段选择」→「计算器」→「数值范围」→「文本文件输出」的转换链路成功从porject.csv中提取了项目数据计算了每个项目的执行天数diff_date并根据天数区间自动评定了绩效等级performance最终输出了porject_output.csv文件。3.2 文本文件抽取结果通过「CSV 文件输入」读取usa_201209.txt足球比赛数据经「字段选择」成功移除了Venue字段在「空操作」组件中验证了数据的完整传递确认字段剔除生效。3.3 Excel 文件抽取结果通过「Excel 输入」读取custinfo.xlsx购房者信息经「字段选择」成功筛选出education学历和employment就业情况两个目标字段在「空操作」组件中验证了数据筛选的准确性。四、问题与解决4.1 CSV 文件名拼写注意在实验手册中数据准备部分列出的是project.csv但在实际操作中公共空间中的文件名实际为porject.csv。需以实际文件名为准进行选择不影响后续处理流程。4.2 分隔符一致性在读取文本文件时必须确保「列分隔符」的设置与文件实际使用的分隔符完全一致。足球比赛数据usa_201209.txt使用的是英文分号;若错误配置为其他分隔符会导致字段解析错位或失败。4.3 主输出步骤与错误步骤的选择在组件间建立连接时系统会弹出步骤类型选择提示框。对于正常数据链路应选择「主输出步骤」而错误数据链路如类型转换失败的数据则会流入「错误步骤」。在本次实验中只处理正常数据因此均选择主输出步骤。五、实验总结5.1 实验收获通过本次实验我掌握了以下核心技能多格式文件数据抽取学会了使用助睿 ETL 平台读取 CSV、TXT 和 Excel 三种主流文件格式的方法理解了不同文件格式在解析配置上的差异ETL 组件协作熟悉了 CSV 文件输入、Excel 输入、字段选择、计算器、数值范围、文本文件输出、空操作等核心组件的配置与使用数据加工逻辑掌握了通过计算器组件进行字段衍生日期差计算通过数值范围组件进行条件映射绩效评定的数据加工方法数据链路验证学会了使用空操作组件结合预览功能验证数据传递的完整性5.2 对平台评价助睿ETL平台通过拖拽式组件编排的方式将传统需要编写代码的 ETL 过程转化为可视化操作大幅降低了数据集成开发的门槛。对于教学场景和轻量级的数据处理需求这种零代码的方式能够让使用者更聚焦于业务逻辑本身快速实现数据从接入到输出的全流程贯通。话题标签#助睿数智#商业数据分析#ETL#数据抽取#数据集成