基于助睿的自媒体多平台数据清洗实验 1 实验目的本实验依托全班同学多平台自媒体作品互动原始数据集借助助睿 ETL 工具完成多源数据抽取、清洗与标准化预处理生成两张业务分层数据表为后续特征衍生、指标计算与可视化看板搭建提供合规可用数据源。通过实操训练要求掌握以下核心能力明晰数据清洗在完整数据分析链路中的前置核心作用理解脏数据对统计、建模、可视化的干扰影响熟练运用助睿 ETL 可视化组件实现多源数据筛选、空值补齐、分组聚合等标准化预处理操作掌握 ETL 分流分支开发思想拆分全量平台汇总统计、头部平台精细化分析两条并行处理链路产出结构规范、分层明确的业务数据表分别适配可视化看板总览模块与深度分析模块的数据读取需求。2 实验环境本次实验使用助睿数智Uniplore 作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能适用于数据分析教学与企业数据加工场景。数据处理工具助睿ETL数据集成平台助睿ETL核心优势全元数据驱动架构平台内所有对象类型均通过元数据标准化定义覆盖数据读取、处理、写入的全流程零代码拖拽式操作通过可视化方式完成数据的抽取Extract、转换Transform、加载Load无需编写复杂代码丰富的预处理组件内置筛选、填充、聚合、连接、字段选择等多种转换节点灵活应对各类数据清洗场景Pipeline转换机制面向数据流通处理的核心功能单元由多个不同功能的Transform步骤组合构成聚焦数据本身的加工转换操作开源内核高可用引擎基于开源内核的高可用引擎架构通过标准化插件体系可灵活扩展引擎能力3 核心设计思路3.1 为什么需要数据清洗直接采集的原始业务数据存在大量脏数据、冗余数据、缺失数据无法直接用于指标统计与深度分析必须先执行清洗规整。 读取数据源「自媒体作品数据明细.csv」后可识别出三类典型数据问题平台数据冗余数据集涵盖 B 站、CSDN、微信公众号、知乎、小红书多渠道但微信、知乎、小红书绝大多数作品浏览量数值为 0缺少有效流量数据无法开展深度价值分析无效数据行部分作品记录的浏览、点赞、收藏三项互动指标全部为 0大概率为采集失败数据或零曝光内容无分析价值字段空值缺陷点赞、收藏、分享等互动字段存在空值若不填充处理后续求和、比率计算会直接报错中断流程。数据清洗环节就是针对性消除上述三类数据缺陷产出干净、可用、统一格式的结构化数据。3.2 数据处理流程本次实验存在两类差异化数据分析需求对数据源筛选、聚合规则要求完全不同因此采用分支并行处理架构全平台整体概览统计统计班级整体创作规模包含全部平台所有作品记录即使流量为 0 的数据也需要纳入计数用于看板顶部总览指标头部平台精细化分析仅针对 B 站、CSDN 两大有效流量平台过滤零曝光无效作品用于后续播放量、互动率、内容标签深度拆解。两条处理分支独立加工分别落地两张数据表summary_all_platforms供给可视化看板顶部总览指标卡片cleaned_details中间清洗明细表作为下一阶段特征工程实验的基础输入数据源。4 实验步骤步骤1创建目标表在助睿ETL中创建两张目标表。第一张是全平台概况表summary_all_platforms用于存放所有平台的汇总数据。字段设计如下字段类型说明crawl_dateDATE采集日期platformVARCHAR(20)平台名称content_countINT作品数量total_viewsINT总浏览数total_likesINT总点赞数total_favoritesINT总收藏数total_sharesINT总分享数total_coinsINT总投币数仅B站total_recommendINT总推荐数仅微信total_likes_zhihuINT总喜欢数仅知乎total_approvalsINT总赞同数仅知乎新建转换流拖入执行一个sql脚本组件选择数据源插入建表语句DROP TABLE IF EXISTS summary_all_platforms; CREATE TABLE IF NOT EXISTS summary_all_platforms ( id INT AUTO_INCREMENT PRIMARY KEY COMMENT 自增主键ID, crawl_date DATE NOT NULL COMMENT 采集日期, platform VARCHAR(20) NOT NULL COMMENT 平台名称, content_count INT COMMENT 作品数量, total_views INT COMMENT 总浏览数, total_likes INT COMMENT 总点赞数, total_favorites INT COMMENT 总收藏数, total_shares INT COMMENT 总分享数, total_coins INT COMMENT 总投币数仅B站, total_recommend INT COMMENT 总推荐数仅微信, total_likes_zhihu INT COMMENT 总喜欢数仅知乎, total_approvals INT COMMENT 总赞同数仅知乎 ) ENGINE InnoDB DEFAULT CHARSET utf8mb4 COMMENT 全平台概况汇总表;执行并查看日志这张表不做任何过滤保留所有平台的原始数据。各平台特色指标B站的投币、微信的推荐、知乎的喜欢/赞同单独保留列不合并到通用指标中。因为B站的投币和知乎的赞同含义不同加在一起反而说不清楚让它们各自独立读者能清晰地看到每个平台有哪些互动行为。第二张是内容分析表content_analysis作为实验二的输入。字段与原始数据基本一致但只包含B站和CSDN的有效记录字段类型说明dateDATE采集日期author_nameVARCHAR(100)作者昵称titleVARCHAR(500)作品标题platformVARCHAR(20)B站 / CSDNlikesINT点赞数favoritesINT收藏数sharesINT分享数coinsINT投币数仅B站viewsINT播放量/阅读量urlVARCHAR(500)作品链接total_interactionINT互动总数has_bestTINYINT(1)是否含“保姆级”has_lowcodeTINYINT(1)是否含“零代码”has_practiceTINYINT(1)是否含“实战”has_tutorialTINYINT(1)是否含“教程/指南”has_pitTINYINT(1)是否含“踩坑”其中 interaction_rate, has_best, has_lowcode, has_practice, has_tutorial, has_pit 字段的数据加工将在下一个实验中完成。新建转换流同样拖入执行一个sql脚本组件连接数据源插入sql语句DROP TABLE IF EXISTS content_analysis; CREATE TABLE IF NOT EXISTS content_analysis ( id INT AUTO_INCREMENT PRIMARY KEY COMMENT 自增主键ID, date DATE NOT NULL COMMENT 采集日期, author_name VARCHAR(100) COMMENT 作者昵称, title VARCHAR(500) NOT NULL COMMENT 作品标题, platform VARCHAR(20) NOT NULL COMMENT B站 / CSDN, likes INT COMMENT 点赞数, favorites INT COMMENT 收藏数, shares INT COMMENT 分享数, coins INT COMMENT 投币数仅B站, views INT COMMENT 播放量/阅读量, url VARCHAR(500) COMMENT 作品链接, total_interaction INT COMMENT 互动总数, has_best TINYINT(1) COMMENT 是否含“保姆级” 0否1是, has_lowcode TINYINT(1) COMMENT 是否含“零代码” 0否1是, has_practice TINYINT(1) COMMENT 是否含“实战” 0否1是, has_tutorial TINYINT(1) COMMENT 是否含“教程/指南” 0否1是, has_pit TINYINT(1) COMMENT 是否含“踩坑” 0否1是 ) ENGINE InnoDB DEFAULT CHARSET utf8mb4 COMMENT 内容分析明细表实验二输入仅B站、CSDN有效数据;执行转换流并查看日志步骤2导入原始数据在助睿 ETL 公共文件库找到「自媒体作品数据明细.csv」将文件复制至个人专属文件库作为数据源输入。助睿ETL支持多种数据源接入CSV文件可直接导入。本次分析使用的数据来源于助睿ETL公共空间的自媒体作品数据明细.csv已采集了同学们在6月8日-6月15日前提交的作品互动数据。需要说明的是该数据集仅覆盖采集时间节点前已发布且未被删除的作品之后新提交或已删除的作品不在此次分析范围内。导入前请先将该文件从公共空间复制到自己的文件库中。步骤3全平台聚合统计从原始数据源节点引出第一条分支链路依次拖拽排序组件、分组聚合组件以采集日期、平台名称作为分组维度所有数值类互动字段配置求和聚合逻辑最终输出汇总结果写入 summary_all_platforms 表。新建转换流拖入csv文件输入配置如下拖入排序记录组件获取字段并保留需要分组的字段拖入分组组件获取字段后保留需要进行分组的字段删除作者名字、url、source_file、title字段后其余字段全部求和拖入表输出组件选择目标表勾选获取字段步骤4过滤记录从原始数据源节点引出第二条并行分支添加「过滤记录」组件配置复合筛选条件筛选规则逻辑(平台字段 B 站 并且 浏览数量 0) OR (平台字段 CSDN 并且 浏览数量 0)过滤逻辑拆解渠道限定仅保留 B 站、CSDN剔除微信、知乎、小红书等低有效流量平台曝光过滤剔除两大平台内浏览量等于 0 的零曝光无效作品 组件支持 AND、OR 多条件自由组合单节点完成渠道 有效流量双重筛选无需拆分多次过滤。逻辑说明括号内的条件组合确保“平台”与“有效记录判定”同时满足一个组件完成双重过滤。助睿ETL的过滤记录组件支持编写复杂条件表达式可通过 AND、OR 灵活组合多条件一步到位完成精细化数据筛选。步骤5填充缺失值经过滤后的明细数据中点赞、收藏等数值字段无缺失但作者昵称、作品标题文本字段存在空值添加「空值填充」转换节点对文本类空字段统一填充固定占位字符规避后续字符串匹配、统计计算流程报错。步骤6字段选择拖拽「字段选择」节点裁剪冗余字段丢弃采集批次标记 source_file 等无分析价值字段仅保留业务核心字段date, author_name, title, platform, likes, favorites, shares, coins, views, url步骤7输出清洗后中间表将字段筛选完成后的干净明细数据落地生成 cleaned_details 中间表作为7.2实验的基础输入数据。步骤8执行转换流将两条分支所有节点按逻辑连线完成完整数据流搭建保存当前 ETL 转换流程点击执行按钮启动数据处理任务任务运行完成后打开数据探查面板核对两张落地表的数据行数、字段分布、指标数值校验清洗结果。数据探查结果5 核心知识点总结多条件复合筛选借助 AND、OR 逻辑运算符组合渠道、流量双重筛选条件单过滤节点实现精细化数据行提取缺失值标准化处理针对文本、数值字段区分填充规则统一补齐空值保障下游计算稳定时间维度留存策略完整保留采集日期字段用于后续时间趋势分析不做重复数据去重操作助睿 ETL Pipeline 开发模式多个功能转换节点串联组成完整处理链路可视化完成全流程数据加工分层数据表设计思路一次 ETL 清洗产出分层数据表分别适配总览看板、深度分析两类业务需求实现一套原始数据多次复用。6 实验心得与收获本次实验让我充分认识到数据清洗是数据分析的关键前置环节原始脏数据会严重影响分析结果。通过实操我熟练掌握了助睿ETL的基础操作与多场景数据处理方法建立了分层、分流的数据处理思维。同时摆脱了代码限制专注于数据逻辑与业务分析有效提升了自身的数据处理能力与实操严谨性为后续数据可视化、特征工程学习积累了扎实的实践经验。7 平台使用评价助睿数智实训平台操作简洁、功能完善拖拽式零代码操作门槛低非常适合教学实训。平台ETL组件齐全、流程可视化清晰数据流转直观便于理解数据治理逻辑。整体运行稳定、支持实时数据校验贴合课堂教学场景能够满足大数据基础实训与进阶实验需求实用性与教学适配性极强。