自媒体运营数据分析:数据清洗与预处理流程及实践研究 一、实验目的本实验基于全班同学在多平台发布的作品互动数据使用助睿ETL完成数据清洗与预处理输出两张核心数据表为后续特征工程与可视化分析奠定基础。通过本实验学生应掌握理解数据清洗在数据分析流程中的基础性与必要性使用助睿ETL完成多源数据的过滤、填充、聚合等预处理操作掌握“分支处理”的设计思路全平台概况统计与重点平台深度分析分流输出两张规范数据表支撑仪表盘不同模块的数据需求二、实验环境实验平台助睿在线实验平台本次实验使用助睿数智Uniplore 作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能适用于数据分析教学与企业数据加工场景。数据处理工具助睿ETL数据集成平台助睿ETL核心优势全元数据驱动架构平台内所有对象类型均通过元数据标准化定义覆盖数据读取、处理、写入的全流程零代码拖拽式操作通过可视化方式完成数据的抽取Extract、转换Transform、加载Load无需编写复杂代码丰富的预处理组件内置筛选、填充、聚合、连接、字段选择等多种转换节点灵活应对各类数据清洗场景Pipeline转换机制面向数据流通处理的核心功能单元由多个不同功能的Transform步骤组合构成聚焦数据本身的加工转换操作开源内核高可用引擎基于开源内核的高可用引擎架构通过标准化插件体系可灵活扩展引擎能力三、核心设计思路3.1 为什么需要数据清洗采集到的原始数据往往不能直接用于分析需要先做清洗。观察自媒体作品数据明细.csv这份数据可以发现几个问题平台冗余数据包含了B站、CSDN、微信、知乎、小红书等多个平台但微信、知乎等平台的浏览数量几乎全是0。这些平台虽然有作品记录但缺乏核心的浏览数据无法支撑有意义的分析。无效记录部分作品的浏览数量、点赞数量、收藏数量全部为0。这些记录可能是采集失败也可能是作品确实无人问津但无论如何它们对分析没有贡献。字段缺失点赞、收藏、分享等字段中存在空值如果不处理后续计算会报错。数据清洗要做的就是把这些问题逐一解决。3.2 数据处理流程本次实验有一个特殊之处后续可视化仪表盘需要同时展示两类信息。第一类是“全平台概况”——全班总共发了多少内容覆盖了几个平台总浏览和总互动是多少这些数字需要基于所有平台的原始数据来统计哪怕浏览数为0也要计入作品数。第二类是“重点平台深度分析”——B站和CSDN的具体表现如何播放量、阅读量、互动率是多少这些分析只需要B站和CSDN的有效数据浏览数大于0的记录。两类信息对数据的要求不同所以在ETL中需要做分支处理两张表各司其职summary_all_platforms只用于仪表盘顶部的全平台概况指标卡cleaned_details作为中间结果交给下一实验继续加工。四、实验步骤步骤 1创建自媒体专属项目并导入原始数据源1操作目的新建专属实验项目用于存放自媒体相关转换流、数据表与数据源文件从平台公共资源导入自媒体作品数据明细.csv原始业务数据校验文件字段与数据总量为后续 ETL 清洗聚合提供原始输入素材。2操作说明打开浏览器访问助睿在线实验平台输入个人账号密码完成登录登录成功后点击页面左侧导航栏【数据集成】功能模块在项目列表区域点击新建项目按钮项目名称填写「自媒体运营分析」确认创建完成项目初始化切换至当前新建项目的资源库页面找到顶部【公共空间 - 数据资源】检索输入框输入文件名自媒体作品数据明细.csv进行检索在检索结果中找到目标 CSV 文件点击文件右侧「更多」按钮选择导出功能导出路径选中当前自媒体项目专属文件库目录等待文件后台导入完成回到项目本地文件库双击导入后的文件打开预览窗口逐项核对字段采集日期、平台、作者昵称、标题、浏览、点赞、收藏、分享、投币、采集批次 source_file 全部存在统计总记录共 5702 条字段无缺失、数据无损坏即校验通过。3关键截图图1 新建实验项目图2新建「自媒体运营分析」项目完成后的文件库页面图 3 公共空间导出自媒体作品明细数据集弹窗配置界面步骤2创建全平台概况汇总表1操作目的搭建存储全平台每日大盘指标的数据表用于统计各平台每日作品总量、总浏览、各类互动指标支撑可视化大盘指标卡的数据读取需求。2操作说明新建独立转换流拖拽【执行一个 SQL 脚本】组件数据库连接选择团队私有数据库粘贴下方建表 SQL 语句配置完成后点击执行生成summary_all_platforms数据表。CREATE TABLE summary_all_platforms ( id INT AUTO_INCREMENT PRIMARY KEY, crawl_date DATE COMMENT 采集日期, platform VARCHAR(20) COMMENT 平台名称, content_count INT COMMENT 作品数量, total_views INT COMMENT 总浏览数, total_likes INT COMMENT 总点赞数, total_favorites INT COMMENT 总收藏数, total_shares INT COMMENT 总分享数, total_coins INT COMMENT 总投币数仅B站, total_recommend INT COMMENT 总推荐数仅微信, total_likes_zhihu INT COMMENT 总喜欢数仅知乎, total_approvals INT COMMENT 总赞同数仅知乎 ) COMMENT 全平台每日汇总统计表;3关键截图图 4 创建全平台概况汇总表专用转换流图5创建 summary_all_platforms 表的 SQL 脚本配置界面图6转换流执行成功日志截图步骤3创建内容分析明细表1操作目的搭建存储 B 站、CSDN 单作品明细数据表存放清洗后的有效作品基础信息作为后续标题特征计算、排名图表的底层数据源。2操作说明新建转换流拖拽【执行一个 SQL 脚本】组件并绑定团队私有数据库输入建表语句执行生成content_analysis表预留互动总数、五大标题特征空白字段供下一实验更新填充。CREATE TABLE content_analysis ( id INT AUTO_INCREMENT PRIMARY KEY, date DATE COMMENT 采集日期, author_name VARCHAR(100) COMMENT 作者昵称, title VARCHAR(500) COMMENT 作品标题, platform VARCHAR(20) COMMENT 平台B站 / CSDN, likes INT COMMENT 点赞数, favorites INT COMMENT 收藏数, shares INT COMMENT 分享数, coins INT COMMENT 投币数仅B站, views INT COMMENT 播放量/阅读量, url VARCHAR(500) COMMENT 作品链接, total_interaction INT COMMENT 互动总数, has_best TINYINT(1) COMMENT 是否含“保姆级”, has_lowcode TINYINT(1) COMMENT 是否含“零代码”, has_practice TINYINT(1) COMMENT 是否含“实战”, has_tutorial TINYINT(1) COMMENT 是否含“教程/指南”, has_pit TINYINT(1) COMMENT 是否含“踩坑” ) COMMENT B站、CSDN有效作品明细宽表;3关键截图图 7 创建 content_analysis 内容分析表转换流命名弹窗界面图 8 执行一个 SQL 脚本组件配置界面创建内容分析明细表图 9 内容分析表建表转换流画布与执行成功日志界面步骤4搭建双分支 ETL 转换流完成全平台聚合分支处理1操作目的对全部平台原始数据按日期、平台分组聚合统计每日大盘作品、流量、互动总量写入全平台概况汇总表。2操作说明新建主清洗转换流拖拽【CSV 文件输入】读取导入好的原始 CSV数据分流后第一条分支依次添加【排序记录】组件排序字段crawl_date、platform、【分组】组件按日期、平台分组数值字段全部求和末尾接入【表输出】组件目标表选择 summary_all_platforms勾选裁剪表完成字段映射。3关键截图图10 CSV 文件输入组件参数配置界面图11排序记录组件配置按采集日期、平台升序图 12 分组组件基础信息配置图13 分组组件聚合字段与求和统计规则配置界面图14 表输出组件配置步骤6搭建重点平台清洗过滤分支1操作目的过滤筛选出 B 站、浏览量大于 0 与 CSDN 浏览量大于 0 的有效作品剔除无分析价值平台与零曝光脏数据。2操作说明原始 CSV 分流第二条分支接入【过滤记录】组件配置过滤条件(platform B 站 AND views 0) OR (platform CSDN AND views 0)匹配数据流入后续组件不匹配无效数据分流至【空操作】组件丢弃。3关键截图图 15过滤记录组件条件配置界面筛选 B 站、CSDN 有效曝光作品图16 连接空操作组件步骤7缺失值填充与冗余字段剔除1操作目的统一填充标题、作者空文本为 “未知”删除无业务意义采集标记字段精简明细数据表字段。2操作说明过滤后数据接入【替换 NULL 值】组件作者、标题空字符串统一替换为 “未知”再拖拽【字段选择】组件移除 source_file 采集批次字段仅保留业务分析所需字段。3关键截图图 17 替换 NULL 值组件配置界面统一将标题、作者空文本填充为 “未知”图 18 字段选择组件配置界面删除 source_file 等冗余采集字段步骤8明细数据入库 content_analysis 表1操作目的将清洗后的 B 站、CSDN 有效作品明细写入内容分析明细表供实验 7-2 特征工程使用。2操作说明字段选择组件后连接【表输出】组件目标表选定 content_analysis开启裁剪表完成流字段与数据表字段一一映射等待数据写入。3关键截图图 19 表输出组件基础配置界面目标表指定为 content_analysis 内容分析明细表图 20 表输出组件数据库字段映射配置界面完成流字段与目标表字段一一对应步骤9执行转换流并校验数据1操作目的运行整套 ETL 流程校验两张数据表数据完整性确认清洗、聚合结果无误。2操作说明检查所有组件连线、过滤、映射配置无错误点击工具栏执行按钮运行转换流执行完毕进入元数据面板分别查询两张数据表核对记录条数、字段填充结果。3关键截图图 21 全平台聚合统计转换流完整画布与执行成功日志界面图 22 summary_all_platforms 全平台概况汇总表数据预览界面图 23 content_analysis 内容分析明细表数据预览界面五、实验总结本次实验 7-1 围绕自媒体原始 CSV 数据完成全流程数据抽取与清洗入库工作导入共 5702 条原始作品记录针对多平台混杂、零曝光脏数据、标题作者空值、冗余采集字段等问题搭建分流 ETL 转换流。通过过滤组件筛选出 B 站、CSDN 有效曝光作品剔除无流量平台数据利用空值替换统一填充空白文本精简无用采集字段最终生成规范的 content_analysis 明细表与 summary_all_platforms 全平台汇总表。实验掌握 CSV 输入、过滤、空值处理、字段筛选、表输出等 ETL 基础组件操作理解分流并行处理的数据加工思路。实验过程中发现未排序直接分组会造成统计失真、多次运行易产生重复数据等问题通过前置排序、表输出勾选裁剪表解决。本次实验完成底层干净数据集搭建但仅完成基础清洗未衍生业务指标与文本特征需依靠实验 7-2 开展特征工程进一步加工数据。