)
学习过程中的有疑问plt.什么意思EDA什么意思一、plt是什么意思很多初学者看到plt.show() plt.plot() plt.savefig() plt.subplots()都会问为什么都是 plt其实plt不是 Python 关键字也不是固定语法。它只是一个变量名别名alias。它来自哪里一般在代码最前面都会有import matplotlib.pyplot as plt把它拆开来看import表示导入一个库。matplotlib表示Python 最经典的画图库。pyplot表示matplotlib 里面专门负责画图的模块module。可以理解成matplotlib一本书 ├── pyplot画图 ├── animation动画 ├── colors颜色 ├── patches图形 ...最后as plt表示给matplotlib.pyplot起一个更短的名字。就像你的名字张三别人平时叫小张所以import matplotlib.pyplot as plt实际上就是以后别叫 matplotlib.pyplot 这么长了 直接叫 plt 就行。举个例子原本应该写matplotlib.pyplot.show()太长。于是import matplotlib.pyplot as plt以后就可以写plt.show()简单很多。所以plt.show()真正完整写法其实是matplotlib.pyplot.show()plt.后面的点.是什么意思很多初学者都会问plt.show()为什么有个.这个点叫成员访问符dot operator意思是调用这个对象里面的东西。例如plt.show()意思就是调用 pyplot 模块里的 show() 函数。同样plt.savefig()就是调用 pyplot 模块里的 savefig() 函数。所以plt 就像一个工具箱。 show() savefig() plot() hist() 都是工具箱里的工具。为什么叫 pyplot因为它最早就是模仿 MATLAB 的画图方式。所以plt.plot()非常像 MATLAB。常见的 plt 函数代码作用plt.plot()折线图plt.scatter()散点图plt.hist()直方图plt.bar()柱状图plt.boxplot()箱线图plt.subplots()创建画布plt.show()显示图片plt.savefig()保存图片plt.tight_layout()自动调整布局二、EDA 是什么意思EDA 是Exploratory Data Analysis中文探索性数据分析为什么叫探索因为刚拿到数据的时候你什么都不知道。例如半导体数据590个传感器 1567片晶圆你不知道哪些传感器坏了 哪些数据缺失 哪些特征最重要 数据是不是平衡 有没有异常值 是不是重复数据所以第一步不是训练模型。而是探索Explore数据。这就是EDA。为什么要做 EDA举个例子。假设老板给你100万条数据你直接RandomForest.fit()可能准确率99%结果后来发现90%的数据都是空值。模型根本不可信。所以EDA 就像医生看病先检查 ↓ 再开药而不是直接吃药。EDA 一般做什么通常包括下面几项。① 数据长什么样例如features.shape输出1567 × 590说明1567个样本 590个特征② 缺失值分析例如features.isna().sum()看哪些传感器缺失最多③ 类别比例例如labels.value_counts()看Pass 1463 Fail 104是不是类别不平衡。④ 特征分布例如hist() boxplot()看数据是不是 正态 偏态⑤ 异常值例如100 101 99 100 10000最后10000就是异常值。⑥ 特征之间关系例如相关性Feature A Feature B 0.99说明高度相关。可能后面做PCA SelectKBest⑦ 数据质量例如重复数据有没有 空数据 重复样本EDA 的最终目的很多人以为EDA就是画图。其实不是。真正目的只有一句话了解数据发现问题为后续的数据清洗、特征工程和模型训练提供依据。在你的 SECOM 项目里EDA 就是读取数据 ↓ 统计样本数量 ↓ 统计Pass/Fail比例 ↓ 统计缺失值 ↓ 画缺失值图 ↓ 画类别分布 ↓ 分析异常值 ↓ 分析相关性 ↓ 决定下一步怎么清洗数据所以你现在做的01_data_exploration.ipynb就是整个项目的EDA探索性数据分析阶段。最后送你一个 AI 项目通用流程以后所有 GitHub 项目几乎都遵循数据集 │ ▼ EDA探索数据 │ ├── 数据规模 ├── 缺失值 ├── 类别比例 ├── 特征分布 ├── 异常值 └── 相关性 │ ▼ 数据清洗Cleaning │ ▼ 特征工程Feature Engineering │ ▼ 模型训练Model Training │ ▼ 模型评估Evaluation │ ▼ 模型解释SHAP / LIME │ ▼ 部署Deployment你现在正处在第一步EDA。这一步看似没有训练模型但它决定了后面所有步骤是否建立在可靠的数据基础上。在工业场景半导体、材料、新能源中很多项目花在 EDA 和数据清洗上的时间往往比训练模型还要多。