特征工程
特征选择 feature_selection
特征选择(feature extraction):从文字、图像、声音等其他非结构化数据中提取新信息作为特征
特征创造(feature creation):把现有特征进行组合,或相互计算,得到新特征
特征选择(feature selection):从所有特征中,选择出有意义、对模型有帮助的特征,以避免必须将所有特征都导入模型去训练的情况。
import pandas as pd
file_path = '/content/drive/MyDrive/Colab Notebooks/data/digit recognizor.csv'
data = pd.read_csv(file_path)
data.head()
...
数据预处理
概述
数据预处理与特征工程
数据挖掘的五大流程:
获取数据
数据预处理
数据预处理是检测、纠正或删除数据中损坏、不准确或不适用于模型的记录的过程
可能面临的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也有可能,数据质量不行,有噪声,有缺失,数据出错,量纲不同,有重复,数据是偏态,数据量太大或太小
数据预处理的目的:让数据适应模型,匹配模型的需求
特征工程
特征工程是将原始数据转换为更能代表预测的潜在问题的特征的过程,可以通过挑选最相关的特征,提取特征以及创造来实现。其中创造特征又经常以降维算法的方式实现。
可能面对的问题有:特征之...
随机森林
概述
集成学习
集成学习方法使用多种学习算法来获得比单独使用某一种学习算法更好的预测性能。在现在的各种算法竞赛中,随机森林、梯度提升树(GBDT)、Xgboost 等集成算法的身影也随处可见。
常用的集成算法有:
装袋法(Bagging,Boostrap Aggregating):建立多个相互独立的基学习器(base estimator),采用投票或平均的方法得到预测结果。代表模型是随机森林。
提升法(Boosting):基于上一个基学习器,使那些被错误分类的样本可以得到更大的关注,利用调整后的样本训练得到下一个基学习器。代表模型有Adaboost和梯度提升树。
堆叠法(Stacking):以两层为例,第一层由多个基学习器组成,其输入为原始训练集,第二层的模型则是以...
Spark新特性+核心回顾
掌握 Spark3.0 新特性
Adaptive Query Execution 自适应查询(SparkSQL)
通过在“运行时”对查询执行计划进行优化,允许 Planner 在运行时执行可选计划,这些可选计划将会基于运行时数据统计进行动态优化,从而提高性能。
set spark.sql.adaptive.enabled = true;
AQE 主要提供了三个自适应优化:
动态合并 Shuffle Partitions
动态调整 Join 策略
动态优化倾斜 Join(Skew Joins)
Dynamically coalescing shuffle partitions 动态合并
用户可以在开始设置相对较多的 shuffle 分区数,AQE 会在运行时...
Spark 综合案例
案例背景
需求:对某零售公司各省店铺的销售数据,进行统计分析。
开发需求:
每个省份的销售额统计
销售额TOP3的省份中,统计有多少家店铺日均销售额1000+
销售额TOP3的省份中,各个省份的平均每单销售额
销售额TOP3的省份中,各个省份的支付类型比例
案例数据:下载
样例数据(Json):
相关需求字段:
storeProvince(店铺所在省份)
storeID(店铺ID)
dateTS(订单日期)
receivable(收款金额)
payType(付款类型)
实现代码:
# coding:utf8
from pyspark.sql import SparkSession
from pyspark.sql.func...
Spark SQL II
SparkSQL 的运行流程
SparkRDD 的执行流程回顾
driver 提交任务
DAG 调度器逻辑任务
Task 调度器任务分配和管理监控
Worker 干活
SparkSQL 的自动优化
RDD 的运行会完全按照开发者的代码运行,如果开发者水平有限,RDD 的执行效率也会受到影响。
而 SparkSQL 会对代码执行“自动优化”,以提高代码运行效率。
DataFrame 可以被优化,是因为它固定是二维表结构,而 RDD 内的数据类型是不固定的。
SparkSQL 的自动优化依赖于 Catalysty优化器
Catalyst 优化器
解析 SQL,并且生成 AST(抽象语法树)
在 AST 中加入元数据信息,为优化...
共计 14 篇文章,2 页。