主页

降维算法

概述 sklearn 中的降维算法 sklearn 中降维算法都被包括在模块 decomposition 中,这个模块本质是一个矩阵分解模块。 主成分分析 主成分分析(PCA):PCA 增量主成分分析(IPCA):IncrementalPCA 核主成分分析(KPCA):KernelPCA 小批量稀疏主成分分析:MiniBatchSparsePCA 稀疏主成分分析:SparsePCA 截断的SVD(LSA):TruncatedSVD 因子分析 因子分析(FA):FactorAnalysis 独立成分分析 独立成分...

阅读更多

特征工程

特征选择 feature_selection 特征选择(feature extraction):从文字、图像、声音等其他非结构化数据中提取新信息作为特征 特征创造(feature creation):把现有特征进行组合,或相互计算,得到新特征 特征选择(feature selection):从所有特征中,选择出有意义、对模型有帮助的特征,以避免必须将所有特征都导入模型去训练的情况。 import pandas as pd file_path = '/content/drive/MyDrive/Colab Notebooks/data/digit recognizor.csv' data = pd.read_csv(file_path) data.head() ...

阅读更多

数据预处理

概述 数据预处理与特征工程 数据挖掘的五大流程: 获取数据 数据预处理 数据预处理是检测、纠正或删除数据中损坏、不准确或不适用于模型的记录的过程 可能面临的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也有可能,数据质量不行,有噪声,有缺失,数据出错,量纲不同,有重复,数据是偏态,数据量太大或太小 数据预处理的目的:让数据适应模型,匹配模型的需求 特征工程 特征工程是将原始数据转换为更能代表预测的潜在问题的特征的过程,可以通过挑选最相关的特征,提取特征以及创造来实现。其中创造特征又经常以降维算法的方式实现。 可能面对的问题有:特征之...

阅读更多

随机森林

概述 集成学习 集成学习方法使用多种学习算法来获得比单独使用某一种学习算法更好的预测性能。在现在的各种算法竞赛中,随机森林、梯度提升树(GBDT)、Xgboost 等集成算法的身影也随处可见。 常用的集成算法有: 装袋法(Bagging,Boostrap Aggregating):建立多个相互独立的基学习器(base estimator),采用投票或平均的方法得到预测结果。代表模型是随机森林。 提升法(Boosting):基于上一个基学习器,使那些被错误分类的样本可以得到更大的关注,利用调整后的样本训练得到下一个基学习器。代表模型有Adaboost和梯度提升树。 堆叠法(Stacking):以两层为例,第一层由多个基学习器组成,其输入为原始训练集,第二层的模型则是以...

阅读更多

决策树

概述 决策什么是决策树 决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。 决策树算法的两个核心问题: 如何从数据表中找出最佳节点和最佳分枝? 如何让决策树停止胜场,防止过拟合? sklearn 中的决策树 sklearn.tree 模块包含以下类: tree.BaseDecisionTree 基本决策树 tree.DecisionTreeClassifier 分类树 tree.DecisionTreeRegresso...

阅读更多

Spark新特性+核心回顾

掌握 Spark3.0 新特性 Adaptive Query Execution 自适应查询(SparkSQL) 通过在“运行时”对查询执行计划进行优化,允许 Planner 在运行时执行可选计划,这些可选计划将会基于运行时数据统计进行动态优化,从而提高性能。 set spark.sql.adaptive.enabled = true; AQE 主要提供了三个自适应优化: 动态合并 Shuffle Partitions 动态调整 Join 策略 动态优化倾斜 Join(Skew Joins) Dynamically coalescing shuffle partitions 动态合并 用户可以在开始设置相对较多的 shuffle 分区数,AQE 会在运行时...

阅读更多

Spark 综合案例

案例背景 需求:对某零售公司各省店铺的销售数据,进行统计分析。 开发需求: 每个省份的销售额统计 销售额TOP3的省份中,统计有多少家店铺日均销售额1000+ 销售额TOP3的省份中,各个省份的平均每单销售额 销售额TOP3的省份中,各个省份的支付类型比例 案例数据:下载 样例数据(Json): 相关需求字段: storeProvince(店铺所在省份) storeID(店铺ID) dateTS(订单日期) receivable(收款金额) payType(付款类型) 实现代码: # coding:utf8 from pyspark.sql import SparkSession from pyspark.sql.func...

阅读更多

Spark SQL II

SparkSQL 的运行流程 SparkRDD 的执行流程回顾 driver 提交任务 DAG 调度器逻辑任务 Task 调度器任务分配和管理监控 Worker 干活 SparkSQL 的自动优化 RDD 的运行会完全按照开发者的代码运行,如果开发者水平有限,RDD 的执行效率也会受到影响。 而 SparkSQL 会对代码执行“自动优化”,以提高代码运行效率。 DataFrame 可以被优化,是因为它固定是二维表结构,而 RDD 内的数据类型是不固定的。 SparkSQL 的自动优化依赖于 Catalysty优化器 Catalyst 优化器 解析 SQL,并且生成 AST(抽象语法树) 在 AST 中加入元数据信息,为优化...

阅读更多