机器学习之回归模型

发布时间:2022-11-25 回归 机器学习 PYTHON
数据清洗 数据清洗主要包括缺失值的处理、异常值的检测与处理、不一致性检验与处理和规范化操作。 缺失值处理主要有:均值、中位数、众数或固定值填充法,最近邻填充法,回归填充法,插值法等; 异常值的检测与处理:首先使用箱线图可视化数据的分布来观察是否存在离群点,再借助 Tukey’s method(图基法)计算出数据集的四分之一分位数(R1)和四分之三分位数(R3),从而计算出四分位数间距(IRS),然后将小于 R1− 1.5IRS 或者大于 R3 + 1.5IRS 的数据点认定为异常值,在定位出异常数据后...

在R语言中实现Logistic逻辑回归

逻辑回归是拟合回归曲线的方法,当y是分类变量时,y = f(x)。典型的使用这种模型是给定一组预测的X预测Ÿ。预测因子可以是连续的,分类的或两者的混合。最近我们被客户要求撰写关于Logistic逻辑回归的研究报告。 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例 ,时长06:48 R中的逻辑回归实现 R可以很容易地拟合逻辑回归模型。要调用的函数是glm(),拟合过程与线性回归中使用的过程没有太大差别。在这篇...

python协同过滤算法实现电影推荐(附源码)

发布时间:2022-11-24 算法 机器学习 PYTHON PANDAS
数据集请点赞收藏关注后评论区留言并且私信博主要  本例中使用得是著名得电影数据集MovieLens-100数据集 MoviesLens数据集是实现和测试电影推荐最常用得数据集之一,包含943个用户为精选得1682部电影给出得100000个电影评分 主要文件如下1:u.data 2:u.item 3:u.user 1:查看用户/电影排名信息得代码如下 import pandas as pdheads=['user_id','item_id','rating','timestamp']ratings=pd...

机器学习项目实战合集列表

机器学习项目实战列表介绍: 编号项目名称1【机器学习项目实战】Python实现聚类(Kmeans)分析客户分组2【项目实战】Python实现贝叶斯算法疫情微博评论情感分析(手写算法)3【项目实战】Python实现深度神经网络RNN-LSTM分类模型(医学疾病诊断)4【机器学习项目实战】Python实现GA(遗传算法)对SVM分类模型参数的优化5【机器学习项目实战】随机森林(random forest)回归(RandomForestRegressor)模型Python实现6【项目实战】Python实现...

python读取文件并处理转化为list然后输出

发布时间:2022-11-26 机器学习 开发语言 PYTHON
根据用户特征生成用户的体力值 import xlrdimport numpy as npimport xlwtdata=xlrd.open_workbook(D:/PCstudy/data/Question_reults.xlsx)table = data.sheets()[0]#选择第0张表nrows = table.nrows # 行数ncols = table.ncols # 列数datamatrix = [] # 构造列表for i in range(nrows): rows =...

景区游玩规则py

发布时间:2022-11-26 机器学习 开发语言 PYTHON
游玩规则,既环境模拟器的实现 import xlrdimport numpy as npimport xlwtimport randomimport mathimport json#导入更新了体力值的表格data=xlrd.open_workbook(D:/PCstudy/data/Question_reults_end.xls)table = data.sheets()[0]#选择第0张表nrows = table.nrows # 行数ncols = table.ncols # 列数datamatr...

假设检验计算

发布时间:2022-11-28 机器学习 人工智能
一、背景 用于实验组和对照组是否有显著性差异。 二、理论 具体计算细节可参考参考资料中的代码实例计算过程。 三、相关参数 3.1 P值计算 P值来自于F统计量 3.2 T值 T检验, 需要满足正太分布的条件 https://baike.baidu.com/item/t%E6%A3%80%E9%AA%8C/9910799?fr=aladdin 3.3 F值计算 F ...

交叉熵损失函数以及二分类任务(机器学习)

发布时间:2022-11-23 深度学习 机器学习 人工智能
目录 第一步:信息量 𝐼𝑥 = -ln ⁡p(x) 第二步:熵  第三步:相对熵/KL散度  第四步:交叉熵 第五步:交叉熵损失函数 第六步: 二分类任务 第一步:信息量 一个事件 x 发生的概率 p(x) 越大,那么它一旦发生时的信息量 I(x) 就越大。 𝐼𝑥 = -ln ⁡p(x) 第二步:熵  第三步:相对熵/KL散度  第四步:交叉熵 第五步:交叉熵损失函数 评估标签值和预测值之间的差距,由于数据总体分布的熵值确定,因而可直接用交叉熵代替KL散度作为分类任务的损失函数。 交叉...

损失函数概论(机器学习)

发布时间:2022-11-23 深度学习 机器学习 人工智能
目录 第一步:理解损失是什么 第二步:损失函数使用步骤 第三步:常用样本损失函数 第四步:二维图像理解损失函数 第五步:均方差损失函数   第一步:理解损失是什么 损失: 即所有样本的  误差  总和 如果我们把神经网络的参数调整到完全满足独立样本的输出误差为0,通常会令其它样本的误差变得更大,这样作为误差之和的损失函数值,就会变得更大。 所以,我们通常会在根据某个样本的误差 调整权重 后,计算一下整体样本的损失函数值,来判定网络是不是已经训练到了可接受的状态。 损失函数的作用:计算神经网络每次迭...

神经网络中的三大概念是:反向传播,梯度下降,损失函数。

发布时间:2022-11-23 深度学习 机器学习 神经网络
目录 神经网络中的三大概念是:损失函数、反向传播、梯度下降。​​​​​​​ 第一步:以简单比喻理解:损失函数、反向传播、梯度下降。 第二步:总结反向传播与梯度下降的基本工作原理和步骤如下: 初始化 正向计算 损失函数:为我们提供了计算损失的方法 反向传播:把损失值反向传给神经网络的各层,让各层都可以根据损失值反向调整权重 梯度下降:在损失函数基础上向着损失最小的点靠近,从而指引了网络权重调整的方向 重复正向计算过程:直到精度满足要求(比如损失函数值小于 0.001)   神经网络中的三大概念是:损失函...

机器学习-集成算法

发布时间:2022-11-24 算法 机器学习
机器学习-基础知识 机器学习-线性回归 机器学习-逻辑回归 机器学习-聚类算法 机器学习-决策树算法 机器学习-集成算法 机器学习-SVM算法 集成算法 1. 定义 将多个分类器集成起来而形成的新的分类算法,主要包括Bagging、Boosting和Stacking三种类别,其中前两种比较常用。 2. 具体模型 2.1. Bagging 概述:此类算法中每个模型之间是相互独立的,他们之间的评估结果互不影响,是一个并行训练分类器。 构建方法: 对于给定的含有n个样本数据集,每次从中抽取某些样本放入到...

机器学习-基础知识、sklearn库、评估指标、python数据处理库

发布时间:2022-11-24 机器学习 SKLEARN PYTHON
机器学习-基础知识 机器学习-线性回归 机器学习-逻辑回归 机器学习-聚类算法 机器学习-决策树算法 机器学习-集成算法 机器学习-SVM算法 1. 机器学习基本概念 1.1. 常用算法 线性回归(Linear Regression)逻辑回归(Logistic Regression)聚类(k-means,DBSCAN)决策树(Decision Tree)集成算法(Random forest ,AdaBoost,Gradient Boosting)支持向量机(Support Vector Machine...

Orange学习-1(Orange启动的两种方法,附有安装包)

发布时间:2022-11-26 学习 机器学习 # ORANGE学习
目录   第一种启动方法 1. Orange启动--从Anaconda中启动 2. 进入到Orange界面,点击New即可进行下一步操作  3. 简单的操作 第二种启动方法 下载Orange软件安装 安装完成后,点击图标即可 第一种启动方法 1. Orange启动--从Anaconda中启动 2. 进入到Orange界面,点击New即可进行下一步操作 从上图的左侧,可以看到,分为了Data、Transform、Visulize、Model、Evaluate以及Unsupervised模块,点击进...

一些可以参考的文档集合10

发布时间:2022-12-01 TOMCAT JAVA 机器学习 数据库
 之前的文章集合:   一些可以参考文章集合1_xuejianxinokok的博客-CSDN博客 一些可以参考文章集合2_xuejianxinokok的博客-CSDN博客 一些可以参考的文档集合3_xuejianxinokok的博客-CSDN博客 一些可以参考的文档集合4_xuejianxinokok的博客-CSDN博客 一些可以参考的文档集合5_xuejianxinokok的博客-CSDN博客一些可以参考的文档集合6_xuejianxinokok的博客-CSDN博客一些可以参考的文档集合7_xuejia...

机器学习笔记

发布时间:2022-11-28 深度学习 机器学习 人工智能
一、机器学习——数据 数据集 机器学习需要的大量数据集从哪里找? 预处理 数据归一化白化one-hot独热编码(离散数据)数据增强(数据量有限) 深度学习之数据预处理一篇就够!数据增强方法综述 二、机器学习——模型 统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有线性函数构成的函数集合;监督学习通过训练数据的训练,从线性函数...

机器学习-SVM算法

发布时间:2022-11-24 算法 机器学习
机器学习-基础知识 机器学习-线性回归 机器学习-逻辑回归 机器学习-聚类算法 机器学习-决策树算法 机器学习-集成算法 机器学习-SVM算法 支持向量机 支持向量机(SVM)是一种有监督的二分类模型, 分为线性和非线性两大类, 主要思想是在空间中找到一个能够将所有数据样本划开的超平面,并且使得样本集中所有数据到这个超平面的距离最远。 优点: 在高维空间里也非常有效;对于数据维度远高于数据样本量的情况也有效;在决策函数中使用训练集的子集(也称为支持向量),因此也是内存高效利用的;很强的通用性,可以为决...

数据挖掘与机器学习:Apripori算法

发布时间:2022-11-24 学习 数据挖掘 其他 机器学习
目录 第一关:候选生成  任务描述: 相关知识: 一、Apripori算法候选生成: 二、Apripori算法候选生成代码实现: 编程要求: 测试说明: 第二关:候选剪枝 任务描述: 相关知识: Apripori算法候选剪枝: Apripori算法候选剪枝代码实现: 编程要求: 测试说明: 第三关:基于遍历的支持度计算 任务描述: 相关知识: 一、基于遍历的支持度计算: 二、基于遍历的支持度计算代码实现: 编程要求: 测试说明: 第四关:基于hash的支持度计算 任务描述: 相关知识: 一、基于hash的...

Orange学习-2 第一个简单的案列

发布时间:2022-11-26 机器学习 # ORANGE学习 PYTHON
目录 1. 使用Model下的Tree 2. 操作步骤 2.1 新建File,导入数据集 2.2 查看数据 2.3 进入到Tree模型   2.4 进入到Tree Viewer 2.5 进行Test and Score  2.6 保存一下文件 使用决策树(Tree)模型对鸢尾花数据进行预测 1. 使用Model下的Tree 使用的数据集:鸢尾花数据集(这是很经典的机器学习的数据集 sklearn中的)是classification问题 Tree 模型,也就是常说的决策树模型,可处理离散型数据与连续型数...

基于划分的方法、K-均值算法、K-medoids、K-prototype(机器学习)

发布时间:2022-11-25 机器学习 人工智能
目录 基于划分的方法 K-均值算法 k-均值算法聚类步骤如下: K-均值算法优缺点 K-medoids算法 K-prototype算法   基于划分的方法 1、基于划分的方法是简单、常用的一种聚类方法; 2、通过将对象划分为互斥的簇进行聚类, 每个对象属于且仅属于一个簇; 3、划分结果旨在使簇之间的相似性低,簇内部的相似度高; 4、基于划分的方法常用算法有k均值、k-medoids、k-prototype等; K-均值算法 k-均值聚类是基于划分的聚类算法,计算样本点与类簇质心的距离,与类簇质心相...

信息增益到底怎么理解呢?

发布时间:2022-11-26 决策树 机器学习 算法
我通过例子一步一步讲解这个概念。 信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。 ​​再说一个对信‬息熵的理解。信息熵可还‬以作为一个系复统‬杂程度的度量,如果系越统‬复杂,出现不同‬情况的种类越多,那他么‬的信熵息‬是比较大的。 如果一个系统‬越简单,出现情‬况种类很少(极端情况为1种情况,那么对应概率‬为1,那么对应的信息熵为0),此时的‬信息熵较小。 熵只依赖于X的分布,而与X...

机器学习——支持向量机与集成学习

发布时间:2022-11-26 集成学习 机器学习 人工智能
支持向量机与集成学习 一类按监督学习方式对数据进行二元分类的广义线性分类器 支持向量机的基本原理 线性可分 一维空间存在一个点将集合分成两个点集合,二维空间需要找到一条分类直线,三维空间需要找到一个分类面 在n维空间中,需要找到一个超平面。 “正中间”的超平面健壮性最佳称为划分超平面 支持向量 距离超平面最近的几个训练样本点 常用核函数 为解决线性不可分的情况(非线性组合) 为解决线性不可分的情况(非线性组合) 集成学习概述 集成学习是指为解决同一问题,先训练出一系列个体...

【吴恩达机器学习笔记】一、引言

发布时间:2022-12-02 算法 C++ PYTHON 人工智能 机器学习
✍个人博客:https://blog.csdn.net/Newin2020?spm=1011.2415.3001.5343 📣专栏定位:为学习吴恩达机器学习视频的同学提供的随堂笔记。 📚专栏简介:在这个专栏,我将整理吴恩达机器学习视频的所有内容的笔记,方便大家参考学习。 💡专栏地址:https://blog.csdn.net/Newin2020/article/details/128125806 📝视频地址:吴恩达机器学习系列课程 ❤️如果有收获的话,欢迎点赞👍收藏📁,您的支持就是我创作的最大动力💪 ...

【educoder 机器学习】PCA

PCA ( principal components analysis )即主成分分析,是一种使用最广泛的数据降维算法。 PCA 的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。 本实训项目的主要内容是基于 python 语言实现 PCA 算法,并熟悉 sklearn 中提供的 PCA 接口来对数据进行降维。 第1关:维数灾难与降维 1.B C2.C 第2关:PCA算法流程 任务描述 本关任务:复习教学平台讲义,补充 pyt...

论文阅读10——《Adversarially regularized joint structured clustering network》

论文阅读10——《Adversarially regularized joint structured clustering network》 原文地址:论文阅读10——《Adversarially regularized joint structured clustering network》 作者:Yachao Yang, Fujiao Ju, Yanfeng Sun, Junbin Gao, Baocai Yin 发表时间:2022年10月3日 论文地址:Adversarially regu...

论文阅读09——《Deep Fusion Clustering Network》

发布时间:2022-11-25 机器学习 DFCN 论文阅读 聚类
论文阅读09——《Deep Fusion Clustering Network》 原文链接:论文阅读09——《Deep Fusion Clustering Network》 作者:Wenxuan Tu, Sihang Zhou, Xinwang Liu, Xifeng Guo, Zhiping Cai, En zhu, Jieren Cheng 发表时间:2021年5月18日 论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/17198 代...

反向传播——机器学习

发布时间:2022-11-23 机器学习 人工智能
目录 一、实验内容 二、实验过程 1、算法思想 2、算法原理 3、算法分析 三、源程序代码 四、运行结果及分析  五、实验总结   一、实验内容 掌握线性反向传播的原理;掌握线性反向传播的算法Python实现;熟悉非线性反向传播的原理;掌握非线性反向传播的算法Python实现。 二、实验过程 1、算法思想         反向传播是利用函数的链式求导来进行推导的,目的是通过不断调整权重和偏置来不断减小误差,最终得到误差最小的神经网络。 2、算法原理         反向传播线性回归的思想是一样的,是...

神经网络训练不起来,怎么办?

Datawhale开源学习,机器学习课程,项目地址:https://github.com/datawhalechina/leeml-notes Optimization Critical Point是Saddle Point还是Local Point? 现在我们要讲的是Optimization的部分,所以我们要讲的东西基本上跟Overfitting没有什么太大的关联,我们只讨论在做Optimization时,如何把gradient descent做得更好,那为什么Optimization会失败呢? ...

基于斑点鬣狗优化的BP神经网络(分类应用) - 附代码

基于斑点鬣狗优化的BP神经网络(分类应用) - 附代码 摘要:本文主要介绍如何用斑点鬣狗算法优化BP神经网络,利用鸢尾花数据,做一个简单的讲解。 1.鸢尾花iris数据介绍 本案例利用matlab公用的iris鸢尾花数据,作为测试数据,iris数据是特征为4维,类别为3个类别。数据格式如下: 特征1特征2特征3类别单组iris数据5.32.11.213种类别用1,2,3表示。 2.数据集整理 iris数据总共包含150组数据,将其分为训练集105组,测试集45组。如下表所示: 训练集(组)测试集(组)...

基于海鸥算法优化概率神经网络PNN的分类预测-附代码

基于海鸥算法优化概率神经网络PNN的分类预测 - 附代码 摘要:针对PNN神经网络的光滑因子选择问题,利用海鸥算法优化PNN神经网络的光滑因子的选择,并应用于变压器故障诊断。 1.PNN网络概述 概率神经网络( probabilistic neural networks , PNN )是 D. F. Specht 博士在 1 989 年首先提出的,是一种基于 Bayes 分类规则与 Parzen窗的概率密度面数估计方法发展而来的并行算 法。它是一类结胸简单、训练简洁、应用广泛的人工神经网络 。在实际应...

数据挖掘与机器学习:维归约

发布时间:2022-11-23 数据挖掘 学习 其他 机器学习
第1关:实现PCA降维算法 import numpy as npimport matplotlib.pyplot as plt#使用numpy库中的函数来创建一个随机的数据集np.random.seed(3)X = np.empty([100,2])X[:,0] = np.random.uniform(0., 100., size=100)X[:,1] = 0.75 * X[:,0] + 3. + np.random.normal(0., 10., size=100)#定义均值归零函数def demean...

2022 11月24 Ridge/LASSO Regression学习笔记

发布时间:2022-11-24 学习 机器学习 PYTHON
解决过拟合现象,减少高次项的影响,使曲线更加平滑。利用正则化。岭回归和LASSO都是一种正则化。 岭回归是将代价函数正则化 LASSO回归是将高价的项正则化,让他们的影响不那么大。 岭回归和LASSO回归是最小二乘法的优化,解决了最小二乘法的局限性 岭回归 局限性: w=(X(T)X)(-1)X(T)y,如果 X(T)X 是奇异矩阵则无法进行求解 w=(X(T)X)(-1)X(T)y :在高维 x 的情况下,满足这个条件的w使得残差最小(和真实值的距离最小)两种情况 X本身存在相关...

机器学习分类方法

发布时间:2022-11-24 机器学习 PYTHON
1、支持向量机 1.1支持向量机简介: 支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。SVM它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,以 “最...

【吴恩达机器学习笔记】二、单变量线性回归

发布时间:2022-12-02 算法 C++ 机器学习 线性回归 回归
✍个人博客:https://blog.csdn.net/Newin2020?spm=1011.2415.3001.5343 📣专栏定位:为学习吴恩达机器学习视频的同学提供的随堂笔记。 📚专栏简介:在这个专栏,我将整理吴恩达机器学习视频的所有内容的笔记,方便大家参考学习。 💡专栏地址:https://blog.csdn.net/Newin2020/article/details/128125806 📝视频地址:吴恩达机器学习系列课程 ❤️如果有收获的话,欢迎点赞👍收藏📁,您的支持就是我创作的最大动力💪 ...

双层神经网络实现非线性回归——机器学习

发布时间:2022-11-24 回归 机器学习 神经网络
目录 一、算法思想 二、算法原理 三、算法分析 四、源程序代码 五、运行结果及分析 一、算法思想         在两层神经网络之间,必须有激活函数连接,从而加入非线性因素,提高神经网络的能力。所以,我们先从激活函数学起,一类是挤压型的激活函数,常用于简单网络的学习;另一类是半线性的激活函数,常用于深度网络的学习。         万能近似定理,是深度学习最根本的理论依据。         万能近似定理声明了在给定网络具有足够多的隐藏单元的条件下,配备一个线性输出层和一个带有任何挤压性质的激活函数的...

AI 预测世界杯比赛结果,惊掉下巴

发布时间:2022-11-24 机器学习 PYTHON 人工智能
哈喽,大家好。 今天看到Kaggle上有一个预测世界杯比赛结果的项目,截至目前 4 场比赛预测结果全中。 今天把源码研究了一下,做了中文注释,给大家分享下。 技术提升 本文由技术群粉丝分享,项目源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友 方式①、添加微信号:dkl88191,备注:来自CSDN +研究方向 方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群 1. 获取数据集 数据集使用 187...

非线性二分类——机器学习

发布时间:2022-11-24 算法 机器学习 分类
目录 一、算法思想 二、算法原理 三、算法分析 四、源程序代码 五、运行结果及分析 六、总结 一、算法思想         为克服线性函数分类效果不足的问题,非线性分类器中引入了非线性函数来提升分类效果。非线性分类器用一个曲面或者多个超平(曲)面的组合将两组样本隔离开。         一个典型的非线性分类器就是决策树,它的主要思想就是用多个线性分类器的组合来将两组样本隔离开。 决策树采用非常直观的方式来对样本进行分类,你只需要针对样本的特征问一系列问题就能将各样本分离开来。 二、算法原理       ...

线性二分类——机器学习

发布时间:2022-11-24 算法 机器学习 分类
目录 一、算法思想  二、算法原理 三、算法分析 四、源程序代码 五、运行结果及分析 六、总结 一、算法思想 (1)二分类:表示分类任务有两个类别,比如我们想识别图片中是不是狗,也就是说,训练一个分类器,输入一幅图片,用特征向量x表示,输出是不是狗,用y=0或1表示。二类分类是假设每个样本都被设置了一个且仅有一个标签 0 或者 1。   (2)多类分类: 表示分类任务中有多个类别, 比如对一堆水果图片分类, 它们可能是橘子、苹果、梨等. 多类分类是假设每个样本都被设置了一个且仅有一个标签: 一个水果...

第五章 神经网络(下)

发布时间:2022-11-24 算法 机器学习 神经网络 人工智能
5.3 误差逆传播算法 多层网络地学习能力比单层感知机强的多。欲训练多层网络,之前的简单感知机学习规则显然不够用了,需要更强大的学习算法。误差逆传播(error BackPropagation,简称BP)算法就是其中最杰出的代表。现实任务中使用神经网络时,大多使用的BP算法进行训练,其不仅可用于多层前馈神经网络,还可用于其他类型额神经网络。通常的,BP网络一般指用BP算法训练的多层前馈神经网络。 给定训练集D={(x1,y1),(x2,y2),…,(xm,ym)},输入示例由d个属性描述,输出l维实例向量...

《机器学习实战》9.树回归

发布时间:2022-11-24 回归 机器学习 算法
目录 树回归 1 复杂数据的局部性建模 2 连续和离散型特征的树的构建 3 将CART算法用于回归 3.1 构建树 3.2 运行代码 4 树剪枝 4.1 预剪枝 4.2 后剪枝 5 模型树 6 示例:树回归与标准回归的比较 7 使用python的Tkinter库创建GUI 7.1 用Tkinter创建GUI 7.2 集成Matplotlib和tkinter 8 本章小结 本章涉及相关代码和数据 树回归 本章内容: ①CART算法 ②回归与模型树 ③树剪枝算法 ④Python中GUI的使用 之前...

机器学习-决策树算法

发布时间:2022-11-24 决策树 机器学习 算法
机器学习-基础知识 机器学习-线性回归 机器学习-逻辑回归 机器学习-聚类算法 机器学习-决策树算法 机器学习-集成算法 机器学习-SVM算法 1. 决策树算法 1.1. 什么是决策树/判定树 ​ 决策树是一个类似于流程图的树结构,其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类的分布,树的顶层是根结点。决策树是一种有监督学习的一种算法,是机器学习中分类方法中的一个重要分支。 1.2. 决策树归纳算法 策略: 自根至叶的递归过程,在每个中间结点寻找一...

几行 Python 代码就可以提取数百个时间序列特征

发布时间:2022-11-24 机器学习 开发语言 PYTHON
以下所有内容均来自python绿色通道订阅号,个人整理主要为了个人方便查看,希望也可以对各位有所帮助 时间序列数据是随着时间的推移反复捕获的变量值,随着时间的推移可以产生一系列的按时间顺序索引的数据点。在时间序列中,数据具有自然的时间顺序,即一个变量在特定时间的值依赖于过去的值。 传统的机器学习算法不能捕捉时间序列数据的时间顺序。数据科学家需要执行相关的特征工程,将数据的重要特征捕获到几个指标中。生成大量的时间序列特征并从中提取相关特征是一项耗时且繁琐的工作。 python的tsfresh包可以为时间序...

卷积神经网络

发布时间:2022-11-24 深度学习 机器学习 神经网络 CNN
Datawhale开源学习,机器学习课程,项目地址:https://github.com/datawhalechina/leeml-notes Convolutional Neural Network 本节内容学习了什么是CNN卷积神经网络,相比于全连接网络,它每次只提取部分内容作为整个网络的某些模块的运算,每个卷积可能负责图像上某个小模块的内容,比如某个卷积filter输出后得到的可能是某个该卷积想关注的图像纹理特征,我们一般是将多个卷积最终通过全连接,让局部信息和全局信息相互作用,通过全连接最终...

机器学习之特征提取

发布时间:2022-11-24 机器学习 PYTHON
Question Orientied:来自论文的一个学习点 Feature extraction 定义: 特征提取是指使用计算机提取图像中属于特征性的信息的方法及过程。 简言之 提取图像关键信息。 特征提取出来的结果叫特征向量。 进入主题之前 普及几个常识: 像素的英文名称:Pixel RGB的值是指其亮度,用整数从0、1、2……255来表示。 其中,255亮度最大,0也是数值之一。 RGB(0,0,0)代表黑色,RGB(255,255,255)代表白色。 计算机以数字矩阵的形式存储图像 ...

决策树-相关作业

发布时间:2022-11-25 决策树 机器学习 人工智能
1. 请使用泰勒展开推导gini不纯度公式; 2. 请说明树的剪枝怎么实现; ●预剪枝(pre-pruning)通过替换决策树生成算法中的停止准则。(例如,最大树深度或信息增益大于某一阈值)来实现树的简化。预剪枝方法被认为是更高效的方法,因为它们不会反映整个数据集,而是从一开始就保持小树。预剪枝方法有一个共同的问题,即视界限制效应。一般不希望通过停止准则过早地终止诱导。 ●后剪枝(post-pruning)是简化树的常见方法,用叶子代替中间节点和子树以提高复杂度。后剪枝不仅可以显著减小树的大小,还可以提...

线性回归的神经网络法——机器学习

发布时间:2022-11-24 线性回归 机器学习 神经网络
一、算法思想         线性回归方程在神经网络深度学习中线性回归方程是需要掌握的最基础的式子,就是:y=wx+b,其中w,b是未知的。         神经网络就是可以通过收集大量的数据集,然后将这些数据集进行训练后得到几个较为准确的参数,训练数据集后会得到两个参数,当损失率越小,那么测试集得到的数据就越准确。   二、算法原理         在常规的神经网络中,神经网络结构中有多个层,非线性激活函数和每个节点上面的偏差单元。使用一个有一个或者多个权重w的层,在简单线性回归中,权重w和偏差单元一...