yb亚博网站
Mou Mou Jidian Generator
发电机维修 发电机回收
发电机出售 发电机租赁
客户统一服务热线

056-354228462
14122497708

4进口发电机组
您的位置: 主页 > 产品中心 > 进口发电机组 >
10种机械学习方法,掌握了就可以称霸朋侪圈

10种机械学习方法,掌握了就可以称霸朋侪圈

本文摘要:全文共5830字,预计学习时长10分钟图片来自Unsplash网站,chuttersnap摄岂论是在科研中还是在工业领域,机械学习都是个热门话题,新的机械学习方法也层出不穷。机械学习生长迅速又很庞大。对初学者而言,紧跟其生长无疑十分难题,即即是对专家们来说也非易事。 为揭开机械学习的神秘面纱,资助新手学习该领域的焦点观点,本文会先容十种差别的机械学习方法,包罗简朴形貌和可视化等,并一一举例说明。机械学习算法(模型)是个表现某一问题(常为商业问题)所包罗数据信息的数学表达式。

yb亚博网站

全文共5830字,预计学习时长10分钟图片来自Unsplash网站,chuttersnap摄岂论是在科研中还是在工业领域,机械学习都是个热门话题,新的机械学习方法也层出不穷。机械学习生长迅速又很庞大。对初学者而言,紧跟其生长无疑十分难题,即即是对专家们来说也非易事。

为揭开机械学习的神秘面纱,资助新手学习该领域的焦点观点,本文会先容十种差别的机械学习方法,包罗简朴形貌和可视化等,并一一举例说明。机械学习算法(模型)是个表现某一问题(常为商业问题)所包罗数据信息的数学表达式。设盘算法是为了分析数据从而获取有用信息。

好比,在线零售商想要预测下一季度的销售额时,就可能会用到机械学习算法,凭据之前的销售额和其他相关数据来举行预测。同样,风车制造商可以羁系重要的设备,他们给算法提供视频数据使其在训练之后能够识别设备上的裂痕。本文先容的十种机械学习方法可以让你对机械学习有一个整体的相识,资助你打下相关的知识和技术基础:1. 回归2. 分类3. 聚类4. 降维5. 集成方法6. 神经网络与深度学习7. 迁移学习8. 强化学习9. 自然语言处置惩罚10. 词嵌入 最后,在先容这些方法之前,还是先来区分一下监视学习和无监视学习这两种机械学习种别吧。

监视学习用于在已有数据的情况下举行预测或解释,即通过先前输入和输出的数据来预测基于新数据的输出。好比,监视机械学习技术可用来资助某服务企业预测未来一个月订购该服务的新用户量。相比之下,无监视机械学习是在不使用目的变量举行预测的情况下,对数据点举行关联和分组。

换言之,它凭据特征评估数据,并凭据这些特征,将相似的数据聚集在一起。例如,无监视学习技术可用来资助零售商对具有相似特征的产物举行分类,而且无需事先指定详细特征是什么。1. 回归 回归是一种监视机械学习方法,在先前数据的基础上预测或解释特定数值。

例如要想知道某房产的价值,可凭据与之相似房产的订价来预测。线性回归是最简朴的回归方法,用直线方程(y = m * x + b)来模拟数据集。通过盘算直线的位置和斜率获得具有许多数据对(x,y)的线性回归模型,在该直线上,所有数据点到它的距离之和最小。

换言之,盘算的是最靠近数据中观察值的那条线的斜率(m)和y截距(b)。接着再来看一些详细的线性回归例子。将修建物的年事、楼层数、面积(平方英尺)和墙上插入式设备的数量这些数据汇总在一起,用线性回归方法来预测该修建物的耗能情况(以千瓦时为单元)。

由于有多种输入值(年事,面积等),可以选择多变量线性回归方法,原理和简朴的一元线性回归一样,但在这种情况下,由于有多个变量,最终建立出来的“线”是多维的。下图显示了线性回归模型与修建物实际能耗的吻合水平。如果已知某修建物的各项特征(年事、面积等),但耗能情况未知,就可以用拟合线来对其举行估算。

注意,线性回送还可以用来预计各个因素对于最终耗能情况的影响水平。例如,有了公式,就可以确定修建物的年事、面积或高度是否为最重要的影响因素。

用来估算修建物能耗(以千瓦时为单元)的线性回归模型回归技术有简朴的(线性回归),也有庞大的(正则化线性回归、多项式回归、决议树和随机森林回归、神经网络等),你大可不必感应疑惑,可以先从简朴的线性回归着手,掌握其中的技术,然后继续学习较庞大的类型。2. 分类分类是另一种监视机械学习方法,这一方法对某个种别值举行预测或解释。好比可以用分类的方法来预测线上主顾是否会购置某一产物。

输出可分为是或否,即购置者或非购置者。但分类并不限于两个选择。

例如,可通太过类来看某一图像中是否有汽车或卡车。在这种情况下,输出就有3个差别值,划分为1)图像包罗汽车、2)图像包罗卡车或3)图像既不包罗汽车也不包罗卡车。

逻辑回归是分类算法中最简朴的一类,这听起来很像一个回归方法,其实否则。逻辑回归是基于一个或多个输入来预计某一事件发生概率的一种算法。例如,逻辑回归可基于学生的两次考试分数来预计该生被某一大学录取的概率。

由于预计值是概率,输出只能是介于0和1之间的数字,其中1表现完全确定。对该生而言,如果预计概率大于0.5,预测效果就是:他(她)能被录取,如果预计概率小于0.5,预测效果则为:他(她)不会被录取。下图显示了先前学生的分数以及他们最终的录取效果。

用逻辑回归可绘制出一条代表决议界限的线。逻辑回归决议界限线:他们能否被大学录取?逻辑回归是一个线性模型,因此是新手学习分类方法入门的不错选择。随着不停的进步,就可以深入研究像决议树、随机森林、支持向量机和神经网络这些非线性分类了。3. 聚类 聚类方法的目的是对具有相似特征的视察值举行分组或聚类,是一种无监视机械学习方法。

聚类方法不借助输出信息举行训练,而是让算法界说输出。在这一方法中,只能使用可视化来磨练解决方案的质量。最盛行的聚类方法是K均值聚类,其中“K”表现用户选择建立的簇的数量。(注意,选取K值时有多种技术可供选择,好比肘部规则。

)大要上,K均值聚类法对数据点的处置惩罚步骤包罗:1. 随机选择数据中的K其中心。2. 将每个数据点分配给最靠近的随机建立的中心。

3. 重新盘算每个簇的中心。4. 如果中心没有变化(或变化很小),就竣事此历程。否则,返回至第2步。(如果中心连续更改,为防止最终形成无限循环,要提前设置最大迭代次数。

)下图将K均值聚类法应用于修建物的数据集。图中的每一列都讲明了每栋修建的效率。

这四项丈量的量涉及空调、插入式设备(微波炉,冰箱等)、家用燃气和可燃气体。选择K值为2举行聚类,这样就很容易地将其中一个聚类解释为高效修建群,另一个则为低效修建群。左图中可以看到修建物的位置,右图可以看到两个输入值:插入式设备和可燃气体。

将修建聚类成高效修建群(绿色)和低效修建群(红色)聚类方法中会涉及到一些很是有用的算法,好比具有噪声的基于密度的聚类方法(DBSCAN)、均值漂移聚类、聚合条理聚类、基于高斯混淆模型的期望最大化聚类等。4. 降维顾名思义,降维可用来删除数据集中最不重要的数据。实践中常会遇到包罗数百甚至数千列(也称为特征)的数据集,因此淘汰总量至关重要。例如,图像中数千个像素中并不是所有的都要分析;或是在制造历程中要测试微芯片时,如果对每个芯片都举行测试也许需要数千次测试,但其实其中许多芯片提供的信息是多余的。

在这些情况下,就需要运用降维算法以便对数据集举行治理。主身分分析(PCA)是最常用的降维方法,通过找出最大化数据线性变化的新向量来减小特征空间的维数。在数据的线性相关性很强时,主身分分析法可以显著减小数据的维度,且不会丢失太多信息。

(其实,还可以权衡信息丢失的实际水平并举行相应调整。)t-漫衍邻域嵌入(t-SNE)是另一种常用的方法,可用来淘汰非线性维数。t-漫衍邻域嵌入通常用于数据可视化,但也可以用于淘汰特征空间和聚类等机械学习任务。下图显示了手写数字的MNIST数据库分析。

MNIST包罗数千个从0到9的数字图像,研究人员以此来测试聚类和分类算法。数据集的每一行是原始图像的矢量化版本(巨细为28×28 = 784)和每个图像的标签(0,1,2,3,......,9)。

注意,因此将维度从784(像素)减至2(可视化维度)。投影到二维使得能够对高维原始数据集举行可视化。

手写数字MNIST数据库的t-漫衍邻域嵌入迭代5. 集成方法 假设你对市面上的自行车都不满足,计划自己制作一辆,也许会从寻找各个最好的零件开始,然后最终会组装出一辆最好的自行车。集成方法也是使用这一原理,将几个预测模型(监视式机械学习方法)组合起来从而获得比单个模型能提供的更高质量的预测效果。

随机森林算法就是一种荟萃方法,联合了许多用差别数据集样本训练的决议树。因此,随机森林的预测质量会高于单个决议树的预测质量。集成方法可明白为一种减小单个机械学习模型的方差和偏差的方法。

任何给定的模型在某些条件下可能是准确的,但在其他条件下有可能禁绝确,因此这种方法十分重要。如果换用另一个模型,相对精度可能会更低。而组合这两个模型,就可以平衡预测的质量。

绝大多数Kaggle竞赛的获胜者都市使用集成方法。最为盛行的集成算法有随机森林、XGBoost和LightGBM。

6. 神经网络与深度学习 与线性模型的线性回归和逻辑回归相比,神经网络的目的是通过向模型添加参数层来捕捉数据中的非线性模式。下图中,简朴神经网络有四个输入,一个带有五个参数的隐藏层和一个输出层。具有一个隐藏层的神经网络其实,神经网络的结构十分灵活,可以构建出我们所熟知的的线性回归和逻辑回归。

深度学习一词来自具有多个隐藏层的神经网络(见下图),是对种种体系结构的一个归纳综合。跟上深度学习生长的程序尤为难题,部门原因在于研究和工业方面投入了大量精神来研究深度学习,使得不停有新方法涌现出来。

深度学习:具有多个隐藏层的神经网络为到达最佳效果,深度学习技术需要大量的数据,同时也需要强大的盘算能力作为支撑,因为该方法是在大型体系架构中对许多参数举行自我调整。鉴于此,就不难明白为什么深度学习从业者要用配备强大图形处置惩罚单元(GPU)功效的盘算机了。深度学习技术在视觉(图像分类)、文本、音频和视频领域的应用最为乐成。

最常见的深度学习软件包有Tensorflow和PyTorch。7. 迁移学习假设你是个零售业的数据科学家,已经花了几个月的时间训练高质量模型,用来将图像分为衬衫、T恤和Polo衫这三类。新任务是建一个类似的模型,把服装图像分为牛仔裤、工装裤、休闲裤和正装裤这几类。

那么能不能把第一个模型中已建设的知识转移到第二个模型中呢?固然可以,迁移学习可以做到。迁移学习是指重复使用先前训练的神经网络的一部门,并使其适应类似的新任务。详细来说就是,使用先前任务中训练过的神经网络,可以传输一小部门训练过的图层,并将它们与用于新任务数据训练的几个图层组合在一起。通过添加图层,新的神经网络就能快速学习并适应新的任务。

迁移学习的主要优点是训练神经网络所需的数据较少,这点尤为重要,因为深度学习算法的训练既耗时,(盘算资源上)花费又高。而且,通常也很难找到足够的标志数据来供培训使用。还是回到上文的例子,假设衬衫模型中,你用了一个有20个隐藏层的神经网络,频频实验后,发现可以迁移其中的18个衬衫模型层,并能把它们与用来训练裤子图像的某个新的参数层相联合。

此时,裤子模型将有19个隐藏层。这两个任务的输入和输出差别,但一些归纳综合与两者都有关的信息如布料、衣服上扣件和形状等方面的参数层可重复使用。

迁移学习正变得越来越盛行,现在已经有许多牢固的预训练的模型,可以用来完成一些常见的像图像和文天职类的深度学习任务。8. 强化学习试想,迷宫中有只老鼠,在试图寻找藏在某处的奶酪。老鼠进迷宫的次数越多,它就越有可能找到奶酪。一开始,老鼠可能会随机走动,但一段时间后,它就能意识到怎样走可以找到奶酪。

老鼠找奶酪的历程反映了使用强化学习来训练系统或游戏的方法。一般来说,强化学习是一种资助署理从履历中学习的机械学习方法。通过在设定情况中记载操作并使用试错法,强化学习可以最大化累积奖励。在上述示例中,署理是老鼠,情况是迷宫。

老鼠的可能操作是:前移、后移、左移或右移,奶酪则是奖励。如果一个问题险些没有任何历史数据,就可以选择强化学习方法,因为它不需要事先提供信息(这一点差别于传统的机械学习方法)。在强化学习框架中,你可以随时相识数据。

因此强化学习的应用在游戏方面的乐成也就屡见不鲜了,特别是在国际象棋和围棋这类“完美信息”型游戏上的应用。在游戏中,可以迅速凭据署理和情况的反馈做出调整,从而使模型能够快速学习。强化学习的缺点则是如果问题很庞大,训练时间也许会很长。IBM的Deep Blue曾在1997年击败了人类最佳国际象棋选手,同样,基于深度学习的算法AlphaGo也于2016年击败了人类最佳围棋选手。

现在英国的DeepMind科技公司是深度学习研究的翘楚。2019年4月,OpenAI Five团队击败了电子竞技Dota 2世界冠军队伍,成为了首个取得此项成就的人工智能团队。

Dota 2是一个很是庞大的视频游戏,OpenAI Five团队之所以选择它,是因为其时没有一种强化学习算法能够在游戏中获胜。这个击败Dota 2人类冠军队伍的AI团队还开发出了一个可重新定位一个块(可以抓工具)的机械手。强化学习可以说是一很是强大的人工智能,以后一定会取得更多更大的进步,但同时也应记着这些方法也有局限性。9. 自然语言处置惩罚世界上很大一部门数据和知识都以人类语言的形式存在着。

你能想象在几秒内阅读、明白成千上万的书、文章和博客吗?显然,盘算机还不能完全明白人类语言,但经训练可以完成某些任务。好比可以训练手机自动回复短信或纠正拼写错的单词,甚至可以教一台机械与人举行简朴攀谈。

自然语言处置惩罚(NLP)自己不是一种机械学习方法,而是一种用于为机械学习准备文本的技术,其应用十分广泛。想像一下:有大量种种花样的文本文档(词语、在线博客…等),充满了拼写错误、缺少字符和字词多余的问题。现在,由斯坦福大学的研究人员建立的NLTK(自然语言工具包)是使用最为广泛的一种文本处置惩罚包。

将文本映射到数字表现,最简朴的方法是盘算每个文本文档中各个单词的频率。在一个整数矩阵中,每行代表一个文本文档,每列代表一个单词。

这种单词频率矩阵通常称为术语频率矩阵(TFM)。在这个基础上,可以用矩阵上的每个条目除以每个词在整个文档集中重要水平的权重,从而获得文本文档的另一种盛行矩阵表现。这种方法称为术语频率反向文档频率(TFIDF),通常更适用于机械学习任务。

10. 词嵌入TFM和TFIDF是文本文档的数字表现,只凭据频率和加权频率来表现文本文档。相比之下,词嵌入可以捕捉文档中某个词的上下文。凭据语境,嵌入可以量化单词之间的相似性,反过来这又利便了对词的算术运算。

Word2Vec是一种基于神经网络的方法,将语料库中的单词映射到了数字向量。然后,这些向量可用来查找同义词、使用单词执行算术运算,或用来表现文本文档(通过获取文档中所有词向量的均值)。好比,假设用一个很大的文本文档来预计单词嵌入,而且“king”、“queen”、“man”和“woman”这四个词也是语料库的一部门,向量(‘word’)是表现单词“word”的数字向量。

为了预计向量(‘woman’),可以用向量执行算术运算:向量(‘king’)+向量(‘woman’)-向量(‘man’)~向量(‘queen’)词(向量)嵌入的数字运算有了单词表现,可以盘算两个单词的向量表现之间的余弦相似性,以此发现单词之间的相似性。余弦相似性丈量的是两个矢量的夹角。机械学习方法可用来盘算单词嵌入,但这往往是在顶部应用机械学习算法的前提步骤。

例如,假设我们能会见数千名推特用户的推文,并知道这些用户中哪些人买了屋子。为预测新用户买房的概率,可以将Word2Vec与逻辑回归联合起来。

你可以训练单词嵌入或使用预训练(迁移学习)单词向量集。若需下载157种差别语言的预训练单词向量,可检察FastText。留言 点赞 关注我们一起分享AI学习与生长的干货接待关注全平台AI垂类自媒体 “读芯术”。


本文关键词:10种,机械,学习方法,掌握,了,就可以,亚慱体育app在线下载,称霸

本文来源:yb亚博网站-www.shuziguigu.com

Copyright © 2002-2021 www.shuziguigu.com. yb亚博网站科技 版权所有  ICP备案:ICP备32006556号-2