随机森林算法
随机森林是Breiman在2001年提出的一个新的组合分类器算法。他采用分类回归树(Classification and regression tree,CART)作为元分类器,用装袋算法(bootstrap aggregating,Bagging)方法制造有差异的训练样本集,同时在构建单棵树时,随机地选择特征对内部节点进行属性分裂。Bagging方法和CART算法的结合,再加上随机选择特征进行属性分裂,使得RF能较好容忍噪声,从而具有较好的分类性能。1.5.1随机森林算法的定义随机森林是树型分类器{磊怯皖),k=l,...)的集合,元分类器|jik皖)是用CART算法构建的没有剪枝的分类回归树;x是输入向量,{哦)是独立同分布的随机向量,随机向量吼决定单棵树的生长过程;采用简单多数投票法(针对分类)、或单棵树输出结果的简单平均(针对回归)得到RF的最终输出。1.2随机森林算法伽@,ok),k=1,...)在传统的CART算法中,每个内部节点都是原始数据集的子集,根节点包含了所有的原始数据;而在每个内部节点处,从所有属性中找出最好的分裂方式进行分裂;然后对后续节点依次进行分裂,直到叶子节点;最后通过剪枝使测试误差最小。与CART算法不同,随机森林中单棵树的生长可概括为以下几点【50】:(1)使用Bagging方法形成各别的训练集:假设原始训练集中的样本数为Ⅳ,从中有放回地随机选取Ⅳ个样本形成一个新的训练集,以此生成一棵分类树。(2)随机选择特征对分类回归树的内部节点进行分裂:假设共有M个特征,指定一个正整数mtry《M;在每个内部节点,从M个特征中随机抽取mtry个特7第一章绪论征作为候选特征,选择这mtry个特征上最好的分裂方式对节点进行分裂。在整个森林的生长过程中,mtry的值保持不变。(3)每棵树自由生长,不剪枝。随机森林的输出组合方法有简单多数投票法(针对分类),和单棵树输出结果的平均(针对回归)。随机森林的泛化误差依赖于以下两个因素:(1)森林中任意两棵树的相关度(correlation)。减小不同树之间的相关度可以减小森林的总体误差率。(2)森林中单棵树的分类效能(strength)。具有低误差率的分类树为强分类器,增加单棵树的分类效能能够降低森林的总体误差。为提高RF的预测准确率,在减小树与树之间的相关度的同时,应增大单棵树的分类效能。使用Bagging方法形成新的训练集和随机选择特征进行分裂,使得随机森林能较好地容忍噪声,并且能降低单棵树之间的相关性;单棵树不剪枝能得到低的偏差,保证了分类树的分类效能。Breiman[511在文中通过实验证明:在标准数据集上,随机森林模型明显优于单个分类回归树模型【52】。1.5.3随机森林算法的优点随机森林方法是一种组合分类器算法,是树型分类器的组合,它集成了Bagging和随机选择特征分裂两种方法的特点,具有以下优点【52】:(1)由Bagging方法产生的袋外数据(Out ofbag,OOB)数据,可用于OOB估计,OOB估计可以用来估计单个特征的重要性,也可用来估计模型的泛化误差;(2)它提出了一种样本相似度的度量方法,并由此定义了样本的野点度量尺度,该尺度可用来检测野点;(3)采用CART算法作为元学习算法,这使得随机森林能同时处理连续属性和类别属性;(4)该算法能有效解决不平衡分类问题;(5)Bagging和随机选择特征分裂的结合,有较强的噪声容忍度;R第一章绪论(6)随机森林具有较高的分类准确率,并且不容易过拟合。1.5.4随机森**lit法的应用随机森林算法自2001年首次由Breiman提出以来,至今己广泛应用于管理学、经济学、社会科学、医学、生物信息学、生态学等众多领域。在经济管理领域,特别是在客户流失度预测方面:邱一卉将RF引用到福建移动某地区分公司的客户流失预测中,发现所建立RF模型的预测结果能针对不同类型的可能流失客户给出相应的挽留措施,有望成为电信行业客户流失预测研究领域的一种强有力的备选方案【53】;Coussement等把RF应用于客户流失预测能力的研究中,发现I心效果都要优于SVM、Logistic模型54】;Bart等比较了普通线性回归和Logistic模型,发现I强性能始终最优【55】;Buckinx等提出在客户交易数据库中加入客户忠诚度的预测值,同时比较了RF与多元线性回归及ANN的预测效果【561。在信用风险评价领域,林成德等利用RF建立企业信用评估的指标体系【571;Hiroyuki等利用I强研究了电力市场的信用风险评估,均取得了很好的效果[58】。在医学上,Lee等利用RF技术对助肺CT图像进行肺结节的自动检测【59]。在生物信息学方面,袁敏基于蛋白质的氨基酸序列,采用随机森林分类器对8类膜蛋白进行了预测,取了较高的预测精度【60】;Diaz.Uriarte等人应用I疆分析分子芯片数据,提出了基于一套新的基于RF的基因选择及分类方法,并比较SVM等分析结果,发现RF具有较好的预测准确率【611;Meng等人应用I心及改进的I心模型分析单核苷酸多态性(Single nucleotide polymorphism,SNP)连锁不平衡问题[621。在生态学方面,Gislason等基于多种来源的遥感信息及地质地理信息数据,利用RF方法对土地的覆盖面积进行了研究,并发现RF与其它组合算法相比分类精确度较甜63】;Smith等人利用RF及判别分析(DA)分析细菌资源追踪数据,判别预测美国德克萨斯州一水体的排泄物污染源,发现了RF模型的平均预测准确率比DA高大约8%(82.3%比74.6%)[391;Parkhurst等利用RF分析5个海水浴场中,一系列变量与海水中指示细菌的密度的关系,发现一周中的具体某天(星0第一章绪论期几),24小时前改指示菌的密度、水深、云的覆盖量等与指示菌的密度存在不同程度的相关关系,说明了I强对于分析大量数据中,挖掘与目标变量相关联的潜在变量关系中具有着较为强大的性能‘删;Jall等基于RF和Logistic模型建立了方法生态水文分布模型,比较发现RF的预测性能优于Logistic模型651。1.6目的意义对于养殖大黄鱼的疾病防治工作,目前主要存在以下问题:一方面,养殖户对各类大黄鱼疾病的认知程度不高,在病害发生时往往束手无策,而对于一种病害的诊断和所应采取的对策往往只能通过联系专家到现场调研指导的方法获得,既耗费大量入力、物力、财力,又往往因为耽误时间而错过了有效的病害防治机会,造成更严重的经济损失;另一方面,对于养殖大黄鱼疾病的防治方法有限,且以发病后治理为主,此种方法虽在一定程度上有效,但对于环境水质的破坏以及造成的药物在养殖对象体内的富集等问题难以解决。以刺激隐核虫病为例,虽然使用一些化学药物能起到一定的效果,但是这些药物在海区大水体的长期超量使用,会造成海洋鱼类健康受威胁、细菌耐药性增强、海洋环境污染等诸多问题,最终将影响水产品安全以及海水养殖业的持续健康发展。因此,大黄鱼疾病防治工作的重点应从传统的以“治”为主转变为以“防”为主,防治结合。本研究旨在针对上述问题,将通过现场调研,文献查阅等手段收集积累大黄鱼疾病资料信息,并整合开发方便的大黄鱼疾病诊断系统,降低疾病诊断成本,争取宝贵的防治时间;同时针对最常见的刺激隐核虫病的发生,本研究引入传统的多元线性模型以及先进的随机森林智能分类算法,用于分析不同水质参数对大黄鱼刺激隐核虫病发生的影响,对比其性能,并建立水质对该病预警预报机制,用从而对养殖大黄鱼的病害防治工作提供帮助。