-
在这个项目中,我们实现了朴素贝叶斯文档分类器并将其应用于20篇新闻数据以进行精度检验,代码名为NaiveBayes_Document_Classifier
资源介绍
matlab精度检验代码NaiveBayes_Document_Classifier
在此项目中,朴素贝叶斯文档分类器实现并应用于20个新闻组数据集,以预测给定文档将哪个新闻组发布到最大似然估计(MLE),最大后验概率(MAP)并构建朴素贝叶斯分类器并进行测试数据分为20个新闻组。
错误分类由混淆矩阵识别。
朴素贝叶斯分类器:
朴素贝叶斯分类器是一个简单的概率分类器,基于贝叶斯定理和特征之间的强(朴素)独立性假设而应用。
它执行文本分类,即以单词频度为特征来判断文档是否属于一个类别(例如垃圾邮件或合法,体育或政治等)的问题。
抽象而言,朴素贝叶斯是一个条件概率模型,给定要分类的问题实例,用代表某些n个特征(因变量)的向量表示,它为k个可能结果或类中的每一个分配实例概率。
该算法的主要缺点是,影响深远的独立性假设通常不准确,并且无法对正确的类概率产生良好的估计。
只要正确的类别比任何其他类别更有可能,朴素贝叶斯分类器将做出正确的MAP决策规则分类。
不管概率估计是轻微的还是什至完全不准确,这都是事实。
以这种方式,整体分类器可以足够健壮,从而可以忽略其潜在的朴素概率模型中的严重缺陷。
代