-
无监督学习-进入it企业必读的200个.net面试题完整扫描版下载
资源介绍
1.4 无监督学习
参考视频: 1 - 4 - Unsupervised Learning (14 min).mkv
本次视频中,我们将介绍第二种主要的机器学习问题。叫做无监督学习。
上个视频中,已经介绍了监督学习。回想当时的数据集,如图表所示,这个数据集中每
条数据都已经标明是阴性或阳性,即是良性或恶性肿瘤。所以,对于监督学习里的每条数据,
我们已经清楚地知道,训练集对应的正确答案,是良性或恶性了。
在无监督学习中,我们已知的数据。看上去有点不一样,不同于监督学习的数据的样子,
即无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据
集,却不知如何处理,也未告知每个数据点是什么。别的都不知道,就是一个数据集。你能
从数据中找到某种结构吗?针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。
这是一个,那是另一个,二者不同。是的,无监督学习算法可能会把这些数据分成两个不同
的簇。所以叫做聚类算法。事实证明,它能被用在很多地方。
聚类应用的一个例子就是在谷歌新闻中。如果你以前从来没见过它,你可以到这个 URL
网址 news.google.com 去看看。谷歌新闻每天都在,收集非常多,非常多的网络的新闻内容。
它再将这些新闻分组,组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件,
自动地把它们聚类到一起。所以,这些新闻事件全是同一主题的,所以显示到一起。
事实证明,聚类算法和无监督学习算法同样还用在很多其它的问题上。