-
TinyXML指南-关于数据变换的中文版
资源介绍
7.3 数据变换
数据变换主要是对数据进行规范化处理、连续变量的离散化以及变量属性的构造,将数
据转换成“适当的”形式,以适用于挖掘任务及算法的需要。
7.3.1 简单函数变换
简单函数变换是对原始数据进行某些数学函数变换,常用的包括平方、开方、取对数、
差分运算等,即
2x x (7-1)
x x (7-2)
log( )x x (7-3)
1( ) ( ) ( )k k kf x f x f x (7-4)
简单的函数变换常用来将不具有正态分布的数据变换成具有正态分布的数据;在时间序
列分析中,有时简单的对数变换或者差分运算就可以将非平稳序列转换成平稳序列。在数据
挖掘中,简单的函数变换可能更有必要,比如个人年收入的取值范围为 10000 元到 10 亿元,
这是一个很大的区间,使用对数变换对其进行压缩是常用的一种变换处理。
7.3.2 规范化
数据标准化(归一化)处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的
量纲,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除指标之
间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落
- 上一篇: 资源库的使用-tinyxml指南[中文]
- 下一篇: 小数定标规范化-tinyxml指南[中文]