-
对从UCI存储库中获取的流行数据集进行预处理,即数据集预处理阶段
资源介绍
数据集预处理
流行数据集的预处理(目前来自UCI存储库)。 这些方法包括:
一键编码分类变量
数值变量的最小-最大缩放范围为[0,1]
生成元数据信息:
样品数
功能数量
变量类型
一键编码字典
类名
还包括用于下载数据集并使用默认参数进行预处理的脚本。
先决条件
该项目是使用python 2.7.12和以下软件包开发的:
numpy == 1.15.1
scikit学习== 0.19.2
scipy == 1.1.0
仅在下载和提取压缩文件内容时才需要这样做:
wget == 3.2
xlrd == 1.1.0
用pip安装:
pip install -r requirements.txt