-
pydqc:Python自动数据质量检查工具包,包含Spearman的Matlab代码实现
资源介绍
spearman的matlab代码pydqc
Python
自动数据质量检查工具包。
旨在通过以下方式减轻为通用数据理解编写繁琐代码的痛苦:
自动生成数据汇总报告,其中包含数据表中每一列的有用统计信息。
(对一般数据理解有用)
自动汇总两个数据表之间的统计差异。
(用于比较训练集和测试集,比较来自两个不同快照日期的相同数据表等)
但是仍然需要人类的一些帮助来推断数据类型。
:see-no-evil_monkey:
动机
“今天我不想做任何关于数据质量检查的事情,我只想躺在我的床上。不想写任何乏味的代码。所以构建一个自己运行的工具。”
:microphone:
:musical_note:
:musical_notes:
-修改了懒惰的歌
安装pydqc
安装
安装依赖pip
install
-r
requirements.txt
安装pydqc
git
clone
https://github.com/SauceCat/pydqc.git
cd
pydqc
python
setup.py
install
它是如何工作的?
对于输入数据表(熊猫数据框):
第
1
步:数据模式
功能:pydqc.infer_schema.infer_schema(数据,fname,output_root='',sam