-
阿里2015年举办的天池大数据竞赛运用了移动窗口采样技术,并结合了随机森林学习方法
资源介绍
tianchi_bigdata
任务:
特征(39维):
user特征、item特征、user-item特征、全局比例特征
数据采样
采用移动窗口target(17、15、13、11、9)+移动窗口样本采样(1、3、7、全部)
训练数据
正样本:15000,负样本:130000
测试数据
同样采用移动窗口变换采样,取了3天、5天、9天的做实验,最优提交为9天的,测试样本大小:155万
结果划分
结果最终取置信度0.78,取470条结果(子集结果),最终f1值:11.46%
排名:25/7200,队伍名:叮当
学习模型
RF
程序架构
combine_feature_txt:混合正负样本特征
cut_data_set.py:按照移动窗口方式,分割数据集
fetch_feature.py:提取特征
fetch_negative_sample:负样本抽样
fetch_sample:提取正、负样本