一张图看明白百度数据采样有问题。刚做百度推荐那天统计的,推测总共207天,都爆发在几天。其实ML分类问题是有研究label极度不平衡问题的,现在rating数据多数聚集在4上,但也不至于得到唾弃数据的结论。这个规模的数据给学习用很好。//@刁瑞_Dora @ResysChina @袁全V @xlvector_Hulu @百度校园 @丕子