//@西瓜大丸子汤: 2 长尾数据方面。LDA这些主题模型,隐含了一个指数分布假设,低频词没多大贡献,所以词的聚类去重后只有几百几千。从逻辑的角度,我是这么理解的:模型model的分布不均衡,表达式(也就是词)频率不是模型的频率。过滤掉的不应该是低频词而是低频模型。word2vec有点这个意思了