「k1ic」发布的微博被新浪屏蔽，快来看看吧 - 自由微博 - 自由微博

k1ic
10 years ago
//@西瓜大丸子汤: 2 长尾数据方面。LDA这些主题模型，隐含了一个指数分布假设，低频词没多大贡献，所以词的聚类去重后只有几百几千。从逻辑的角度，我是这么理解的：模型model的分布不均衡，表达式(也就是词)频率不是模型的频率。过滤掉的不应该是低频词而是低频模型。word2vec有点这个意思了
展开全文
@西瓜大丸子汤
 10 years ago
【王益：分布式机器学习的故事】 🔗 网页链接写得不错，读完很多启发
转发 28评论 0
原微博