• 用户头像

    k1ic

    //@西瓜大丸子汤: 2 长尾数据方面。LDA这些主题模型,隐含了一个指数分布假设,低频词没多大贡献,所以词的聚类去重后只有几百几千。从逻辑的角度,我是这么理解的:模型model的分布不均衡,表达式(也就是词)频率不是模型的频率。过滤掉的不应该是低频词而是低频模型。word2vec有点这个意思了
    展开全文
    【王益:分布式机器学习的故事】 🔗 网页链接 写得不错,读完很多启发
    转发 28评论 0
    原微博