word2vec中的hs还是算了,倒是可以对word2vec产生的词向量做层次聚类,然后编码,再对这个编码好的,再用hs方式训练语言模型//@德川: 也就是最大似然啦 梯度下降求解几组参数 //@德川: 是交叉熵 词向量是得到语言模型时的副产品,hs方法主要是为了降低语言模型最后求解的复杂度。 //@微博Koth: 更正下