- //@章成志: //@官山程序员: 提取的中文结果是简体和繁体混合的,可以用opencc的工具简单处理一下即可变为简体。http://t.cn/zTVrvBf清才-草堂: //@韩先培: nice!//@章成志: 转发微博
想用wikipedia的NLPer们有福了,又发现一个抽取wiki内容的工具,很好用,特别因为是Python写所以修改很方便(比较于使用Perl写的wiki-miner),试用了中文wiki的dump数据跑,没有发现问题。项目Wikipedia Extractor地址:🔗 网页链接