【SparkR发布 让R跑在Spark上】 🔗 网页链接 SparkR是AMPLab发布的一个R开发包,为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集(RDD)的API,用户可以在集群上通过R shell交互性的运行job。例如,我们可以在HDFS上读取或写入文件,也可以使用 lapply 来定义对应每... 展开全文 【如何在GitHub上协作开发开源项目?】 🔗 网页链接 【2013年8月29日 51CTO外电头条】 也许很多朋友还不太了解,GitHub可以作为一种非常高效的项目开发协作机制。在任何拥有互联网连接的区域,开发人员都可以随时与全世界自由共享代码成果(更不必提强大的工具支持、提... (分享自@无觅网) 展开全文 【李银河:薛蛮子或在搞行为艺术】著名性学家李银河撰文,自称与薛蛮子有过一面之缘,说薛家庭生活幸福、夫妻恩爱”,不至于走到嫖娼这一步,认为可能在搞“行为艺术”,目的是“引起公众对卖淫法的关注”🔗 网页链接 要想词库少占内存,不用自己对语料过滤,word2vec有过滤机制,只需在源码中把词库表的长度改小点或者直接修改过滤阀值既可//@veelion : 回复@ansj : 没有过滤,只是过滤了标点符号,的确可以优化不少的 //@ansj : 不知道你是否过滤了停用词或者数字。如果去掉了。。常用词不到百万。应该1g内存轻松搞定的 展开全文 #word2vec# 周末用word2vec出来了一下 @殆知阁 的古代文献藏书,训练得到的bin文件4.3GB,占内存5GB,本来要做成web服务,服务器程序都写好了,可发现暂时没有那么大内存的服务器,先贴几张图看看。#自由主义# 17世纪的英国人也是希望当公务员,通过贪污偷窃的方法获取财富,但18世纪的工业革命彻底改变了英国,改变了英国人的观念,通过创新技术获取财富成为了英国社会共识;15,16世纪的荷兰和意大利北部出现了资本主义萌芽,文艺复兴的中心也在这里,那里成为世界上最自由最繁荣的地方。#加班# 今天加班做sensor,是美国政府的sensor;river crab不只是中国的专利,美国也是,只是人家sensor的更多的侵权,暴力,性,其中侵权的最多;但我们国家sensor的更多的是truths,就没有侵权的概念---我想这是两个国家的差距吧//@熊培云 : 回复 @涤弓盏 : 抗日图存与台湾民主化,论最大贡献当数二蒋。 //@涤弓盏 : 蒋介石守住啥过去?蒋经国又开创了啥未来?对于蒋氏父子的评价过高了。 蒋介石守住了中华民族的过去,蒋经国开创了中华民族的未来。