在深圳住了几天了,深感这里的食物比香港好太多倍了,合我胃口,不过水果就略逊一筹了。 浏览了一些做infographic的网站,发现都不如一个制图软件好用。信息图主要是讲故事,数据展现没有那么重要。tableau主要是对数据和表格作图,有点多余。有一个网站easel.ly 🔗 网页链接 做得非常简单易用。 测试了一下使用python利用gensim包玩#深度学习# 小产品word2vec的结果,还不错,因为cython在windows下安装失败,处理text8用了8个小时,鄙视我把。看一下效果图如下。不过输出的词的相似系数,却不知道是和哪些词相似????求指点。 发表了博文 《在win7上安装maven》 - 最近开始用JAVA,一个比较有用的辅助软件是apache出的maven软件。这里介绍我遇到的安装问题和莫名其妙的解决方法: 先讲正确的方法: 1. 在h 🔗 网页链接 我的数学之美系列二 —— simhash与重复信息识别 - 让机器理解图像 - ITeye技术网站 🔗 网页链接 #R tips# 以前重来没有保存Rdata的习惯,一般直接存成csv,很喜欢检查每一个细节。但对文本挖掘而言,DocumentTermMatrix和corpus存成Rdata之后load很方便(因为一般都很小),并且可以较好保存其特殊格式。考虑到preprocessing花费的时间超长,存成Rdata就很有吸引力了。展开全文 发表了博文 《在github上搭建的新博客》 - 在github上搭建的新博客:chengjun.github.io 为了方便代码管理(code management)、与他人合作编程(social 🔗 网页链接 @统计之都 : Drew Schmidt在不久前刚刚落幕的useR上介绍了他在超级计算机(112000 cores,RAM 150TB)上用pbdR包(大数据编程)跑R的经验,关于pbdR包的小品文链接:🔗 网页链接 For the huge datasets , he recommends the open-source database MonetDB. With R and MonetDB to do summary statistics on 67 million records in 8 seconds on his personal laptop//@谢益辉 : 郑重警告R用户:用R伤智商! 给我一块豆腐撞死算了,还读个毛线博士啊。 展开全文 这哥们儿在那儿黑SAS:🔗 网页链接 “有人说R因为内存不够跑不了大数据,那就让他们把每年交给SAS的一万块钱拿30块买内存,剩下9700天天批萨聚餐” 话说他的2分钟R教程很是霸道 🔗 网页链接 有一次录完formatR包的教程发给我,当时我就震惊了 🔗 网页链接 转载记录:Python在Web Page抓取、JS解析方面的介绍 🔗 网页链接 逆生长!祝老板大有Andy Liu的感觉,越来越有精神! “是2002年学院甫成立时,香港城市大学的祝建华教授应邀来访讲座。人一登台,大家禁不住喝彩,只见其人修身、白面、红唇、朗目,实实在在的美男子一个。大家戏称:建华是全球华人传播界最出名的大帅哥。作为本院的兼职教授,祝先生神奇地树立起了媒设老帅哥的标杆,旗杆下也神奇地自此盛产老帅哥。” 展开全文 The Joy of X: A Guided Tour of Math, From One to Infinity 🔗 网页链接 在那遥远的非洲,有一个神奇的国度叫象牙海岸!小小的国家里,有1231个手机基站。