1)互联网思维?蒸汽机、铁路都是人类伟大的发明,却没有所谓的蒸汽机思维。2)中国企业家内心是由别人把货币尺度塞进去填充的,没有内心追求;西方企业家用商业的成功荣耀上帝,证明获得上帝的恩赐。3)温总强刺激,现在强总温刺激。经济在不可避免的下行;by 许小年:🔗 网页链接 小组技术讨论,某NLP方向的同学这样介绍自己:“我是做字符串处理的”...真低调 @罗永浩 说,“在完美主义者眼中,这是一个千疮百孔的世界”。真是太贴切了;------你能所作的,接受这个不完美的世界,为这个世界做点什么。关于推荐系统的笑话 金角大王将宝葫芦倒置,喊了一声:孙行者。悟空应了一声,嗖地便被吸了进去。金角大王查看时,里面除了孙悟空,还有行者武松、苍井空、孙权、六耳猕猴、金刚等熙熙攘攘一干人,金角大王惊讶道:只喊孙行者,怎的来了这许多。这时宝葫芦开口言道:这都是你“可能感兴趣的人”。 今天蒿@正牌七公 的羊毛太爽了,虾皮蟹壳吃了三盘,三文鱼无计,临了了再来了颗哈根达斯球... 争取下次西溪之行还能去... 老梁嫌爬萌的速度太慢,想学360了?//@vinW : 俺以前用IE内核写过一个用来备份微博。你们爬盟的客户端实质也是浏览器了//@郭昂9 : 这不就是微博桌面吗?//@梁斌penny : 理论上客户端,你们都懂的,我不说了,全部权限。浏览器你访问微博又访问别的,隐私没了。build个浏览器,只能访问微博,点不出去... 展开全文 我想做一款浏览器,这个浏览器就只能访问新浪微博,用于保护群众隐私。会有人用嘛? 在逻辑回归中,如果一个二值是否变量和正负例有正相关,将(是,否)编码为(1,0)或(1,-1) 对L1,L2 norm 以及sgd收敛速度是有影响的;不知道在实践中,上亿维的feature面前,是怎么考虑这个问题的?@李沐mu #抽样那些事# 14 虽然这样,原地踏步的情况还是存在。考虑高维情况,每个采样就是空间中一个点,从state(x1,y1)->state(x2,y2)可以分2布完成:a)(x1,y1)->(x1,y2);b)(x1,y2)->(x2,y2),即不要着急,一个坐标一个坐标来。展开全文 #抽样那些事# 6. 有时候抽样是为了计算期望,这样就崩这么麻烦,上Importance Sampling。搞一个合适的q(z)出来抽样,然后开算。#valse2013# 正反两方就计算机视觉是否要借鉴吸收生物神经视觉的结果展开了辩论。实际上这个终极问题(强弱ai)一直在ai界存在。#valse2013# 贾佳亚在介绍l1-norm和l0-norm在图像平滑上的应用。二者的效果在图像平滑上的特性区别非常明显。直观上,l1会倾向让所有的值变小,l0则不改变关键的取值点,但是让更多的点取0。做图像边缘切割时效果显著。valse2013主会场,感谢@东南大学 等主办方。发的资料袋很贴心 科学家的特长是发现,艺术家的特长是想象,工程师的特长是创造;数据挖掘&机器学习应用工程师的特长是什么?求一个总结 @徐盈辉_仁基 @邓侃 @淘宝长林 在分享大数据+线性模型解决实际问题的心得体会。(往台上这么一站,就那么有范…) 中医专家科学论证“H7N9发展为大疫情可能性不大”:🔗 网页链接 一直有感于推荐系统中的User/Item based Method朴素而不深刻,想找一个朴素又深刻的框架来建模;信息论是一个理想而且适合的工具,而且玩的熟,演算了几番,还真的弄出了点有意思的思路出来,而且很适合结合先验信息例如用户性别。问题有两点:1)不知道是不是重复发现;2)尽快上MovieLens上测试。 展开全文 NMF vs pLSI:🔗 网页链接 这边文章论述两者优化目标一致,方法不同,交替使用有助于挑出局部最优。🔗 网页链接 这篇认为优化目标有细微区别,NMF可以用来估计pLSI的初始值。 看完@rickjin 的LDA系列,细节介绍的很清楚;如果我来写,准备写的更简洁一些:1)介绍最大似然估计和贝叶斯估计、多项分布、共轭分布,狄利克雷的细节略过。2)介绍pLSA模型和求解,这个简单很容易理解。3)贝叶斯估计pLSA的参数得到LDA 4)LDA求解的困难和Gibbs方法。 展开全文 统计之都:为啥样本方差的分母是n-1?这个看似简单的问题,你确定你能解释得清楚吗?伯克利大神Terry Speed说自己从来没有想到过一个能让所有学生都明白的答案。所以大神要有奖征集最早讨论这个问题的统计文献! 🔗 网页链接 ps4发布会,亮点稀少,sony没落了还是家用游戏主机没落了?sony游戏06、07巨亏,到现在还没缓过来;微软07年因为三红一次性赔了10亿刀,导致xbox360到死都难以获取正收益;最会赚钱的任天堂11年都记了亏损,还是30年首次;12年也不乐观。现在齐齐受到移动端游戏围攻,能挺的住吗?@正牌七公 你还入吗? 展开全文 deep learning这么牛,我们为什么还在讨论svm, topic model, crf ? Why anything other than deep learning? 🔗 网页链接 刚刚@胡宁 说我的问题不清楚,其实想表达的意思是,例如某个主题的数据,每一家都不全,需要大家联合起来才能最大化数据价值。问题是,受到各公司业务影响,各个部分的数据结构、质量有很强的多样性。1)有没有整合这些数据的可能性? 2)互联网环境下,有哪些一般性的方法或思路值得尝试?@陈利人 @邓侃 展开全文 今天@老师木 来我厂交流,右边那位带着工牌的同学异常兴奋,急不可耐的就deep learning等ml问题和@老师木 展开了深入的交流。另外一位,插不上嘴,只好掏出手机一边给@老师木 留言一边说,你一定要粉我啊...... 《数学文化》2012第4期,刊登了一篇严谨的pagerank科普(译文),原文见:🔗 网页链接 ,总结了影响马尔科夫链达成稳态的几个条件。简单总结下,对于转移矩阵M,需要存在某个m,使得M^m的每个单元都>0,这样就理解谷歌的pagerank为什么要对原始超链矩阵进行修正了 @敲代码的张洋 @数学文化 展开全文