8月31日(13:30-17:30),杭州第一届Spark Meetup走起,由华为杭州研究所赞助主办!报名地址 🔗 网页链接 ,最后以在meetup上的报名人数为准。详细信息请看图。此外了解到杭州已有不少企业在使用或者准备使用Spark,我希望接下来能不间断的在杭州举办meetup,希望得到各位的支持。#Spark# 展开全文 @明风Andy 你特么叫黄明啊,哥特么一直以为你叫黄明风,艹! 大家可以看下这篇关于GraphX的文章,欢迎交流。 程序员八月刊。由于@明风Andy 特么当天正在飞机上(射死你丫的), 所以想重新请一位分享者。随有兴趣私信我呢... 由亚信科技主办的首次北京Spark meetup活动将于八月九日(下周六)举行,活动内容简介及报名请戳这里 🔗 网页链接 感谢 @亚信科技-田毅 大力协助! 大半夜从来淘宝城跑到市中心来请我洗脚, @明风Andy 体现了高尚的国际无产阶级精神。 推荐系统是机器学习最重要的应用之一。这篇博客讲解了如何利用Spark在几行代码之内构建一个Alternating Least Squares推荐系统模型。文章简单介绍了ALS的算法和Spark MLlib里面的实现,并且最后处理的数据集有六亿六千万用户和两百万产品推荐,在五十个节点上用了90分钟。 🔗 网页链接 展开全文 @hashjoin @Andrew-Xia @吴甘沙 你们3位不讲下,不能忍!//@程序员杂志 : 亲,Andy Konwinski都来了,你还不来吗?这个小伙伴可是集群调度系统Mesos作者,Spark创始团队AMPLab成员,获得Andreessen Horowitz 1400万美元投资的Databricks公司联合创始人,美国Spark Summit组织者。展开全文 发福利喽!“2014中国Spark技术峰会”(Spark Summit China 2014)将于4月19日召开,国内外Apache Spark社区成员和企业用户将首次齐聚北京。AMPLab、Databricks、Intel、淘宝、网易等公司的Spark贡献者及一线开发者将分享他们在生产环境中的Spark项目经验和最佳实践方案。官网地址:🔗 网页链接 展开全文 tesecase里面为什么写成(x : Int, y : Int) => x + y, 而不直接写成_+_, 目前几乎所有的文章都采用了后者,不知道是否试验过? 至少我这边编译是错的。@Andrew-Xia @连城404 对了,@hongjiang_wang ,已排除IDEA的问题,命令行报相同的错.IDEA里前者的实现,可以直接点进去,而后者会提示有多个实现。 展开全文 "If a task fails, we re-run it on another node as long as its stage’s parents are still available. " 不一定是another node吧。只是把fail的task再次加到pendingTasks而已啊,还是有机会在同一个node上执行的。#马铁论文# 展开全文 其实我改这个的时候,在代码里还加了一些玩意儿,假设Standalone不成功,会退化为local。但是这个没价值,不反馈了。改了太多乱七八糟的东西了。之前还跟@明风Andy 提过我改的很多V587,不忍直视的功能。 一同学报bug,说我改过的spark-shell有问题,直接启动本地模式./spark-shell失败,说我改之前是好的。这问题其实不是bug。之前大家假如没有设置SPARK_MASTER_PORT,shell确实会走local模式,但是只要设置了,照样会走到Standalone模式。只不过是之前存在的bug(不设置端口不会采用默认端口)掩盖掉了。 展开全文 一同学报bug,说我改过的spark-shell有问题,直接启动本地模式./spark-shell失败,说我改之前是好的。这问题其实不是bug。之前大家假如没有设置SPARK_MASTER_PORT,shell确实会走local模式,但是只要设置了,照样会走到Standalone模式。只不过是之前存在的bug(不设置端口不会采用默认端口)掩盖掉了。 展开全文 回答一下@ssh_db 的问题。1. RDD的默认StorageLevel是None。 2.persist以后可以将RDD cache在内存中,同一个app里的job可以复用。(当然cache也可能evict掉)。 3. RDD不cache的话,job执行完就完,cache后假设没被evict掉,则app结束就完。 ps. 不考虑Tachyon等外部存储。 展开全文 我们一定不会因为某种语言或者框架仅仅好玩而去使用和推广。就像Scala之于Java,Spark之于MapReduce。一定是我们坚信Scala和Spark有光明的未来而花大力气使用和推广。 至少这个概率要比阿森纳夺得欧冠冠军的概率高得多了。 可惜的是,有不少人还是认为volatile类型变量的自增(count++)是thread safe的。这是我见过滥用volatile最多的场景。另一个容易被滥用的是ThreadLocal. Java 8 Revealed: Lambdas, Default Methods and Bulk Data Operations,🔗 网页链接 看完我想说的是,用#scala# 吧,绝对没java8什么事了。这lambda,这default function,我呵呵! 再次呼吁,来拥抱scala吧!!! 展开全文 看看别人针对google reader的关闭是怎么搞的,牛逼!How a Lone Coder Cloned Google Reader 🔗 网页链接 试了下@linux_china 推荐的jvmtop,还不错啊。基本信息能看到,并且detail模式下看到的信息也比较多。 简单看了下@七牛云存储 发的题, 前两个是连环套欺骗群众的 1、defer出来的永远是nil 2、defer中的Print语句在return后执行 3、b1,b2共享底层数组,注意array和slice的类型区别 4、if后产生了新的block{},即err也是新的变量,这时候在{}里return其实返回的外围的err,内部的err被屏蔽了。 @许式伟 展开全文 NO!NO!NO! 贵族玩 三亚海天盛宴//@ideawu : 贵族玩 lenna 屌丝玩MapReduce,小资玩Spark,高富帅玩HANA。 屌丝玩MapReduce,小资玩Spark,高富帅玩HANA。