推荐系统是机器学习最重要的应用之一。这篇博客讲解了如何利用Spark在几行代码之内构建一个Alternating Least Squares推荐系统模型。文章简单介绍了ALS的算法和Spark MLlib里面的实现,并且最后处理的数据集有六亿六千万用户和两百万产品推荐,在五十个节点上用了90分钟。 🔗 网页链接 展开全文 Spark 1.0 正式发布,对于Spark来讲是一个新的里程。这个版本里面所有的API被标注为Stable, Developer和Experimental,对Stable API有长远的支持,更方便简化上层应用开发。除此之外还有大量改进,包括Spark SQL,Java8,YARN等等。这个版本一共有110位开源社区成员参与开发。 🔗 网页链接 展开全文 明天Hadoop Summit的社区投票就要截止了。大家请帮忙投一下这两个talk的票。第一个是如何用Apache Spark打造一体化数据生产线 🔗 网页链接 第二是用Spark构建一个用户实时广告竞价的流数据处理系统 🔗 网页链接 马铁(Matei Zaharia)的博士论文:An Architecture for Fast and General Data Processing on Large Clusters。此人在Berkeley的PhD六年,从Hadoop上最常用的调度算法(fair),到集群资源管理(Mesos),到大数据上最热门的Spark,建树之广,影响之大,史上罕见,是超神级的人物🔗 网页链接 展开全文 High Scalability的新文章《In-Stream Big Data Processing》介绍了现有的各种大数据分析系统在流数据中的应用,还深入浅出的解释了一下流数据处理的算法。🔗 网页链接 //@连城404 : Scala官方提供的ctags扩展准确度太低了,例如会把evaluator中的“val”当作关键字解析出“uator”变量。参照Scala spec写了个新的,虽然正则能力有限,但实践验证准确度相当好。Berkeley的Vim/Scala同好们有兴趣的话可以一试 :-) 🔗 网页链接 展开全文 对了Scala推荐用IntelliJ。Berkeley的所有人现在基本上都从Eclipse转到IntelliJ了。外带有些人用vim / sublime。——评论@灵魂机器 「使用Scala IDE 阅读spark源码 -- 将sbt项目转化为eclipse项目」🔗 网页链接 对了Scala推荐用IntelliJ。Berkeley的所有人现在基本上都从Eclipse转到IntelliJ了。外带有些人用vim / sublime。——评论@灵魂机器 「使用Scala IDE 阅读spark源码 -- 将sbt项目转化为eclipse项目」🔗 网页链接 伟大的美联航就这么把我飞机晚点了四个小时。过去两年内做UA的飞机那么多次还没有一次准时的。上次从纽约飞三番本来应该晚上到,到的时候机场的人说的都是Good morning, Sir了! Berkeley Shark/Spark最新的技术报告:SQL和机器学习算法比Apache Hive和Hadoop效能高100倍。🔗 网页链接 再附上O'Reilly首席数据科学家Ben Lorica对Shark的介绍: 🔗 网页链接