用户hashjoin的头像

hashjoin

查看新浪微博主页
  • 用户头像

    hashjoin

    推荐系统是机器学习最重要的应用之一。这篇博客讲解了如何利用Spark在几行代码之内构建一个Alternating Least Squares推荐系统模型。文章简单介绍了ALS的算法和Spark MLlib里面的实现,并且最后处理的数据集有六亿六千万用户和两百万产品推荐,在五十个节点上用了90分钟。 🔗 网页链接
    展开全文
    原微博
  • 用户头像

    hashjoin

    Spark 1.0 正式发布,对于Spark来讲是一个新的里程。这个版本里面所有的API被标注为Stable, Developer和Experimental,对Stable API有长远的支持,更方便简化上层应用开发。除此之外还有大量改进,包括Spark SQL,Java8,YARN等等。这个版本一共有110位开源社区成员参与开发。 🔗 网页链接
    展开全文
    原微博
  • 用户头像

    hashjoin

    明天Hadoop Summit的社区投票就要截止了。大家请帮忙投一下这两个talk的票。第一个是如何用Apache Spark打造一体化数据生产线 🔗 网页链接 第二是用Spark构建一个用户实时广告竞价的流数据处理系统 🔗 网页链接
    原微博
  • 用户头像

    hashjoin

    原微博
  • 用户头像

    hashjoin

    马铁(Matei Zaharia)的博士论文:An Architecture for Fast and General Data Processing on Large Clusters。此人在Berkeley的PhD六年,从Hadoop上最常用的调度算法(fair),到集群资源管理(Mesos),到大数据上最热门的Spark,建树之广,影响之大,史上罕见,是超神级的人物🔗 网页链接
    展开全文
    原微博
  • 用户头像

    hashjoin

    High Scalability的新文章《In-Stream Big Data Processing》介绍了现有的各种大数据分析系统在流数据中的应用,还深入浅出的解释了一下流数据处理的算法。🔗 网页链接
    原微博
  • 用户头像

    hashjoin

    //@连城404: Scala官方提供的ctags扩展准确度太低了,例如会把evaluator中的“val”当作关键字解析出“uator”变量。参照Scala spec写了个新的,虽然正则能力有限,但实践验证准确度相当好。Berkeley的Vim/Scala同好们有兴趣的话可以一试 :-) 🔗 网页链接
    展开全文
    对了Scala推荐用IntelliJ。Berkeley的所有人现在基本上都从Eclipse转到IntelliJ了。外带有些人用vim / sublime。——评论@灵魂机器 「使用Scala IDE 阅读spark源码 -- 将sbt项目转化为eclipse项目」🔗 网页链接
    转发 1评论 0
    原微博
  • 用户头像

    hashjoin

    对了Scala推荐用IntelliJ。Berkeley的所有人现在基本上都从Eclipse转到IntelliJ了。外带有些人用vim / sublime。——评论@灵魂机器 「使用Scala IDE 阅读spark源码 -- 将sbt项目转化为eclipse项目」🔗 网页链接
    原微博
  • 用户头像

    hashjoin

    刚刚和Matei说道,在Intel赛赛(不知道有没有微博)和 @JerryLead 的帮助下,中文的Spark内部结构的文档比英文的要详细很多! 🔗 网页链接
    原微博
  • 用户头像

    hashjoin

    伟大的美联航就这么把我飞机晚点了四个小时。过去两年内做UA的飞机那么多次还没有一次准时的。上次从纽约飞三番本来应该晚上到,到的时候机场的人说的都是Good morning, Sir了!
    原微博
  • 用户头像

    hashjoin

    Berkeley Shark/Spark最新的技术报告:SQL和机器学习算法比Apache Hive和Hadoop效能高100倍。🔗 网页链接 再附上O'Reilly首席数据科学家Ben Lorica对Shark的介绍: 🔗 网页链接
    原微博