用户DataScientist的头像

DataScientist

查看新浪微博主页
  • 用户头像

    DataScientist

    GraphLab说他在机器学习方面的计算效率和准确性都比MLlib和sklearn高,而且还拿了Logistic Regression做了比较,这个蛮有意思的。 🔗 网页链接
    原微博
  • 用户头像

    DataScientist

    看到组里刚来三个月的实习生出现在Spark 1.0的contributor里面,瞬时感到我们的工作还是很有价值的。新人能有机会接触到数百TB的真正用户数据,能够第一批接触到一个应用前景非常广泛的分布式机器学习平台,能够挑战从真实的交易数据中挖掘出商业价值,这对于一个人的成长非常重要。
    展开全文
    原微博
  • 用户头像

    DataScientist

    Cloudera也release了一份Impala Shark Presto Hive-on-Tez四种SQL on Hadoop产品的性能比较结果 🔗 网页链接 可以和Berkeley AMPLab的这份数据比较 🔗 网页链接 看起来Impala在多用户下的复杂查询下优势明显。
    原微博
  • 用户头像

    DataScientist

    今天听了前Google工程师的分享,原来Google部署在各大洲的Data Center之间的网络是在一个AS内的,服务之间的网络带宽根据端口号来区分不同的优先级。Google的每台机器上都部署了GFS2,所有的机器都是用Borg管理,而且机器资源的使用情况通过/proc获取,每个服务都是静态包分发,没有so
    展开全文
    原微博
  • 用户头像

    DataScientist

    大数据应用实例: 有一位美国数学家最怕坐飞机。他研究了近20年的统计数据,发现恐怖分子带炸弹上飞机的几率非常低。但他还是不放心,又做进一步研究,发现两个人同时带炸弹上飞机的几率为零,于是他坐飞机都自己携带一枚炸弹。[嘻嘻]
    原微博
  • 用户头像

    DataScientist

    原微博
  • 用户头像

    DataScientist

    Facebook, Google, LinkedIn, and Twitter 这四家公司的搞MySQL的人一起搞了一个面向互联网规模应用的可扩展的MySQL分支WebScaleSQL 🔗 网页链接
    原微博
  • 用户头像

    DataScientist

    Hadoop 2.3.0 Release了,最大的变化是支持In-memory caching for HDFS,包括centralized administration and management。这样Hadoop上的Job和各种上层应用(HBase/Impala)就可以根据memory-locality调度任务了。这个非常类似Berkeley BDAS软件栈的一个组件Tachyon文件系统 🔗 网页链接
    展开全文
    原微博
  • 用户头像

    DataScientist

    Facebook在存储领域顶级会议FAST 2014上发表了一篇论文《Analysis of HDFS Under HBase: A Facebook Messages Case Study》,以Facebook Message系统为例讨论了HDFS+HBase的这种分层架构中读写IO方面的问题,并且提出在RAM和Disk直接加一个Flash层能够带来很大的性能提升。🔗 网页链接
    展开全文
    原微博
  • 用户头像

    DataScientist

    实时交互式查询目前各厂基本上确立了四大思路:1,impala(阿里巴巴、百度);2,spark/shark(网易);3,tez/stinger(貌似企鹅在搞);4,Presto(还没听说国内有哪个公司在这么搞)。impala由于cloudera的半开源策略导致后续自己修改代码不是很顺手,可能会制约一些超大规模场景的应用
    展开全文
    原微博
  • 用户头像

    DataScientist

    Apache Hadoop YARN: Yet Another Resource Negotiator Hortonworks公司的人写了篇关于YARN的paper,投到SOCC,然后就成了Best Paper了。🔗 网页链接
    原微博
  • 用户头像

    DataScientist

    Apache Hadoop, Hive, and Pig on Google Compute Engine 🔗 网页链接 Google的Cloud也支持上面跑Hadoop了,这是在跟Amazon PK么?
    原微博
  • 用户头像

    DataScientist

    Now the hardware is almost free, the software is mostly free, and the support is how a lot of companies book revenue. //@DataScientist: 说的很有道理
    展开全文
    🔗 网页链接 如何在IT技术领域生存几十年. 1. 将几乎所有的业务时间用于职业发展,参加会议,学习新技能,2. 不要期望你的雇主做职业规划,你必须自己负起责任来,3.终生学习不再是个口号,它是必须的,4.不能快速学习的人,要当心自己的工作被外包
    转发 1评论 0
    原微博
  • 被微博屏蔽
    用户头像

    DataScientist

    路透社真牛,居然花了整整1年制作中国官员网络数据库,公布所有市级以上官员的人脉网络。“重磅”级炸弹啊,之前不敢上线,挑这时候公布,还贴心地准备了iPad版[偷笑]给墙外的童鞋看看(connectedchina.reuters.com)
    1. 微博附图
    转发 8评论 3
    原微博
  • 用户头像

    DataScientist

    回复@杨栋_大数据: 恩,共享存储可以是SAN或NAS,反正就是donate for EMC,成本高是一方面,另外一方面就是运维。现在cloud data center基本都是基于commodity hardware,中间冒出一些高端存储和高端路由,增加运维复杂度,这个也是HDFS做HA不推荐使用NFS共享存储的原因。Tenzing听说过,没仔细研究。
    展开全文
    HStreaming提供高可用的实时流式处理,能够实时分析视频内容,和Hadoop系统整合,提供SQL/NoSQL对接,支持dashboard和query语言自定义的可视化,http://t.cn/zYoTuX2,目前只提供社区版本下载,没有开源代码。有人了解该系统内幕么?@蓝比佳 @-_-111刘景龙 @章炎-友盟 @曾宪杰_华黎 @gordon-杨国东
    展开全文
    1. 微博附图
    转发 1评论 0
    原微博
  • 用户头像

    DataScientist

    Yahoo has run 14 million jobs on YARN and average more than 80,000 jobs on a single cluster per day. 而且他们在MapReduce/YARN, HBase, ZooKeeper, and Storm clusters的基础上建立起了near real-time scalable processing and storage infrastructure. 🔗 网页链接
    展开全文
    原微博
  • 用户头像

    DataScientist

    Google终于在OSDI 2012上公布了大家期待已久的F1数据库底层的存储组件Spanner,《Spanner: Google’s Globally-Distributed Database》🔗 网页链接 。不过在OSDI会议的网站上是另外一个题目Elmo: Building a Globally Distributed, Highly Available Database。Google下一代的数据库。
    展开全文
    原微博
  • 用户头像

    DataScientist

    你说的某大佬搞云存储,指的是berkeley的oceanstore ? //@ghhardy1877: SEDA这东西概念大于实效吧。几年前某大佬花大力气开搞云存储平台,其中通讯框架就是基于SEDA开发的,还招来了SEDA原始论文作者加盟开发队伍。结果雷声大雨点小,目前该产品基本是半死不活的状态。
    展开全文
    🔗 网页链接 研究SEDA高性能服务器编程模型的总结,请 @葛里森 指教下。下一篇准备分析下他们用SEDA实现的那个HTTP服务器Haboob的代码。
    转发 1评论 0
    原微博