DataScientist

查看新浪微博主页

筛选：

排序：

DataScientist
11 years ago
GraphLab说他在机器学习方面的计算效率和准确性都比MLlib和sklearn高，而且还拿了Logistic Regression做了比较，这个蛮有意思的。 🔗 网页链接
原微博
DataScientist
11 years ago
看到组里刚来三个月的实习生出现在Spark 1.0的contributor里面，瞬时感到我们的工作还是很有价值的。新人能有机会接触到数百TB的真正用户数据，能够第一批接触到一个应用前景非常广泛的分布式机器学习平台，能够挑战从真实的交易数据中挖掘出商业价值，这对于一个人的成长非常重要。
展开全文
原微博
DataScientist
11 years ago
Cloudera也release了一份Impala Shark Presto Hive-on-Tez四种SQL on Hadoop产品的性能比较结果 🔗 网页链接可以和Berkeley AMPLab的这份数据比较 🔗 网页链接看起来Impala在多用户下的复杂查询下优势明显。
原微博
DataScientist
11 years ago
今天听了前Google工程师的分享，原来Google部署在各大洲的Data Center之间的网络是在一个AS内的，服务之间的网络带宽根据端口号来区分不同的优先级。Google的每台机器上都部署了GFS2，所有的机器都是用Borg管理，而且机器资源的使用情况通过/proc获取，每个服务都是静态包分发，没有so
展开全文
原微博
DataScientist
11 years ago
大数据应用实例: 有一位美国数学家最怕坐飞机。他研究了近20年的统计数据，发现恐怖分子带炸弹上飞机的几率非常低。但他还是不放心，又做进一步研究，发现两个人同时带炸弹上飞机的几率为零，于是他坐飞机都自己携带一枚炸弹。[嘻嘻]
原微博
DataScientist
11 years ago
Hive 0.13 Release，更快的Tez/Stinger搞定了 🔗 网页链接
原微博
DataScientist
11 years ago
Facebook, Google, LinkedIn, and Twitter 这四家公司的搞MySQL的人一起搞了一个面向互联网规模应用的可扩展的MySQL分支WebScaleSQL 🔗 网页链接
原微博
DataScientist
11 years ago
Hadoop 2.3.0 Release了，最大的变化是支持In-memory caching for HDFS，包括centralized administration and management。这样Hadoop上的Job和各种上层应用（HBase/Impala）就可以根据memory-locality调度任务了。这个非常类似Berkeley BDAS软件栈的一个组件Tachyon文件系统 🔗 网页链接
展开全文
原微博
DataScientist
11 years ago
Facebook在存储领域顶级会议FAST 2014上发表了一篇论文《Analysis of HDFS Under HBase: A Facebook Messages Case Study》，以Facebook Message系统为例讨论了HDFS+HBase的这种分层架构中读写IO方面的问题，并且提出在RAM和Disk直接加一个Flash层能够带来很大的性能提升。🔗 网页链接
展开全文
原微博
DataScientist
11 years ago
实时交互式查询目前各厂基本上确立了四大思路：1，impala（阿里巴巴、百度）；2，spark/shark（网易）；3，tez/stinger（貌似企鹅在搞）；4，Presto（还没听说国内有哪个公司在这么搞）。impala由于cloudera的半开源策略导致后续自己修改代码不是很顺手，可能会制约一些超大规模场景的应用
展开全文
原微博
DataScientist
12 years ago
Apache Hadoop YARN: Yet Another Resource Negotiator Hortonworks公司的人写了篇关于YARN的paper，投到SOCC，然后就成了Best Paper了。🔗 网页链接
原微博
DataScientist
12 years ago
Apache Hadoop, Hive, and Pig on Google Compute Engine 🔗 网页链接 Google的Cloud也支持上面跑Hadoop了，这是在跟Amazon PK么？
原微博
DataScientist
12 years ago
Now the hardware is almost free, the software is mostly free, and the support is how a lot of companies book revenue. //@DataScientist: 说的很有道理
展开全文
@佚名
 12 years ago
🔗 网页链接如何在IT技术领域生存几十年. 1. 将几乎所有的业务时间用于职业发展,参加会议,学习新技能,2. 不要期望你的雇主做职业规划,你必须自己负起责任来,3.终生学习不再是个口号,它是必须的,4.不能快速学习的人,要当心自己的工作被外包
转发 1评论 0
原微博
被微博屏蔽
DataScientist
12 years ago
世界上最神秘的social network//@MapReduce: //@yongsun: //@西瓜大丸子汤: 当年我买过一本美国联邦政府机构和官员目录，极厚极厚的一个大砖头。对美国政府之大从这里有了直接认识 //@友邻-于洋: //@米山多
@天雨流芳Ivy
12 years ago
路透社真牛，居然花了整整1年制作中国官员网络数据库，公布所有市级以上官员的人脉网络。“重磅”级炸弹啊，之前不敢上线，挑这时候公布，还贴心地准备了iPad版[偷笑]给墙外的童鞋看看（connectedchina.reuters.com）
转发 8评论 3
原微博
DataScientist
12 years ago
回复@杨栋_大数据: 恩，共享存储可以是SAN或NAS，反正就是donate for EMC，成本高是一方面，另外一方面就是运维。现在cloud data center基本都是基于commodity hardware，中间冒出一些高端存储和高端路由，增加运维复杂度，这个也是HDFS做HA不推荐使用NFS共享存储的原因。Tenzing听说过，没仔细研究。
展开全文
@杨栋_大数据
 12 years ago
HStreaming提供高可用的实时流式处理，能够实时分析视频内容，和Hadoop系统整合，提供SQL/NoSQL对接，支持dashboard和query语言自定义的可视化，http://t.cn/zYoTuX2，目前只提供社区版本下载，没有开源代码。有人了解该系统内幕么？@蓝比佳 @-_-111刘景龙 @章炎-友盟 @曾宪杰_华黎 @gordon-杨国东
展开全文
转发 1评论 0
原微博
DataScientist
12 years ago
Yahoo has run 14 million jobs on YARN and average more than 80,000 jobs on a single cluster per day. 而且他们在MapReduce/YARN, HBase, ZooKeeper, and Storm clusters的基础上建立起了near real-time scalable processing and storage infrastructure. 🔗 网页链接
展开全文
原微博
DataScientist
13 years ago
Google终于在OSDI 2012上公布了大家期待已久的F1数据库底层的存储组件Spanner，《Spanner: Google’s Globally-Distributed Database》🔗 网页链接。不过在OSDI会议的网站上是另外一个题目Elmo: Building a Globally Distributed, Highly Available Database。Google下一代的数据库。
展开全文
原微博
DataScientist
13 years ago
你说的某大佬搞云存储，指的是berkeley的oceanstore ? //@ghhardy1877: SEDA这东西概念大于实效吧。几年前某大佬花大力气开搞云存储平台，其中通讯框架就是基于SEDA开发的，还招来了SEDA原始论文作者加盟开发队伍。结果雷声大雨点小，目前该产品基本是半死不活的状态。
展开全文
@佚名
 13 years ago
🔗 网页链接研究SEDA高性能服务器编程模型的总结，请 @葛里森指教下。下一篇准备分析下他们用SEDA实现的那个HTTP服务器Haboob的代码。
转发 1评论 0
原微博

首页

热搜榜

提交文章

关于我们

招聘

DataScientist

DataScientist

DataScientist

DataScientist

DataScientist

DataScientist

DataScientist

DataScientist

DataScientist

DataScientist

DataScientist

DataScientist

DataScientist

DataScientist

@佚名

DataScientist

@天雨流芳Ivy

DataScientist

@杨栋_大数据

DataScientist

DataScientist

DataScientist

@佚名