f******2 发帖数: 2455 | 1 Cloudera, mapr, hortonworks, databricks都是圈钱的,
不过它们留下来的东西是有用处的 |
|
w***g 发帖数: 5958 | 2 你这个信息可真及时!mapr的hive-0.13 9月5日才放出,赶紧去装一下。 |
|
|
a*f 发帖数: 1790 | 4 健保产品在天朝还行,从FDA拿牌很难。而且现在的MapR平台要数据多才有用,医院不
分享数据很难用起来。病人不同意或者不知情的情况下收集数据都可能犯法。分享数据
如果泄露很麻烦。上个月John Hopkins在一个class suite达成庭外和解。这是一个丑
闻,给8000个病人赔了近两亿美元。律师们都是使劲浑身解数的跳进这个案子。如果平
台大数据多,像Target这些一丢就是上百万用户的信息,还好只是credit card。如果
被泄露的是个人医疗信息或者隐私数据,估计弄到哪个公司头上都得赶快chapter 11。
新药的那些实验数据感觉传统数据库基本够大了,主要玩的是统计方法,说直白一点,
就是临床数据没那么理想的时候,用统计方法设法纠正。
大数据技术在美国买卖保险可能还可以,做健保计划。治疗方面,医学图像库有潜在大
数据市场,但法律不放宽没一点可能。基本上你提到需要访问很多人的影像数据这个
conversation就结束了。 |
|
p********r 发帖数: 1980 | 5 So? That could just mean Peter Thiel is an idiot.
Well known startups by former Google employees include:
Twitter: Evan Williams, Biz Stone
Pinterest: Ben Silbermann
Foursquare: Dennis Crowley
Instagram: Kevin Systrom
The Climate Corporation: David Friedberg, Siraj Khaliq
Asana: Justin Rosenstein
Cloudera: Christophe Bisciglia
imo.im: Georges Harik,
Ooyala: Sean Knapp, Bismarck Lepe, Belsasar Lepe
Redbeacon: Ethan Anderson, Yaron Binur, and Aaron Lee
Parse (cloud backend): Kevin Lacker.
Other St... 阅读全帖 |
|
x*******1 发帖数: 28835 | 6 spark 不是号称比MapR快10000倍。 都cache 内存里面。不用每次I/O写到文件 |
|
m***h 发帖数: 77 | 7 我有这么一个问题拿不定主意。
在一个team/group/organization里sell这个big data最好的方式就是在不动
production或用最小的cost的前提下提供现系统不能提供的feature。譬如,我们一个
大app,一堆API,一堆server,每个API都写很多(大部分是垃圾)到本地的log files
。可以想象一个login API,当一个user login后,一个thread会产生如下的log (实
际的log各种花样没这么简单)
[2015-10-11 02:00:00] TP-123 com.xyz.api.login INFO BEGIN
[2015-10-111 02:00:00] TP-123 com.xyz.api.login INFO user abcd is in
[2015-10-11 02:00:00] TP-123 com.xyz.api.login INFO use is from IP 1.2.3
.4
[2015-10-11 02:00:00] TP-123 com.xyz.api.login INFO user has ... 阅读全帖 |
|
l******o 发帖数: 52 | 8 【 以下文字转载自 DataSciences 讨论区 】
发信人: laihaobo (数海扬帆), 信区: DataSciences
标 题: 海量数据,”大数据”,高频数据及其它---从“Big Data"说开去
发信站: BBS 未名空间站 (Wed Aug 20 23:31:38 2014, 美东)
第一帖:“Big Data”之本土发展
上个周末,凑数看《非诚勿扰》。诧异间发现“大数据”这个名词被频频提起。这可能
得益于参加节目的英国名校某在读统计(?)博士生的精彩表现,当然更反映了这一概
念的热度。这让我想起了若干年前关于股市的美谈。(大意)是说某大娘早上去菜市场
买鸡蛋,结果没买鸡蛋,却买了几股股票回来芸芸。这更勾起了我想写这几个帖子的迫
切程度---再不写,”大数据”也许就要进菜市场了:-)。
“Big Data”这个概念首先在美国被提出,了解在其“本土”的发展可以提供我们了解
它的脉络。“Big Data”从Doug Laney 2001年的一分产业评论始造蛹(见link i),提
出“Big Data”三大基本特征:Volume, Velocity, and Va... 阅读全帖 |
|
d*2 发帖数: 2053 | 9 http://vision.cloudera.com/impala-v-hive/
by Mike Olson
December 22, 2013
We introduced Cloudera Impala more than a year ago. It was a good launch for
us — it made our platform better in ways that mattered to our customers,
and it’s allowed us to win business that was previously unavailable because
earlier products simply couldn’t tackle interactive SQL workloads.
As a side effect, though, that launch ignited fierce competition among
vendors for SQL market share in the Apache Hadoop ecosystem, w... 阅读全帖 |
|
s*********o 发帖数: 567 | 10 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是
一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强,
想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop,
Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快
很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本
上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。 |
|
j*******g 发帖数: 331 | 11 Hadoop, Hive, Pig, MapR, Mahout是网
lz是水手
你是老板还是网工呢? |
|
o**a 发帖数: 1315 | 12 进来re一下,觉得Hortonworks有SQL Server和SAS的东家撑着,在业界还是能绿一阵的 |
|
z****e 发帖数: 54598 | 13 一个在gfs工作多年的阿三出来,按照hdfs的接口,把代码重新写了一遍
说白了就是把gfs的接口换成hdfs的接口,两边抄一抄,就拿出来卖了
不能不佩服三锅的忽悠水平 |
|
w***g 发帖数: 5958 | 14 怪不得这么牛。原来是gfs。一个人能把gfs重新写一遍也不错了。 |
|
z****e 发帖数: 54598 | 15 google起家的时候,也就是两个人把gfs给写出来了 |
|
w***g 发帖数: 5958 | 16 都存内存里快100多倍自然没啥。如果都存磁盘,比mapr上的hadoop还快100多倍的话,
我都要给他下跪了。 |
|
o**********e 发帖数: 18403 | 17 【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: Hadoop Spark 学习小结[2014版]
关键字: Spark,Big Data,Hadoop
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop projec... 阅读全帖 |
|
l******o 发帖数: 52 | 18 第一帖:“Big Data”之本土发展
上个周末,凑数看《非诚勿扰》。诧异间发现“大数据”这个名词被频频提起。这可能
得益于参加节目的英国名校某在读统计(?)博士生的精彩表现,当然更反映了这一概
念的热度。这让我想起了若干年前关于股市的美谈。(大意)是说某大娘早上去菜市场
买鸡蛋,结果没买鸡蛋,却买了几股股票回来芸芸。这更勾起了我想写这几个帖子的迫
切程度---再不写,”大数据”也许就要进菜市场了:-)。
“Big Data”这个概念首先在美国被提出,了解在其“本土”的发展可以提供我们了解
它的脉络。“Big Data”从Doug Laney 2001年的一分产业评论始造蛹(见link i),提
出“Big Data”三大基本特征:Volume, Velocity, and Variety。2005年前后,因为
Hadoop 的兴起,从根本上将并行计算平民化。这是因为它和以它为基础的相关开源软
件,开启了一个大规模数据处理的新时代。这一时代的大量规模系统具有有以下特征:
使用低门槛硬件(Commodity Hardware), 开源软件为主导(Opensource Software),... 阅读全帖 |
|
h*********c 发帖数: 78 | 19 同意,中国人比例确实太低了(以IT届平均来看),大数据概念火了很久,但是很多公
司也才刚刚起步,拿到VC,中国人可能还是去大公司的比较多。我在某个talk倒是碰到
了从国内来的,alibaba的,专门搞阿里云的那个组来了三,四个人。我也有同样的感
觉,主要用的还是open source的东西。和一个MAPR的哥们聊天,他说FLAG里的某家做
大数据的东西甩open source好几条街,根本就不commercialize,藏着自己用。。。 |
|
h*********c 发帖数: 78 | 20 同意,中国人比例确实太低了(以IT届平均来看),大数据概念火了很久,但是很多公
司也才刚刚起步,拿到VC,中国人可能还是去大公司的比较多。我在某个talk倒是碰到
了从国内来的,alibaba的,专门搞阿里云的那个组来了三,四个人。我也有同样的感
觉,主要用的还是open source的东西。和一个MAPR的哥们聊天,他说FLAG里的某家做
大数据的东西甩open source好几条街,根本就不commercialize,藏着自己用。。。 |
|
s****h 发帖数: 3979 | 21 I have text/csv files and want to upload them into Cloudera cluster, and use
them in Spark.
What's the best way to upload and convert text/csv file into PARQUET format?
Two load, use either file manager in Hue or SFTP?
To convert, I can think of 3 ways:
A.
In HIVE, create external table based on the original file,
then create new external table in PARQUET format ?
B.
In Spark, wse Scala code to convert ? Conversion speed might be a concern.
https://developer.ibm.com/hadoop/blog/2015/12/03/parque... 阅读全帖 |
|
z*******n 发帖数: 1034 | 22 Here they are.
Actifio: The company developed a way to pare down the number of copies of a
given piece of data while ensuring it will be available whenever someone
needs it. Back in March, Actifio’s valuation was “a good $100 million over
$1 billion,” founder and chief executive Ash Ashutosh told VentureBeat.
Airbnb: It’s not clear that the company is ready to go public, but this
doesn’t mean it’s an impossibility. In August, Airbnb disclosed that it
had taken on a whopping $475 million funding ... 阅读全帖 |
|