l******o 发帖数: 52 | 1 【 以下文字转载自 DataSciences 讨论区 】
发信人: laihaobo (数海扬帆), 信区: DataSciences
标 题: 海量数据,”大数据”,高频数据及其它---从“Big Data"说开去
发信站: BBS 未名空间站 (Wed Aug 20 23:31:38 2014, 美东)
第一帖:“Big Data”之本土发展
上个周末,凑数看《非诚勿扰》。诧异间发现“大数据”这个名词被频频提起。这可能
得益于参加节目的英国名校某在读统计(?)博士生的精彩表现,当然更反映了这一概
念的热度。这让我想起了若干年前关于股市的美谈。(大意)是说某大娘早上去菜市场
买鸡蛋,结果没买鸡蛋,却买了几股股票回来芸芸。这更勾起了我想写这几个帖子的迫
切程度---再不写,”大数据”也许就要进菜市场了:-)。
“Big Data”这个概念首先在美国被提出,了解在其“本土”的发展可以提供我们了解
它的脉络。“Big Data”从Doug Laney 2001年的一分产业评论始造蛹(见link i),提
出“Big Data”三大基本特征:Volume, Velocity, and Variety。2005年前后,因为
Hadoop 的兴起,从根本上将并行计算平民化。这是因为它和以它为基础的相关开源软
件,开启了一个大规模数据处理的新时代。这一时代的大量规模系统具有有以下特征:
使用低门槛硬件(Commodity Hardware), 开源软件为主导(Opensource Software),和
系统良好的可扩展性(或可扩缩性,Scalability)。很多互联网企业极大程度地得益于
此。
以Hadoop为基础的并行计算实现,虽然是开源,但系统的建立和集成并非一蹴而就。由
此产生了很多的Hadoop Distribution和相应的提供服务的厂商。大多数新的所谓“Big
Data”公司基本这种商业模式, Cloudera,Hortonworks, 和 MapR 基本是这种模式
。这一类公司应该吸引了足够量的硅谷高科技风投(有志者可以统计或帮大家找一下。
)俨然成了兵家必争之地。当然旧一点的公司也不会放过。数据库公司ORACLE跟
Cloudera联姻,IBM以InfoSphere BigInsights介入企业Hadoop市场,EMC借助于并购的
Greenplum,也角逐于这一市场。
“Big Data”在被业界热炒后,又被白宫拾起(见2012年三月白宫Webminar),在此前后
以联邦研究重点扶持形式,全面进入研究领域,已成如火如荼之势。
Link i: http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf |
L*******t 发帖数: 2385 | 2 大数据是不是就是容量很大的数据?
【在 l******o 的大作中提到】 : 【 以下文字转载自 DataSciences 讨论区 】 : 发信人: laihaobo (数海扬帆), 信区: DataSciences : 标 题: 海量数据,”大数据”,高频数据及其它---从“Big Data"说开去 : 发信站: BBS 未名空间站 (Wed Aug 20 23:31:38 2014, 美东) : 第一帖:“Big Data”之本土发展 : 上个周末,凑数看《非诚勿扰》。诧异间发现“大数据”这个名词被频频提起。这可能 : 得益于参加节目的英国名校某在读统计(?)博士生的精彩表现,当然更反映了这一概 : 念的热度。这让我想起了若干年前关于股市的美谈。(大意)是说某大娘早上去菜市场 : 买鸡蛋,结果没买鸡蛋,却买了几股股票回来芸芸。这更勾起了我想写这几个帖子的迫 : 切程度---再不写,”大数据”也许就要进菜市场了:-)。
|
t********t 发帖数: 1264 | 3 几个T的tokyo hot算大数据吗?
【在 L*******t 的大作中提到】 : 大数据是不是就是容量很大的数据?
|
L*******t 发帖数: 2385 | 4 你有吗?我想仔细的学术研究一下
【在 t********t 的大作中提到】 : 几个T的tokyo hot算大数据吗?
|
t********t 发帖数: 1264 | 5 你研究什么?你大金工不是瞧不上数据科学家吗
【在 L*******t 的大作中提到】 : 你有吗?我想仔细的学术研究一下
|
s*******0 发帖数: 3461 | |
L*******t 发帖数: 2385 | 7 我高兴的是,现在谁都开始用“大金工”这个词。。
【在 s*******0 的大作中提到】 : 哈哈 现在谁都知道这个哥们是 大金工了 呵呵
|
l******o 发帖数: 52 | 8 "大数据”是定义最糟的概念之一。几个T的Finance数据不算小。 |
d********t 发帖数: 9628 | 9 大数据又不是根据数据大小来定义的
【在 l******o 的大作中提到】 : "大数据”是定义最糟的概念之一。几个T的Finance数据不算小。
|
A********a 发帖数: 133 | 10 Big data is a big dump, ppl have been getting more and more data since the
invention of computer (or say printer), but it is still up to ppl to analyze
data with right framework
http://topics.bloomberg.com/buried-in-big-data/ |
|
|
n******t 发帖数: 4406 | 11 一部片2G算。这才1两千部片子,这年头你想靠这几部片子赚钱是不太可能的了。。。
【在 t********t 的大作中提到】 : 几个T的tokyo hot算大数据吗?
|
L*******t 发帖数: 2385 | 12 大金工不就是和数据模型打交道的吗。。
有啥瞧得上瞧不上之说?
都是混饭吃
【在 t********t 的大作中提到】 : 你研究什么?你大金工不是瞧不上数据科学家吗
|
l******o 发帖数: 52 | 13 "金工"玩模型为主;“数科”人士应以数据为导向。
我以为我孤陋寡闻, HOT 是什莫指数。果然只是个XXX网站?
【 】
部片子赚钱是不太可能的了。。。 |
J*****n 发帖数: 4859 | 14
I thought 2g refers to the size of seeds.
【在 n******t 的大作中提到】 : 一部片2G算。这才1两千部片子,这年头你想靠这几部片子赚钱是不太可能的了。。。
|
t********t 发帖数: 1264 | 15 可以在amazon申请个云存储,把算法传到云,让服务器自动跑数据,下载存储都放在服
务器。需要用数据时也不受限于本地机,方便很多。这是我们的土法大数据,tokyo
hot只是个例子
【在 l******o 的大作中提到】 : "金工"玩模型为主;“数科”人士应以数据为导向。 : 我以为我孤陋寡闻, HOT 是什莫指数。果然只是个XXX网站? : 【 】 : 部片子赚钱是不太可能的了。。。
|
t********t 发帖数: 1264 | 16 没想过赚钱。。只想搞搞data mining
【在 n******t 的大作中提到】 : 一部片2G算。这才1两千部片子,这年头你想靠这几部片子赚钱是不太可能的了。。。
|
n******t 发帖数: 4406 | 17 data mining是很邪恶的事情,然后还不赚钱,你这是什么心态呢?
【在 t********t 的大作中提到】 : 没想过赚钱。。只想搞搞data mining
|
d********t 发帖数: 9628 | 18 那真是屌丝心态了啊
【在 n******t 的大作中提到】 : data mining是很邪恶的事情,然后还不赚钱,你这是什么心态呢?
|
l******o 发帖数: 52 | 19 "'Big Data' 从Doug Laney 2001年的一分产业评论始造蛹(见link i),提
出“Big Data”三大基本特征:Volume, Velocity, and Variety。" 这个很重要,再
重复一下。
【在 d********t 的大作中提到】 : 大数据又不是根据数据大小来定义的
|
l******o 发帖数: 52 | 20 Again, Tokyo hot 指的是社么?
【在 t********t 的大作中提到】 : 几个T的tokyo hot算大数据吗?
|
M****g 发帖数: 162 | 21 Google 东京热
【在 l******o 的大作中提到】 : Again, Tokyo hot 指的是社么?
|
g********s 发帖数: 3652 | |