由买买提看人间百态

topics

全部话题 - 话题: 数据量
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
m*****f
发帖数: 1243
1
发信人: phylips (星星||一年磨十剑), 信区: Algorithm
标 题: 大数据量,海量数据 处理方法总结
发信站: 兵马俑BBS (Thu Nov 26 16:32:38 2009), 本站(bbs.xjtu.edu.cn)
最近有点忙,稍微空闲下来,发篇总结贴。
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一
些涉及到海量数据的公司经常会问到。
下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并
不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。
下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好
的处理方法,欢迎与我讨论。
1.Bloom filter
适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集
基本原理及要点:
对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,
查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的
结果是100%正确的。同时也不支持删除一个
s*****r
发帖数: 43070
2
来自主题: Military版 - 俺随便整整都是上亿的数据量
俺随便整整都是上亿的数据量,需要用上千台机器去处理,这还不是交易类和访问类的
数据,就是个体型数据
个体数据随便找几个feature,就能建模,这么大的数据量,啥模型都能玩出来
科研索南找几百个几千个数据点,就敢发paper,不是灌水是什么,灌出来的垃圾连自
己都不信
w********s
发帖数: 1570
3
【 以下文字转载自 JobHunting 讨论区 】
发信人: winetricks (winetricks), 信区: JobHunting
标 题: 金融压根不需要大数据, 因为数据量本来就很小
发信站: BBS 未名空间站 (Sun Mar 22 11:22:57 2015, 美东)
数据量达不到1PB/day的公司想不出搞大数据有啥意义.
g******t
发帖数: 11249
4
来自主题: Military版 - 俺随便整整都是上亿的数据量
科学家做的是方法, 不依赖于数据量
主要研究的是数学理论的应用
你说的依赖数据量的是工程应用
w********s
发帖数: 1570
5
数据量达不到1PB/day的公司想不出搞大数据有啥意义.
c*****t
发帖数: 10738
6
不是数据量问题,而是人类语言本身无法完全用统计模型和严格的语法表达,有很多约
定俗成的习惯很难数学描述。
F******7
发帖数: 755
7
【 以下文字转载自 SanDiego 讨论区 】
发信人: Frosty07 (寒霜), 信区: SanDiego
标 题: AT&T 要限制DSL的上网数据量了。。
发信站: BBS 未名空间站 (Fri May 6 00:47:42 2011, 美东)
http://www.isurfhopkins.com/local/10218-tech-news-atat-putting-
以后,想在pps上看个电影啥得,是不就不能了。。。
z*****n
发帖数: 151
8
也就是平常上网, 看看股票, 新闻报道和八卦一下而已. 但是, 现在的网业都特别复
杂, 经常还有VIDEO和广告. 这每月$25 买来的2GB 的数据量不知道够不够用.确要是
万一不够用的话, 还不如买 VERIZON 的机子了.
哪位大虾指教一下?
p*****2
发帖数: 21240
9
比如每天200K的数据量, mysql可以吗?
s*****r
发帖数: 43070
10
这个数据量对于mysql是小case了,single mysql node,10M以下的table都没问题,而
且现在还有cluster。
f****r
发帖数: 1140
11
数据量比较大。所以得考虑效率。考虑清楚之前还不太想都试一下。实在不行就得试了。
要从数据库里面pull好多变量。还要赋值新变量。是一个巨长无比的sql语句快呢?(
包括select, 好几个case when语句,from好几个table, where不少condition)
还是先proc sql select诸多变量,然后用data step来赋值新变量快?前提是我必须用
proc sql要select变量。
问问有经验的大侠。不知道这种情况考虑到效率问题,是不是该避免proc sql? 不过
proc sql写起来容易些。多谢了。
d*******o
发帖数: 493
12
俺觉得基本是个算法效率的问题。
做join的话,data step hash, data step array, Proc format都是key-value pair
(key--hash function--bucket structure)。三者的区别就是用的hash function不同
而已. Hash table的最大优点是数据量大的情况下,速度非常快。
Proc sql用的Cartesian product算法效率很低,但优点是兼容性好。所以也只有proc
sql能做up to 16 tables join和many-to-many join.
h***i
发帖数: 3844
13
数据量比较大上sas,比如几个tb啊, 上pb级别了,sas基本就不用考虑了。

sas
S***E
发帖数: 1977
14
来自主题: CellularPlan版 - Re: 我怎么怀疑H2O在overestimate数据量
穷人,使用H2O $27 monthly快两年了
说是3G数据量,平时用得很少,有一次到顶了,也没有深究。
两天前recharge的
今天好奇到网上一看,发现已经用了1.23G,简直不可能。
问客服说没问题就是用了这么多
现在$27 monthly升级到4G每个月,问客服,说老用户不能升。
w***g
发帖数: 5958
15
【 以下文字转载自 Programming 讨论区 】
发信人: wdong (cybra), 信区: Programming
标 题: 大数据在工业界流行的黑暗真相
发信站: BBS 未名空间站 (Sat Apr 11 08:05:27 2015, 美东)
这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
原因:
很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
算法要复杂得多得多。
但真相果真如此吗?做过machin... 阅读全帖
w***g
发帖数: 5958
16
来自主题: Programming版 - 大数据在工业界流行的黑暗真相
这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
原因:
很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
算法要复杂得多得多。
但真相果真如此吗?做过machine learning的人都知道,数据量增大对于结果改善的边
际效应是递减的,而且往往是指数递减的。需要获得10个百分点的提高,可能需要成千
上万,甚至亿万倍的数据量。真是有点愚公移山的感觉了。
大数据的驱动力背后还有更黑暗的真相:提高barrier to ent... 阅读全帖
l******o
发帖数: 52
17
来自主题: Quant版 - 海量数据 <->"大数据"
--- 海量数据,"大数据", 和高频数据讨论之结篇
我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety,
and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发
挥,不过定义"Big Data"的核心还是在这几个方面。
这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指
标(time stamp)的严重依赖性而著称。
近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指
数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益
彰,推进了互联网企业的发展和整个社会的互联网化。这成为"Big Data"这个概念被广
泛接受和广泛使用的直接动因。作为这个行业长期旗帜的Google, 可能最早解决工业层
次的"Scalability"的问题。他们并把相关技术... 阅读全帖
l******o
发帖数: 52
18
来自主题: Quant版 - 海量数据 <->"大数据"
--- 海量数据,"大数据", 和高频数据讨论之结篇
我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety,
and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发
挥,不过定义"Big Data"的核心还是在这几个方面。
这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指
标(time stamp)的严重依赖性而著称。
近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指
数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益
彰,推进了互联网企业的发展和整个社会的互联网化。这成为"Big Data"这个概念被广
泛接受和广泛使用的直接动因。作为这个行业长期旗帜的Google, 可能最早解决工业层
次的"Scalability"的问题。他们并把相关技术... 阅读全帖
l******o
发帖数: 52
19
来自主题: DataSciences版 - "大数据"vs. 海量数据
--- 海量数据,"大数据", 和高频数据讨论之结篇
我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety,
and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发
挥,不过定义"Big Data"的核心还是在这几个方面。
这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指
标(time stamp)的严重依赖性而著称。
近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指
数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益
彰,推进了互联网企业的发展和整个社会的互联网化。这成为"Big Data"这个概念被广
泛接受和广泛使用的直接动因。作为这个行业长期旗帜的Google, 可能最早解决工业层
次的"Scalability"的问题。他们并把相关技术... 阅读全帖
l******o
发帖数: 52
20
来自主题: DataSciences版 - "大数据"vs. 海量数据
--- 海量数据,"大数据", 和高频数据讨论之结篇
我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety,
and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发
挥,不过定义"Big Data"的核心还是在这几个方面。
这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指
标(time stamp)的严重依赖性而著称。
近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指
数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益
彰,推进了互联网企业的发展和整个社会的互联网化。这成为"Big Data"这个概念被广
泛接受和广泛使用的直接动因。作为这个行业长期旗帜的Google, 可能最早解决工业层
次的"Scalability"的问题。他们并把相关技术... 阅读全帖
M******a
发帖数: 6723
21
2016-08-25 仲伟民 邱永志 青年史学家 微信号qinianshixuejia
功能介绍
欢迎关注青年史学家!我们将本着“文不虚发”的原则,提倡紧扣前沿、促进交流,探
索公众史学发展路径,服务史学青年、体现现实关怀。青史出品,必属精品!希望大家
支持我们,踊跃投稿,共同进步!
数据估算与历史真实
中国史中GDP估算研究评述
主编
仲伟民:清华大学历史系教授、博士生导师。《清华大学学报》常务副主编。曾经担任
《中国社会科学》与《历史研究》编审、总编室主任,《中国社会科学文摘》常务副主
编。
仲伟民清华大学历史系教授博士生导师
摘要
近年来,中国史中GDP的估算研究引起了学界的高度关注,并由此引起了热烈讨论。关
于国民所得、国民收入等宏观经济核算的研究,最早可追溯至上个世纪三四十年代,学
人多承认由巫宝三等人率先开创。此后,关于这一方面的研究成果不断,但估算研究时
段主要集中在中国的近现代史。最早把GDP估算研究带入中国古代史领域的是外国学者
保罗·贝洛赫、安格斯·麦迪森等人,但是他们较为粗略式的估算引起了学界不断的质
疑,并直接或间接地促成了此次古代经济史... 阅读全帖
M******a
发帖数: 6723
22
【 以下文字转载自 Military 讨论区 】
发信人: Mayingba (吳鐘學), 信区: Military
标 题: 仲伟民:数据估算与历史真实——中国史中GDP估算研究评述
发信站: BBS 未名空间站 (Tue Aug 30 14:18:19 2016, 美东)
2016-08-25 仲伟民 邱永志 青年史学家 微信号qinianshixuejia
功能介绍
欢迎关注青年史学家!我们将本着“文不虚发”的原则,提倡紧扣前沿、促进交流,探
索公众史学发展路径,服务史学青年、体现现实关怀。青史出品,必属精品!希望大家
支持我们,踊跃投稿,共同进步!
数据估算与历史真实
中国史中GDP估算研究评述
主编
仲伟民:清华大学历史系教授、博士生导师。《清华大学学报》常务副主编。曾经担任
《中国社会科学》与《历史研究》编审、总编室主任,《中国社会科学文摘》常务副主
编。
仲伟民清华大学历史系教授博士生导师
摘要
近年来,中国史中GDP的估算研究引起了学界的高度关注,并由此引起了热烈讨论。关
于国民所得、国民收入等宏观经济核算的研究,最早可追溯至上个世纪三四十年代... 阅读全帖
d********w
发帖数: 363
23
来自主题: JobHunting版 - 后Hadoop时代的大数据架构
http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖
d********w
发帖数: 363
24
来自主题: JobHunting版 - 后Hadoop时代的大数据架构
http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖
m*********3
发帖数: 1425
25
来自主题: DataSciences版 - 大数据助女足备战世界杯
女足今晚必胜!大家找工作又有新方向了。
http://sports.163.com/15/0619/20/ASGHSGLS00051C8O.html
新华网加拿大埃德蒙顿6月18日体育专电(记者马邦杰 单磊)中国女足过去的体能
只能支撑60分钟的比赛,现在世界杯三场小组赛每场都能拼到最后,没有队员出现抽
筋等严重体能问题。另外,让人啧啧称奇的是,三场激战之后,现在中国队内竟然没有
任何重大伤病号,所有球员都可以上场比赛。
中国队主教练郝伟对新华社记者透露:中国女足球员体能状况明显改善,必须要感谢大
数据的有力支撑。他说:“我们队现在每天都做大量数据分析。我们每堂训练课达到的
强度,全是通过科学的数据分析来确定!我们在世界杯备战期间,一直进行大数据监控
,因此对每个训练项目都很清楚。大数据让训练量化、清晰化,为我们提供了非常有价
值的参考。”
郝伟执教中国女足之后,体能训练的内容不再是过去那样单调地跑圈,而是像国外先进
球队一样通过小场地的有球对抗训练进行,既练习了个人技术、战术配合,同时又提升
了体能。中国队从4月下旬在北京开始集训一直到现在,小场地对抗几乎是每堂训练课
的必练内容。每... 阅读全帖
a*****c
发帖数: 2086
26
有些人啊,没有真正的去做过一个project,没有深入去参与其中的开发,就在那里想
当然的发表评论。真正做下去了才知道会碰到多少问题需要去考虑去解决的。一个短时
间内承受巨大交易量,要做到不能当机,让用户不感到速度变慢,购物历史和更新记录
不能冲突,背后采用怎样技术才能支撑,我还是贴个淘宝技术的科普吧。
【编者按】对于淘宝网而言,2012年的“双十一”是一个交易里程碑,是一个购物狂欢
日,在这个“神棍节”里,淘宝创下191亿元的交易额,在交易的背后隐藏着哪些复杂
技术?
你发现快要过年了,于是想给你的女朋友买一件毛衣,你打开了www.taobao.com。这时
你的浏览器首先查询DNS服务器,将www.taobao.com转换成ip地址。不过首先你会发现
,你在不同的地区或者不同的网络(电信、联通、移动)的情况下,转换后的IP地址很
可能是 不一样的,这首先涉及到负载均衡的第一步,通过DNS解析域名时将你的访问分
配到不同的入口,同时尽可能保证你所访问的入口是所有入口中可能较快的一个 (这和
后文的CDN不一样)。
你通过这个入口成功的访问了www.taobao.com的实际的入口IP... 阅读全帖
k***5
发帖数: 583
27
来自主题: Programming版 - 大数据在工业界流行的黑暗真相
“但真相果真如此吗?做过machine learning的人都知道,数据量增大对于结果改善的
边际效应是递减的,而且往往是指数递减的。需要获得10个百分点的提高,可能需要成
千上万,甚至亿万倍的数据量。真是有点愚公移山的感觉了。”
成千上万,甚至亿万倍的数据量听起来很吓人,在实际运行里没那么夸张。就拿飞机引
擎来说,全世界商业飞机每天飞行小时如此海量,采集到数据很容易就到成千上万,甚
至亿万倍的数据量。
g*****g
发帖数: 34805
28
来自主题: Programming版 - 大数据在工业界流行的黑暗真相
你这贴怎么闻着都是学术界对大数据在工业界做出来这事的酸味呢?
1.大只是个方法论的概念。通过MR一类的框架,原来处理不了的现在处理得了,或者要
处理一周的现在处理一天就够,哪怕数据量只有T级,也是显然的获益。大只不过是个
相对概念,原来处理不了这样的数据了,为了在可以接受的时间内处理了,就只能采集
的时候做sampling,相对数据量就小。
2.这显然不是提高barrier of entry,而是显著降低了barrier of entry。以前那些做
网格计算的大机器,机器非常贵,能写并行算法的人很少,要有人维护机器,一个开发
周期很长。现在Amazon EMR,起一千个机器跑一跑就是分分钟的事情,你还可以半夜便
宜的时候去跑,好多小公司就这么干。写ETL算法的人往往不是CS出身的,也完全不需
要有能力写并行算法。凡事一旦做到PaaS,SaaS,基本上就是barrier of entry降低到
了极致。
3.互联网业往往营业额高,纯利低。典型的如马鬃,以及初创公司。1%的优化带来的可
能是数以亿计的纯利。这就是互联网公司愿意雇一堆Data Scientist不停地改进算法A/
B te... 阅读全帖
h******e
发帖数: 209
29
来自主题: Programming版 - 大牛们,请教大数据系统如何架构
问一个大数据系统架构的事情。
国内同学想找我合作一个跟大数据有关的项目。第一步,跟大家一样,都是在互联网上
采集大量数据,提纯去杂做一些处理后,要开个web服务器显示一些统计信息。用传统
的mysql方式肯定是不行了,数据采集量基本每天都超过1000万条了。采集量太大,而
且采集数据的渠道太多,太杂。考虑用大数据的方式来搞,但是不是很精通这一块。
要求是能横向扩容服务器来解决将来数据量增大的问题,另外,采集是流式的不断流入
数据,显示数据的时候也需要尽快的显示出最新的变化,能做到5分钟内更新采集到的
数据最好。
请教大牛们,这种方式该怎么设计系统,基于哪些模块或者软件开发最好?一定要靠谱
点,不冒出一堆坑的比较好!
z**********e
发帖数: 22064
30
【 以下文字转载自 Military 讨论区 】
发信人: zhonghangyue (中行说), 信区: Military
标 题: 大数据:发生在火葬场的高智商犯罪
发信站: BBS 未名空间站 (Tue Jan 12 11:37:56 2016, 美东)
http://blog.sina.com.cn/s/blog_4b99db850102vzyd.html
文裁缝 http://blog.sina.com.cn/wenhuachuancheng 2015-12-18 08:48:09
节选自:《中国人:群居的食草族》,中国工人出版社
第二届世界互联网大会正在召开,各位互联网大佬相继亮相发言,内容不一,不过总结
起来就一句话:在这个社会,你已经离不开互联网了。想想看,确实是这么回事。不过
有一些人说,我知道离不开互联网,但是对于你们说的那些大数据啊,互联网+啊什么
的,我还是不很明白。别急,今天摘一篇雾满拦江的《发生在火葬场的高智商犯罪》,
来告诉你什么叫大数据。

以前,这世界是文人的天下,文人最喜欢干的,就是弄出个四六不靠的怪名词,让公众
晕眩,文人就倍有成就感。后来,这... 阅读全帖
g*******u
发帖数: 3948
31
来自主题: Programming版 - 请教数据存储问题
我第一个应用吧。其实现在就是非常简单的随便存也行 因为数据量真不大。
只是想看看有没有更好玩的, 试试。直接存 太丑了有点。
只是我本身之前也不做这东西, 也不知道用什么工具啊,什么框架之类的。
第二个现在暂时没想法,感觉上量了也不太好弄。这个量有点大, 一个数据就60G 可
能每天有上千个这样的数据。 想想头大,先算了,不搞了。
问题不一样要求不一样吧我这个时间序列问题 一星期前和后没区别。所以不存在时间
阶段不重要的问题,只存在哪些数据时噪声 哪些不是有区别。
采样率 我的数据从1000hz到200hz都有 但是我觉得都下采样到100 或者200hz 也没有
区别
所以我会下采样到200吧先。
另外这个训练其实现在没找到更好的方法。 其实就是单独一小段数据做分类 然后连接
来 我觉得实际可能也行的。 当然没有什么lstm 之类的那么优美。
大牛觉得 facenet这个模型如何。 我打算用这个破模型做分类先。
我现在就是先用小段数据做分类,长时间的预测就把每小段的连接起来。
好处就是 我觉得会比较直接
不好地方就是没有太利用到时间上的信息, 模型很笨。
不过先这样开始, 先做个ba... 阅读全帖
z**********e
发帖数: 22064
32
http://blog.sina.com.cn/s/blog_4b99db850102vzyd.html
文裁缝 http://blog.sina.com.cn/wenhuachuancheng 2015-12-18 08:48:09
节选自:《中国人:群居的食草族》,中国工人出版社
第二届世界互联网大会正在召开,各位互联网大佬相继亮相发言,内容不一,不过总结
起来就一句话:在这个社会,你已经离不开互联网了。想想看,确实是这么回事。不过
有一些人说,我知道离不开互联网,但是对于你们说的那些大数据啊,互联网+啊什么
的,我还是不很明白。别急,今天摘一篇雾满拦江的《发生在火葬场的高智商犯罪》,
来告诉你什么叫大数据。

以前,这世界是文人的天下,文人最喜欢干的,就是弄出个四六不靠的怪名词,让公众
晕眩,文人就倍有成就感。后来,这世上有了互联网,从此文人就没咒念了。
互联网行业,因其新,新奇的名词概念层出不穷,什么O2O啦,什么云计算啦,还有什
么大数据啦……最后这个大数据,是目前频繁使用的专业术语。可什么叫大数据?这玩
意儿有什么用?
大数据就是big data,或称巨量资料,指的是……... 阅读全帖
b********2
发帖数: 13
33
所有如下工作岗位都是基于上海。公司网站:WWW.Datageek.com.cn
All positions are located in Shanghai, China, and open to all levels of
experiences & skills. That's why salary for each position is open.
If you are suitable and interested in any of the following positions, please
write email to: [email protected]/* */ / [email protected]/* */
When writing to us, you must indicate which position you are interested in
or applying for.
--------------------------------------------------
公司简介
--------------------... 阅读全帖
m********5
发帖数: 17667
34
来自主题: Programming版 - 大数据在工业界流行的黑暗真相
我不同意你的看法,当然我的看法也只是局限领域的认识
我心中的大数据,并不是数据绝对量要大,事实上,我们有数据达到PB级别,但这是大
数据么?这不是,因为数据之间不是紧耦合的。另外光有绝对数量,但只采集了一种参
数,那也不叫大数据。
另外如果一个变量的实际变化也就是秒级,而你采样个1MS/s, 这就叫大数据么?显然
不是。
我认为大数据是指数据的完整性,比如你研究发动机效率,如果你只搜集几台车的数据
,单台的数据量再大也不是大数据。如果你采全世界所有汽车的数据,但只采集发动机
数据,那么仍然不是大数据。你得结合气象数据,结合车上的加减速历史,结合地面材
质,甚至结合驾驶人的驾驶数据生活习惯,才能称得上大数据。这时候虽然总体数据量
很小,但仍可称为大数据。
T****i
发帖数: 15191
35
来自主题: Military版 - 大数据流行说明科学停滞了
话说太平洋上有个小岛,上面住了土著人,与世隔绝上千年,地处偏远,各国都对这个
岛没有兴趣。直到二战时,美国发现这个岛是个非常好的中转站,就去建了个空军基地
。每次飞机来了送给养,也给土著点东西比如午餐肉罐头什么的。后来战争结束了,美
军关了基地离开了。后来,70年代有人去这个岛,发现土著人有个宗教,是在废弃的跑
道两侧点燃两溜火把,然后祭拜,等待天神的到来。
不懂大数据,说下感觉,抛砖引玉,敬请批评。从学术界到商业届,从基因组到客户数
据发掘,大数据已经流行好多年了,有少数一些成功案例,大多数就是产生一些似是而
非的结论。其实大数据非常危险,首先单个数据错误可能性非常大,虽然这对得出统计
数据可能没影响,但对得出精确结论影响很大。更有很多高通量低质量的数据,对统计
结果都有影响,最后可能garbage in garbage out。其次数据量大了,总能形成
pattern,但这不一定是真正的规律或者机制性规律。无论数据量多大,你也不能保证
你采集的数据都有用,还有缺失数据,你压根都没想到的。
我认为还有一个重要问题,就是有多少问题是计算机可以解决的。比如,现代的超级计
算机,就算联网,... 阅读全帖
n***c
发帖数: 7400
36
近日,国际电信联盟(ITU)公布了首个大数据标准—《基于云计算的大数据需求与能
力标准》(编号ITU-T Y.3600)。该标准规范的内容将为ITU-T后续制定大数据系列标
准提供基准和参考。
在当今的大数据时代,由于数据量大且复杂,使得传统的数据技术无法快速且准确
的传输和分析数据。
据了解,ITU Y.3600标准首先明确给出了大数据的定义:在信息和通信技术快速发
展的当代,巨大的数据量出现在我们的视野里,在传统数据处理方法和工具无法满足我
们的要求时,新的解决技术应运而生,这就是大数据技术。
而大数据的出现带有它自己独特的特征:Volume、Variety、Velocity、Veracity
、Value,分别代表着大数据的大量化、多样化、快速化、准确化、价值化,一般简称
它们为“5V”特征,基于这五大特征,大数据可以解决许多新的挑战,创造更多新的机
会。
此外,该标准还详细描述了基于云计算的大数据生态系统、需求、应用场景,通过
分析在电信、互联网、交通等典型行业应用大数据处理与分析技术案例,提出了标准化
的大数据功能需求。
据悉,ITU-T Y.3600标准由中国电信牵头,法国... 阅读全帖
t**e
发帖数: 2379
37
来自主题: _Stockcafeteria版 - 周五资金流出量很大
说说图,spy这两年的走势图,类似成交量的柱子是这个网站上的DJUSTM的money flow
,有正有负,黑点连线是这个money flow的累加。起点是两年前,因为能拿到的数据只
有两年。
价格图蜡烛图是spy的,money flow是DJUSTM是包含全部股票的指数。这个指数的走势
和spy比较接近,所以可用来替代。
最近两个星期的money flow数据和指数严重背离。如此money flow的大幅流出一般要和
指数的大幅下跌相对应。如此指数上涨的情况以前也有过两次,用红色标出。第一次是
11年的大头部之前,那段时间指数稳步上扬,但money flow大跌,之后指数继续稳步走
高,money flow也回升,但没有超过之前的高点,然后就开始头部了。第二次在12年三
月份的头部初期,那之后指数也随money flow一直跌到六月初的底。 这次的背离最明
显,如果单看money flow的累加曲线,跟指数大跌时候的劲头相仿。所以说呢,有可能
这次头部已经展开或者行将展开。又或者,数据量太少,不足以说明问题。wsj不提供
两年之前的数据,想买都不提供。说实话,两年的数据量是比较少,所... 阅读全帖
c***T
发帖数: 4990
38
http://news.sina.com.cn/c/2008-08-01/154816044157.shtml
中广网北京8月1日消息 (记者张亚然)国防科工局8月1日发布消息,嫦娥一号卫星自
2007年10月24日发射,11月7日进入使命轨道。至08年8月1日下午十四时,嫦娥一号卫
星已正常工作9个月09天,绕月飞行3042圈,有效载荷探测已获取了大量科学数据。整
星安全度过08年2月21日的月食,完成两次正飞与侧飞的姿态转换、进行了三次轨道维
持,目前整星剩余燃料量约270kg。
密云、昆明地面站已接收嫦娥一号卫星700余小时的数据,数据量约1.1TB(1TB=
1000GB=1000000MB),其中CCD相机已获取全月面数据,各有效载荷也获得了大量的探测
数据,目前科学数据的反演处理工作正在按计划进行。根据《绕月探测工程科学数据发
布管理办法》,以及国家航天局与欧空局签订的《中欧合作协议框架下的地面支持协议
》,数据将于近期面向国内授权用户和欧空局同步发布。
按原计划,8月4日,嫦娥一号卫星将由现在的正飞姿态转入侧飞姿态,8月16日,
嫦娥一号卫星将迎来第二次月食。根据前一次度
l******0
发帖数: 244
39
来自主题: DataSciences版 - 所谓的大数据
big data 从量上来说,当然都是以 terabyte 计。但我说的是,作为分析建模的数据
,你能用得了多少,可能 work 的 case 不一样。通常机器学习的分类任务,要大规模
的标注好的数据,几乎不可能;即使可能,一般的机器学习算法,也用不着那么多数据
,也处理不了那么多数据。而且数据到一定量,再添加,对模型也没有什么帮助。数据
不在于量大,关键在于如何组织好一个很有代表性的小数据集用来学习,测试和评估。
举个例子,如果要根据 Twitter 上用户的发言(tweets),判断他的年龄段,或再粗
略一点,判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。
如果性能不好,原因可能不是由于数据量小。增加再多,也不一定有帮助。
能不能举个例子,需要多少个 G 或 T 的数据来做模型?交流,学习一下
y********l
发帖数: 3970
40
来自主题: Military版 - 中国量子卫星成功传回数据
绝对安全!中国量子卫星“墨子号”成功传回数据
驱动之家 2016-08-19 10:43:15 阅读(0) 评论(1)
声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人
,不代表搜狐立场。举报
中科院最新发布,17日11时56分24秒,中科院遥感与数字地球研究所所属中国遥感
卫星地面站密云站在第23圈次成功跟踪、接收到我国首颗量子科学实验卫星“墨子号”
首轨数据。
“墨子号”于16日1时40分在酒泉卫星发射中心成功发射,它是中科院空间科学战
略性先导专项首批科学实验卫星之一,将使我国在世界上首次实现卫星和地面之间的量
子通信,构建天地一体化的量子保密通信与科学实验体系。中国遥感卫星地面站的密云
站、喀什站和三亚站负责承担“墨子号”数据的接收任务。
据介绍, “墨子号”首轨任务时长约7分钟,接收数据量约202MB。经验证,卫星
数据质量良好。这些卫星数据已实时传送至中科院国家空间科学中心。
中国遥感卫星地面站负责中科院空间科学先导专项地面接收系统的建设和运行工作
,已经形成我国南-北-西地理布局的近地空间科学卫星接收站网。“墨子号”是继暗物
质粒子探测卫星、实... 阅读全帖
J****R
发帖数: 373
41
来自主题: Programming版 - 大牛们,请教大数据系统如何架构
storm, spark, hadoop 可以用来做aggregation,具体要看你们的user case。 如果用
spark, hadoop接在data store后面做query的话,要看你们出什么类型的report,要求
的响应时间是多少。如果是customized ad hoc query, 并且要实时显示report,那用
这些query就不太方便了,可能自己写一个query engine还好一点。如果query的数据量
不小的话,最好自己写点code 用coprocessor,user defined functions 这类东西处理
,能有效的减少响应时间。
c*,hbase这些东西也不是包治百病的,query的数据量大了一样很慢,还是得把计算挪
到cluster上去比较有效。如果你们的report比较固定,那可以用空间换时间,做点pre
process,query起来不管数据量大小都会很快。
j****c
发帖数: 19908
42
这两天两次遇到这个问题。
昨天我用rsync向移动硬盘备份数据,数据量比较大,100G左右,terminal里面出现一
行信息说 I/O error 然后就死机了,我重启后显示硬盘有error, force check硬盘后
找不到/proc 等文件夹,无法开机。用安装光盘启动也无法进入rescue mode。
今天把系统重装了之后,继续备份数据,开了两个terminal进行 cp 操作,之后又是同
样的问题 IO error,跟昨天一样开不了机。
现在回想起来,我在cp操作进行当中,又另外开了一个termail,进入正在进行cp 操作
的那个目录下用 ls -l 查看文件复制的情况,好像就是在执行 ls -l 的时候出现这个
IO error的。是不是因为cp 的数据量很大,两三百G的样子,导致在执行 ls -l 的时
候损害了磁盘的信息?
还有,这时候有什么办法能让我不用重装系统也能开机吗?
C*****5
发帖数: 8812
43
来自主题: Programming版 - 如果数据少,是不是就不能用CNN
可以试试SVM等传统算法。deep learning 的优点主要体现在数据量大的时候。数据量
少有时候还真不一定比老方法好。
512*512够搞好多层了,尤其是做Same padding不搞Max pool多少层都可以。100个数据
就不要搞SGD了,一个batch完事儿了。可以搞点jitter,反转,调brightness之类的多
整点数据。
C*****5
发帖数: 8812
44
来自主题: Programming版 - 如果数据少,是不是就不能用CNN
可以试试SVM等传统算法。deep learning 的优点主要体现在数据量大的时候。数据量
少有时候还真不一定比老方法好。
512*512够搞好多层了,尤其是做Same padding不搞Max pool多少层都可以。100个数据
就不要搞SGD了,一个batch完事儿了。可以搞点jitter,反转,调brightness之类的多
整点数据。
p*******y
发帖数: 133
45
最近大数据概念盛行,所以捡起这本书读了读,算是有了概念。
书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息,通过
分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据,试
图挖掘出事物之间可能的相关性,尤其是不容易预测的,又有商业价值的相关性。应用
大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
,很少有统计师只用一部分数据,把其他的有用的数据扔掉。只是因为数据采集的成本
高,而导致数据只能覆盖一部分样本。比如制药业所做的临床试验,只能在一部分病人
里试验,而不是所以病人。而大数据其实只是因为互联网时代的到来导致某些数据采集
成本急剧下降,数据量指数级增加。比如大家在google上做的搜索,在facebook上写的
爱好等等。但是也要注意到,即使是这种big data,在采样上实际上是biased,因为这
些数据多数只来自于喜爱上互联网并喜欢发言分享的... 阅读全帖
i*****a
发帖数: 7272
46
【 以下文字转载自 LeisureTime 讨论区 】
发信人: pennyjudy (penny), 信区: LeisureTime
标 题: 读书笔记-大数据时代(Big Data) Viktor Mayer-Schönberger
发信站: BBS 未名空间站 (Sat Aug 30 21:47:36 2014, 美东)
最近大数据概念盛行,所以捡起这本书读了读,算是有了概念。
书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息,通过
分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据,试
图挖掘出事物之间可能的相关性,尤其是不容易预测的,又有商业价值的相关性。应用
大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
,很少有统计师只用一部分数据,把其他的有用的数据扔掉。只是因为数据采集的成本
高,而导致数据只能覆盖一部分样本。比如制药业... 阅读全帖
o****9
发帖数: 479
47
来自主题: Faculty版 - 聊点正事:大数据。
也不完全是你说的这样。大的数据量只是一个方面。有时,数据量未必非常大,但数据
间的关联很大,而且,这些关联可能是事先未知的,或难以描述的。
n******r
发帖数: 44
48
我不是大牛也不是飞牛:)不过也愿意探讨探讨这种问题
经不经过database都可以用JavaScript来实现吧。input的值可以用JavaScript来修改
,设置好输入input的OnChange event,用JavaScript改其他input的值不难。不知道有
没有更直接的方法。
不是很理解你所谓“js应用画的图”是什么意思。如果是SVG之类,在JavaScript看来
应该都是document element,实现起来应该是一样的吧?
要通过数据库的话,如果数据量大,可能要再call一次web page来更新数据。如果数据
量小,在JavaScript里面用AJAX应该就可以解决的。
抛砖引玉,希望能看到真正大牛的解决方案。
r********3
发帖数: 694
49
来自主题: Programming版 - 数据可视化有什么好的创业机会么
淘宝双11的real time vis具体我不是很清楚,没用过
感觉强点在于底层数据处理的infrastructure
如何在短时间内汇总,aggergate那么庞大的数据量
至于可视化端,我直观觉得没有特别的技术
而且他分为两个层面,
一个是展示层面,就是大家都看到的那个巨屏,做的很炫
可能是应用了并行处理+多屏显示,这些我涉猎不多,
另一个层面应该是给内部的数据分析师用的,我没见到过,
D3我觉得实际上是一个算法库尔不是一个显示库
它提供了很多vis layout的算法,比如force-directed, hierarchy,
这些算法理论上不受数据量的限制 (或优化算法或者用并行计算提高性能)
至于显示,你可以把得到的layout用svg或canvas显示
g**1
发帖数: 10330
50
我国首次实现深海6000米大深度数据北斗卫星实时传输
分享到:3174
2019-01-31 21:11:31字号:A- A A+来源:科技日报
关键字: 北斗
中国科技网·科技日报1月31日消息,1月31日,我国新一代远洋综合科考船“科学”号
在完成2018年第6次西太平洋综合考察航次后,顺利返回青岛,靠泊中国科学院海洋所
青岛西海岸薛家岛码头母港。我国科学家在本航次成功维护升级了我国的西太平洋实时
科学观测网,实现了多项重大突破。
中科院海洋研究所、烟台海岸带研究所所长王凡研究员介绍,本航次的重大突破是首次
实现了深海潜标大容量数据的北斗卫星实时传输。该项自主研发的技术成果克服了深海
潜标载荷容积小、供电少和数据量大等困难,改变了以往依赖国外通信卫星的历史,显
著提高了深海数据实时传输的安全性、自主性和可靠性。
“在今年的航次中,另一项重大突破是我们融合感应耦合和水声通信技术首次实现了深
海6000米大水深数据的实时传输,在大洋上层实现了每100米一个温盐流数据的实时传
输,在大洋中深层实现每500米一个温盐流数据的实时传输。”王凡说,“6000米深海
数据北斗卫星实时通信潜标自布... 阅读全帖
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)