a**********e 发帖数: 157 | 1 就是说不断有新数据输入,而且数据量很大,分布在多个机器上,(新的data push到
哪个机器上是随机的)。
怎样做效率比较高?谢谢。 |
|
h********3 发帖数: 2075 | 2 如果要1PB/day的公司才能搞的大数据,那多半也是屠龙技,不搞也罢。 |
|
|
|
s*****r 发帖数: 43070 | 5 大数据主要是研究user behavior和profile的,跟这些不搭嘎的都是扯 |
|
n*******s 发帖数: 17267 | 6 绝大部分的公司是不需要大数据的,该用什么就用什么。 |
|
y*********e 发帖数: 518 | 7
首先explain下query,看下execution plan。看index有没有被用到。没有被用到,为
什么,改写query。有用到还是慢,index是不是corrupt了,重建index。Query返回多
少数据?返回数据量大的话,nonclustered index performance很有影响的,考虑
clustered index。table要不
要做partition?要不要把mysal server partition(比如把数据partition成100份,
存到100个不同的mysql server上,然后query做成100个mapper这样提速?)
还有,服务器CPU是不是100%了,看一下。还有,具体慢在哪里,是在数据库查询上,
还是在业务逻辑层上?看日志。需要的话profile一下。是一个服务器慢,还是多个慢
?是突然间变慢?最近有没有做release,要不要rollback?等等。。 |
|
a******s 发帖数: 598 | 8 有些记录每个时刻状态的数据,数据量增长很快。
现在已经几十个G了。需要长时间保存(大于十年)
不知道在哪里备份比较可靠?
有人说移动硬盘时间久了以后不可靠,几年以后就不行了,是这样么?
光盘似乎比较可靠,但是容量太小。
网存比较贵。
大家有什么建议么? |
|
h********8 发帖数: 7355 | 9 Glassdoor数据是众人匿名自愿提供的,数据量越大,误差越小。 |
|
c**c 发帖数: 2593 | 10 或者比较原始而安全的做法,反正要传大文件,就写一个script来做sftp操作
好了,在两台机器上都跑。在每一边程序算完一个timestep都调用这个script,
这个script先进入sftp,把数据文件(比如A)上传到对方机器上,因为数据量
大,要传一段时间,传完后立即用rename命令把对方机器上的文件名改成B,然
后这个script退出sftp,进入循环等待,一直到检测到自己指定目录下出现文
件B,立即再把它改回文件名A,然后script退出,文件A这时就可以作为下一个
timestep的输入文件了。两边都是上传以后等待,来回改文件名算是最原始的
同步方式,呵呵,不过如果没有太复杂的要求的话,实现起来倒是简单方便。 |
|
a******s 发帖数: 598 | 11 有些记录每个时刻状态的数据,数据量增长很快。
现在已经几十个G了。需要长时间保存(大于十年)
不知道在哪里备份比较可靠?
有人说移动硬盘时间久了以后不可靠,几年以后就不行了,是这样么?
光盘似乎比较可靠,但是容量太小。
网存比较贵。
大家有什么建议么? |
|
y****w 发帖数: 3747 | 12 源库其实有比较复杂的逻辑,这里简化为一个大表;要把这部分数据copy到另一个数据
库中。怎样做效率最高?linked server已经配置。
bulk insert好像只能导入文件。
有没有什么办法实现其他数据库系统里面的load from cursor?
多谢~ |
|
m******y 发帖数: 588 | 13 每天源数据库的数据全都改变还是只是一部分。要是全部的话,bcp, compression,
copy, load应该还可以。要是只是部分的话,而且源数据库和另外一个数据库的table
structure一样, 不如set up replication, replication allows object level, 而
且可以加filter, 可以一直传送数据更新,对network bandwidth上也会好一点。 |
|
c*********e 发帖数: 16335 | 14 一次导入的是目前有的历史数据,这个数据量非常大,需要一次性导入fact table。此
后的数据只需要每天/星期/月update进fact table就可以了。 |
|
e****7 发帖数: 4387 | 15
这样一来你的ETL简化了只要导入FACT,所有DIM都是degenerate dimension 了。如果
数据量大,这个可能会比较低效率,除非OLAP process 系统对此优化了。
看你用啥系统,数据到底有多少,有多复杂了。 |
|
s**********o 发帖数: 14359 | 16 数据量大,又没有高速专用网连接,没有网宽
传输什么数据啊,这不是烂蛤蟆想吃天鹅肉吗? |
|
s**********o 发帖数: 14359 | 17 3M的数据量很小了, SQL HANDLE起来还容易了,之所以慢
你没有PK,没有INDEX,数据没有NORMALIZE好,DATATYPE没搞好 |
|
f****n 发帖数: 148 | 18 想要从美国通过internet传大量数据,每天将近30G的数据量,请问有什么好的解决方案
? |
|
m*********n 发帖数: 2507 | 19 我现在的实验室里每天产生大量的数据(上百G很正常),经常需要转移到其他电脑分
析或者备份。有没有什么廉价,而且速度快的办法?
usb2.0觉得还是挺慢的,数据量太大
网络传也不行,一是没有管理员权限,网管firewall限制也很多,不能占有太多带宽
data transfer cable 有什么好的吗? 最好不需要装驱动程序的。
多谢指点 |
|
t****t 发帖数: 6806 | 20 我问的目的其实不是这个, 我问的目的是, 你要计算好你整个通信链里没有瓶颈, 保证
critical path的部分(比如计算)不会因为等待其它环节而变慢.
举个简单的例子, 我有一个100天的计算, 这个计算的时间由于种种原因不能缩短了.
这个计算不断输出很多数据, 比如说平均每秒1MB. 那么首先你要保证你的硬盘(假设写
到硬盘)速度不能小于每秒1MB(这个要求不高, 我是举例). 其次, 你计算不能停; 所以
你要用aio或者用多线程来写. 假设你用多线程, 那么线程间通信在计算端要快, 快到
可以忽略, 比如说写内存, 这个我们假设足够快, 另一方面线程间的互斥锁必须不能让
计算端等待, 所以你就得让写硬盘端等着, 所以互斥锁的选择上要考虑清楚.
现在你的情况更复杂, 你要想清楚: 哪个环节是critical path, 不能等的, critical
path的数据量是多少, 平均多少, 峰值多少, variance多少, 需要多长的buffer可以保
证写入端不需要等待, 网络通信的throughput是多少, 线程间通信的throughput是多少
, 合并的through... 阅读全帖 |
|
t*******y 发帖数: 1289 | 21 还真是不是到手机上用的sqlite,不过这个可以借鉴。
因为数据量实在小,但是有需求,所以还是简单的好。
不知道这个C# sqlite 中的 flush 是如何实现的,有没有保证数据的实时写入。 |
|
L*****e 发帖数: 8347 | 22 这点数据量,应该和大数据扯不上边吧?
★ 发自iPhone App: ChineseWeb 8.2.2 |
|
w**z 发帖数: 8232 | 23 楼上建议不错,如果db hold 的住,每十分钟把数据倒出来,比较一下。你数据量几万
条,应该没问题。
triger |
|
|
a*****s 发帖数: 1121 | 25 单从你的数据量上看,九个节点已经不错了。aws上的都是VM instance,100个不一定
有你的9个物理机器快。
wdong分析的很到位,个人感觉你的程序需要并行,spark有两级并行,选择executor的
数量,然后,选择每个executor上多少parallelism,spark prefer 大内存fat node,
如果你的机器内存不大, 恐怕效果一般,跟写mapreduce相差不多(你只是parsing),
如果可能,用SSD替换硬盘,加大内存。检查网络速度,是10GE还是1GE,压缩你的数据
(HDFS支持snappy)
用AWS从S3到本地HDFS就把你时间耗去大半,不划算。
光spark的tuning就有很多可做的,而且用spark的目的也就是为了并行。
楼主贴些详细信息,大家也可以帮你分析分析 |
|
g*********9 发帖数: 1285 | 26 把Big Data和MPI比,这个不可思议。两个解决不同的问题,哪有可比性?
Big data是侧重处理数据, MPI是侧重计算。数据量一大,MPI怎么用?
MPI能做的,Big data肯定能做,只是没那么优化。 |
|
发帖数: 1 | 27 理解
如果自己拿到的项目和数据量够挑战,倒也不耽误,我的体验是还是大公司里的数据和
需求够大够挑战,更能锻炼。
也接触过一些independent contractor的项目,也是非常好的项目,可惜1099阻止了我
的步伐。 |
|
s***m 发帖数: 6197 | 28 比如说我现有能copy的数据是
A____B_______C_____D
1__1____1________1
__2____2_____2_____2
3________3___3_____3
4_____4______4_____4
数据量比较大,我不能一个一个去调整让他们对齐
有没有什么软件能够把他们自动对齐的,保存成普通的txt文档
谢谢! |
|
D*****r 发帖数: 183 | 29 最近作Classification/Regression,UCI那边数据量太小,
谁能给提供又多(above 5,000/2classes)又好(70%以上)
的数据阿
?
谢谢 |
|
m*******i 发帖数: 4 | 30 如何把每个cell若干层的数据倒出来,不想一个一个读出,写下,再输入。高手们有好
方法吗?帮我一下,数据量超级大, 用笨办法的话,眼花也需要几个月 |
|
a******s 发帖数: 598 | 31 有些记录每个时刻状态的数据,数据量增长很快。
现在已经几十个G了。需要长时间保存(大于十年)
不知道在哪里备份比较可靠?
有人说移动硬盘时间久了以后不可靠,几年以后就不行了,是这样么?
光盘似乎比较可靠,但是容量太小。
网存比较贵。
大家有什么建议么? |
|
w********s 发帖数: 1570 | 32 现在知道,这完全是不同类的技术
比如实时计算,大数据里常说的是storm,分布式流计算,latency有10秒之居
好处在于容错,和扩展性,比如down了某个节点,对计算没有影响,扩展也很容易。
很类似在分布式集群上虚拟了一个计算
公司内,即使对storm重写了一遍,latency也要有ms级别,所以latency是弱点,
throughput的话,每天处理的数据量在几十TB级别左右
当然你用storm搭trading system也可以,就是完全满足不了latency要求,但扩容非常
容易,只要加机器,而且可以在运行的过程中加。 |
|
B******y 发帖数: 9065 | 33 数据的重要性我当然知道,但在药物名以及客户名不公开的情况下,而且只是针对我的
统计方法做一个测试,大数据量中提取的极小一部分,其本身根本没有泄密的可能。我
用的是一种新的统计方法,与项目自己用的统计方法毫不相关。其实我只是在犹豫需不
需要提到病症的问题。如果我要是连病症都不提到的话,就算是当着客户的面做Talk,
他都不知道是在说他的那个药物。
事情一说出来,似乎挺吓人的,偷用客户资料,泄密,其实懂行的人知道根本就不是那
么回事,说白了,就是屁事一件,无关痛痒。不过没有办法,世人看问题的方式都是如
此,基于这样的考虑,我才犹豫不决。sir(郎)的建议我倒是可以考虑,只是要交FDA
以后再要,就怕耽误我的文章提交了。 |
|
I***L 发帖数: 48 | 34 最近在做大量数据的非线性回归,因为数据量有大概10GB,我想请教一下该用R还是SAS
呢?
如果用R的话,我记得有一些package好像可以用,可是不知道具体该怎么操作。
如果用SAS该怎么处理呢?
谢谢! |
|
b********1 发帖数: 291 | 35 嗯。 两极分化 我也见过水平特别高的。 自己发明算法,连data etl都自己弄 从不让
我们插手。我们也落个清闲 呵呵。
我现在觉得除了那些真正大公司用data analyst/scientist (数据量实在大得吓人或
者用什么hive pig啊等等), 中小公司基本可以不用。
不知道我的理解对不对。 |
|
E**********e 发帖数: 1736 | 36 目的就是学习多cluster的hadoop。 单个custer的hadoop自己可以跑了。但不敢跟人说
我会hadoop了。不高清hadoop的分布式架构的。 至于数据量,不大,就是用来test。
一旦自己会真正用hadoop, hdfs,pig 是么处理大数据,同时练习machine learning
的分布式算法。
至于aws,不是个问题。 自己在本机上调试好了, 以后直接上aws。 |
|
m****h 发帖数: 1672 | 37 你这个算什么,我每个月10G的数据,只浏览了几下网页,连youtube都没用,5天就用
完了,
打客服她就坚持说我用了10.2 G。我手机上的记录不到 0.5 G
我是另外一个公司。名字就不说了。
当然可能是有什么软件或者微信之类的偷偷把我手机上的数据都传走,
要不然就是他们乱计数。
后来我把所有的软件后台运行都关了,就没有发生过这样的事情了。 |
|
F******7 发帖数: 755 | 38 一般在pps看个电影,电视剧什么的,要多少流量啊,那个限制,一个月150GB是个啥概
念??我知道,上传,下载都算的,可是对这个量没有什么概念。。。 |
|
w***a 发帖数: 432 | 39 没人说没有实时传输吧。
传输故障,或者大数据量就需要黑盒子了。 |
|
C**********e 发帖数: 23303 | 40 翻译目前不行是因为没有足够大的数据来训练
简单说
以中英翻译为例
没有足够的中英对照翻译资料来训练机器
就这末简单 |
|
发帖数: 1 | 41 冠希如果数据量大到七天就必须重新擦写硬盘,很可能被覆盖的还有大量视频没有被恢
复呢,你去恢复下呗 |
|
N*******e 发帖数: 580 | 42 索南顶端搞的是纯抽象思辨演绎,岂是你所能窥测的?搞什么数据建模处理的工作太
low了 |
|
h******k 发帖数: 15372 | 43 绝大部分数据都是垃圾。狗狗码农实际就是捡垃圾的: |
|
|
a***e 发帖数: 27968 | 45 开始是统计,数据量大了就有一堆计算机的活包括数据结构和数据库管理
算法优化也是计算机的事
SAS这种公司算统计还是算计算机?
★ 发自iPhone App: ChinaWeb 1.1.4 |
|
c********r 发帖数: 4 | 46 感觉不需要排序就能做了,类似找重复数字的原理,只不过10T数据显然不能放进一个
大数组里。分成若干个文件,读到了一个url就去文件堆里找,有的话就消掉,没的话
就加上,最后文件堆里剩下的就是2个机器的差异. |
|
j********x 发帖数: 2330 | 47 大文件分成10万组,每组排序之后计算security hash,然后比较hash值,按照原文所
谓的万分之一的区别,理想情况下只需要比较十分之一的数据。能节省一点带宽
===
我幼稚了,万分之一不等于只有一万个文件
boolfilter)。 |
|
y****n 发帖数: 743 | 48 使用BST作,可以容纳更大的数据量。
BST的每个结点包含value和value出现的次数。
代码再循环过程中保存当前中数,比当前值大的个数,和比当前值小的个数。
如果当前值已经不是中数,使用BST的(前值结点)和(后值结点)的算法移动中数。 |
|