第10页 - 关于10gb的讨论汇总 - 话题女王

k****f
发帖数: 3794

现在的DDR2 5300号称是有10GB的速度
如果我有100M的int32数组三个，算
a[i]=b[i]+c[i], i=0,...,100M
怎么写程序才能达到最快速度

H***a
发帖数: 735

来自主题: Programming版 - 请教Matlab和IDL的处理数据能力差异

任务：现有一堆binary数据文件（总共大约500MB，这个只是测试，大一点的
simulation会产生10GB左右的data），格式一样，需要逐一读入，然后构建成一个4维
的矩阵；
尝试：用IDL读大概就5秒钟，用Matlab读用了5分钟以上！
疑问：常听朋友说处理大块数据方面IDL比Matlab快，但为什么会有这么大的差异？
google了一下，有人的测试结果居然是Matlab比IDL快，难以置信。想用Matlab处理主
要是因为它的GUI比较方便，是不是没有更好的办法了？
请大家给点意见。多谢！

m********5
发帖数: 17667

来自主题: Programming版 - GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧

按经验, 大小0.1TB起算
data feeding速度超过100MB/s
一次性需要操作大于内存容量的数据, 比如想在一般的PC上对几十个GB的矩阵进行操作
.
如果传输时间远低于计算时间,那么我认为是典型 computing intensive, 用GPU问题不
大. 这个楼主完全可以用CPU测一下. 但看起来楼主说的计算复杂度似乎不高, 感觉GPU
提升有限, 浪费精力不划算. 即使是8GB-VRAM,只有10GB静态数据,如果不能一次性传入
VRAM, 又需要random access, 上下载是会很频繁的. 得不偿失. 如果楼主的数据可
以用random access性能较好的压缩算法来进行大比例压缩, 可以去偿试一下. GPU和
VRAM之间的带宽只有在数据
能全部upload到VRAM, 或者可顺序读写的时候才能体现优势. 另外楼主认为所有数据包
括中间数据储存在内存(用CPU计算)就没有I/O或者I/O的时间消耗就可忽略不计也是错
误的, 如果是这样我们就不用讨论FFT的算法优化, 当然楼主的case应该不是这种.
关于GPU有很多学术文章已经发过了, 一直很热, ... 阅读全帖

m******t
发帖数: 635

来自主题: Programming版 - What it takes to run Stack Overflow

If you read the post carefully, you've got the answer:
So that’s not a large number of machines, but the specs on those machines
typically aren’t available in the cloud, not at reasonable prices. Here
are some quick “scale up” server notes:
SQL servers have 384 GB of memory with 1.8TB of SSD storage
Redis servers have 96 GB of RAM
elastic search servers 196 GB of RAM
Tag engine servers have the fastest raw processors we can buy
Network cores have 10 Gb of bandwidth on each p... 阅读全帖

h*****a
发帖数: 1718

来自主题: Programming版 - HOW WE DECIDED TO USE MONGO INSTEAD OF MYSQL

In the use case I mentioned, mysql does save money and is easier to maintain.
I used mongo for data ranged from 10GB to 400GB, and the experience was not
good when data was 400GB. We then switched to using Elastic Search, which
shows to be much better.
For our current architecture, for the largest data set, mysql is working
totally fine with about 100 shards. It is not easy to handle such a big data
size with mongo.
Certainly, I agree, mongo has its own use case, but scalability is not its
advan... 阅读全帖

M*P
发帖数: 6456

来自主题: Programming版 - 网速求科普

现在墙上的ethernet接口基本都是1gb的吧？不同的大学之间的网络速度是多少？要是
我想升级我的接口到10Gb，是否需要升级我的楼所在的网线？
★ 发自iPhone App: ChineseWeb 7.8

M*P
发帖数: 6456

来自主题: Programming版 - 网速求科普

比如说我要从NCBI(National Center for Biotechnological Information)上抓数据，
他们到我们学校的速度是多少？怎么能查到？
是不是说他们到我们的网线必须要10G以上我们才能有10G的带宽？还是说一般现在的光
缆都能抗住10Gb，只是local数据传输，比如从光缆上下来接到楼里的速度是瓶颈，所
以需要10G switch就好了？

1G

M*P
发帖数: 6456

来自主题: Programming版 - 网速求科普

Sorry， SRA is short read archive. a place for high throughput genomic
sequencing data. it's usually ~10Gb per library. and I am thinking of
downloading hundreds of libraries to local for analysis.

w****w
发帖数: 521

来自主题: Programming版 - 网速求科普

我从那抓过10TB sra文件，全速开的话，一天多就可以下完，后来学校complain我把带
宽用光，我自己限速一半，3天下完。Aspera本身最快大概7，8百Mbps。10Gb没用。

C********g
发帖数: 1548

来自主题: Programming版 - 数据库表太大？

我K在网上采集了大约2500部小说，所有的内容都存在一个mysql table里面，每章一条
记录，总共才70K的记录，1.3G大小，但一个简单的查询竟然需要15秒。我用的AWS EC2
最基本的那个服务器，免费一年的那个。最终的数据库大小会在10GB左右。请问有什么
优化的方法可以让我继续使用mysql？如果没有，不知道MongoDB可不可以？或者必须采
用文件系统？

a*********a
发帖数: 3656

来自主题: Programming版 - 现在cpp真的没用武之地了。高频交易都可以用java做了

可悲的就在于此。Apple毁掉里一代人的audio品味，Netflix嘛。。。。。。
没有好的回放设备，Netflix的数据，BR上的数据都无法高质量的回放。
你可以去学习一下数字图像，视频处理，luma upscaling, chroma upscaling有些啥算
法，都是啥复杂度。deinterlace有些啥算法，都是啥复杂度，去posterize有些啥算法
。MPEG2， MPEG4都是有损压缩，解压的软件或硬件，对回放的质量（和原始无损数据
的差别）有直接影响。你说的smart tv，不少连proper deinterlace都做不到。这些都
是单机，24fps的，41ms得送一贞，60fps的17ms得送一贞。解码，渲染算不过来的就
drop frame，dropped frame多了就有judder或tearing。能上什么算法，得看有多大处
理能力以及系统本身的overhead。算法弱了，锐度就不够，或者有artifact。手机屏上
都无所谓，60，70“以上的显示设备，区别就明显了。
我从来都没有否认4k的source data可以比1080的source data效... 阅读全帖

w********m
发帖数: 1137

来自主题: Programming版 - 大牛们，请教大数据系统如何架构

你想太复杂了。被同学忽悠了吧。
设想你一个processor一天抓60*60*24 ＝ 86400条
10M的流量只要115个processors。
五台PC就可以搞定。
10M的message，都是json的话，一条最多1KB。一天10GB，一个月300GB。传统的架构完
全可以满足。

g****u
发帖数: 252

来自主题: Programming版 - 关于RespID

我已经在ebay上订了两块10gb的网卡了，还等着玩RDMA呢。

w***g
发帖数: 5958

来自主题: Programming版 - 腾讯开源tcp ip stack, f-stack。有用过的么？

上次搞DPDK还是几年前，恍若隔世啊。我记得上次看的时候唯一能用的user-space
stack是seastar。据说f-stack性能不如seastar，但是在公网环境下稳定性更好。
差别应该在于seastar是custom stack，f-stack用的是freebsd的stack。
刚刚看了一眼，DPDK自己的TCP/IP stack好像也起来了。
这货应该没啥threading model。就是一个core上pin一个process，
每个process配置好以后跑一个event loop。然后有状态后触发
callback。callback里面是一个用巨大的switch实现的状态机。
扫了一眼范例感觉就是这样，没仔细看。
我觉得用10GB以太网配上DPDK来做deep learning训练的
parameter server或许能卖钱，如果能做出来的话。

T********i
发帖数: 2416

来自主题: Programming版 - 腾讯开源tcp ip stack, f-stack。有用过的么？

根据我对有限文档的理解，根本不是你说的那回事。
这货有一个primary process。就是busy polling。实现一个bsd的socket栈。
你的程序是另外一个process。要link它那个socket库。Api都改名了。你这个process
的socket操作要通过primary。通信是shared memory。
貌似他们保留了huge page内存。给dpdk和他们自己的框架使用。我一般用huge page保
留我自己的numa memory pool。被他们用了，我自己就用不着了。

: 上次搞DPDK还是几年前，恍若隔世啊。我记得上次看的时候唯一能用的user-
space

: stack是seastar。据说f-stack性能不如seastar，但是在公网环境下稳定性更
好。

: 差别应该在于seastar是custom stack，f-stack用的是freebsd的stack。

: 刚刚看了一眼，DPDK自己的TCP/IP stack好像也起来了。

: 这货应该没啥threading model。就是一个core... 阅读全帖

y**b
发帖数: 10166

来自主题: Software版 - 问个Acronics True Image Home事情,请教这里大侠

backup option里面有个archive splitting，不要split即可。
另外compression level选high压缩一下，30GB通常备份出来不到10GB，
而且备份、恢复也就10分钟左右。

j*******k
发帖数: 35

来自主题: Unix版 - question about Norton Ghost

I used Norton Ghost to clone a HDD (20G) to be a gho file, its size is almost
10GB. However, with the identical file system, I clone a HDD (15GB) to be a
gho file, its size is 400M.
The one more difference between these two HDD is, the HDD with 15 GB is
regular (MPF3153AT), the HDD with 20 GB is much smaller one (IC25N020ATCS04).
Anybody knows why?
Appreciate!

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天