关于并行程序的讨论汇总 - 话题女王

全部话题 - 话题: 并行程序

p******e
发帖数: 528

比方说我要运行某种计算程序，但那不是个并行程序。请问在这种轻快下用I7和I5
的差别大吗？（我知道I7可以有HT，但是对于一个非并行程序，这个有用吗？）
谢谢！

t****n
发帖数: 4

来自主题: Computation版 - 请教下关于C和Fortran混编的MPI并行问题！

我现在要用C调用fortran程序，两者里面均要用到MPI并行程序的语句，但是MPI针对这
2种语言的格式是不一样的，怎样统一呢？我的问题出在：C里面的进程号带不到
FORTRAN中来，因此在FORTRAN程序段不能进行收发。也就是说在C程序段要进行MPI初始
化，那FORTRAN程序段还要初始化吗？如果FORTRAN程序段初始化了，那么C和FORTRAN的
进程号等就会不一样了；如果FORTRAN程序段不初始化，那么根本就不能进行收发的操
作。不知道该怎么解决呢？谢谢！

d***a
发帖数: 13752

来自主题: Programming版 - 请问程序同时在多个cpu上运行需要怎么改程序？

仔细读MPI编程手册... :-)
MPI是为并行处理设计的，用多处理器/多核没有问题
如果程序原来是单线程，要改写成MPI并行程序

p******e
发帖数: 528

来自主题: Hardware版 - 请问怎么知道程序速度的瓶颈是在cpu还是内存？

比方说我有一个在单机上运行的并行程序，我想知道制约这个程序速度的瓶颈是在
CPU的运算速度还是内存读写速度。请问有没有什么测试程序能告诉我它的瓶颈
在哪里。

J********9
发帖数: 36508

来自主题: Computation版 - MPICH2并行程序配置内存空间问题

有一个fortran程序，两个版本：1.MPI版本；2.None MPI版本。
这个程序里面有一些可变大小的数组需要实时分配内存空间。
当数组需要的内存空间较大的时候：None MPI版本没有问题，但
是MPI版本在给数组分配内存空间的时候始终出错。
当把数组需要的内存空间降到一定程度，两个版本都没有问题。
我不是很清楚MPICH2在并行时是如何分配内存的，有没有牛人
给指点指点，如何解决？
非常感谢

E*******1
发帖数: 3464

来自主题: Programming版 - 别人说做Python的并行还不如去学C++，我不同意。

C++，fortran写的大规模并行程序多了，计算化学计算物理里面，都不是专业的码工，
几个商业code算DFT都是几十万行下来的mpi。有些人自己不会写就他妈说写会死人的，
搞笑

k****u
发帖数: 43

来自主题: CS版 - 请教windows下多线程程序的优化.

随便看了下
首先用clock来计时就是不正确的
它计算是CPU cycle数量，一个process有一个，计算所有thread的
其次，像这种matrix形状的计算，还要考虑到cache的影响，google一下
tiling
并行程序很能写得有linear的scalability

d*******o
发帖数: 5897

来自主题: Hardware版 - 请问如果不运行并行程序的话，用上I-7吗？

有用，系统里又不是只有你一个计算程序在跑，有些杀毒软件间歇性的来个100%CPU，
狠恼火

r****t
发帖数: 10904

来自主题: Programming版 - 并行程序能做到不用专门写么？

depends on 你的程序了，你都不知道怎么分解，电脑也不知道怎么分解。
对于 embarrassly parallel 问题，你心里面知道该如何分解，电脑也可以（someone taught it, of course), ipython 对于这种问题提供一些这样的 syntax 可以对用户看起来是 code 单个 CPU, 但是自动使用多个 CPU.

p******e
发帖数: 528

来自主题: Programming版 - 请问多个线程同时访问同一个内存地址会不会使得程序变慢

比方说我有个一个并行程序，同时还有一个全局变量。如果多个线程都需要访问
同一个全局变量，会不会说由于多个线程都申请访问同一个内存地址而造成互相
竞争的情况呢？谢谢！

m*****l
发帖数: 21

来自主题: Unix版 - 如何自动登陆多台workstation运行多个程序？

因simulation需要，需要同时登陆多台workstation，然后运行多个并行程序。
我想用一个script来解决。
学校用ssh,
我用
ssh user:p**[email protected]
run some program at back ground,...
logout
ssh user:p**[email protected]
run some program at back ground,...
logout
...
这样每回还是要输入密码。手动很烦。有没有能够完全自动的方法？非常感谢。

k*******n
发帖数: 116

来自主题: Computation版 - mpi程序5,6,9,11,13个节点的总是出错

我的mpi并行程序，用1,2,3,4,8,12,16等节点算都没问题，计算结果也是对的
但是用5,6,9,11,13等节点算就出现Segmentation fault错误
这一般是什么原因？谢谢！
附：错误信息
xxxxx@xxxxx-desktop:~/Courses/mpi$ mpirun -np 9 ./main
[xxxxx-desktop:08056] *** Process received signal ***
[xxxxx-desktop:08056] Signal: Segmentation fault (11)
[xxxxx-desktop:08056] Signal code: (128)
[xxxxx-desktop:08056] Failing at address: (nil)
[xxxxx-desktop:08056] [ 0] /lib/libpthread.so.0 [0x7f74cecc70f0]
[xxxxx-desktop:08056] [ 1] /usr/lib/libopen-pal.so.0(_int_free+0x57) [
0x7f7

t******t
发帖数: 15246

来自主题: Military版 - 核高基项目：支持国产CPU的编译系统及工具链

“支持国产CPU的编译系统及工具链”是国家核高基重大专项课题（课题编号
为2009ZX01036-001-002），计算所是课题牵头承担单位，联合承担单位有中科院软件
所、北京大学、同济大学、中国科技大学。2010年课题取得了如下进展：所研制的支持
国产龙芯CPU的高性能编译系统，支持多种语言，性能高于商用编译器 GCC 的 30% 以
上；所开发的二进制翻译系统，性能达到GCC所产生代码的65%，并成功地为龙芯移植了
flash播放器。另外，本项目在高性能数学库软件包、程序调试和分析工具等方面，也
已基本上完成了合同约定的指标。具体进展如下：
龙芯基本编译系统的健壮性已基本达到产品编译器的水平。主要编译选项（O0/O2/
O3/ ipa/profiling）通过了 SPECCPU 2006 测试程序,SuperTest 通过率高于
GCC 的通过率，能够支持像 GCC 4.4 和 mplayer 等实际应用
程序，支持 Java、C++ 异常处理和 OpenMP3.0。结合龙芯3号处理器的新特征，通过数... 阅读全帖

a****a
发帖数: 5763

来自主题: Apple版 - Mac OS X 背后的故事（九）半导体的丰收（中）zz

经过6年时间，4个发行版，苹果终于完成了向64位的迁移，并随着Snow Leopard的发布
推出了解决并行编程问题的Grand Central Dispatch（简称GCD）技术，释放了多核系
统的潜力。
和10.5一样，在10.6 Snow Leopard中，苹果继续利用64位的迁移砍掉了诸多老技术，
很多新技术仅以64位的模式被支持。例如重写的QuickTime X框架，虽然QuickTime X应
用程序以32位和64位的模式发布，但其API仅暴露给64位。另一个例子是Objective-C 2
.1的运行库，快速Vtable调度，新的和C++统一的异常处理模型，以及彻底解决对象的
FBI问题等，都仅限64位程序使用。
内核的64位化
读者应该发现，经过这4个发行版，Mac OS X自下而上地对整个系统向64位迁移。10.3
内核空间提供了64位整数运算的支持。10.4允许程序以64位模式运行在用户空间，并且
提供了64位的libSystem使得开发者可以开发64位的Unix程序，而10.5中系统所有未废
弃的函数库、框架都提供64位版本，到了10.6，所有用户空间的程序，包括... 阅读全帖

j**u
发帖数: 6059

来自主题: Computation版 - [合集] 如何让一个嵌套循环程序并行处理？

☆─────────────────────────────────────☆
cityhawk (呆鹰) 于 (Mon May 23 20:38:14 2011, 美东) 提到:
Matlab程序是 for 嵌套循环：比如，
a=0.1:0.5 with spacing 0.01; b=0.1:0.6 with spacing 0.01
c=0.1:0.8 with spacing 0.01; d=0.1:0.6 with spacing 0.01
e=0.1:0.9 with spacing 0.01; f=0.1:0.7 with spacing 0.01
g=0.1:0.6 with spacing 0.01; h=0.1:0.5 with spacing 0.01
执行部分
end; end; end; end;end; end; end; end;
这个程序在普通的PC 3.6GHz, 2GB内存上运行要2个星期多，把它放在系里的服务器上
运行，结果比我们lab的这个PC还慢，网管告诉我系里服务器的单个CPU才1.8GHz，尽管
我们有近30个CPU并行和全部 2... 阅读全帖

j**u
发帖数: 6059

来自主题: Computation版 - [合集] 请教一个C++程序结构的问题

☆─────────────────────────────────────☆
eagletiger (eagletiger) 于 (Wed Nov 23 23:01:21 2011, 美东) 提到:
程序里现在需要一个很大的Matrix, 以前写的时候是放在一个文件里，每次程序执行的
时候现读入，这样很浪费时间，现在把整个Matrix写成一个array存在程序里作global
variable，但是编译的时候很慢，要十几分钟的样子，而且编译出来的程序很大，请问
各位一般处理大的矩阵时候是如何处理的，谢谢哈.
☆─────────────────────────────────────☆
Augu (奥古) 于 (Thu Nov 24 16:35:31 2011, 美东) 提到:
要不空间换时间
要不时间换空间

global
☆─────────────────────────────────────☆
eagletiger (eagletiger) 于 (Fri Nov 25 02:14:55 2011, 美东) 提到:
俺现在就是空间换时间，矩阵大概... 阅读全帖

g***c
发帖数: 11523

来自主题: Programming版 - 请教，如何设置run time KMP_PLACES_THREADS

请教高手
如何设置run time的KMP_PLACES_THREADS
我是用OPENMP做并行计算
现在在intel xeon phi coprocessor上做native mode计算
现在的问题是，coprocessor上有240个threads
我设置每个并行程序用24个threads，本来可以同时并行10个程序
但现在的问题是，每次10个程序只用最初的24个threads
当手动设置KMP_PLACES_THREADS=6C,4T,0O，KMP_PLACES_THREADS=6C,4T,6O时
可以实现每个程序用不同的24个threads
但并行计算时，是自动发出10个程序，所以必须设置run time的KMP_PLACES_THREADS
不知道哪位高手知道如何设置这个变量
或者有其他办法让coprocessor用不同的24个threads运行10个并行程序？
非常感谢

d*****g
发帖数: 1616

来自主题: Military版 - 且让世界听龙吟：理实交融的龙芯基础研究

http://www.ict.cas.cn/cxwh/cxqs/201204/P020120409552277976099.p
求实·创新 2012年1月总第94期
且让世界听龙吟：理实交融的龙芯基础研究
钱诚陈云霁
2007年，龙芯3号的设计揭开序幕，当被人问到龙芯3号的意义时，胡伟武老师微笑
不语，提笔写下一行字，“如果说龙芯1号是在迷雾中起步，还看不到先行者的影子，
那么龙芯2号完成后，在当时实际上已经超过了一些同行者，看清了领先者的背影，而
龙芯3号的完成将使龙芯大踏步赶上并超过领先者。”
四年时间过去，龙芯3号已经从设计变成现实，并已发展出一系列改进型号。依托
龙芯3号的研发，龙芯团队已经实现了胡老师的预期，走在了世界体系结构研究的最前
沿。从2008年开始，龙芯在顶级会议和期刊上发表了一系列论文：IEEE Trans.on
Computers、IEEE Micro、ISSCC、ISCA、HPCA、IJCAI、HotChips、SPAA和DATE等等。
可以说，相比美国顶尖大学的一个研究组的论文发表水平也毫不逊色。更重要的是，龙
... 阅读全帖

d*****g
发帖数: 1616

来自主题: RisingChina版 - 且让世界听龙吟：理实交融的龙芯基础研究

【以下文字转载自 Military 讨论区】
发信人: dahuang (春风又绿江南岸), 信区: Military
标题: 且让世界听龙吟：理实交融的龙芯基础研究
发信站: BBS 未名空间站 (Sat Apr 28 05:00:57 2012, 美东)
http://www.ict.cas.cn/cxwh/cxqs/201204/P020120409552277976099.p
求实·创新 2012年1月总第94期
且让世界听龙吟：理实交融的龙芯基础研究
钱诚陈云霁
2007年，龙芯3号的设计揭开序幕，当被人问到龙芯3号的意义时，胡伟武老师微笑
不语，提笔写下一行字，“如果说龙芯1号是在迷雾中起步，还看不到先行者的影子，
那么龙芯2号完成后，在当时实际上已经超过了一些同行者，看清了领先者的背影，而
龙芯3号的完成将使龙芯大踏步赶上并超过领先者。”
四年时间过去，龙芯3号已经从设计变成现实，并已发展出一系列改进型号。依托
龙芯3号的研发，龙芯团队已经实现了胡老师的预期，走在了世界体系结构研究的最前
沿。从2008年开始，龙芯在顶... 阅读全帖

d*****g
发帖数: 1616

来自主题: Returnee版 - 且让世界听龙吟：理实交融的龙芯基础研究

d*****g
发帖数: 1616

来自主题: CS版 - 且让世界听龙吟：理实交融的龙芯基础研究

c******k
发帖数: 1140

来自主题: Computation版 - 如何让一个嵌套循环程序并行处理？

Matlab程序是 for 嵌套循环：比如，
a=0.1:0.5 with spacing 0.01; b=0.1:0.6 with spacing 0.01
c=0.1:0.8 with spacing 0.01; d=0.1:0.6 with spacing 0.01
e=0.1:0.9 with spacing 0.01; f=0.1:0.7 with spacing 0.01
g=0.1:0.6 with spacing 0.01; h=0.1:0.5 with spacing 0.01
执行部分
end; end; end; end;end; end; end; end;
这个程序在普通的PC 3.6GHz, 2GB内存上运行要2个星期多，把它放在系里的服务器上
运行，结果比我们lab的这个PC还慢，网管告诉我系里服务器的单个CPU才1.8GHz，尽管
我们有近30个CPU并行和全部 24GB ram也没用。建议把这个程序编成并行处理，但是不
知道如何把嵌套循环程序给并行处理？谢谢

i*****g
发帖数: 11893

来自主题: Military版 - 且让世界听龙吟：理实交融的龙芯基础研究

2007年，龙芯3号的设计揭开序幕，当被人问到龙芯3号的意义时，胡伟武老师微笑
不语，提笔写下一行字，“如果说龙芯1号是在迷雾中起步，还看不到先行者的影子，
那么龙芯2号完成后，在当时实际上已经超过了一些同行者，看清了领先者的背影，而
龙芯3号的完成将使龙芯大踏步赶上并超过领先者。”
（批注：这些项目，要持续支持30年，直到和米帝分庭抗礼。开始的亏损，不能以寻常
市场经济盈利心理来衡量。）
四年时间过去，龙芯3号已经从设计变成现实，并已发展出一系列改进型号。依托
龙芯3号的研发，龙芯团队已经实现了胡老师的预期，走在了世界体系结构研究的最前
沿。从2008年开始，龙芯在顶级会议和期刊上发表了一系列论文：IEEE Trans.on
Computers、IEEE Micro、ISSCC、ISCA、HPCA、IJCAI、HotChips、SPAA和DATE等等。
可以说，相比美国顶尖大学的一个研究组的论文发表水平也毫不逊色
（批注：也就是说，对阵米帝整体他们的实力其实不强，估计米帝有几百个这样的实验
室。如果说他们一个公司是intel 1/3，那还可以。）。更重要的是，龙芯的研究已经
... 阅读全帖

h******6
发帖数: 2697

来自主题: Hardware版 - GPU computing比CPU快几倍？

这个完全是看原来的算法可并行化的程度原算法并行度高的改成GPU的程序优化之后几
百倍的提速是很常见的另外这个也取决于你用的什么GPU和什么CPU来比这里的问题
并不是简单地你把随便一个算法或者程序拿过来放到一个GPU上跑测下时间然后拿到
CPU上跑测下时间然后比较两个时间
GPU计算现在还没办法普及最主要是因为把一个算法在GPU上实现需要很有经验的程序
员才行涉及到重新设计算法以及内存使用上的分配目前的几个能自动把串行程序编译
成并行程序的compiler都效率非常低下所以单纯问GPU计算比CPU计算快几倍是没有意
义的

j*****h
发帖数: 62

来自主题: CS版 - 计算机行业革命以及中国的机遇

并行编成也在不断的发展。新的并行编成语言也是研究的热点。不要
以为并行编成就一定是MPI+OpenMP，要用发展的眼光看问题。而且
thread-level parallelism本身有很多来源。比如串行程序的自动
并行化（both software and hardware based），并行程序，多线程，
多任务等。未来的hardware既然朝着并行计算的方向走，software也
必然会相应的调整。关键是要看清楚形势，这是大势所趋。

y**b
发帖数: 10166

来自主题: Hardware版 - 现在双路性价比最高的不是双路5690了，该Intel Xeon E5-2660了

正好我有两台工作站：
dual 6-core Intel Xeon X5690 3.47GHz
dual 8-core Intel Xeon E5-2687W 3.10GHz
分别运行12个mpi并行进程和16个并行mpi进程的相同程序，前者快20%左右。openmp的
并行程序结果也差不多。所以我还是喜欢老一点的t7500，安安静静的，放自己办公室
，另一台新一些的t7600很吵放另外办公室。
对了，linux下有啥并行benchmark程序，我有空测试一下，纯粹好玩，毕竟工作站也只
能做较小规模的计算，大一点的还得送supercomputer。

s****e
发帖数: 9

来自主题: JobHunting版 - IBM中国研究院招招聘（代朋友发贴）

IBM中国研究院招聘以下两个职位:
*********************************
职位名称: 统计分析研究员
工作地点：北京/西安
职位要求:
1. 具有统计等相关研究背景的硕士及以上学历，统计模型及算法有深入的研究。
2. 具有SPSS/SAS/R编程经验；
3. 具有在银行、零售、消费电子、电子商务等相关行业进行大数据分析的科研及项目
经验者优先；
4. 具有较强的科研能力，曾发表相关领域高水平学术论文者优先；
5. 具有较强的英文读写与沟通能力；
6. 有高度的责任感和工作热情, 有较强的协作和沟通能力。
*********************************
职位名称: 并行计算方向研究员/研发工程师
工作地点：北京/西安
职位要求:
1、计算机、数学相关专业硕士及以上学历；
2、有并行系统开发经验, 熟悉并行程序和算法设计，有MPI、OpenMP等编程经验；
3、熟悉大数据并行计算，有Hadoop研发经验；
4、熟悉并行环境下任务管理，程序性能分析与优化方法；
5、发表过高质量文章的优先
*********************... 阅读全帖

d******c
发帖数: 2407

来自主题: Programming版 - 我来给FP泼泼凉水吧

说点不同意见
首先不考虑转行的同学，因为各人情况很复杂，肯定所有转行的都需要加强基础，但未
必所有人都有时间，精力，成本，机会去加强基础，大部分人可能只想解决自己最急缺
的问题，很多时候是运气，也无法事先预测或者规划。
单说FP，不是正统所以才需要关注。要抓住下一个浪头就得看看冷门的东西。
我觉得并行该有些大进展了
有篇berkley的文章讨论并行(The Landscape of Parallel Computing Research: A
View from Berkeley)
Power Wall + Memory Wall + ILP Wall = Brick Wall
cpu的主频提高受到发热限制，所以早就停滞了，制程提高受物理限制或者说成本限制
（新制程变的太多，成本太高），不能再持续提高主频而不增加功率
内存访问慢
指令集并行有限
摩尔定律基本不再适用
但是近期就能看到的一个进步是多核的进步。这个早该有了，但是intel挤牙膏，大家
一直享受到的很少。AMD ZEN之后进步很快，PC 8-16 core很常见，服务器32-64也很常
见，关键是成本比以前低的多。那么有个现... 阅读全帖

o****k
发帖数: 401

来自主题: PhotoGear版 - 万佛：matlab并行疑问

系里的机器没法并行处理matlab，我就改改参数同时submit了好几个matlab程序，不过
好象有的时候有的程序就卡住不动了。程序写的有虫还是这样的假并行互相影响了？

m*****r
发帖数: 3822

来自主题: Linux版 - 系统Load不正常可能是什么原因

双路i7的机器，相当于有8个cpu。一些并行程序是正常的，比如开8个并行
系统load为~8，top里八个进程各位99%cpu占用。但是某个程序很奇怪，
就算只开1个进程，系统load都会很高，这个进程的占用率也会达到800%。如果多个
进程并行的话非常慢。感觉好像是一个进程就占满所有cpu。
因为有些程序表现正常，系统配置应该没有问题。但是什么情况下会导致以上这种现象？
谢谢

h********w
发帖数: 221

来自主题: Programming版 - C#程序并行化

菜鸟问个问题，关于C#的程序，
1,用什么并行花，
2,像cuda这种技术可以并行C#程序么
3,可以在多个cluster上跑么？而不只是在单机。
多谢！

i****p
发帖数: 76

来自主题: Computation版 - 如何让一个嵌套循环程序并行处理？

我不觉得用matlab 并行处理好。
建议你看看MPI,这个是很普遍的并行处理库。而且MATRIX MULTIPILCATION已经有现成
的程序了。你装个库，写个小的C程序，运行起来很容易。
如果你们系里有BATCH SYSTEM,我觉得他们应该有这个库。你上来说说你们系里是什么
系统？

y****n
发帖数: 15

来自主题: Programming版 - 请大牛们帮忙看一段并行c++代码的效率问题

在32核的服务器上，运行一小段图像卷积的操作。输入是图像矩阵（按列），和一个y
方向上的卷积kernel。举例来说，如果kernel是[-0.5 0 0 0 1 0 0 0 0.5]，那么下面
程序中的变量分别为
kernel: [-0.5 1 0.5]
szKernel: 3
step: 4
这段程序中使用了OpenMP对for循环执行并行操作。当使用>4个核时，程序运行速度反
而下降。这段程序要运行很多次，是整个程序的性能瓶颈，请大牛们指点一下该如何改
进。
double s = kernel[(szKernel-1)/2];
//#pragma omp parallel for
for (int k = 0; k < m*n; k++)
v_out[k] = v_in[k] * s;
for (int k = 0; k < (szKernel-1)/2; k++)
{
double s = kernel[k];
int offset = ((szKernel-1)/2 - k)*step;
... 阅读全帖

y****n
发帖数: 15

来自主题: Programming版 - 请大牛们帮忙看一段并行c++代码的效率问题

U********a
发帖数: 75

来自主题: Computation版 - 请教关于并行计算。

版内有做并行计算的吗？小弟编了一个程序，打算先在多核处理器上并行计算，以小弟
有限的经验，只知道openmp和mpi可以做并行处理，不知道这种多核处理器上的并行计
算用什么并行语言比较合适呢？个人觉得openmp是不是比mpi简单一些喃？还有其他的
方法么？另外有经验的大侠点评一下多核处理器并行有效果吗？小弟对此不是很懂，想
了解一些，请各位大侠多多指导！先谢了！

U********a
发帖数: 75

来自主题: EE版 - 并行计算请教

a****a
发帖数: 5763

来自主题: Apple版 - 并行难题：一封19年前的挑战书…【11/23】

http://bbs.weiphone.com/read.php?tid=511848
Mac OS X 10.6即所谓的Snow Leopard操作系统已正式发售。一如既往，Apple产品光
鲜的外表下凝聚了太多艰辛的劳作。ArsTechnic的John Siracusa以其独特的、专业的
、全面的视角深入翔实地体验这款最新的操作系统。
Weiphone.com将对该综述进行翻译整理并独家连载。欢迎关注
究竟如何才能充分而高效率地使用大量独立的计算设备？我们纠结这个问题已
经有年头了。在高性能计算机领域，这个问题已经解决了近几十年了。然而许多年以前
超级计算机程序员所面临的问题，现今已经成为了为普通计算机甚至移动计算平台编写
程序的程序员所面对的问题了。
一些睿智的人很早就意识到了这个问题。大概20年以前，PC行业中存在一种未
雨绸缪的想法，就是创造一种全新的PC平台，能够摆脱那些已过时但使用广泛而难以替
代的硬件的束缚，并为即将到来的大量独立计算单元做好准备。围绕着这一想法，Be公
司成立了。随后，Be公司推出了BeBox——... 阅读全帖

h********w
发帖数: 221

来自主题: Programming版 - 请教，用什么并行化Ｃ＃的程序，可以在Clusters上run

如题，
我知道单机用TPL就可以了，但是想写的程序在Cluster上并行该怎么办呢？MPI不是对C
#用的。
另外和我写的程序相关么？比如我写的是WPF的程序，也可以在cluster上run么？
谢谢啦，我没有包子，请见谅。

l***d
发帖数: 396

来自主题: JobHunting版 - 从并行计算谈谈前戏的重要性 (转载)

【以下文字转载自 Military 讨论区】
发信人: CatchGodLine (捆仙绳), 信区: Military
标题: 从并行计算谈谈前戏的重要性
发信站: BBS 未名空间站 (Tue Mar 17 16:51:18 2015, 美东)
最近跑了几个大型并行计算程序时常在改变tolerance时收敛出错
也没有找到太好的解决办法
后来让这些nodes运行了几个前戏热身程序
我戳戳你的G点缓冲区你甜甜我的冠状敏感带
然后再运行结果都是一气呵成融会贯通
运算过程不出错计算结果出奇地好
连计算机都知道前戏的重要性
一时我陷入了深深地沉思
大家虽然都知道在体育运动前要大量地热身才能取得好成绩
但在性生活中却往往忽视了这一点
华男经常喜欢穿山越岭一往无前缺乏足够的前戏
却往往忽视了循循善诱曲径通幽的道理
常常鸡飞蛋打人去楼空
一个国家的发展也是这样
任何太激进急风暴雨般的政策或者改革
都往往是一地鸡毛残砖断瓦的结果
必须循序渐进摸索总结
才能亦步亦趋达到一个又一个的高潮

T**********n
发帖数: 480

来自主题: CS版 - 计算机行业革命以及中国的机遇

越快越好是没错的
但是并行程序设计这种事是不应该由程序员来做
最高顶多做到编译的层次，比如HPF这样的倒是有可能
举一个可能不恰当的例子
其实OS的IO都是异步的，但是程序员打开文件，读，写
都不会用异步的写法issue一个操作，等待一个回调
这是核心态的事情，在用户态做不能带来任何好处
并行程序也是，就算SMP全面普及，顶多是一个支持并行的VM上面继续跑串行程序

l***d
发帖数: 396

来自主题: Programming版 - 从并行计算谈谈前戏的重要性 (转载)

d***a
发帖数: 13752

来自主题: Programming版 - Java 提高performance问题

可能程序或运行环境有问题，需要针对并行性能来调一下。数据量足够大了，并且没有
计算依赖性，这是非常适合并行的情况。
多进程运行的做法，只是为了短平快，这种特殊情况下可以一下子搞定，但性能上不会
比自己写并行程序更快（在最好情况下）。

。。

v****k
发帖数: 229

来自主题: Computation版 - MATLAB 并行计算问题

兄弟有几个 matlab 并行计算方面的问题，用他们提供的工具箱：
I just found a simple example online, see:
Without parallel computing:
runtimes = 1e9;
dummy1 = 0;
dummy2 = 0;
tic
for x= 1:runtimes;
dummy1 = dummy1 + x;
dummy2 = 2 * x + 1;
end
toc
with 2012b, it took about 4.8 seconds; but with matlab 2007b, it takes much
longer, about 20 minutes. why 2012 so much faster than 2007?
Next, with parallel computing, the code is like following, it takes 50
seconds. 为什么用并行计算反而慢这么多？
runtimes = 1e9;
dummy1 = 0;
dummy2 ... 阅读全帖

l***y
发帖数: 4671

来自主题: Statistics版 - 生统的Dr.PH是什么样的一个水平？

我的粗浅理解哈，hardoop 是 parallel computation 的升级版本。传统的 parallel
computation，尤其是基于 mpi 的，主要的系统开销在于 messaging 和各线程之间同
步时的等待，而数据主要存储于内存，所以 i/o 的开销并不是瓶颈；而在处理 big
data 时，i/o 的瓶颈就成为主要制约因素；parallel file system 的并发规模（十几
个并行就很高了，再高，meta servers 就跟不上了）远远跟不上并行程序的规模（上
千到数十万）。hardoop 的解决方案就是物理层面上的数据大规模分布式存储(hdfs)，
使得各物理节点尽可能独立地运行程序，他们之间的数据交流最小化。这样 i/o 的并
行就可以和 cpu 的并行相匹配了。另一个要素就是云计算所特别擅长的 mapreduce 算
法了。这大大有别于传统的 HPC clusters 的构架。
所以呢，让 IT 搭建 hardoop 平台貌似只适用于 prototyping，真的做 hardoop，还
是建议上专门的商业平台比如说 amazon。

kn
发帖数: 2446

来自主题: Hardware版 - GPU搞计算现在是什么情况？

core的数目就是看Stream processor的数目。
至于GPU和CPU的比较，Intel的人发了篇paper，叫做“Debunking the 100X GPU vs. C
PU Myth”。今年6月ISCA的新paper。
如果CPU上的程序用SSE指令优化和并行编程，实际speedup没有传说中那么巨大。一般说
GPU比CPU加速几十上百倍，大多是GPU厂商的市场宣传。用GPU的并行程序、特殊指令和
CPU的普通c程序相比，有失公平。

倍？

r********3
发帖数: 2998

来自主题: Computation版 - 请教一个C++程序结构的问题

你可以去查一下。现在大部分笔记本硬盘的速度，多是在30-40mbytes/s以上。也就是
说，几乎不到1秒的时间就可以读入你的Matrix。跟真正处理数据的程序比起来，你这
个30M的文件根本只能算个toy。
为什么慢，估计原因很简单，就是你程序没写好了而已。楼上扯什么ram disk，并行这
些，根本就是杀鸡用牛刀。。。
真正用mapreduce等并行处理的，都至少是上G的数据，数量级都差了2个。

global

x****l
发帖数: 266

来自主题: Quant版 - 程序优化在金融企业用处大么？

本人CS phd，主要做程序优化，大规模并行计算(PDE)，
问一下，金融类职位中并行计算，高性能计算或者程序优化的工作多不多？
先谢了

y**b
发帖数: 10166

来自主题: Programming版 - openmp并行计算疑问

多谢两位回复！
我这个问题本来就不存在一个deterministic order, 所以串行的结果一样并不能说明
串行的结果就比并行的结果更正确。还好并行的误差并不离谱，而且输出的结果明显
看出是舍入误差的累积，一位一位地放大。看intel的报告很多大型模型如天气模型会
因为舍入误差累积而达到量级差别，吓了一跳！
最近狠狠研究了几天并行和浮点consistency的问题，发现这个问题还不是一般的普遍，
各位做数值尤其是高精度高频率领域比如碰撞和爆炸可能会有些经验，欢迎指点。
我自己的思路是：
1. 先从gcc跳到icc试一下，毕竟icc提供80bits register extended precision和很多
浮点调控选项如-fp-model, 我试验了一下，发现icc不仅比gcc慢，也不能解决这个
consistency问题。(也说明gcc性能还是很牛的)。
2. GCC quad precision math lib, 这玩意比较新，_float128和sinq()等能提供大约
33位十进制进度，而double和long double只能提供15位精度。我的程序非常依赖这些
三... 阅读全帖

b******3
发帖数: 4385

来自主题: Military版 - 用户课题组负责人签名并加盖用户单位公章后可以上机

国家超级计算广州中心用户上机流程
用户使用国家超级计算广州中心天河二号超级计算机系统的流程大致如下几个步骤：
1. 初始接洽
用户上机前可以先向中心系统的客户服务联系人员了解天河二号超级计算机系
统的服务内容、资源情况、使用流程，以及收费政策等等，了解情况后可以先申请试用。
客户服务联系人员邮箱：s**********[email protected]
2. 试用
试用阶段不为强制必经阶段，其目的是让用户熟悉中心的应用环境、了解应用
与中心高性能计算资源的匹配性、评估正式上机时所需要的资源规模，以及决定正式上
机时需要的费用范围和合同方式。如果用户需要试用，需要填写《国家超级计算广州中
心用户上机申请表》，请注明是“试用”，并由用户课题组负责人签名并加盖用户单位
公章后，将原件扫描后email或传真或邮寄至中心客户服务人员，中心收到客户请求后3
个工作日内给予答复。
传真：此处添加中心传真号码
地址：广东省广州市番禺区广州大学城中山大学东校区国家超级计算广州中心
邮编：510006
试用阶段用户注意事项：
(1) 上机前应仔细阅读《用户上机承诺书》和... 阅读全帖

C**********e
发帖数: 23303

来自主题: Military版 - 从并行计算谈谈前戏的重要性

最近跑了几个大型并行计算程序时常在改变tolerance时收敛出错
也没有找到太好的解决办法
后来让这些nodes运行了几个前戏热身程序
我戳戳你的G点缓冲区你甜甜我的冠状敏感带
然后再运行结果都是一气呵成融会贯通
运算过程不出错计算结果出奇地好
连计算机都知道前戏的重要性
一时我陷入了深深地沉思
大家虽然都知道在体育运动前要大量地热身才能取得好成绩
但在性生活中却往往忽视了这一点
华男经常喜欢穿山越岭一往无前缺乏足够的前戏
却往往忽视了循循善诱曲径通幽的道理
常常鸡飞蛋打人去楼空
一个国家的发展也是这样
任何太激进急风暴雨般的政策或者改革
都往往是一地鸡毛残砖断瓦的结果
必须循序渐进摸索总结
才能亦步亦趋达到一个又一个的高潮

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天