如何用CUDA同时计算几百个实对称矩阵的eigenvalues/eigenvecot (转载) - Joke版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Joke版 - 如何用CUDA同时计算几百个实对称矩阵的eigenvalues/eigenvecot (转载)

相关主题
● 你们真的都还记得自己专业学的那些东西的细节？	● 裸泳耗的锤子手机上周犯了一个严重错误
● Adobe:下一代Flash Player效率将提高10倍 - 找J点	● Re: 巴尔的摩Raven 队前锋刚发表数学论文 (转载)
● 懂电路的来说说计算机为什么不能再快了	● Oregon shooter的妈妈，坚定拥枪派
● 并行可以降低计算复杂度？？ (转载)	● Re: java之后，人类就已经不再意计算机语言了 (转载)
● 我要把几百个 WF 改成 AF	● 民航角色矩阵图
● Re: GSL 里那个choya真是个福将啊 (转载)	● 错觉
● 这周Facebook一下子收到几百个Google的 resume (转载)	● 一些东西是肯定玩不过小孩了。
● 准备这个长周末解决雅可比猜想	● 微软面试题 (转载)

相关话题的讨论汇总
话题: 矩阵话题: cuda话题: cpu话题: gpu

进入Joke版参与讨论

1

(共1页)

g**********t 发帖数: 475	1 【以下文字转载自 Computation 讨论区】发信人: geneticdrift (不懂微积分), 信区: Computation 标题: 如何用CUDA同时计算几百个实对称矩阵的eigenvalues/eigenvecot 发信站: BBS 未名空间站 (Mon Jul 2 02:38:51 2012, 美东) 我有一个程序要反复计算几百个（约500个）64 x 64的实对称矩阵的所有的 eigenvalues/eigenvectors。自己用CUDA实现了一个Jacobi algorithm with chess tournament ordering。具体来说，每个block(含有32个threads)处理一个矩阵，这32 个threads并行消去一个矩阵中的32个off-diagonal elements，直到算法收敛。结果无误，计算单个矩阵所花的时间也和最近的一篇paper里的数据接近。但是这个算法和CPU 上的library比没有太大的优势。在同时处理这500个矩阵的情况下，和GSL里面高度优化的函数比较(用单CPU)，用GPU仅仅快了一倍。我觉得主要是Jacobi algorithm对于这个大小的矩阵效率太差，而GSL里面的函数用的好像是QR decomposition，虽然只有一个thread但是效率很高。有没有比较适合我的问题的能在GPU上高效执行的算法？有没有什么paper/code可以参考的？先谢谢了。
d********f 发帖数: 43471	2 http://saahpc.ncsa.illinois.edu/10/papers/paper_19.pdf based on this paper the speed-up should be significant 32 CPU 【在 g**********t 的大作中提到】 : 【以下文字转载自 Computation 讨论区】 : 发信人: geneticdrift (不懂微积分), 信区: Computation : 标题: 如何用CUDA同时计算几百个实对称矩阵的eigenvalues/eigenvecot : 发信站: BBS 未名空间站 (Mon Jul 2 02:38:51 2012, 美东) : 我有一个程序要反复计算几百个（约500个）64 x 64的实对称矩阵的所有的 : eigenvalues/eigenvectors。自己用CUDA实现了一个Jacobi algorithm with chess : tournament ordering。具体来说，每个block(含有32个threads)处理一个矩阵，这32 : 个threads并行消去一个矩阵中的32个off-diagonal elements，直到算法收敛。结果无 : 误，计算单个矩阵所花的时间也和最近的一篇paper里的数据接近。但是这个算法和CPU : 上的library比没有太大的优势。在同时处理这500个矩阵的情况下，和GSL里面高度优
g**********t 发帖数: 475	3 谢谢博导。我现在的程序就是基于这篇文章写的。这篇文章里的提升是对单个大矩阵来说的，而且在这篇CPU端用的是同样的算法(Jacobi method)。其实CPU端可以用更高效的算法，这样GPU就没有太大优势了。我想问一下有没有适合我的矩阵大小的，可以在 GPU上高效实现的算法？比如QR algorithm？【在 d********f 的大作中提到】 : http://saahpc.ncsa.illinois.edu/10/papers/paper_19.pdf : based on this paper the speed-up should be significant : : 32 : CPU
p*********g 发帖数: 9527	4 考，我以为走错版了。
g**********t 发帖数: 475	5 这里不是传说中万能的学术版么？不过现在joke的人气不行，听说pie版也比较万能，一会儿转发过去。【在 p*********g 的大作中提到】 : 考，我以为走错版了。
d********f 发帖数: 43471	6 cuda community太小了，老中作这个尤其少，你真想问直接问paper的作者不就好了， cuda的东西基本靠蒙，从你的参数来看64x64的矩阵说实话基本很难优化，基本不具备 partition的可能。【在 g**********t 的大作中提到】 : 这里不是传说中万能的学术版么？不过现在joke的人气不行，听说pie版也比较万能， : 一会儿转发过去。

1

(共1页)

进入Joke版参与讨论

相关主题
● 微软面试题 (转载)	● 我要把几百个 WF 改成 AF
● 深度学习大仙请进！别猜谜语了，干点正事吧。	● Re: GSL 里那个choya真是个福将啊 (转载)
● IOS 7真他妈是丑爆了！！以后再也不用苹果手机了！ (转载)	● 这周Facebook一下子收到几百个Google的 resume (转载)
● 这才叫眼光/行动力：Litecoin	● 准备这个长周末解决雅可比猜想
● 你们真的都还记得自己专业学的那些东西的细节？	● 裸泳耗的锤子手机上周犯了一个严重错误
● Adobe:下一代Flash Player效率将提高10倍 - 找J点	● Re: 巴尔的摩Raven 队前锋刚发表数学论文 (转载)
● 懂电路的来说说计算机为什么不能再快了	● Oregon shooter的妈妈，坚定拥枪派
● 并行可以降低计算复杂度？？ (转载)	● Re: java之后，人类就已经不再意计算机语言了 (转载)

相关话题的讨论汇总
话题: 矩阵话题: cuda话题: cpu话题: gpu

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)