急问：需要多少内存 - Hardware版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Hardware版 - 急问：需要多少内存

相关主题
● Tesla C2050 还是3个GTX 480？	● AMD的GPGPU好像有点眉目了
● 一个有关GPU的问题	● 为什么大家这么黑NV呢？
● Xeon究竟好在哪？	● 新版Macbook Pro技术参数 (转载)
● 大家说说 cuda 和 opencl 吧	● 日本东京工业大学将用Tesla建全球最强超级计算机
● new Tesla C2050 $235.50 @ eBay	● 并行计算GPU>>CPU
● 有什么好的GPU计算平台推荐吗?	● 这个ENVY 14的deal怎么样？
● 卧槽M2090是被动散热片？	● AMD新一代的穷人法拉利
● CLEAR的4G WiMAX有人用过么？ (转载)	● ZZ显卡之争:NVIDIA笔记本反弹 AMD桌面前进

相关话题的讨论汇总
话题: 内存话题: cluster话题: 多少话题: gatk话题: reads

进入Hardware版参与讨论

(共1页)

s****l
发帖数: 10462

Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one
sample，需要把reads map to human genome (3GB), and use GATK to call variants
需要多少内存（最少要求多少，最好是多少，最多再多了也没有用）？
谢谢

t*****z
发帖数: 1598

我在MacBook Pro本地上做过类似规模的运算，用Bowtie2，才16GB内存，没问题。至于
多加内存有没有显著效果我就不知道了。
最近有一些benchmark的文章，比如PMID：23758764，24708189。感觉内存不是大问题。
GATK我还没用过，感觉如何？

variants
[发表自未名空间手机版 - m.mitbbs.com]

【在 s****l 的大作中提到】

: Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one
: sample，需要把reads map to human genome (3GB), and use GATK to call variants
: 需要多少内存（最少要求多少，最好是多少，最多再多了也没有用）？
: 谢谢

s****l
发帖数: 10462

GATK works quite well. But I never need worried memory before because the
cluster setting was a high end one. Now I need budget it, so...
Thanks for your input!

题。

【在 t*****z 的大作中提到】

: 我在MacBook Pro本地上做过类似规模的运算，用Bowtie2，才16GB内存，没问题。至于
: 多加内存有没有显著效果我就不知道了。
: 最近有一些benchmark的文章，比如PMID：23758764，24708189。感觉内存不是大问题。
: GATK我还没用过，感觉如何？
:
: variants
: [发表自未名空间手机版 - m.mitbbs.com]

n******7
发帖数: 12463

你check一下内存使用不就完了
我的印象是GATK需要的资源不多
reads alignment 是高度并行的，你要尽可能多的cores

【在 s****l 的大作中提到】

: GATK works quite well. But I never need worried memory before because the
: cluster setting was a high end one. Now I need budget it, so...
: Thanks for your input!
:
: 题。

S****2
发帖数: 164

我在harvard orchestra cluster上算过，不记得那服务器是多少内存，但每时每刻这
么多人一起算，肯定也没多少吧
https://rc.hms.harvard.edu/
你能得到access to any cluster的话，绝对不要本地算

variants

【在 s****l 的大作中提到】

s****l
发帖数: 10462

谢谢楼上各位
我其实不是具体跑这个map遇到什么内存的问题，而是我要跟IT部门打交道，想买一个
cluster。狗日的IT部门非要说，你做这个application，应该是什么样的设置的
cluster，每个node要多少内存，他们IT不清楚。否则按高了的设置买，浪费，按低的
设置买，不能用，所以需要做一个测试才能做决定。
所以具体的来说，我想知道的是用Novoalign来map 1M pairs of Illumina 150-bp
reads to human genome的，需要一个什么样的cluster, 我知道具体多少nodes, 取决
于我要run how many samples（假设1000 samples吧 and 1M pairs of reads per
sample），但是每个 node 需要什么样的CPU，尤其是多少内存，我没有具体的答案给
IT。我说每个32G RAM，他们说要测试，或者要请一个consultant --- tmd，这一个测
试和consultant还不知道要花多少时间和金钱呢。我想要的最好的答案就是有些文献或
者网页给出具体的computing power and tested with Novoalign（and GATK）on ILMN
reads.
刚已经问了NovoAlign他们，但是还没有答复。

t*****z
发帖数: 1598

所以我宁可自己想办法也不跟他们叽歪。

[发表自未名空间手机版 - m.mitbbs.com]

【在 s****l 的大作中提到】

: 谢谢楼上各位
: 我其实不是具体跑这个map遇到什么内存的问题，而是我要跟IT部门打交道，想买一个
: cluster。狗日的IT部门非要说，你做这个application，应该是什么样的设置的
: cluster，每个node要多少内存，他们IT不清楚。否则按高了的设置买，浪费，按低的
: 设置买，不能用，所以需要做一个测试才能做决定。
: 所以具体的来说，我想知道的是用Novoalign来map 1M pairs of Illumina 150-bp
: reads to human genome的，需要一个什么样的cluster, 我知道具体多少nodes, 取决
: 于我要run how many samples（假设1000 samples吧 and 1M pairs of reads per
: sample），但是每个 node 需要什么样的CPU，尤其是多少内存，我没有具体的答案给
: IT。我说每个32G RAM，他们说要测试，或者要请一个consultant --- tmd，这一个测

t*****z
发帖数: 1598

你这个cluster买来堆在自己房间里呢，还是单位有专门机房替你放的？

[发表自未名空间手机版 - m.mitbbs.com]

【在 s****l 的大作中提到】

s****l
发帖数: 10462

IT will buy/maintain/take care of it, unfortunately.

【在 t*****z 的大作中提到】

: 你这个cluster买来堆在自己房间里呢，还是单位有专门机房替你放的？
:
: [发表自未名空间手机版 - m.mitbbs.com]

n******7
发帖数: 12463

IT的要求挺合理的，毕竟他们也不是搞这个的，就按照流程走了
不能100%优化配置是不可避免的，实际上你的aligner换个版本/参数就可能对硬件需求
不一样了。你要不是computational的group的话，很多计算都是一次性的，慢个一点其
实无所谓。也就是说，配置的弹性很大，没必要太纠结。alignment把genome index
load进内存就好，没多大
你可以去seqanswers问问做类似工作的都是用什么什么配置，你照葫芦画瓢

【在 s****l 的大作中提到】

相关主题
● 有什么好的GPU计算平台推荐吗?	● AMD的GPGPU好像有点眉目了
● 卧槽M2090是被动散热片？	● 为什么大家这么黑NV呢？
● CLEAR的4G WiMAX有人用过么？ (转载)	● 新版Macbook Pro技术参数 (转载)
进入Hardware版参与讨论

d***a
发帖数: 13752

IT部门问的问题其实是合理的。我们这配过几个cluster，硬件的开销
都在一百万美元以上，这还不算平时的人员费用和场地费用。确实不能
一拍脑袋就把配置定下来。:) 实在不行，请consultant也是一法。

【在 s****l 的大作中提到】

s****l
发帖数: 10462

也许吧
不过我已经quote cluster price了，四五万块钱的事情。一百万以上的配置，那得上
千个cores了。更何况买了cluster来，又不会只固定做某种运算。RD很多变数的，往上
配置些，多个几千一万的，也没什么大不了的。
请个consultant，一两万很快就打水漂了吧

【在 d***a 的大作中提到】

: IT部门问的问题其实是合理的。我们这配过几个cluster，硬件的开销
: 都在一百万美元以上，这还不算平时的人员费用和场地费用。确实不能
: 一拍脑袋就把配置定下来。:) 实在不行，请consultant也是一法。

w*****y
发帖数: 1201

做mapping的话，BWA是用的最多的吧，我们做30Gb whole genome sequencing mapping
，32G的内存没有任何问题。

variants

【在 s****l 的大作中提到】

t*****z
发帖数: 1598

生物学里需要超多内存的问题主要就是基因组assembly，具体数目跟基因组大小有关，
而跟data类型关系不大，比如昆虫要128GB，哺乳类要512GB，以此类推。楼主如果想要
说服IT买大内存，不妨从这个入手，用业界标准的benchmark网站GAGE提供的方法和数
据来跑一个benchmark，同时稍微阅读下de bruijn graph和assembly的原理概述，引用
这些文章就可以推导出你要assemble的基因组需要多少内存了。

[发表自未名空间手机版 - m.mitbbs.com]

【在 s****l 的大作中提到】

: 也许吧
: 不过我已经quote cluster price了，四五万块钱的事情。一百万以上的配置，那得上
: 千个cores了。更何况买了cluster来，又不会只固定做某种运算。RD很多变数的，往上
: 配置些，多个几千一万的，也没什么大不了的。
: 请个consultant，一两万很快就打水漂了吧

n******7
发帖数: 12463

他一个做mapping的，用不着牛刀

【在 t*****z 的大作中提到】

: 生物学里需要超多内存的问题主要就是基因组assembly，具体数目跟基因组大小有关，
: 而跟data类型关系不大，比如昆虫要128GB，哺乳类要512GB，以此类推。楼主如果想要
: 说服IT买大内存，不妨从这个入手，用业界标准的benchmark网站GAGE提供的方法和数
: 据来跑一个benchmark，同时稍微阅读下de bruijn graph和assembly的原理概述，引用
: 这些文章就可以推导出你要assemble的基因组需要多少内存了。
:
: [发表自未名空间手机版 - m.mitbbs.com]

d***a
发帖数: 13752

四五万的系统还要找consultant，IT部门确实有点没事找事。:)

【在 s****l 的大作中提到】

t*****z
发帖数: 1598

我是在探讨说服IT买高档机器的方法。

【在 n******7 的大作中提到】

: 他一个做mapping的，用不着牛刀

E***e
发帖数: 3430

拿回扣啊

【在 d***a 的大作中提到】

: 四五万的系统还要找consultant，IT部门确实有点没事找事。:)

b****a
发帖数: 460

http://www.mghpcc.org
随便找个你们学校的PI去申请使用权限目前是免费的。

t*****z
发帖数: 1598

你的GPGPU神机拼得怎么样啦？

【在 E***e 的大作中提到】

: 拿回扣啊

E***e
发帖数: 3430

没来得及仔细弄但是一把辛酸泪
收到C2050援助
拆开一看立马跪下了
风扇针脚不一样
还得摆弄烙铁
手残星人不知道该怎么办
各种辛酸回头贴图慢叙

【在 t*****z 的大作中提到】

: 你的GPGPU神机拼得怎么样啦？

(共1页)

进入Hardware版参与讨论

相关主题
● ZZ显卡之争:NVIDIA笔记本反弹 AMD桌面前进	● new Tesla C2050 $235.50 @ eBay
● Larrbee原地满血复活?	● 有什么好的GPU计算平台推荐吗?
● 独立显卡的作用是什么？	● 卧槽M2090是被动散热片？
● GPGPU Desktop/Laptop	● CLEAR的4G WiMAX有人用过么？ (转载)
● Tesla C2050 还是3个GTX 480？	● AMD的GPGPU好像有点眉目了
● 一个有关GPU的问题	● 为什么大家这么黑NV呢？
● Xeon究竟好在哪？	● 新版Macbook Pro技术参数 (转载)
● 大家说说 cuda 和 opencl 吧	● 日本东京工业大学将用Tesla建全球最强超级计算机

相关话题的讨论汇总
话题: 内存话题: cluster话题: 多少话题: gatk话题: reads

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天