s****l 发帖数: 10462 | 1 Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one
sample,需要把reads map to human genome (3GB), and use GATK to call variants
需要多少内存(最少要求多少,最好是多少,最多再多了也没有用)?
谢谢 |
t*****z 发帖数: 1598 | 2 我在MacBook Pro本地上做过类似规模的运算,用Bowtie2,才16GB内存,没问题。至于
多加内存有没有显著效果我就不知道了。
最近有一些benchmark的文章,比如PMID:23758764,24708189。感觉内存不是大问题。
GATK我还没用过,感觉如何?
variants
[发表自未名空间手机版 - m.mitbbs.com]
【在 s****l 的大作中提到】 : Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one : sample,需要把reads map to human genome (3GB), and use GATK to call variants : 需要多少内存(最少要求多少,最好是多少,最多再多了也没有用)? : 谢谢
|
s****l 发帖数: 10462 | 3 GATK works quite well. But I never need worried memory before because the
cluster setting was a high end one. Now I need budget it, so...
Thanks for your input!
题。
【在 t*****z 的大作中提到】 : 我在MacBook Pro本地上做过类似规模的运算,用Bowtie2,才16GB内存,没问题。至于 : 多加内存有没有显著效果我就不知道了。 : 最近有一些benchmark的文章,比如PMID:23758764,24708189。感觉内存不是大问题。 : GATK我还没用过,感觉如何? : : variants : [发表自未名空间手机版 - m.mitbbs.com]
|
n******7 发帖数: 12463 | 4 你check一下内存使用不就完了
我的印象是GATK需要的资源不多
reads alignment 是高度并行的,你要尽可能多的cores
【在 s****l 的大作中提到】 : GATK works quite well. But I never need worried memory before because the : cluster setting was a high end one. Now I need budget it, so... : Thanks for your input! : : 题。
|
S****2 发帖数: 164 | 5 我在harvard orchestra cluster上算过,不记得那服务器是多少内存,但每时每刻这
么多人一起算,肯定也没多少吧
https://rc.hms.harvard.edu/
你能得到access to any cluster的话,绝对不要本地算
variants
【在 s****l 的大作中提到】 : Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one : sample,需要把reads map to human genome (3GB), and use GATK to call variants : 需要多少内存(最少要求多少,最好是多少,最多再多了也没有用)? : 谢谢
|
s****l 发帖数: 10462 | 6 谢谢楼上各位
我其实不是具体跑这个map遇到什么内存的问题,而是我要跟IT部门打交道,想买一个
cluster。狗日的IT部门非要说,你做这个application,应该是什么样的设置的
cluster,每个node要多少内存,他们IT不清楚。否则按高了的设置买,浪费,按低的
设置买,不能用,所以需要做一个测试才能做决定。
所以具体的来说,我想知道的是用Novoalign来map 1M pairs of Illumina 150-bp
reads to human genome的,需要一个什么样的cluster, 我知道具体多少nodes, 取决
于我要run how many samples(假设1000 samples吧 and 1M pairs of reads per
sample),但是每个 node 需要什么样的CPU, 尤其是多少内存,我没有具体的答案给
IT。我说每个32G RAM,他们说要测试,或者要请一个consultant --- tmd,这一个测
试和consultant还不知道要花多少时间和金钱呢。我想要的最好的答案就是有些文献或
者网页给出具体的computing power and tested with Novoalign(and GATK)on ILMN
reads.
刚已经问了NovoAlign他们,但是还没有答复。 |
t*****z 发帖数: 1598 | 7 所以我宁可自己想办法也不跟他们叽歪。
[发表自未名空间手机版 - m.mitbbs.com]
【在 s****l 的大作中提到】 : 谢谢楼上各位 : 我其实不是具体跑这个map遇到什么内存的问题,而是我要跟IT部门打交道,想买一个 : cluster。狗日的IT部门非要说,你做这个application,应该是什么样的设置的 : cluster,每个node要多少内存,他们IT不清楚。否则按高了的设置买,浪费,按低的 : 设置买,不能用,所以需要做一个测试才能做决定。 : 所以具体的来说,我想知道的是用Novoalign来map 1M pairs of Illumina 150-bp : reads to human genome的,需要一个什么样的cluster, 我知道具体多少nodes, 取决 : 于我要run how many samples(假设1000 samples吧 and 1M pairs of reads per : sample),但是每个 node 需要什么样的CPU, 尤其是多少内存,我没有具体的答案给 : IT。我说每个32G RAM,他们说要测试,或者要请一个consultant --- tmd,这一个测
|
t*****z 发帖数: 1598 | 8 你这个cluster买来堆在自己房间里呢,还是单位有专门机房替你放的?
[发表自未名空间手机版 - m.mitbbs.com]
【在 s****l 的大作中提到】 : 谢谢楼上各位 : 我其实不是具体跑这个map遇到什么内存的问题,而是我要跟IT部门打交道,想买一个 : cluster。狗日的IT部门非要说,你做这个application,应该是什么样的设置的 : cluster,每个node要多少内存,他们IT不清楚。否则按高了的设置买,浪费,按低的 : 设置买,不能用,所以需要做一个测试才能做决定。 : 所以具体的来说,我想知道的是用Novoalign来map 1M pairs of Illumina 150-bp : reads to human genome的,需要一个什么样的cluster, 我知道具体多少nodes, 取决 : 于我要run how many samples(假设1000 samples吧 and 1M pairs of reads per : sample),但是每个 node 需要什么样的CPU, 尤其是多少内存,我没有具体的答案给 : IT。我说每个32G RAM,他们说要测试,或者要请一个consultant --- tmd,这一个测
|
s****l 发帖数: 10462 | 9 IT will buy/maintain/take care of it, unfortunately.
【在 t*****z 的大作中提到】 : 你这个cluster买来堆在自己房间里呢,还是单位有专门机房替你放的? : : [发表自未名空间手机版 - m.mitbbs.com]
|
n******7 发帖数: 12463 | 10 IT的要求挺合理的,毕竟他们也不是搞这个的,就按照流程走了
不能100%优化配置是不可避免的,实际上你的aligner换个版本/参数就可能对硬件需求
不一样了。你要不是computational的group的话,很多计算都是一次性的,慢个一点其
实无所谓。也就是说,配置的弹性很大,没必要太纠结。alignment把genome index
load进内存就好,没多大
你可以去seqanswers问问做类似工作的都是用什么什么配置,你照葫芦画瓢
【在 s****l 的大作中提到】 : 谢谢楼上各位 : 我其实不是具体跑这个map遇到什么内存的问题,而是我要跟IT部门打交道,想买一个 : cluster。狗日的IT部门非要说,你做这个application,应该是什么样的设置的 : cluster,每个node要多少内存,他们IT不清楚。否则按高了的设置买,浪费,按低的 : 设置买,不能用,所以需要做一个测试才能做决定。 : 所以具体的来说,我想知道的是用Novoalign来map 1M pairs of Illumina 150-bp : reads to human genome的,需要一个什么样的cluster, 我知道具体多少nodes, 取决 : 于我要run how many samples(假设1000 samples吧 and 1M pairs of reads per : sample),但是每个 node 需要什么样的CPU, 尤其是多少内存,我没有具体的答案给 : IT。我说每个32G RAM,他们说要测试,或者要请一个consultant --- tmd,这一个测
|
|
|
d***a 发帖数: 13752 | 11 IT部门问的问题其实是合理的。我们这配过几个cluster,硬件的开销
都在一百万美元以上,这还不算平时的人员费用和场地费用。确实不能
一拍脑袋就把配置定下来。:) 实在不行,请consultant也是一法。
【在 s****l 的大作中提到】 : 谢谢楼上各位 : 我其实不是具体跑这个map遇到什么内存的问题,而是我要跟IT部门打交道,想买一个 : cluster。狗日的IT部门非要说,你做这个application,应该是什么样的设置的 : cluster,每个node要多少内存,他们IT不清楚。否则按高了的设置买,浪费,按低的 : 设置买,不能用,所以需要做一个测试才能做决定。 : 所以具体的来说,我想知道的是用Novoalign来map 1M pairs of Illumina 150-bp : reads to human genome的,需要一个什么样的cluster, 我知道具体多少nodes, 取决 : 于我要run how many samples(假设1000 samples吧 and 1M pairs of reads per : sample),但是每个 node 需要什么样的CPU, 尤其是多少内存,我没有具体的答案给 : IT。我说每个32G RAM,他们说要测试,或者要请一个consultant --- tmd,这一个测
|
s****l 发帖数: 10462 | 12 也许吧
不过我已经quote cluster price了,四五万块钱的事情。一百万以上的配置,那得上
千个cores了。更何况买了cluster来,又不会只固定做某种运算。RD很多变数的,往上
配置些,多个几千一万的,也没什么大不了的。
请个consultant,一两万很快就打水漂了吧
【在 d***a 的大作中提到】 : IT部门问的问题其实是合理的。我们这配过几个cluster,硬件的开销 : 都在一百万美元以上,这还不算平时的人员费用和场地费用。确实不能 : 一拍脑袋就把配置定下来。:) 实在不行,请consultant也是一法。
|
w*****y 发帖数: 1201 | 13 做mapping的话,BWA是用的最多的吧,我们做30Gb whole genome sequencing mapping
,32G的内存没有任何问题。
variants
【在 s****l 的大作中提到】 : Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one : sample,需要把reads map to human genome (3GB), and use GATK to call variants : 需要多少内存(最少要求多少,最好是多少,最多再多了也没有用)? : 谢谢
|
t*****z 发帖数: 1598 | 14 生物学里需要超多内存的问题主要就是基因组assembly,具体数目跟基因组大小有关,
而跟data类型关系不大,比如昆虫要128GB,哺乳类要512GB,以此类推。楼主如果想要
说服IT买大内存,不妨从这个入手,用业界标准的benchmark网站GAGE提供的方法和数
据来跑一个benchmark,同时稍微阅读下de bruijn graph和assembly的原理概述,引用
这些文章就可以推导出你要assemble的基因组需要多少内存了。
[发表自未名空间手机版 - m.mitbbs.com]
【在 s****l 的大作中提到】 : 也许吧 : 不过我已经quote cluster price了,四五万块钱的事情。一百万以上的配置,那得上 : 千个cores了。更何况买了cluster来,又不会只固定做某种运算。RD很多变数的,往上 : 配置些,多个几千一万的,也没什么大不了的。 : 请个consultant,一两万很快就打水漂了吧
|
n******7 发帖数: 12463 | 15 他一个做mapping的,用不着牛刀
【在 t*****z 的大作中提到】 : 生物学里需要超多内存的问题主要就是基因组assembly,具体数目跟基因组大小有关, : 而跟data类型关系不大,比如昆虫要128GB,哺乳类要512GB,以此类推。楼主如果想要 : 说服IT买大内存,不妨从这个入手,用业界标准的benchmark网站GAGE提供的方法和数 : 据来跑一个benchmark,同时稍微阅读下de bruijn graph和assembly的原理概述,引用 : 这些文章就可以推导出你要assemble的基因组需要多少内存了。 : : [发表自未名空间手机版 - m.mitbbs.com]
|
d***a 发帖数: 13752 | 16 四五万的系统还要找consultant,IT部门确实有点没事找事。:)
【在 s****l 的大作中提到】 : 也许吧 : 不过我已经quote cluster price了,四五万块钱的事情。一百万以上的配置,那得上 : 千个cores了。更何况买了cluster来,又不会只固定做某种运算。RD很多变数的,往上 : 配置些,多个几千一万的,也没什么大不了的。 : 请个consultant,一两万很快就打水漂了吧
|
t*****z 发帖数: 1598 | 17 我是在探讨说服IT买高档机器的方法。
【在 n******7 的大作中提到】 : 他一个做mapping的,用不着牛刀
|
E***e 发帖数: 3430 | 18 拿回扣啊
【在 d***a 的大作中提到】 : 四五万的系统还要找consultant,IT部门确实有点没事找事。:)
|
b****a 发帖数: 460 | 19 http://www.mghpcc.org
随便找个你们学校的PI去申请使用权限 目前是免费的。 |
t*****z 发帖数: 1598 | 20 你的GPGPU神机拼得怎么样啦?
【在 E***e 的大作中提到】 : 拿回扣啊
|
E***e 发帖数: 3430 | 21 没来得及仔细弄但是一把辛酸泪
收到C2050援助
拆开一看立马跪下了
风扇针脚不一样
还得摆弄烙铁
手残星人不知道该怎么办
各种辛酸回头贴图慢叙
【在 t*****z 的大作中提到】 : 你的GPGPU神机拼得怎么样啦?
|