w********i 发帖数: 389 | 1 我有一个table的数据,包含7 million的列,700的行,大小约为14G,我想计算出一个
rarefaction curve。请问有什么好得package没有? 谢谢。 |
a***g 发帖数: 2761 | 2 python吧
r的话,要么并行,要么就得有比14g还大的内存 |
H*H 发帖数: 472 | 3 You can try the fread() function in data.table package. It will take several
minutes to read 14 GB data. If your RAM is less than 14 GB, you can
separate the data into several parts with the 'skip' and 'nrows' arguments. |
v*******e 发帖数: 11604 | 4 R不行。即使内存足够大,也得准备个24小时让R读入。 |
w********i 发帖数: 389 | 5 R好像是的确不行,内存不是问题,我在HPC上run了一个星期,根本没有反应。 |
w********i 发帖数: 389 | 6 这个也是R里面的么。
several
.
【在 H*H 的大作中提到】 : You can try the fread() function in data.table package. It will take several : minutes to read 14 GB data. If your RAM is less than 14 GB, you can : separate the data into several parts with the 'skip' and 'nrows' arguments.
|
w********i 发帖数: 389 | 7 这个也是R里面的么。
several
.
【在 H*H 的大作中提到】 : You can try the fread() function in data.table package. It will take several : minutes to read 14 GB data. If your RAM is less than 14 GB, you can : separate the data into several parts with the 'skip' and 'nrows' arguments.
|
H*H 发帖数: 472 | 8 Yes
【在 w********i 的大作中提到】 : 这个也是R里面的么。 : : several : .
|
H*H 发帖数: 472 | 9 刚用15 GB 数据测试了下,10分钟左右就读完了
system.time(dt <- fread(file))
Read 42663888 rows and 71 (of 71) columns from 15.589 GB file in 00:10:15
user system elapsed
608.957 8.732 617.904 |
w********i 发帖数: 389 | 10 多谢,我回去试试。
【在 H*H 的大作中提到】 : 刚用15 GB 数据测试了下,10分钟左右就读完了 : system.time(dt <- fread(file)) : Read 42663888 rows and 71 (of 71) columns from 15.589 GB file in 00:10:15 : user system elapsed : 608.957 8.732 617.904
|
|
|
p*******g 发帖数: 809 | 11 请问你的机器的配置?
【在 H*H 的大作中提到】 : 刚用15 GB 数据测试了下,10分钟左右就读完了 : system.time(dt <- fread(file)) : Read 42663888 rows and 71 (of 71) columns from 15.589 GB file in 00:10:15 : user system elapsed : 608.957 8.732 617.904
|
H*H 发帖数: 472 | 12 CPU是5 6年前的配置了
CPU MHz: 1400.000
内存比较大,128G
【在 p*******g 的大作中提到】 : 请问你的机器的配置?
|
d**********6 发帖数: 74 | 13 Plantking,
您能否看下您的站内邮箱,我有一份邮件需要您的帮助,非常感谢!!!
【在 p*******g 的大作中提到】 : 请问你的机器的配置?
|
d********t 发帖数: 9628 | 14 我在win下用fread直接死机,只能重启
several
.
【在 H*H 的大作中提到】 : You can try the fread() function in data.table package. It will take several : minutes to read 14 GB data. If your RAM is less than 14 GB, you can : separate the data into several parts with the 'skip' and 'nrows' arguments.
|
l******n 发帖数: 9344 | 15 啥板子?
把CPU升升级,做计算挺不错的
【在 H*H 的大作中提到】 : CPU是5 6年前的配置了 : CPU MHz: 1400.000 : 内存比较大,128G
|
H*H 发帖数: 472 | 16 呵呵 现在做计算都是采取薄利多销政策,几十甚至几百个core一起上。
再慢的CPU也耐不住数量多
唯一的缺点是并行多了,内存吃得快,100多G的内存一下就没了,所以得不时监视一下
进程
【在 l******n 的大作中提到】 : 啥板子? : 把CPU升升级,做计算挺不错的
|
w********i 发帖数: 389 | 17 老兄,
我试了试,7million columns, 700 rows,
依然报错如下,
> fread("Desktop/genes.list.3", skip=1)
Error in fread("Desktop/genes.list.3", skip = 1) :
Not positioned correctly after testing format of header row. ch=' '
sep 是用 't'.
请指点
【在 H*H 的大作中提到】 : CPU是5 6年前的配置了 : CPU MHz: 1400.000 : 内存比较大,128G
|
l******n 发帖数: 9344 | 18 堆硬件比较简单,理论的computing power基本就是c&p就能搞出来,不过要真在实际用
就很麻烦。如果不用并行,比单核还慢
【在 H*H 的大作中提到】 : 呵呵 现在做计算都是采取薄利多销政策,几十甚至几百个core一起上。 : 再慢的CPU也耐不住数量多 : 唯一的缺点是并行多了,内存吃得快,100多G的内存一下就没了,所以得不时监视一下 : 进程
|
w********i 发帖数: 389 | 19 请问R可以在HPC用并行么? 我听说好像不行啊。 |