由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - R能读多大的数据? 14GB?
相关主题
请教如何分割较大的data借人气问一个Excel sampling 问题 (转载)
问个r问题sas question
[合集] excel并行一问,急~~~问一个SAS format的问题,看似简单
Urgent R QuestionSas问题, 有包子
R function to tabulate a matrix[R] a row of a matrix is not a matrix?
R data.framecount unique values in file with 1 million rows
one quick question in SAS, thank you!!如何用R处理大文件
请教...SQL find distinct values in large table (转载)
相关话题的讨论汇总
话题: fread话题: gb话题: several话题: 14gb话题: skip
进入Statistics版参与讨论
1 (共1页)
w********i
发帖数: 389
1
我有一个table的数据,包含7 million的列,700的行,大小约为14G,我想计算出一个
rarefaction curve。请问有什么好得package没有? 谢谢。
a***g
发帖数: 2761
2
python吧
r的话,要么并行,要么就得有比14g还大的内存
H*H
发帖数: 472
3
You can try the fread() function in data.table package. It will take several
minutes to read 14 GB data. If your RAM is less than 14 GB, you can
separate the data into several parts with the 'skip' and 'nrows' arguments.
v*******e
发帖数: 11604
4
R不行。即使内存足够大,也得准备个24小时让R读入。
w********i
发帖数: 389
5
R好像是的确不行,内存不是问题,我在HPC上run了一个星期,根本没有反应。
w********i
发帖数: 389
6
这个也是R里面的么。

several
.

【在 H*H 的大作中提到】
: You can try the fread() function in data.table package. It will take several
: minutes to read 14 GB data. If your RAM is less than 14 GB, you can
: separate the data into several parts with the 'skip' and 'nrows' arguments.

w********i
发帖数: 389
7
这个也是R里面的么。

several
.

【在 H*H 的大作中提到】
: You can try the fread() function in data.table package. It will take several
: minutes to read 14 GB data. If your RAM is less than 14 GB, you can
: separate the data into several parts with the 'skip' and 'nrows' arguments.

H*H
发帖数: 472
8
Yes

【在 w********i 的大作中提到】
: 这个也是R里面的么。
:
: several
: .

H*H
发帖数: 472
9
刚用15 GB 数据测试了下,10分钟左右就读完了
system.time(dt <- fread(file))
Read 42663888 rows and 71 (of 71) columns from 15.589 GB file in 00:10:15
user system elapsed
608.957 8.732 617.904
w********i
发帖数: 389
10
多谢,我回去试试。

【在 H*H 的大作中提到】
: 刚用15 GB 数据测试了下,10分钟左右就读完了
: system.time(dt <- fread(file))
: Read 42663888 rows and 71 (of 71) columns from 15.589 GB file in 00:10:15
: user system elapsed
: 608.957 8.732 617.904

相关主题
R data.frame借人气问一个Excel sampling 问题 (转载)
one quick question in SAS, thank you!!sas question
请教...问一个SAS format的问题,看似简单
进入Statistics版参与讨论
p*******g
发帖数: 809
11
请问你的机器的配置?

【在 H*H 的大作中提到】
: 刚用15 GB 数据测试了下,10分钟左右就读完了
: system.time(dt <- fread(file))
: Read 42663888 rows and 71 (of 71) columns from 15.589 GB file in 00:10:15
: user system elapsed
: 608.957 8.732 617.904

H*H
发帖数: 472
12
CPU是5 6年前的配置了
CPU MHz: 1400.000
内存比较大,128G

【在 p*******g 的大作中提到】
: 请问你的机器的配置?
d**********6
发帖数: 74
13
Plantking,
您能否看下您的站内邮箱,我有一份邮件需要您的帮助,非常感谢!!!

【在 p*******g 的大作中提到】
: 请问你的机器的配置?
d********t
发帖数: 9628
14
我在win下用fread直接死机,只能重启

several
.

【在 H*H 的大作中提到】
: You can try the fread() function in data.table package. It will take several
: minutes to read 14 GB data. If your RAM is less than 14 GB, you can
: separate the data into several parts with the 'skip' and 'nrows' arguments.

l******n
发帖数: 9344
15
啥板子?
把CPU升升级,做计算挺不错的

【在 H*H 的大作中提到】
: CPU是5 6年前的配置了
: CPU MHz: 1400.000
: 内存比较大,128G

H*H
发帖数: 472
16
呵呵 现在做计算都是采取薄利多销政策,几十甚至几百个core一起上。
再慢的CPU也耐不住数量多
唯一的缺点是并行多了,内存吃得快,100多G的内存一下就没了,所以得不时监视一下
进程

【在 l******n 的大作中提到】
: 啥板子?
: 把CPU升升级,做计算挺不错的

w********i
发帖数: 389
17
老兄,
我试了试,7million columns, 700 rows,
依然报错如下,
> fread("Desktop/genes.list.3", skip=1)
Error in fread("Desktop/genes.list.3", skip = 1) :
Not positioned correctly after testing format of header row. ch=' '
sep 是用 't'.
请指点

【在 H*H 的大作中提到】
: CPU是5 6年前的配置了
: CPU MHz: 1400.000
: 内存比较大,128G

l******n
发帖数: 9344
18
堆硬件比较简单,理论的computing power基本就是c&p就能搞出来,不过要真在实际用
就很麻烦。如果不用并行,比单核还慢

【在 H*H 的大作中提到】
: 呵呵 现在做计算都是采取薄利多销政策,几十甚至几百个core一起上。
: 再慢的CPU也耐不住数量多
: 唯一的缺点是并行多了,内存吃得快,100多G的内存一下就没了,所以得不时监视一下
: 进程

w********i
发帖数: 389
19
请问R可以在HPC用并行么? 我听说好像不行啊。
1 (共1页)
进入Statistics版参与讨论
相关主题
SQL find distinct values in large table (转载)R function to tabulate a matrix
怎样利用AWS在R里面做一个大数据的分析? (转载)R data.frame
Memory Error in pandas.concat with Pythonone quick question in SAS, thank you!!
[合集] 问excel牛人一个问题请教...
请教如何分割较大的data借人气问一个Excel sampling 问题 (转载)
问个r问题sas question
[合集] excel并行一问,急~~~问一个SAS format的问题,看似简单
Urgent R QuestionSas问题, 有包子
相关话题的讨论汇总
话题: fread话题: gb话题: several话题: 14gb话题: skip