R能读多大的数据？ 14GB？ - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - R能读多大的数据？ 14GB？

相关主题
● 请教如何分割较大的data	● 借人气问一个Excel sampling 问题 (转载)
● 问个r问题	● sas question
● [合集] excel并行一问，急～～～	● 问一个SAS format的问题，看似简单
● Urgent R Question	● Sas问题, 有包子
● R function to tabulate a matrix	● [R] a row of a matrix is not a matrix?
● R data.frame	● count unique values in file with 1 million rows
● one quick question in SAS, thank you!!	● 如何用R处理大文件
● 请教...	● SQL find distinct values in large table (转载)

相关话题的讨论汇总
话题: fread话题: gb话题: several话题: 14gb话题: skip

进入Statistics版参与讨论

(共1页)

w********i
发帖数: 389

我有一个table的数据，包含7 million的列，700的行，大小约为14G，我想计算出一个
rarefaction curve。请问有什么好得package没有？谢谢。

a***g
发帖数: 2761

python吧
r的话，要么并行，要么就得有比14g还大的内存

H*H
发帖数: 472

You can try the fread() function in data.table package. It will take several
minutes to read 14 GB data. If your RAM is less than 14 GB, you can
separate the data into several parts with the 'skip' and 'nrows' arguments.

v*******e
发帖数: 11604

R不行。即使内存足够大，也得准备个24小时让R读入。

w********i
发帖数: 389

R好像是的确不行，内存不是问题，我在HPC上run了一个星期，根本没有反应。

w********i
发帖数: 389

这个也是R里面的么。

several
.

【在 H*H 的大作中提到】

: You can try the fread() function in data.table package. It will take several
: minutes to read 14 GB data. If your RAM is less than 14 GB, you can
: separate the data into several parts with the 'skip' and 'nrows' arguments.

w********i
发帖数: 389

这个也是R里面的么。

several
.

【在 H*H 的大作中提到】

H*H
发帖数: 472

Yes

【在 w********i 的大作中提到】

: 这个也是R里面的么。
:
: several
: .

H*H
发帖数: 472

刚用15 GB 数据测试了下，10分钟左右就读完了
system.time(dt <- fread(file))
Read 42663888 rows and 71 (of 71) columns from 15.589 GB file in 00:10:15
user system elapsed
608.957 8.732 617.904

w********i
发帖数: 389

多谢，我回去试试。

【在 H*H 的大作中提到】

: 刚用15 GB 数据测试了下，10分钟左右就读完了
: system.time(dt <- fread(file))
: Read 42663888 rows and 71 (of 71) columns from 15.589 GB file in 00:10:15
: user system elapsed
: 608.957 8.732 617.904

相关主题
● R data.frame	● 借人气问一个Excel sampling 问题 (转载)
● one quick question in SAS, thank you!!	● sas question
● 请教...	● 问一个SAS format的问题，看似简单
进入Statistics版参与讨论

p*******g
发帖数: 809

请问你的机器的配置？

【在 H*H 的大作中提到】

H*H
发帖数: 472

CPU是5 6年前的配置了
CPU MHz: 1400.000
内存比较大，128G

【在 p*******g 的大作中提到】

: 请问你的机器的配置？

d**********6
发帖数: 74

Plantking,
您能否看下您的站内邮箱,我有一份邮件需要您的帮助,非常感谢!!!

【在 p*******g 的大作中提到】

: 请问你的机器的配置？

d********t
发帖数: 9628

我在win下用fread直接死机，只能重启

several
.

【在 H*H 的大作中提到】

l******n
发帖数: 9344

啥板子？
把CPU升升级，做计算挺不错的

【在 H*H 的大作中提到】

: CPU是5 6年前的配置了
: CPU MHz: 1400.000
: 内存比较大，128G

H*H
发帖数: 472

呵呵现在做计算都是采取薄利多销政策，几十甚至几百个core一起上。
再慢的CPU也耐不住数量多
唯一的缺点是并行多了，内存吃得快，100多G的内存一下就没了，所以得不时监视一下
进程

【在 l******n 的大作中提到】

: 啥板子？
: 把CPU升升级，做计算挺不错的

w********i
发帖数: 389

老兄，
我试了试，7million columns， 700 rows，
依然报错如下，
> fread("Desktop/genes.list.3", skip=1)
Error in fread("Desktop/genes.list.3", skip = 1) :
Not positioned correctly after testing format of header row. ch=' '
sep 是用 't'.
请指点

【在 H*H 的大作中提到】

: CPU是5 6年前的配置了
: CPU MHz: 1400.000
: 内存比较大，128G

l******n
发帖数: 9344

堆硬件比较简单，理论的computing power基本就是c&p就能搞出来，不过要真在实际用
就很麻烦。如果不用并行，比单核还慢

【在 H*H 的大作中提到】

: 呵呵现在做计算都是采取薄利多销政策，几十甚至几百个core一起上。
: 再慢的CPU也耐不住数量多
: 唯一的缺点是并行多了，内存吃得快，100多G的内存一下就没了，所以得不时监视一下
: 进程

w********i
发帖数: 389

请问R可以在HPC用并行么？我听说好像不行啊。

(共1页)

进入Statistics版参与讨论

相关主题
● SQL find distinct values in large table (转载)	● R function to tabulate a matrix
● 怎样利用AWS在R里面做一个大数据的分析？ (转载)	● R data.frame
● Memory Error in pandas.concat with Python	● one quick question in SAS, thank you!!
● [合集] 问excel牛人一个问题	● 请教...
● 请教如何分割较大的data	● 借人气问一个Excel sampling 问题 (转载)
● 问个r问题	● sas question
● [合集] excel并行一问，急～～～	● 问一个SAS format的问题，看似简单
● Urgent R Question	● Sas问题, 有包子

相关话题的讨论汇总
话题: fread话题: gb话题: several话题: 14gb话题: skip

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天