由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 请教如何分割较大的data
相关主题
R能读多大的数据? 14GB?one quick question in SAS, thank you!!
如何在R 里 提高读取大数据的速度请教...
如何用R处理大文件借人气问一个Excel sampling 问题 (转载)
怎样利用AWS在R里面做一个大数据的分析? (转载)sas question
问个r问题问一个SAS format的问题,看似简单
Urgent R QuestionSas问题, 有包子
R function to tabulate a matrix[R] a row of a matrix is not a matrix?
R data.framecount unique values in file with 1 million rows
相关话题的讨论汇总
话题: use话题: fread话题: read话题: 5g话题: 分割
进入Statistics版参与讨论
1 (共1页)
u*******r
发帖数: 2855
1
源文件txt大概5G左右,如何把它分割成100-200M的txt文件?自己的电脑读不了很大的
文件,网上找了一下一些都不work。谢谢
S******y
发帖数: 1123
2
There are several a ways depending on context and your environment
1) use Python to read / process line by line (instead of reading everything
into memory upfront )
2) use Hadoop
3) use Revolutionary R
u*******r
发帖数: 2855
3
谢谢
目前只会R,有没有什么软件能够比较方便的做这个事情?

everything

【在 S******y 的大作中提到】
: There are several a ways depending on context and your environment
: 1) use Python to read / process line by line (instead of reading everything
: into memory upfront )
: 2) use Hadoop
: 3) use Revolutionary R

l****i
发帖数: 398
4
用data.table下的fread函数。我读过一个5g多的数据,才2:30秒。对data.table的读
取速度比较满意。
system.time(DT <- fread("201403-201406_with_tv_market.csv"))
Read 16221666 rows and 29 (of 29) columns from 5.380 GB file in 00:02:30
user system elapsed
137.17 3.48 149.70
g******2
发帖数: 234
5
is your system linux? if yes, use "split -b 100m yourfile.txt"
1 (共1页)
进入Statistics版参与讨论
相关主题
count unique values in file with 1 million rows问个r问题
在python下做统计计算, 大家是用python的包还是r的?Urgent R Question
SQL find distinct values in large table (转载)R function to tabulate a matrix
Memory Error in pandas.concat with PythonR data.frame
R能读多大的数据? 14GB?one quick question in SAS, thank you!!
如何在R 里 提高读取大数据的速度请教...
如何用R处理大文件借人气问一个Excel sampling 问题 (转载)
怎样利用AWS在R里面做一个大数据的分析? (转载)sas question
相关话题的讨论汇总
话题: use话题: fread话题: read话题: 5g话题: 分割