如何用python读取大数据 (转载) - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 如何用python读取大数据 (转载)

相关主题
● 谁给说说marketing analysis主要做什么	● R语言在用 read.table 读取 .txt 数据文件时如何去掉第一行？
● 最近捣鼓collaborative filter	● SAS文件读入的问题
● logistic regression on 3 billion records (转载)	● Python能handle了大数据吗？
● sas or python 读取 excel data file	● 分享：从SAS 到 Python 与 R
● [新手求救]怎样输出logistic regression的结果？	● 【旧文重发】 Python and R study guide
● 保险公司technical interview 会怎么问？	● Python:请问如何把list变成structured array。 (转载)
● 是不是好多人都不喜欢编程？	● 如何建立多重变量回归模型？
● Stochastic Gradient Ascent for logistic regression in R -- Convergence problem !	● 请问一个correlation和regression的问题

相关话题的讨论汇总
话题: python话题: 数据话题: 读取话题: 分块话题: logistic

进入Statistics版参与讨论

1

(共1页)

s********n 发帖数: 80	1 【以下文字转载自 DataSciences 讨论区】发信人: seahearman (听海人), 信区: DataSciences 标题: 如何用python读取大数据发信站: BBS 未名空间站 (Tue Jan 27 22:03:06 2015, 美东) 在做一个小项目，数据是50M行，50列，文件大小是10GB。如果用pandas直接读的话，一个是慢，另一个是动不动就 memory error。但是我觉得10GB还算不上大数据，一般如何处理这样的问题呢？的确可以分块读入，然后计算也分块算吗？比如我算个logistic regression，也能支持分块算吗
b**********l 发帖数: 116	2 data.table? 【在 s********n 的大作中提到】 : 【以下文字转载自 DataSciences 讨论区】 : 发信人: seahearman (听海人), 信区: DataSciences : 标题: 如何用python读取大数据 : 发信站: BBS 未名空间站 (Tue Jan 27 22:03:06 2015, 美东) : 在做一个小项目，数据是50M行，50列，文件大小是10GB。如果用pandas直接读的话， : 一个是慢，另一个是动不动就 memory error。 : 但是我觉得10GB还算不上大数据，一般如何处理这样的问题呢？ : 的确可以分块读入，然后计算也分块算吗？比如我算个logistic regression，也能支 : 持分块算吗
S******y 发帖数: 1123	3 我觉的有两个思路 1. 可以先用Python processing by line(s) 挑你需要的或summarized/rolled-up的数据写出来再用pandas 或R做model 2. 如果真需要learn from entire data set 干脆直接上mahout 或者 spark
s*********h 发帖数: 6288	4 要跑logistic可以stochastic gradient descent 【在 s********n 的大作中提到】 : 【以下文字转载自 DataSciences 讨论区】 : 发信人: seahearman (听海人), 信区: DataSciences : 标题: 如何用python读取大数据 : 发信站: BBS 未名空间站 (Tue Jan 27 22:03:06 2015, 美东) : 在做一个小项目，数据是50M行，50列，文件大小是10GB。如果用pandas直接读的话， : 一个是慢，另一个是动不动就 memory error。 : 但是我觉得10GB还算不上大数据，一般如何处理这样的问题呢？ : 的确可以分块读入，然后计算也分块算吗？比如我算个logistic regression，也能支 : 持分块算吗
y******g 发帖数: 26	5 首先，为什么会Memory Error？很显然，你的文件有10G，你的内存有10G吗那怎样用Python读取？很简单，你肯定知道Python的函数有return功能，你进一步了解yield功能就可以了，他可以让你一条一条数据的读取，读取完一个扔掉上一个如何在这种情况使用Logistic Regression？ Logistic Regression是最典型的在线算法，他在任何一个软件里面都是数据一个一个放进去算的，你现在需要编写一个LR

1

(共1页)

进入Statistics版参与讨论

相关主题
● 请问一个correlation和regression的问题	● [新手求救]怎样输出logistic regression的结果？
● 再请教一个numpy的问题	● 保险公司technical interview 会怎么问？
● 问一下python 或者是 R 里面 gradient boosting model 的问题	● 是不是好多人都不喜欢编程？
● 统计SAS大侠请看一下这个图。谢谢了先。	● Stochastic Gradient Ascent for logistic regression in R -- Convergence problem !
● 谁给说说marketing analysis主要做什么	● R语言在用 read.table 读取 .txt 数据文件时如何去掉第一行？
● 最近捣鼓collaborative filter	● SAS文件读入的问题
● logistic regression on 3 billion records (转载)	● Python能handle了大数据吗？
● sas or python 读取 excel data file	● 分享：从SAS 到 Python 与 R

相关话题的讨论汇总
话题: python话题: 数据话题: 读取话题: 分块话题: logistic

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)