由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 请教一个python(pandas)的效率问题
相关主题
python pandas DataFrame的index为什么是日期而不是integer inhow to assign new value to loop variables?
Pandas DataFrame: how to plot candlestick with datetime xlabels?LabVIEW问题:对高手来说很简单!
Java码农转data science行业,有没有一起的 (转载)请教一道练习题(C,OS)
pandas 作者:Apache Arrow and the "10 Things I Hate About pandas"【包子求助】20M*20M的loop怎么搞?
一两个million的时间序列在spark上怎么分析如何实现N层循环嵌套
dataframe和SQL最大区别是什么呢好东西周报 2015-02-22
一般操作很多的数据用什么数据结构?Spark已经out了,能跳船的赶快
想自己搞一light weight in memory数据库in C#,求教有人上Spark用python API的么
相关话题的讨论汇总
话题: pandas话题: timeit话题: loop话题: per话题: best
进入Programming版参与讨论
1 (共1页)
x******a
发帖数: 6336
1
我有一个MultiIndex的pandas DataFrame df
df.shape=(3000, 800)
1. %timeit df.groupby(level=['a','b']).aggregate(scipy.stats.nanmedian)
的结果是best of 3: 39.9 s per loop
2. %timeit df.groupby(level=['a', 'b']).median()
的结果是best of 3: 113 ms per loop
差了大概400倍。
我想要用一个自己定义的函数winsorized_mean.试了第一种,best of 3: 1 min 41s
per loop.请问可以怎么改进?
多谢!
1 (共1页)
进入Programming版参与讨论
相关主题
有人上Spark用python API的么一两个million的时间序列在spark上怎么分析
python数据处理的一个问题dataframe和SQL最大区别是什么呢
pandas.DataReader() 的return type不是DataFrame ? (转载)一般操作很多的数据用什么数据结构?
单机学习spark/hadoop的方案?想自己搞一light weight in memory数据库in C#,求教
python pandas DataFrame的index为什么是日期而不是integer inhow to assign new value to loop variables?
Pandas DataFrame: how to plot candlestick with datetime xlabels?LabVIEW问题:对高手来说很简单!
Java码农转data science行业,有没有一起的 (转载)请教一道练习题(C,OS)
pandas 作者:Apache Arrow and the "10 Things I Hate About pandas"【包子求助】20M*20M的loop怎么搞?
相关话题的讨论汇总
话题: pandas话题: timeit话题: loop话题: per话题: best