请教一个python(pandas)的效率问题 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 请教一个python(pandas)的效率问题

相关主题
● python pandas DataFrame的index为什么是日期而不是integer in	● how to assign new value to loop variables?
● Pandas DataFrame: how to plot candlestick with datetime xlabels?	● LabVIEW问题：对高手来说很简单！
● Java码农转data science行业，有没有一起的 (转载)	● 请教一道练习题（C，OS）
● pandas 作者：Apache Arrow and the "10 Things I Hate About pandas"	● 【包子求助】20M*20M的loop怎么搞？
● 一两个million的时间序列在spark上怎么分析	● 如何实现N层循环嵌套
● dataframe和SQL最大区别是什么呢	● 好东西周报 2015-02-22
● 一般操作很多的数据用什么数据结构？	● Spark已经out了，能跳船的赶快
● 想自己搞一light weight in memory数据库in C#，求教	● 有人上Spark用python API的么

相关话题的讨论汇总
话题: pandas话题: timeit话题: loop话题: per话题: best

进入Programming版参与讨论

(共1页)

x******a
发帖数: 6336

我有一个MultiIndex的pandas DataFrame df
df.shape=(3000, 800)
1. %timeit df.groupby(level=['a','b']).aggregate(scipy.stats.nanmedian)
的结果是best of 3: 39.9 s per loop
2. %timeit df.groupby(level=['a', 'b']).median()
的结果是best of 3: 113 ms per loop
差了大概400倍。
我想要用一个自己定义的函数winsorized_mean.试了第一种，best of 3: 1 min 41s
per loop.请问可以怎么改进?
多谢！

(共1页)

进入Programming版参与讨论

相关主题
● 有人上Spark用python API的么	● 一两个million的时间序列在spark上怎么分析
● python数据处理的一个问题	● dataframe和SQL最大区别是什么呢
● pandas.DataReader() 的return type不是DataFrame ? (转载)	● 一般操作很多的数据用什么数据结构？
● 单机学习spark/hadoop的方案？	● 想自己搞一light weight in memory数据库in C#，求教
● python pandas DataFrame的index为什么是日期而不是integer in	● how to assign new value to loop variables?
● Pandas DataFrame: how to plot candlestick with datetime xlabels?	● LabVIEW问题：对高手来说很简单！
● Java码农转data science行业，有没有一起的 (转载)	● 请教一道练习题（C，OS）
● pandas 作者：Apache Arrow and the "10 Things I Hate About pandas"	● 【包子求助】20M*20M的loop怎么搞？

相关话题的讨论汇总
话题: pandas话题: timeit话题: loop话题: per话题: best

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天