R 问题请教 - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - R 问题请教

相关主题
● 问个R的问题	● Re: 请问大数据问题和以前的数据挖掘有什么区别？ (转载)
● kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?	● 什么叫做大数据？
● 如何证明某个feature 没用，分组的分布和总体分布相同	● [Data Science Project Case] Topic Learning
● Science上新clustering算法的分析测试	● 请教各位DS大拿
● 请教一道概率题	● 这个cassandra paging的解决方案怎么样？
● leetcode 里的在两个sorted array里找median 得问题，是不是有什么trick？	● 板上R高手多，包子求R数据输出到CSV方法
● 有没有用地址查询school zone （最好是score）和crime rate的API啊？	● sort a matrix (1M rows x 100 columns) for each row in GPU
● training dataset和unbalanced dataset的设计	● R问题请教

相关话题的讨论汇总
话题: mean话题: rate话题: min话题: max话题: crime

进入DataSciences版参与讨论

1

(共1页)

r****5 发帖数: 618	1 data是这样的 house_value Crime_Rate Charles_river_bound num_of_rooms dist_to_employment_ center property_tax_rate 1 240000 0.00632 No 7 4.0900 296 2 216000 0.02731 No 6 4.9671 242 3 347000 0.02729 No 7 4.9671 242 4 334000 0.03237 No 7 6.0622 222 5 362000 0.06905 No 7 6.0622 222 输出结果是 mean min max house_value 444 23 4445 Crime_Rate 23 1 99 ----- 就是说将columns求mean后在以row的形式输出。这个怎么实现？谢谢
f***8 发帖数: 571	2 t(apply(mtcars, 2, summary))[, c(4,1,6)] # If all columns are numeric t(apply(mtcars[, sapply(mtcars, is.numeric)], 2, summary))[, c(4,1,6)] # If not sure Output: Mean Min. Max. mpg 20.0900 10.400 33.900 cyl 6.1880 4.000 8.000 disp 230.7000 71.100 472.000 hp 146.7000 52.000 335.000 drat 3.5970 2.760 4.930 wt 3.2170 1.513 5.424 qsec 17.8500 14.500 22.900 vs 0.4375 0.000 1.000 am 0.4062 0.000 1.000 gear 3.6880 3.000 5.000 carb 2.8120 1.000 8.000
r****5 发帖数: 618	3 非常感谢，我用 Mean<-round(colMeans(subhw),2) Median<-round(apply(subhw,2,median),2) 。。。。然后用data.frame（Mean，Median。。）看来是非常繁琐，你的简单多了。如果我要加入ID和名字，尤其是ID，用原来的column的col number。例如，1 ，2，3 （1，2，3对应的是column的位置，怎么来实现？如果我要再加入一个col，用来检查是否有missing data。这个怎么加到你的里面？这里你根据summary里的排列列出min， max，如果要给中间插入一个col如sdev，就像下面的一样。好像就不能用t（apply。。。太多问题了，就想把它弄明白。 ID name Mean sdev Min. Max. missing :1 mpg 20.0900 0.4 10.400 33.900 1 :2 cyl 6.1880 0.2 4.000 8.000 2 :3 disp 230.7000 0.1 71.100 472.000 3 :4 hp 146.7000 0.05 52.000 335.000 0 :5 drat 3.5970 0.2 2.760 4.930 1 If 【在 f***8 的大作中提到】 : t(apply(mtcars, 2, summary))[, c(4,1,6)] # If all columns are numeric : t(apply(mtcars[, sapply(mtcars, is.numeric)], 2, summary))[, c(4,1,6)] # If : not sure : Output: : Mean Min. Max. : mpg 20.0900 10.400 33.900 : cyl 6.1880 4.000 8.000 : disp 230.7000 71.100 472.000 : hp 146.7000 52.000 335.000 : drat 3.5970 2.760 4.930
r****5 发帖数: 618	4 This is fantastic. But is t() a function. I tried to fund its use, couldn 't find it. If 【在 f***8 的大作中提到】 : t(apply(mtcars, 2, summary))[, c(4,1,6)] # If all columns are numeric : t(apply(mtcars[, sapply(mtcars, is.numeric)], 2, summary))[, c(4,1,6)] # If : not sure : Output: : Mean Min. Max. : mpg 20.0900 10.400 33.900 : cyl 6.1880 4.000 8.000 : disp 230.7000 71.100 472.000 : hp 146.7000 52.000 335.000 : drat 3.5970 2.760 4.930
j****6 发帖数: 19	5 看看这里http://www.statmethods.net/stats/descriptives.html psych package里的describe()好像最符合你要求。 library(psych) describe(mydata) # item name ,item number, nvalid, mean, sd, # median, mad, min, max, skew, kurtosis, se t()是用来进行matrix transpose的
f***8 发帖数: 571	6 可以用apply(df, 2, function(x) ...) 比如 t(apply(mtcars, 2, function(x) c(summary(x)[c(4,1,6)], Stdev=sd(x), Missing=sum(is.na(x))))) 3 【在 r****5 的大作中提到】 : 非常感谢，我用 : Mean<-round(colMeans(subhw),2) : Median<-round(apply(subhw,2,median),2) : 。。。。 : 然后用data.frame（Mean，Median。。）看来是非常繁琐，你的简单多了。 : 如果我要加入ID和名字，尤其是ID，用原来的column的col number。例如，1 ，2，3 : （1，2，3对应的是column的位置，怎么来实现？如果我要再加入一个col，用来检查是 : 否有missing data。这个怎么加到你的里面？ : 这里你根据summary里的排列列出min， max，如果要给中间插入一个col如sdev，就像 : 下面的一样。好像就不能用t（apply。。。太多问题了，就想把它弄明白。
r****5 发帖数: 618	7 f0008非常感谢，我用了 t(apply(subhw,2,FUN=function(x) c(Missing=sum(is.na(x)),Mean=mean(x),Median =median(x), sdev=sd(x), Min=min(x), Max=max(x)))) 如果col没有排序要求，你的更简单。原来summary里可以再加其他function，象sd等，我还以为仅仅能用原有的6个呢。还有个问题，就是这个显示print 后再屏幕上有row names，就是原来的col names。但是write。table后就没有了。这样我要再加一个col才行。我在上面的function里加了 mycols=colnames(x)。但是执行后没有显示出来 summary<-t(apply(subhw,2,FUN=function(x) c(mycols=colnames(x),Missing=sum(is .na(x)),Mean=mean(x),Median=median(x), sdev=sd(x), Min=min(x), Max=max(x)))) print(subpart) 我另用mycol然后加入前一个的data.frame。这样可以，但是是不是显得太罗嗦了？ mycols<-colnames(subhw) summarys<-data.frame(mycols,summary) 【在 f***8 的大作中提到】 : 可以用apply(df, 2, function(x) ...) : 比如 t(apply(mtcars, 2, function(x) c(summary(x)[c(4,1,6)], Stdev=sd(x), : Missing=sum(is.na(x))))) : : 3
r****5 发帖数: 618	8 xiexie你！【在 j****6 的大作中提到】 : 看看这里http://www.statmethods.net/stats/descriptives.html : psych package里的describe()好像最符合你要求。 : library(psych) : describe(mydata) : # item name ,item number, nvalid, mean, sd, : # median, mad, min, max, skew, kurtosis, se : t()是用来进行matrix transpose的

1

(共1页)

进入DataSciences版参与讨论

相关主题
● R问题请教	● 请教一道概率题
● 怎样利用AMS在R里面做一个大数据的分析？	● leetcode 里的在两个sorted array里找median 得问题，是不是有什么trick？
● Memory Error in pandas.concat with Python	● 有没有用地址查询school zone （最好是score）和crime rate的API啊？
● 求助：关于2个python的题目	● training dataset和unbalanced dataset的设计
● 问个R的问题	● Re: 请问大数据问题和以前的数据挖掘有什么区别？ (转载)
● kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?	● 什么叫做大数据？
● 如何证明某个feature 没用，分组的分布和总体分布相同	● [Data Science Project Case] Topic Learning
● Science上新clustering算法的分析测试	● 请教各位DS大拿

相关话题的讨论汇总
话题: mean话题: rate话题: min话题: max话题: crime

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)