由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 从今天起开始鼓吹R了
相关主题
python有什么类似Rstudio或者matlab的IDE吗?刚开始看python
越来越觉得spark是nicheHow to use multi-core to speed Python program
有什么语言能取代python作数据处理? R?现在Window下写GUI的话用什么库?
Pandas的作者为何一个MIT的本科生能混得这么风生水起?Python vs J2EE
python画图是不是还是matplotlib?问一个Python thread的问题
Ruby这么好的语言,衰落的也太可惜了。Python is easy and not easy
几年前一个科学预言python的崛起Python大牛说说那本书比较经典呢?
python下的expect单开主题:为何痛恨python
相关话题的讨论汇总
话题: sas话题: python话题: 数据话题: 语言话题: 函数
进入Programming版参与讨论
1 (共1页)
n******7
发帖数: 12463
1
一直到处说R的坏话,设计烂坑多
今天又遇到一个坑,不过是之前的遇过的
很快发现问题搞定了
突然意思到这就是所谓的XX年经验的好处
花了时间吃了亏,也总是有点回报的
如果因为坑多放弃了,就白被坑过了
既然R还在上升期,用户也不少
现在的工作也必须用R
完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
从今天起努力忽悠更多人上船
然后他们遇到坑的时候,就会来找砖家我了
e*******o
发帖数: 4654
2
哈哈
R 现在火的不行 再加上 r studio 傻瓜化 美化你忽悠R 好忽悠的很

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

w********m
发帖数: 1137
3
同意,牛人的正确姿势就是
心里想的和口里说的不一样
g****t
发帖数: 31659
4
这叫flexible

【在 w********m 的大作中提到】
: 同意,牛人的正确姿势就是
: 心里想的和口里说的不一样

p**r
发帖数: 5853
5
这就是开源的盈利模式,
先使劲忽悠人进坑,然后等差不多了,把你们都埋里面,
最后只能求他办事。

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

n*****3
发帖数: 1584
6
r 不太一样, 是 acdemy guys

【在 p**r 的大作中提到】
: 这就是开源的盈利模式,
: 先使劲忽悠人进坑,然后等差不多了,把你们都埋里面,
: 最后只能求他办事。

n******7
发帖数: 12463
7
一样坑
我都被迫买过ggplot的书

【在 n*****3 的大作中提到】
: r 不太一样, 是 acdemy guys
n*****3
发帖数: 1584
8
我是指他们不以赚钱为目的。
rstudio 应该是要赚钱的, 大公司会买

【在 n******7 的大作中提到】
: 一样坑
: 我都被迫买过ggplot的书

m******r
发帖数: 1033
9
此话怎讲 ? 能不能展开说说。
因为我正在自学二语言。 很好奇为什么二会流行。
谢谢。

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

p******e
发帖数: 528
10
我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
那么这种情况下能供用R吗?

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

相关主题
Ruby这么好的语言,衰落的也太可惜了。刚开始看python
几年前一个科学预言python的崛起How to use multi-core to speed Python program
python下的expect现在Window下写GUI的话用什么库?
进入Programming版参与讨论
m******r
发帖数: 1033
11
理论上, 一个字, 能。 而且产品都已经出来了。
但实际上,二语言和bigdata能结合的有多好,能处理多大的数据,有多快, 就很难说
了。

【在 p******e 的大作中提到】
: 我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
: 的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
: 那么这种情况下能供用R吗?

m******r
发帖数: 1033
12
理论上, 一个字, 能。 而且产品都已经出来了。
但实际上,二语言和bigdata能结合的有多好,能处理多大的数据,有多快, 就很难说
了。

【在 p******e 的大作中提到】
: 我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
: 的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
: 那么这种情况下能供用R吗?

n******7
发帖数: 12463
13
说说我的理解
R流行有历史原因和自己的原因
本来R是作为S的开源版本出现的 (R在S前面)
自然做统计的人关注
R的核心数据结构是data frame 这个做数据分析太方便了
python的pandas就是python版的data frame 实现
R绘制静态2D图的质量是常见工具里面最好的 (最近几年python的工具也不错)
而visualization是做统计的人了解data关键
综合在一起就导致了一个结果:几乎天下所有的统计方法都有R的实现
这个就绕不过去了:)

【在 m******r 的大作中提到】
: 此话怎讲 ? 能不能展开说说。
: 因为我正在自学二语言。 很好奇为什么二会流行。
: 谢谢。

n******7
发帖数: 12463
14
我没用过
不过spark现在已经有R的接口了
类似python,GIL只是对 python/R code自己来说的
调用外部包的时候没有这个限制

【在 p******e 的大作中提到】
: 我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
: 的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
: 那么这种情况下能供用R吗?

m******r
发帖数: 1033
15
i see. 可惜我对作图没兴趣。 平时基本就画两个图,lift chart, gainchart就够用
了。
你觉得r的速度怎么样 ? 有没有一跑跑半天的情况 ?
能处理的数据量大概能有多大? 比如.5g, 1个g, 10个g的数据? R能handle吗 ?

【在 n******7 的大作中提到】
: 说说我的理解
: R流行有历史原因和自己的原因
: 本来R是作为S的开源版本出现的 (R在S前面)
: 自然做统计的人关注
: R的核心数据结构是data frame 这个做数据分析太方便了
: python的pandas就是python版的data frame 实现
: R绘制静态2D图的质量是常见工具里面最好的 (最近几年python的工具也不错)
: 而visualization是做统计的人了解data关键
: 综合在一起就导致了一个结果:几乎天下所有的统计方法都有R的实现
: 这个就绕不过去了:)

l******n
发帖数: 9344
16
r内存管理不好,处理不了大量数据。不过r可以call其他的来做。

【在 m******r 的大作中提到】
: i see. 可惜我对作图没兴趣。 平时基本就画两个图,lift chart, gainchart就够用
: 了。
: 你觉得r的速度怎么样 ? 有没有一跑跑半天的情况 ?
: 能处理的数据量大概能有多大? 比如.5g, 1个g, 10个g的数据? R能handle吗 ?

n*****3
发帖数: 1584
17
你要有 大内存的话, R就能处理大数据

【在 l******n 的大作中提到】
: r内存管理不好,处理不了大量数据。不过r可以call其他的来做。
n******7
发帖数: 12463
18
R的速度很慢,我感觉比python还慢一个数量级
当然我没有时间和动力去系统测试,只是实际使用的感受
之前用过同一个工具,有python和R的wrapper
R跑了一个上午,python跑了30min,我直接调用大概20min
R的原生工具性能普遍很差几年前我读一个比较大的数据
大概几个G吧
用read.table 一个小时都没有动静
换了data.table一分多搞定
这类工具现在挺多的 还有bigmemory什么的
我这几年都想用python取代R,也没深入了解过
其实用好了可以克服R的最大缺陷,还是挺值得学习的

【在 m******r 的大作中提到】
: i see. 可惜我对作图没兴趣。 平时基本就画两个图,lift chart, gainchart就够用
: 了。
: 你觉得r的速度怎么样 ? 有没有一跑跑半天的情况 ?
: 能处理的数据量大概能有多大? 比如.5g, 1个g, 10个g的数据? R能handle吗 ?

s*******e
发帖数: 664
19
R现在在国内也用的很普遍了
l******n
发帖数: 9344
20
你说学校吧?去年国内人大部分公司都一脸懵逼的问啥是r

【在 s*******e 的大作中提到】
: R现在在国内也用的很普遍了
相关主题
Python vs J2EEPython大牛说说那本书比较经典呢?
问一个Python thread的问题单开主题:为何痛恨python
Python is easy and not easypython太慢了
进入Programming版参与讨论
e*******o
发帖数: 4654
21
国内R 大会都火了好多年了
推广R 的大牛 yihui xie 就是国内出来的
我在国内本科的时候都自己折腾R了

【在 l******n 的大作中提到】
: 你说学校吧?去年国内人大部分公司都一脸懵逼的问啥是r
l******n
发帖数: 9344
22
google了一下,13毕业后在rstudio工作,推广r也很正常。你年纪看来挺小,本科r就出
来了

【在 e*******o 的大作中提到】
: 国内R 大会都火了好多年了
: 推广R 的大牛 yihui xie 就是国内出来的
: 我在国内本科的时候都自己折腾R了

m******r
发帖数: 1033
23
xie好像是人大的。特别喜欢琢磨图形,字体这些东西。
对了 还有统计。
起初我挺不理解,不是搞美术的为什么会琢么字体。 后来想想kunth,job steven这些
人,说明人家有天分。

【在 l******n 的大作中提到】
: google了一下,13毕业后在rstudio工作,推广r也很正常。你年纪看来挺小,本科r就出
: 来了

e*******o
发帖数: 4654
24
他出国前就小有名气了
可能不如王有才 但是要踏实的多 混得也好一些
关于语言 他写了个formatR 跟王做的领域也有交集

【在 m******r 的大作中提到】
: xie好像是人大的。特别喜欢琢磨图形,字体这些东西。
: 对了 还有统计。
: 起初我挺不理解,不是搞美术的为什么会琢么字体。 后来想想kunth,job steven这些
: 人,说明人家有天分。

m******r
发帖数: 1033
25
反正都是牛人。 国内用过R的,就捧谢益辉;用sas的,就捧胡江堂。
我正在自学R,根本就是狗p不通嘛。 尤其看到R里面的summary function, 更是每天
问候他们家人800遍。这个函数在R里面只给出5个固定的centile,连多少missing vaule
也捂着不让我看。 想看看一串数里面小数有多小,大数有多大? 嗨,也是藏着掖着。
相比之下,sas proc summary就牛逼多了。 精通这么一个函数,或者叫过程步,单变
量的问题基本没什么解决不了的。 各种古怪的descriptive stat,各种data rollup ,
基本上就这么一个函数一网打尽。 这么说吧,sql能干的, summary也都能干。 用
起来心里这个叫敞亮。

【在 e*******o 的大作中提到】
: 他出国前就小有名气了
: 可能不如王有才 但是要踏实的多 混得也好一些
: 关于语言 他写了个formatR 跟王做的领域也有交集

t****g
发帖数: 120
26
SAS/IML里可以调用R。这里有个链接,是关于Free training course: SAS
Programming for R Users,http://blogs.sas.com/content/sastraining/2016/09/26/free-training-course-sas-programming-for-r-users/
m******r
发帖数: 1033
27
iml是很小众的东西,不是sas的精华。 处理数据方面不建议使用。 除非你做个什么优
化,解方程之类。

【在 t****g 的大作中提到】
: SAS/IML里可以调用R。这里有个链接,是关于Free training course: SAS
: Programming for R Users,http://blogs.sas.com/content/sastraining/2016/09/26/free-training-course-sas-programming-for-r-users/

T*******e
发帖数: 249
28
你这个说法非常不全面,R让你感觉慢是因为很多人用法不对,你拿for loop进R里搞那
肯定不行的。 活用几个apply去vectorize你的东西才能体现R的真实速度。 当然R确实
在parallel方面有问题。

【在 n******7 的大作中提到】
: R的速度很慢,我感觉比python还慢一个数量级
: 当然我没有时间和动力去系统测试,只是实际使用的感受
: 之前用过同一个工具,有python和R的wrapper
: R跑了一个上午,python跑了30min,我直接调用大概20min
: R的原生工具性能普遍很差几年前我读一个比较大的数据
: 大概几个G吧
: 用read.table 一个小时都没有动静
: 换了data.table一分多搞定
: 这类工具现在挺多的 还有bigmemory什么的
: 我这几年都想用python取代R,也没深入了解过

T*******e
发帖数: 249
29
chuanhai liu那个supR 搞完了就可能给R一个相当大的提升。
n******7
发帖数: 12463
30
一直到处说R的坏话,设计烂坑多
今天又遇到一个坑,不过是之前的遇过的
很快发现问题搞定了
突然意思到这就是所谓的XX年经验的好处
花了时间吃了亏,也总是有点回报的
如果因为坑多放弃了,就白被坑过了
既然R还在上升期,用户也不少
现在的工作也必须用R
完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
从今天起努力忽悠更多人上船
然后他们遇到坑的时候,就会来找砖家我了
相关主题
有人熟悉Python里的threading吗越来越觉得spark是niche
别人说做Python的并行还不如去学C++,我不同意。有什么语言能取代python作数据处理? R?
python有什么类似Rstudio或者matlab的IDE吗?Pandas的作者为何一个MIT的本科生能混得这么风生水起?
进入Programming版参与讨论
e*******o
发帖数: 4654
31
哈哈
R 现在火的不行 再加上 r studio 傻瓜化 美化你忽悠R 好忽悠的很

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

w********m
发帖数: 1137
32
同意,牛人的正确姿势就是
心里想的和口里说的不一样
g****t
发帖数: 31659
33
这叫flexible

【在 w********m 的大作中提到】
: 同意,牛人的正确姿势就是
: 心里想的和口里说的不一样

p**r
发帖数: 5853
34
这就是开源的盈利模式,
先使劲忽悠人进坑,然后等差不多了,把你们都埋里面,
最后只能求他办事。

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

n*****3
发帖数: 1584
35
r 不太一样, 是 acdemy guys

【在 p**r 的大作中提到】
: 这就是开源的盈利模式,
: 先使劲忽悠人进坑,然后等差不多了,把你们都埋里面,
: 最后只能求他办事。

n******7
发帖数: 12463
36
一样坑
我都被迫买过ggplot的书

【在 n*****3 的大作中提到】
: r 不太一样, 是 acdemy guys
n*****3
发帖数: 1584
37
我是指他们不以赚钱为目的。
rstudio 应该是要赚钱的, 大公司会买

【在 n******7 的大作中提到】
: 一样坑
: 我都被迫买过ggplot的书

m******r
发帖数: 1033
38
此话怎讲 ? 能不能展开说说。
因为我正在自学二语言。 很好奇为什么二会流行。
谢谢。

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

p******e
发帖数: 528
39
我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
那么这种情况下能供用R吗?

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

m******r
发帖数: 1033
40
理论上, 一个字, 能。 而且产品都已经出来了。
但实际上,二语言和bigdata能结合的有多好,能处理多大的数据,有多快, 就很难说
了。

【在 p******e 的大作中提到】
: 我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
: 的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
: 那么这种情况下能供用R吗?

相关主题
Pandas的作者为何一个MIT的本科生能混得这么风生水起?几年前一个科学预言python的崛起
python画图是不是还是matplotlib?python下的expect
Ruby这么好的语言,衰落的也太可惜了。刚开始看python
进入Programming版参与讨论
n******7
发帖数: 12463
41
说说我的理解
R流行有历史原因和自己的原因
本来R是作为S的开源版本出现的 (R在S前面)
自然做统计的人关注
R的核心数据结构是data frame 这个做数据分析太方便了
python的pandas就是python版的data frame 实现
R绘制静态2D图的质量是常见工具里面最好的 (最近几年python的工具也不错)
而visualization是做统计的人了解data关键
综合在一起就导致了一个结果:几乎天下所有的统计方法都有R的实现
这个就绕不过去了:)

【在 m******r 的大作中提到】
: 此话怎讲 ? 能不能展开说说。
: 因为我正在自学二语言。 很好奇为什么二会流行。
: 谢谢。

n******7
发帖数: 12463
42
我没用过
不过spark现在已经有R的接口了
类似python,GIL只是对 python/R code自己来说的
调用外部包的时候没有这个限制

【在 p******e 的大作中提到】
: 我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
: 的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
: 那么这种情况下能供用R吗?

m******r
发帖数: 1033
43
i see. 可惜我对作图没兴趣。 平时基本就画两个图,lift chart, gainchart就够用
了。
你觉得r的速度怎么样 ? 有没有一跑跑半天的情况 ?
能处理的数据量大概能有多大? 比如.5g, 1个g, 10个g的数据? R能handle吗 ?

【在 n******7 的大作中提到】
: 说说我的理解
: R流行有历史原因和自己的原因
: 本来R是作为S的开源版本出现的 (R在S前面)
: 自然做统计的人关注
: R的核心数据结构是data frame 这个做数据分析太方便了
: python的pandas就是python版的data frame 实现
: R绘制静态2D图的质量是常见工具里面最好的 (最近几年python的工具也不错)
: 而visualization是做统计的人了解data关键
: 综合在一起就导致了一个结果:几乎天下所有的统计方法都有R的实现
: 这个就绕不过去了:)

l******n
发帖数: 9344
44
r内存管理不好,处理不了大量数据。不过r可以call其他的来做。

【在 m******r 的大作中提到】
: i see. 可惜我对作图没兴趣。 平时基本就画两个图,lift chart, gainchart就够用
: 了。
: 你觉得r的速度怎么样 ? 有没有一跑跑半天的情况 ?
: 能处理的数据量大概能有多大? 比如.5g, 1个g, 10个g的数据? R能handle吗 ?

n*****3
发帖数: 1584
45
你要有 大内存的话, R就能处理大数据

【在 l******n 的大作中提到】
: r内存管理不好,处理不了大量数据。不过r可以call其他的来做。
n******7
发帖数: 12463
46
R的速度很慢,我感觉比python还慢一个数量级
当然我没有时间和动力去系统测试,只是实际使用的感受
之前用过同一个工具,有python和R的wrapper
R跑了一个上午,python跑了30min,我直接调用大概20min
R的原生工具性能普遍很差几年前我读一个比较大的数据
大概几个G吧
用read.table 一个小时都没有动静
换了data.table一分多搞定
这类工具现在挺多的 还有bigmemory什么的
我这几年都想用python取代R,也没深入了解过
其实用好了可以克服R的最大缺陷,还是挺值得学习的

【在 m******r 的大作中提到】
: i see. 可惜我对作图没兴趣。 平时基本就画两个图,lift chart, gainchart就够用
: 了。
: 你觉得r的速度怎么样 ? 有没有一跑跑半天的情况 ?
: 能处理的数据量大概能有多大? 比如.5g, 1个g, 10个g的数据? R能handle吗 ?

s*******e
发帖数: 664
47
R现在在国内也用的很普遍了
l******n
发帖数: 9344
48
你说学校吧?去年国内人大部分公司都一脸懵逼的问啥是r

【在 s*******e 的大作中提到】
: R现在在国内也用的很普遍了
e*******o
发帖数: 4654
49
国内R 大会都火了好多年了
推广R 的大牛 yihui xie 就是国内出来的
我在国内本科的时候都自己折腾R了

【在 l******n 的大作中提到】
: 你说学校吧?去年国内人大部分公司都一脸懵逼的问啥是r
l******n
发帖数: 9344
50
google了一下,13毕业后在rstudio工作,推广r也很正常。你年纪看来挺小,本科r就出
来了

【在 e*******o 的大作中提到】
: 国内R 大会都火了好多年了
: 推广R 的大牛 yihui xie 就是国内出来的
: 我在国内本科的时候都自己折腾R了

相关主题
How to use multi-core to speed Python program问一个Python thread的问题
现在Window下写GUI的话用什么库?Python is easy and not easy
Python vs J2EEPython大牛说说那本书比较经典呢?
进入Programming版参与讨论
m******r
发帖数: 1033
51
xie好像是人大的。特别喜欢琢磨图形,字体这些东西。
对了 还有统计。
起初我挺不理解,不是搞美术的为什么会琢么字体。 后来想想kunth,job steven这些
人,说明人家有天分。

【在 l******n 的大作中提到】
: google了一下,13毕业后在rstudio工作,推广r也很正常。你年纪看来挺小,本科r就出
: 来了

e*******o
发帖数: 4654
52
他出国前就小有名气了
可能不如王有才 但是要踏实的多 混得也好一些
关于语言 他写了个formatR 跟王做的领域也有交集

【在 m******r 的大作中提到】
: xie好像是人大的。特别喜欢琢磨图形,字体这些东西。
: 对了 还有统计。
: 起初我挺不理解,不是搞美术的为什么会琢么字体。 后来想想kunth,job steven这些
: 人,说明人家有天分。

m******r
发帖数: 1033
53
反正都是牛人。 国内用过R的,就捧谢益辉;用sas的,就捧胡江堂。
我正在自学R,根本就是狗p不通嘛。 尤其看到R里面的summary function, 更是每天
问候他们家人800遍。这个函数在R里面只给出5个固定的centile,连多少missing vaule
也捂着不让我看。 想看看一串数里面小数有多小,大数有多大? 嗨,也是藏着掖着。
相比之下,sas proc summary就牛逼多了。 精通这么一个函数,或者叫过程步,单变
量的问题基本没什么解决不了的。 各种古怪的descriptive stat,各种data rollup ,
基本上就这么一个函数一网打尽。 这么说吧,sql能干的, summary也都能干。 用
起来心里这个叫敞亮。

【在 e*******o 的大作中提到】
: 他出国前就小有名气了
: 可能不如王有才 但是要踏实的多 混得也好一些
: 关于语言 他写了个formatR 跟王做的领域也有交集

t****g
发帖数: 120
54
SAS/IML里可以调用R。这里有个链接,是关于Free training course: SAS
Programming for R Users,http://blogs.sas.com/content/sastraining/2016/09/26/free-training-course-sas-programming-for-r-users/
m******r
发帖数: 1033
55
iml是很小众的东西,不是sas的精华。 处理数据方面不建议使用。 除非你做个什么优
化,解方程之类。

【在 t****g 的大作中提到】
: SAS/IML里可以调用R。这里有个链接,是关于Free training course: SAS
: Programming for R Users,http://blogs.sas.com/content/sastraining/2016/09/26/free-training-course-sas-programming-for-r-users/

T*******e
发帖数: 249
56
你这个说法非常不全面,R让你感觉慢是因为很多人用法不对,你拿for loop进R里搞那
肯定不行的。 活用几个apply去vectorize你的东西才能体现R的真实速度。 当然R确实
在parallel方面有问题。

【在 n******7 的大作中提到】
: R的速度很慢,我感觉比python还慢一个数量级
: 当然我没有时间和动力去系统测试,只是实际使用的感受
: 之前用过同一个工具,有python和R的wrapper
: R跑了一个上午,python跑了30min,我直接调用大概20min
: R的原生工具性能普遍很差几年前我读一个比较大的数据
: 大概几个G吧
: 用read.table 一个小时都没有动静
: 换了data.table一分多搞定
: 这类工具现在挺多的 还有bigmemory什么的
: 我这几年都想用python取代R,也没深入了解过

T*******e
发帖数: 249
57
chuanhai liu那个supR 搞完了就可能给R一个相当大的提升。
m*****n
发帖数: 3575
58
活用几个apply去vectorize你的东西才能体现R的真实速度。
apply有那么牛逼吗?
r*g
发帖数: 3159
59
这是扯。apply 就是for loop的wrapper,语法糖而已。
当然我七八年不用r了,也许情况有变,那就请贴benchmark.

【在 m*****n 的大作中提到】
: 活用几个apply去vectorize你的东西才能体现R的真实速度。
: apply有那么牛逼吗?

d******c
发帖数: 2407
60
没错,apply没什么神奇效果,最多就是减少了一些函数调用开销,一般for loop慢往
往是用的人没有经验,最常见的问题就是每次循环去增长一个数据结构,而不是事先定
好大小初始化好。
真正神奇的是找到对应的vectorized的函数,如果有的话,一般都提高性能10倍以上。
反正真正性能关键的就用C实现然后R wrap就是了,都应该这么办。data.table就是快
在这里。

【在 r*g 的大作中提到】
: 这是扯。apply 就是for loop的wrapper,语法糖而已。
: 当然我七八年不用r了,也许情况有变,那就请贴benchmark.

相关主题
单开主题:为何痛恨python别人说做Python的并行还不如去学C++,我不同意。
python太慢了python有什么类似Rstudio或者matlab的IDE吗?
有人熟悉Python里的threading吗越来越觉得spark是niche
进入Programming版参与讨论
w********2
发帖数: 632
61
I used R about 10 years ago. It was cutting edge. Now it is getting
mainstream. Its key advantage is its free open source culture. Beats sas,
spas, stat, etc. But requires more coding experience, and then more flexible
than SAS.
w********2
发帖数: 632
62
I used R about 10 years ago. It was cutting edge. Now it is getting
mainstream. Its key advantage is its free open source culture. Beats sas,
spas, stat, etc. But requires more coding experience, and then more flexible
than SAS.
n******7
发帖数: 12463
63
如同rgg说的
apply家族并不能提升速度,只是一个语法糖
这可能是关于R最大的一个误解了,当年别人也是这么跟我说的
结果写啥都想apply,有时候真是画猫不成
直到后来看到stackoverflow的一个讨论才发现自己傻了很多年
R的parallel其实还可以
最近用过两个R的parallel包,其中一个在linux下面还可以多线程
基本都是把apply函数替换一下就好

【在 T*******e 的大作中提到】
: 你这个说法非常不全面,R让你感觉慢是因为很多人用法不对,你拿for loop进R里搞那
: 肯定不行的。 活用几个apply去vectorize你的东西才能体现R的真实速度。 当然R确实
: 在parallel方面有问题。

n******7
发帖数: 12463
64
是的
R炼狱 这本书里面讲了很多这种细节
强烈推荐

【在 d******c 的大作中提到】
: 没错,apply没什么神奇效果,最多就是减少了一些函数调用开销,一般for loop慢往
: 往是用的人没有经验,最常见的问题就是每次循环去增长一个数据结构,而不是事先定
: 好大小初始化好。
: 真正神奇的是找到对应的vectorized的函数,如果有的话,一般都提高性能10倍以上。
: 反正真正性能关键的就用C实现然后R wrap就是了,都应该这么办。data.table就是快
: 在这里。

f*********r
发帖数: 30
65
R的并行计算挺方便的,parallel,doparallel,foreach
有些库自身就提供并行化计算,比如forecast,caret
apply系列并不真的并行化,只是写code简介
vectorization有一定帮助,但是不解决根本问题
最终要想性能上去还是要用c/c++写库然后wrap
R的最大优势就是几乎所有最新的统计算法都能第一时间登陆这个平台
R唯一的缺憾是只能内存操作,但是现在也有大数据平台的接口和用硬盘做swap的库
另一个之前的午后是深度学习库,现在mxnet有Amazon撑腰了,而且对R的支持还不错。
d******c
发帖数: 2407
66
这本书是我接触R一开始就看的
我现在觉得,用什么东西先去找个靠谱的负面意见看看,如果看了之后,了解了缺点仍
然还用它,就比较可靠了,证明它的优点的确是超过缺点。
R的很多误会是它比较特别,很多和习惯不一样,了解多了以后会发现它语言设计有不
少聪明的地方。
灵活,表达力强,适合wrap各种库,有个不错包管理系统,自己写包也容易
生命力会很强

【在 n******7 的大作中提到】
: 是的
: R炼狱 这本书里面讲了很多这种细节
: 强烈推荐

g****t
发帖数: 31659
67
就怕技能点加了洗不掉啊。


: 这本书是我接触R一开始就看的

: 我现在觉得,用什么东西先去找个靠谱的负面意见看看,如果看了之后,了解了
缺点仍

: 然还用它,就比较可靠了,证明它的优点的确是超过缺点。

: R的很多误会是它比较特别,很多和习惯不一样,了解多了以后会发现它语言设
计有不

: 少聪明的地方。

: 灵活,表达力强,适合wrap各种库,有个不错包管理系统,自己写包也容易

: 生命力会很强



【在 d******c 的大作中提到】
: 这本书是我接触R一开始就看的
: 我现在觉得,用什么东西先去找个靠谱的负面意见看看,如果看了之后,了解了缺点仍
: 然还用它,就比较可靠了,证明它的优点的确是超过缺点。
: R的很多误会是它比较特别,很多和习惯不一样,了解多了以后会发现它语言设计有不
: 少聪明的地方。
: 灵活,表达力强,适合wrap各种库,有个不错包管理系统,自己写包也容易
: 生命力会很强

n******7
发帖数: 12463
68
很多流行build都加了这个点
你怕啥?
倒是你加的emacs julia啥的点废掉的可能性更大

【在 g****t 的大作中提到】
: 就怕技能点加了洗不掉啊。
:
:
: 这本书是我接触R一开始就看的
:
: 我现在觉得,用什么东西先去找个靠谱的负面意见看看,如果看了之后,了解了
: 缺点仍
:
: 然还用它,就比较可靠了,证明它的优点的确是超过缺点。
:
: R的很多误会是它比较特别,很多和习惯不一样,了解多了以后会发现它语言设
: 计有不
:
: 少聪明的地方。
:
: 灵活,表达力强,适合wrap各种库,有个不错包管理系统,自己写包也容易

m******r
发帖数: 1033
69
这本书我没有搜到。 能给个链接吗?

【在 n******7 的大作中提到】
: 是的
: R炼狱 这本书里面讲了很多这种细节
: 强烈推荐

n******7
发帖数: 12463
70
http://www.burns-stat.com/pages/Tutor/R_inferno.pdf

【在 m******r 的大作中提到】
: 这本书我没有搜到。 能给个链接吗?
相关主题
越来越觉得spark是nichepython画图是不是还是matplotlib?
有什么语言能取代python作数据处理? R?Ruby这么好的语言,衰落的也太可惜了。
Pandas的作者为何一个MIT的本科生能混得这么风生水起?几年前一个科学预言python的崛起
进入Programming版参与讨论
c******o
发帖数: 1184
71
up
vectorized是R for loop 的大杀器,可以快10倍

【在 d******c 的大作中提到】
: 没错,apply没什么神奇效果,最多就是减少了一些函数调用开销,一般for loop慢往
: 往是用的人没有经验,最常见的问题就是每次循环去增长一个数据结构,而不是事先定
: 好大小初始化好。
: 真正神奇的是找到对应的vectorized的函数,如果有的话,一般都提高性能10倍以上。
: 反正真正性能关键的就用C实现然后R wrap就是了,都应该这么办。data.table就是快
: 在这里。

s*********h
发帖数: 6288
72
我小菜鸟一个,用着R一直不太习惯他的environment的概念。
从S3到S4的转化感觉让语法更加混乱……
d******c
发帖数: 2407
73
大部分时候S3就够了
environment概念挺好啊,有个namespace
看javascript这方面才叫恶心,函数定义可以放到调用后面

【在 s*********h 的大作中提到】
: 我小菜鸟一个,用着R一直不太习惯他的environment的概念。
: 从S3到S4的转化感觉让语法更加混乱……

s*********h
发帖数: 6288
74
R的namespace让人头疼啊。
一次只能加一整个library,不能import 一个函数。
经常导致namespace污染严重,还要加XXX::XXXfunc这样,感觉非常麻烦。

【在 d******c 的大作中提到】
: 大部分时候S3就够了
: environment概念挺好啊,有个namespace
: 看javascript这方面才叫恶心,函数定义可以放到调用后面

d******c
发帖数: 2407
75
https://github.com/smbache/import

【在 s*********h 的大作中提到】
: R的namespace让人头疼啊。
: 一次只能加一整个library,不能import 一个函数。
: 经常导致namespace污染严重,还要加XXX::XXXfunc这样,感觉非常麻烦。

n******t
发帖数: 4406
76
您倒底想說什麼。。。

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

d******c
发帖数: 2407
77
没有完美的语言,喜欢的语言不一定能赚钱,为了赚钱,换个角度把语言缺点变成自己
的优势。

【在 n******t 的大作中提到】
: 您倒底想說什麼。。。
n******t
发帖数: 4406
78
R就是一個統計軟件,其實就是個開源版本的S, 不是一個serious programming
language,作為一個統計軟件,其實還算不錯的了,但是因為用的人多,硬要用它去做
一些它本來就不合適的事情,類似load一個巨大的數據表,那是用的人的問題。

【在 d******c 的大作中提到】
: 没有完美的语言,喜欢的语言不一定能赚钱,为了赚钱,换个角度把语言缺点变成自己
: 的优势。

d******c
发帖数: 2407
79
多大算巨大?比内存小就问题不大,data.table专门对付这个。
什么算合适?什么语言更合适这种任务?实际上还看你要干什么,要干的事情有没有现
成并且好用的库。
不具体比较这些来讨论合不合适没有意义。

【在 n******t 的大作中提到】
: R就是一個統計軟件,其實就是個開源版本的S, 不是一個serious programming
: language,作為一個統計軟件,其實還算不錯的了,但是因為用的人多,硬要用它去做
: 一些它本來就不合適的事情,類似load一個巨大的數據表,那是用的人的問題。

d******c
发帖数: 2407
80
R其实是一个很好的接口软件,去连接各种包,各种服务,表达力很强,封装很好。而
且包的发布,安装都做得不错,这是个巨大的优点。
任何事情如果性能要求高,用底层的写然后用R封装就是了。

【在 n******t 的大作中提到】
: R就是一個統計軟件,其實就是個開源版本的S, 不是一個serious programming
: language,作為一個統計軟件,其實還算不錯的了,但是因為用的人多,硬要用它去做
: 一些它本來就不合適的事情,類似load一個巨大的數據表,那是用的人的問題。

相关主题
python下的expect现在Window下写GUI的话用什么库?
刚开始看pythonPython vs J2EE
How to use multi-core to speed Python program问一个Python thread的问题
进入Programming版参与讨论
w********m
发帖数: 1137
81
R没有collection,比如hash map,priority queue。有想法找不到数据结构实现。
另外,jetbrain没有为它开发ide。现在的ide都太儿戏了。
n******t
发帖数: 4406
82
嗯,我說的不是這個意思。我要說的就是,R這樣的軟件,就是面向用戶的,而不是開
發者。去問“多大算巨大”,或者“比內存大還是內存小”這樣的問題就沒有意義。問
這樣的問題還知道怎麼解決的,恐怕不會用R去解決這種問題,問這樣問題還不懂系統
編程的人,繞來繞去也不會很好地解決這樣的問題。

【在 d******c 的大作中提到】
: 多大算巨大?比内存小就问题不大,data.table专门对付这个。
: 什么算合适?什么语言更合适这种任务?实际上还看你要干什么,要干的事情有没有现
: 成并且好用的库。
: 不具体比较这些来讨论合不合适没有意义。

m***x
发帖数: 492
83

R 能对付几十G的数据的regression了吗?

【在 n******t 的大作中提到】
: 嗯,我說的不是這個意思。我要說的就是,R這樣的軟件,就是面向用戶的,而不是開
: 發者。去問“多大算巨大”,或者“比內存大還是內存小”這樣的問題就沒有意義。問
: 這樣的問題還知道怎麼解決的,恐怕不會用R去解決這種問題,問這樣問題還不懂系統
: 編程的人,繞來繞去也不會很好地解決這樣的問題。

1 (共1页)
进入Programming版参与讨论
相关主题
单开主题:为何痛恨pythonpython画图是不是还是matplotlib?
python太慢了Ruby这么好的语言,衰落的也太可惜了。
有人熟悉Python里的threading吗几年前一个科学预言python的崛起
别人说做Python的并行还不如去学C++,我不同意。python下的expect
python有什么类似Rstudio或者matlab的IDE吗?刚开始看python
越来越觉得spark是nicheHow to use multi-core to speed Python program
有什么语言能取代python作数据处理? R?现在Window下写GUI的话用什么库?
Pandas的作者为何一个MIT的本科生能混得这么风生水起?Python vs J2EE
相关话题的讨论汇总
话题: sas话题: python话题: 数据话题: 语言话题: 函数