由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 有没有SAS/R双修的大牛
相关主题
[合集] analysis of microarray or other highly parallel assay dFDA方法的死穴是什么?
也问一个数据处理的问题(preclinical study)depo 的partner临场变故
找工作几个月了,一个面试也没有。也请大牛帮看简历。ARNA panel
Offer 求建议
相关话题的讨论汇总
话题: sas话题: fda话题: software话题: think
进入Statistics版参与讨论
1 (共1页)
d*******1
发帖数: 854
1
真正比较一下两者的优劣,到底哪一种在工业界更有前景,目前的讨论中,不客气地讲
半瓶醋太多了,比如有人说 R data manipulation 不行, 但也许是你的程序不够优化
呢。有人说SAS 不flexible, 也许是你的SAS知识有限,自然写不出flexible的东西。
f***a
发帖数: 329
2
光说在工业界的应用,sas显然比r用得多吧,多得不是一点两点。唉,我是希望r能开
发得更牛一些,大家都用r的。不喜欢用sas ~_~
h******e
发帖数: 1791
3
我的浅见,SAS是商业化的软件,有质量标准,利于政府监督,所以在工业界更有前景
f***a
发帖数: 329
4
ps:我一个都不牛,打酱油路过的。。。 -_-
m*****8
发帖数: 654
5
看你比较哪方面的优劣。比较价钱还是找工作。。。
s*****n
发帖数: 2174
6
比较这两个没任何意义. 任何软件都有其长处和短处, 各自都有各自的侧重, 没有绝对
的优劣. 至于哪个软件在工业界有前途, 要看你是在什么行业.
举个例子, 比如说冲锋枪和匕首吧, 谁有谁劣呢?
如果你是正规军, 当然要用冲锋枪. 这是用于大规模作战.
如果你是特工刺客, 就要用匕首. 这个用于近身灵活搏斗.
SAS更像冲锋枪. R更像匕首.
t***1
发帖数: 18
7
同意。
不用R,只用sas,不得不说sas的语言设计真的就是sh*t.
顺便鄙视sas的价格,我们这里不少人一年只写几个proc reg要$1000/LICENCE,every
year...
r******k
发帖数: 2
8
True. FDA only accepts the SAS. That's why pharmaceutical industry only use
SAS.
R is well accepted by academic environment.

【在 h******e 的大作中提到】
: 我的浅见,SAS是商业化的软件,有质量标准,利于政府监督,所以在工业界更有前景
: 。

d*******1
发帖数: 854
9
比较还是有意义吧。另外那么多R的package, 质量都怎么样?我用的不多。 我记得有
一次看到bioconductor里一个package是我以前认识的一个哥们写的, 有点被吓到了,
因为那哥们作事啊,呵呵实在不敢恭维.....有没有什么质量监控?

【在 s*****n 的大作中提到】
: 比较这两个没任何意义. 任何软件都有其长处和短处, 各自都有各自的侧重, 没有绝对
: 的优劣. 至于哪个软件在工业界有前途, 要看你是在什么行业.
: 举个例子, 比如说冲锋枪和匕首吧, 谁有谁劣呢?
: 如果你是正规军, 当然要用冲锋枪. 这是用于大规模作战.
: 如果你是特工刺客, 就要用匕首. 这个用于近身灵活搏斗.
: SAS更像冲锋枪. R更像匕首.

c*******o
发帖数: 8869
10
I need to correct you on this point. SAS is a product of private sector and
FDA is a goverment agency. It would even be illegal for a goverment agency
to purposely promote one particular commerical product over another. It is
like FDA REQUIRE viagra exclusively to be prescibed for ED, which would be
ridiculous.
I think you are right in the sense that for many years pharma industry has
well-established infrastrcture based on SAS that meed all the regulatory
requirment. It is the system that FDA h

【在 r******k 的大作中提到】
: True. FDA only accepts the SAS. That's why pharmaceutical industry only use
: SAS.
: R is well accepted by academic environment.

相关主题
depo 的partner临场变故也问一个数据处理的问题(preclinical study)
ARNA panel找工作几个月了,一个面试也没有。也请大牛帮看简历。
[合集] analysis of microarray or other highly parallel assay dOffer 求建议
进入Statistics版参与讨论
o****o
发帖数: 8077
11
many R packages are really garbages, no extensive testing before ppl roll
them out. That's why we write our own packages, or use those written by
established statisticians

【在 d*******1 的大作中提到】
: 比较还是有意义吧。另外那么多R的package, 质量都怎么样?我用的不多。 我记得有
: 一次看到bioconductor里一个package是我以前认识的一个哥们写的, 有点被吓到了,
: 因为那哥们作事啊,呵呵实在不敢恭维.....有没有什么质量监控?

b********y
发帖数: 63
12
SAS in trouble?
I'm going to stick my neck out here about the piece of software that drives
a lot of marketing analysts' work.
SAS is the industry standard software for analysing big databases and, in
all honesty, it should be much better.
The fundamental structure for SAS was put together in 1966 - 1968, with SAS
Institute being incorporated in 1976 and the problem today is that it feels
like a piece of software that has been built up over time. It also feels
like the core of SAS was never desi
f***a
发帖数: 329
13
" Google and Pfizer publicly admit to using R"
is this real news?
sweet~
o****o
发帖数: 8077
14
many hedge funds publicly admit to using R, hehe

【在 f***a 的大作中提到】
: " Google and Pfizer publicly admit to using R"
: is this real news?
: sweet~

o****o
发帖数: 8077
15
co-鄙视sas的价格
I heard SAS charges $6K/seat/Year for its EM modular

【在 t***1 的大作中提到】
: 同意。
: 不用R,只用sas,不得不说sas的语言设计真的就是sh*t.
: 顺便鄙视sas的价格,我们这里不少人一年只写几个proc reg要$1000/LICENCE,every
: year...

q**j
发帖数: 10612
16
3k / yr for gplot. unless you have a huge business, it is not small money
and it deters people's motive to learn

【在 o****o 的大作中提到】
: co-鄙视sas的价格
: I heard SAS charges $6K/seat/Year for its EM modular

o****o
发帖数: 8077
17
you are right. why pay 3K/year for gplot which is nowhere superior than R
which is FREE

【在 q**j 的大作中提到】
: 3k / yr for gplot. unless you have a huge business, it is not small money
: and it deters people's motive to learn

q**j
发帖数: 10612
18
with all due respect, i only think SAS is expensive. I do not think it is
bad. I used gplot before and it works almost the same as R.

【在 o****o 的大作中提到】
: you are right. why pay 3K/year for gplot which is nowhere superior than R
: which is FREE

b********8
发帖数: 3059
19
SAS, preferred
f***a
发帖数: 329
20
why/how SAS can handle huge data set? and what's the reason R can't? can
this limitation possibly be fixed?
相关主题
Offer 求建议ARNA panel
FDA方法的死穴是什么?[合集] analysis of microarray or other highly parallel assay d
depo 的partner临场变故也问一个数据处理的问题(preclinical study)
进入Statistics版参与讨论
w****i
发帖数: 964
21
both are poorly designed from programming view. R is a little better and
has more programming features, but it's still a pain to write R code, and
the documentation sucks too.
s*****n
发帖数: 2174
22
At least it is true for Google.
I know many people at Google are using R, and never heard anyone using SAS.
C++ for hardcore programming.
Python for scripting and most of usual programming.
R for analytics.

【在 f***a 的大作中提到】
: " Google and Pfizer publicly admit to using R"
: is this real news?
: sweet~

f***a
发帖数: 329
23
I don't quite understand why someone says R documentation sux. I think it is
OK. So far I can learn new function/package very well. For some function/
package, you may need related statistical knowledge to understand them well.
s*****n
发帖数: 2174
24
Neither of R and SAS are designed for general programming purpose.
But, R has some programming taste.
SAS is very far from the common understanding on programming.
It is true that some of the R documents are not very good, and R lacks
quality control. However, in all fairness, R is a community based software,
which is contributed by many people without significant return. Just like
Linux.

【在 w****i 的大作中提到】
: both are poorly designed from programming view. R is a little better and
: has more programming features, but it's still a pain to write R code, and
: the documentation sucks too.

q**j
发帖数: 10612
25
Linux is supported by many large companies, so we can somehow count on the
quality. But I have never heard a big company openly support to and devote
to R. This makes a big difference, because how are you sure that the
different packages are synchronized correctly and there is no major mistakes?
i think R is very good if I want to write a paper or finish an academic
project. But for a large project, I am a little afraid to bet a lot of money
on some package written by strangers.

,

【在 s*****n 的大作中提到】
: Neither of R and SAS are designed for general programming purpose.
: But, R has some programming taste.
: SAS is very far from the common understanding on programming.
: It is true that some of the R documents are not very good, and R lacks
: quality control. However, in all fairness, R is a community based software,
: which is contributed by many people without significant return. Just like
: Linux.

s*****n
发帖数: 2174
26
Yes, if you have such concerns, you can either use the
software you trust. If you do not trust anything, you can
even implement the package on your own.

mistakes?
money

【在 q**j 的大作中提到】
: Linux is supported by many large companies, so we can somehow count on the
: quality. But I have never heard a big company openly support to and devote
: to R. This makes a big difference, because how are you sure that the
: different packages are synchronized correctly and there is no major mistakes?
: i think R is very good if I want to write a paper or finish an academic
: project. But for a large project, I am a little afraid to bet a lot of money
: on some package written by strangers.
:
: ,

o****o
发帖数: 8077
27
in industry, ppl simply rely on R/base
no third party packages were used. the rule is: write your own package

mistakes?
money

【在 q**j 的大作中提到】
: Linux is supported by many large companies, so we can somehow count on the
: quality. But I have never heard a big company openly support to and devote
: to R. This makes a big difference, because how are you sure that the
: different packages are synchronized correctly and there is no major mistakes?
: i think R is very good if I want to write a paper or finish an academic
: project. But for a large project, I am a little afraid to bet a lot of money
: on some package written by strangers.
:
: ,

c*******o
发帖数: 8869
28
要知道, big pharma里clinical development 和 preclinical discovery 是完全不同
的. preclinical research 里如果不涉计safety的话, 基本没有QA/QC的要求, 和学术
界发paper灌水差不多, 用什么软件全看个人爱好. 如果pfizer publicly admit to
use R to do new drug application 的话, 那才真的是新闻了.

【在 f***a 的大作中提到】
: " Google and Pfizer publicly admit to using R"
: is this real news?
: sweet~

c*******o
发帖数: 8869
29
sas 搞data在硬盘上,所以硬盘有多大,能力就有多大. R 在内存里搞data,所以上G的
data就捏瘪子了. 这个缺点用linux server可以解决不少, 但是上百千G的data恐怕还
是不行.

【在 f***a 的大作中提到】
: why/how SAS can handle huge data set? and what's the reason R can't? can
: this limitation possibly be fixed?

f***a
发帖数: 329
30
is it possible R在硬盘里搞data?

【在 c*******o 的大作中提到】
: sas 搞data在硬盘上,所以硬盘有多大,能力就有多大. R 在内存里搞data,所以上G的
: data就捏瘪子了. 这个缺点用linux server可以解决不少, 但是上百千G的data恐怕还
: 是不行.

相关主题
也问一个数据处理的问题(preclinical study)FDA方法的死穴是什么?
找工作几个月了,一个面试也没有。也请大牛帮看简历。depo 的partner临场变故
Offer 求建议ARNA panel
进入Statistics版参与讨论
s*****n
发帖数: 2174
31
这要看你具体是指怎么个在硬盘里面搞data.
如果你的计算, 并不需要一次读入所有的数据. 那可以在R里面逐行读取, 计算以后,
把结果数据写入硬盘. 然后再读取下一部分数据. 当然, 这些读写需要你写程序来控制
. 本质上是把大数据变成小数据, 然后循环运行.
如果你的计算, 要求读入所有的数据. 缺少哪一部分都无法运算. 那R的确无能为力. R
好像不能把硬盘开成虚拟内存来运行.

【在 f***a 的大作中提到】
: is it possible R在硬盘里搞data?
s*********e
发帖数: 1051
32
上班用SAS,下班玩R.
t*******r
发帖数: 35
33
SAS has been used extensively in credit card scoring and phama industry. But
from my personal experience, it's on its way to decline. Even though it's "
Industry Standard" for now, I think it will be replaced by R in 10 years.
The programming style of SAS is really out-dated.
Now, a lot of companies rely simply on open source or free software, like
MySql, Google Apps, R, Linux for business use. It's the trend.
s*******t
发帖数: 2896
34
你要是想搞点新东西,用r没商量。
sas理论上能用macro做任何事情,但是你做一次就知道了。你会疯掉。
o****o
发帖数: 8077
35
关键是个习惯问题
好多新发表的论文的模型我都能用SAS弄出来,就是确实麻烦

【在 s*******t 的大作中提到】
: 你要是想搞点新东西,用r没商量。
: sas理论上能用macro做任何事情,但是你做一次就知道了。你会疯掉。

d*******1
发帖数: 854
36
If you think "industrial standard" can be replaced in 10 years and the
programming "STYLE" is a factor in it, I have to say that you do not know
much about "industrial standard".

But
"

【在 t*******r 的大作中提到】
: SAS has been used extensively in credit card scoring and phama industry. But
: from my personal experience, it's on its way to decline. Even though it's "
: Industry Standard" for now, I think it will be replaced by R in 10 years.
: The programming style of SAS is really out-dated.
: Now, a lot of companies rely simply on open source or free software, like
: MySql, Google Apps, R, Linux for business use. It's the trend.

s***0
发帖数: 525
37
d*******1
发帖数: 854
38
I think that holds true for any software. 你会疯掉 when you have to use a
language that you are not good at even if the language itself is good.

【在 s*******t 的大作中提到】
: 你要是想搞点新东西,用r没商量。
: sas理论上能用macro做任何事情,但是你做一次就知道了。你会疯掉。

e****s
发帖数: 117
39
同问,R能处理1000万rows的数据吗?同ORACLE,SQL SERVER2005,TERADATA等的接口怎
么样?

【在 f***a 的大作中提到】
: why/how SAS can handle huge data set? and what's the reason R can't? can
: this limitation possibly be fixed?

s*****n
发帖数: 2174
40
1000万rows这个不是什么难事. 关键是整个data的size不能超过机器的物理内存.
R和MySQL的接口还是很不错的. 没任何问题. 别的就不知道了. 不过理论上, R可以调
动shell的命令运行, 只要能在shell里运行的东西, 都应该可以嵌入R.

【在 e****s 的大作中提到】
: 同问,R能处理1000万rows的数据吗?同ORACLE,SQL SERVER2005,TERADATA等的接口怎
: 么样?

相关主题
[合集] analysis of microarray or other highly parallel assay dOffer 求建议
也问一个数据处理的问题(preclinical study)FDA方法的死穴是什么?
找工作几个月了,一个面试也没有。也请大牛帮看简历。depo 的partner临场变故
进入Statistics版参与讨论
e****s
发帖数: 117
41
估计肯定超过内存了,一般TERADATA放queue里处理大量数据,分配500G很正常。

【在 s*****n 的大作中提到】
: 1000万rows这个不是什么难事. 关键是整个data的size不能超过机器的物理内存.
: R和MySQL的接口还是很不错的. 没任何问题. 别的就不知道了. 不过理论上, R可以调
: 动shell的命令运行, 只要能在shell里运行的东西, 都应该可以嵌入R.

s*****n
发帖数: 2174
42
这类的事情, 根本就不应该用统计软件来做.
应该用一些其他的infrastructure进行预处理.
如果比较一般的size, 可以用数据库什么的.
再大的, 数据库处理不了的, 就需要单独考虑了.
我工作中, 处理几个T, 甚至几百个T的data都
很正常. 都是预处理以后再用R来分析.

【在 e****s 的大作中提到】
: 估计肯定超过内存了,一般TERADATA放queue里处理大量数据,分配500G很正常。
e****s
发帖数: 117
43
比如建个信用评分模型,训练数据不需要很大,R应该能处理,模型建完以后,我要把
模型应用到1000万个客户,评分结果放到数据仓库里。R的模型能不能导出,同
TERADATA,DB2,ORACLE等的接口如何?如何直接做in database mining?

【在 s*****n 的大作中提到】
: 这类的事情, 根本就不应该用统计软件来做.
: 应该用一些其他的infrastructure进行预处理.
: 如果比较一般的size, 可以用数据库什么的.
: 再大的, 数据库处理不了的, 就需要单独考虑了.
: 我工作中, 处理几个T, 甚至几百个T的data都
: 很正常. 都是预处理以后再用R来分析.

s*****n
发帖数: 2174
44
我能想象的做法, 是将每个用户从database里面读到R
里面, 在R里面运行模型, 然后把结果写入database.
这个肯定是没问题的. 只要单个客户的模型, 可以在
R里面运行. 当然如果条件允许, 你可以1000个用户
一起读, 然后一起写入数据库1000个结果. 这个无非
是减少I/O次数而已.
如果你是想把R的模型作为一个object, 直接搞到数据
库里面, 然后在数据库里面运行, 那我就不知道了,
我估计恐怕不行.这种工作的模式和我平时的工作区别
很大, 完全不可想象.
至于teradata, db2, oracle这几个, 不太了解. 因为他们
都是收费的, 从来没用过. 我用MySQL, 和R接口很好.
不过我用MySQL, 仅仅是用一些简单的功能而已, 基本上
是当一个数据存储器用.

【在 e****s 的大作中提到】
: 比如建个信用评分模型,训练数据不需要很大,R应该能处理,模型建完以后,我要把
: 模型应用到1000万个客户,评分结果放到数据仓库里。R的模型能不能导出,同
: TERADATA,DB2,ORACLE等的接口如何?如何直接做in database mining?

d**s
发帖数: 1255
45
这个比喻有意思

【在 s*****n 的大作中提到】
: 比较这两个没任何意义. 任何软件都有其长处和短处, 各自都有各自的侧重, 没有绝对
: 的优劣. 至于哪个软件在工业界有前途, 要看你是在什么行业.
: 举个例子, 比如说冲锋枪和匕首吧, 谁有谁劣呢?
: 如果你是正规军, 当然要用冲锋枪. 这是用于大规模作战.
: 如果你是特工刺客, 就要用匕首. 这个用于近身灵活搏斗.
: SAS更像冲锋枪. R更像匕首.

o****o
发帖数: 8077
46
score的时候不需要10m个客户的数据都一次性读入,顺序处理就完了
R的模型就是一个对象,直接应用这个对象到新数据就可以了
如果是常用的模型,参数估计完毕以后,可以自己在数据库里面写公式,然后所有的
scoring都在数据库里就完成了

【在 e****s 的大作中提到】
: 比如建个信用评分模型,训练数据不需要很大,R应该能处理,模型建完以后,我要把
: 模型应用到1000万个客户,评分结果放到数据仓库里。R的模型能不能导出,同
: TERADATA,DB2,ORACLE等的接口如何?如何直接做in database mining?

s*********e
发帖数: 1051
47
是个行家。

【在 o****o 的大作中提到】
: score的时候不需要10m个客户的数据都一次性读入,顺序处理就完了
: R的模型就是一个对象,直接应用这个对象到新数据就可以了
: 如果是常用的模型,参数估计完毕以后,可以自己在数据库里面写公式,然后所有的
: scoring都在数据库里就完成了

g*******y
发帖数: 380
48
前端时间SAS-L论坛好像很多人讨论过,NY Times上好像有个报道,不知道标题是不是叫"
10 Reasons not using R".
f***a
发帖数: 329
49
哪里能看到?

叫"

【在 g*******y 的大作中提到】
: 前端时间SAS-L论坛好像很多人讨论过,NY Times上好像有个报道,不知道标题是不是叫"
: 10 Reasons not using R".

o****o
发帖数: 8077
50
放狗搜

【在 f***a 的大作中提到】
: 哪里能看到?
:
: 叫"

相关主题
depo 的partner临场变故也问一个数据处理的问题(preclinical study)
ARNA panel找工作几个月了,一个面试也没有。也请大牛帮看简历。
[合集] analysis of microarray or other highly parallel assay dOffer 求建议
进入Statistics版参与讨论
s*******n
发帖数: 740
51
就算双修,也称不上大牛把。。
g*******y
发帖数: 380
52
不好意思,搞错了.
NY times 上是另外一篇.
我把两篇的链接都贴出来了.

【在 f***a 的大作中提到】
: 哪里能看到?
:
: 叫"

s*********e
发帖数: 1051
53
actually, the best data storage engine for R ought to be sqlite. as far as I
remember, there are 2 R packages to store R data as sqlite db.
MySql is absolutely a over-kill.

【在 s*****n 的大作中提到】
: 1000万rows这个不是什么难事. 关键是整个data的size不能超过机器的物理内存.
: R和MySQL的接口还是很不错的. 没任何问题. 别的就不知道了. 不过理论上, R可以调
: 动shell的命令运行, 只要能在shell里运行的东西, 都应该可以嵌入R.

1 (共1页)
进入Statistics版参与讨论
相关主题
[合集] analysis of microarray or other highly parallel assay dFDA方法的死穴是什么?
也问一个数据处理的问题(preclinical study)depo 的partner临场变故
找工作几个月了,一个面试也没有。也请大牛帮看简历。ARNA panel
Offer 求建议
相关话题的讨论汇总
话题: sas话题: fda话题: software话题: think