由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 应该让sas, r, python[排名不分先后]互相PK, 看谁胜出
相关主题
如何处理下面这种情况statsGuy的python和R课程观后感。。。。。。
分享: 从SAS 到 Python 与 R怎么由 SAS programmer 转成 data scientist (转载)
再谈湾区工作,Python R及SAS也谈为什麽要学习Python(对Python没兴趣的请跳过:-)
谢谢已经注册Python R 培训和已经上完课的同学们!~回答一个同学们经常问的关于Python培训课的问题
最近有没有面试google quantitative analyst的?问个自动生成report的问题.
关于SAS,SPSS,R,PythonPython - 4/19 (Skype)
~StatsGuy: 再次感谢选课的同学们!二月份上Python/R/Hive 课的同学请与我联系
打听统计entry level起薪六月份上Python/R/Hive 课的同学请与我联系
相关话题的讨论汇总
话题: 数据话题: python话题: sas话题: million话题: pk
进入Statistics版参与讨论
1 (共1页)
b********1
发帖数: 291
1
比如从事如下简单的操作,
1.数据更新
2.数据extraction,简单的join
3.娶每组最大最小,
4,算个均值,求和什么的,
老话怎么说, 是骡子是马,拉出来溜溜.
对了,至少一两百million row, 50,100列以上的表才是工业强度。
低于这个量级的免谈.
h***i
发帖数: 3844
2
10-20 million row 有多少个公司能达到都是问题。

【在 b********1 的大作中提到】
: 比如从事如下简单的操作,
: 1.数据更新
: 2.数据extraction,简单的join
: 3.娶每组最大最小,
: 4,算个均值,求和什么的,
: 老话怎么说, 是骡子是马,拉出来溜溜.
: 对了,至少一两百million row, 50,100列以上的表才是工业强度。
: 低于这个量级的免谈.

D******n
发帖数: 2836
3
panel data 也许不难。

【在 h***i 的大作中提到】
: 10-20 million row 有多少个公司能达到都是问题。
h***i
发帖数: 3844
4
多数情况下,看看excel表就行了,没那么数据可以分析 or 需要分析。

【在 D******n 的大作中提到】
: panel data 也许不难。
q**j
发帖数: 10612
5
当然sas厉害。说r, python好的主要还是这两个不要钱。

【在 b********1 的大作中提到】
: 比如从事如下简单的操作,
: 1.数据更新
: 2.数据extraction,简单的join
: 3.娶每组最大最小,
: 4,算个均值,求和什么的,
: 老话怎么说, 是骡子是马,拉出来溜溜.
: 对了,至少一两百million row, 50,100列以上的表才是工业强度。
: 低于这个量级的免谈.

b********1
发帖数: 291
6
没有这个量级, 辩论p啊 我老两千多年前就看你们辩论。 哦,现在你们俩不辩论太阳
大小了, 改辩论sas 和R了 呵呵, 真是时代在发展了呀 转眼到了二十一世纪。
我把当年看你俩辩论的事情贴出来。 好好温习下 。
孔子东游,见两小儿辩斗,问其故。
一儿曰:“我以日始出时去人近,而日中时远也。”一儿以日初出远,而日中时近也。
一儿曰:“日初出大如车盖,及日中,则如盘盂,此不为远者小而近者大乎?”
一儿曰:“日初出沧沧凉凉,及其日中如探汤,此不为近者热而远者凉乎?”
孔子不能决也。两小儿笑曰:“孰为汝多知乎?”
D******n
发帖数: 2836
7
我的意思是 many accounts , many snapshots.
譬如几十万个accounts, 6,7年的data。

【在 h***i 的大作中提到】
: 多数情况下,看看excel表就行了,没那么数据可以分析 or 需要分析。
b********1
发帖数: 291
8
哈根达斯 好久不见,还在这里玩 ?
我老所说的一两百million绝不是信口开河. 一个小型信用卡公司一个月的transaction
, 保守说,20个million, 肯定有的。 那些连锁店,卖pissa的,卖菜卖水果卖哈根
达斯的,全美国范围内一个月交易量比这个也少不到哪儿去 。
statsguy说被一家有名公司面试题所震惊, 我就好奇, 这么大的公司,会有多少客户
? 绝对不会少于一个million吧? 一个million的客户,两三年的数据, 很轻松就上
100million了,用R? 我还真替他们捏一把汗.
退一万步说,不管你们公司什么业务, 三大信用局的数据 总买吧 ? 两三个月买一回
, 让vp心情好的时候签字, 她总不好拒绝吧, 那么一年买四次, 猜猜您手里就有多
少行数据

【在 D******n 的大作中提到】
: 我的意思是 many accounts , many snapshots.
: 譬如几十万个accounts, 6,7年的data。

s*r
发帖数: 2757
9
数据大了不都应该扔到database里,然后用这些软件发sql命令吗
b********1
发帖数: 291
10
确实在database里, 但sas/r/python运算的时候要能load进来,然后算一些乌七八糟
的东西。问题是谁能玩转一两百million的数据,谁才有资格入围. 如果仅仅couple
million的数据,无非是从左手导到右手, sas/r/python都差不多。

【在 s*r 的大作中提到】
: 数据大了不都应该扔到database里,然后用这些软件发sql命令吗
相关主题
关于SAS,SPSS,R,PythonstatsGuy的python和R课程观后感。。。。。。
~StatsGuy: 再次感谢选课的同学们!怎么由 SAS programmer 转成 data scientist (转载)
打听统计entry level起薪也谈为什麽要学习Python(对Python没兴趣的请跳过:-)
进入Statistics版参与讨论
s*r
发帖数: 2757
11
为什么不是用sql命令产生sufficient statistic到统计软件里面进行计算

【在 b********1 的大作中提到】
: 确实在database里, 但sas/r/python运算的时候要能load进来,然后算一些乌七八糟
: 的东西。问题是谁能玩转一两百million的数据,谁才有资格入围. 如果仅仅couple
: million的数据,无非是从左手导到右手, sas/r/python都差不多。

b********1
发帖数: 291
12
原则上可以,实际上没人这么干。
劳动分工不同。 我想大部分数据库都有函数产生statistic, 做个回归也不在话下. 可
数据库软件毕竟不是统计软件。
再者, 用sql写个循环 可比sas/r/python难多了。

【在 s*r 的大作中提到】
: 为什么不是用sql命令产生sufficient statistic到统计软件里面进行计算
S******y
发帖数: 1123
13
谢谢您读我的贴。
不过您理解错了。
我说 被震惊,是因发现 连那个传统大公司新成立的DS部门也不用SAS了
我现在经常用Python 处理的一个数据文件约150 GB 左右,more than1 billion
transactions, dumped out from Hadoop. 不过只是processing and reporting. 没有
直接做统计模型
不过大家系统配置不一样. 大家八仙过海,爱用啥兵器用啥,只要自己的猫能抓老鼠
就各显神通吧 :-)

transaction

【在 b********1 的大作中提到】
: 哈根达斯 好久不见,还在这里玩 ?
: 我老所说的一两百million绝不是信口开河. 一个小型信用卡公司一个月的transaction
: , 保守说,20个million, 肯定有的。 那些连锁店,卖pissa的,卖菜卖水果卖哈根
: 达斯的,全美国范围内一个月交易量比这个也少不到哪儿去 。
: statsguy说被一家有名公司面试题所震惊, 我就好奇, 这么大的公司,会有多少客户
: ? 绝对不会少于一个million吧? 一个million的客户,两三年的数据, 很轻松就上
: 100million了,用R? 我还真替他们捏一把汗.
: 退一万步说,不管你们公司什么业务, 三大信用局的数据 总买吧 ? 两三个月买一回
: , 让vp心情好的时候签字, 她总不好拒绝吧, 那么一年买四次, 猜猜您手里就有多
: 少行数据

b********1
发帖数: 291
14
不客气,大家共同学习,共同进步嘛。我毫不怀疑r,python在西岸的地位,并且从目前
的趋势看,势头越来越猛,会占据更大的市场份额. 我讨论的主要目的是,心里的一
点疑惑:对于中等规模的数据(既不是ecommerce,social_network那种海量数据, 也
不是couple_million的小数据),究竟哪一种软件能够胜任? 特别是那种经常用软件
做data_manipulation,regression什么的.
另外,你的学习班我是双手赞成的 物美价廉。放心我不是来搅混水的 呵呵。不明白为
什么删帖.

【在 S******y 的大作中提到】
: 谢谢您读我的贴。
: 不过您理解错了。
: 我说 被震惊,是因发现 连那个传统大公司新成立的DS部门也不用SAS了
: 我现在经常用Python 处理的一个数据文件约150 GB 左右,more than1 billion
: transactions, dumped out from Hadoop. 不过只是processing and reporting. 没有
: 直接做统计模型
: 不过大家系统配置不一样. 大家八仙过海,爱用啥兵器用啥,只要自己的猫能抓老鼠
: 就各显神通吧 :-)
:
: transaction

D******n
发帖数: 2836
15
这是哪个马甲啊?
数据太大就sample呗,或者在account level distribute computing一下。

transaction

【在 b********1 的大作中提到】
: 哈根达斯 好久不见,还在这里玩 ?
: 我老所说的一两百million绝不是信口开河. 一个小型信用卡公司一个月的transaction
: , 保守说,20个million, 肯定有的。 那些连锁店,卖pissa的,卖菜卖水果卖哈根
: 达斯的,全美国范围内一个月交易量比这个也少不到哪儿去 。
: statsguy说被一家有名公司面试题所震惊, 我就好奇, 这么大的公司,会有多少客户
: ? 绝对不会少于一个million吧? 一个million的客户,两三年的数据, 很轻松就上
: 100million了,用R? 我还真替他们捏一把汗.
: 退一万步说,不管你们公司什么业务, 三大信用局的数据 总买吧 ? 两三个月买一回
: , 让vp心情好的时候签字, 她总不好拒绝吧, 那么一年买四次, 猜猜您手里就有多
: 少行数据

n****n
发帖数: 11
16
有同感。我想,StatsGuy所举的例子虽然是大公司,但是它的数据部门却很新,算是
Startup,一般这种情况下总是希望少花钱,多办事,甚至不花钱。

transaction

【在 b********1 的大作中提到】
: 哈根达斯 好久不见,还在这里玩 ?
: 我老所说的一两百million绝不是信口开河. 一个小型信用卡公司一个月的transaction
: , 保守说,20个million, 肯定有的。 那些连锁店,卖pissa的,卖菜卖水果卖哈根
: 达斯的,全美国范围内一个月交易量比这个也少不到哪儿去 。
: statsguy说被一家有名公司面试题所震惊, 我就好奇, 这么大的公司,会有多少客户
: ? 绝对不会少于一个million吧? 一个million的客户,两三年的数据, 很轻松就上
: 100million了,用R? 我还真替他们捏一把汗.
: 退一万步说,不管你们公司什么业务, 三大信用局的数据 总买吧 ? 两三个月买一回
: , 让vp心情好的时候签字, 她总不好拒绝吧, 那么一年买四次, 猜猜您手里就有多
: 少行数据

b********1
发帖数: 291
17
嘻嘻 我可是pharmd时代的老id啊, 这一转眼好几年过去了啊。
我看几位中央老同志还都‘健在’. 陈老师不来玩了? 他一发言我就犯晕啊。anyme也
找到工作了,恭喜。

【在 D******n 的大作中提到】
: 这是哪个马甲啊?
: 数据太大就sample呗,或者在account level distribute computing一下。
:
: transaction

h***i
发帖数: 3844
18
你还不如比较比较salary.

【在 b********1 的大作中提到】
: 比如从事如下简单的操作,
: 1.数据更新
: 2.数据extraction,简单的join
: 3.娶每组最大最小,
: 4,算个均值,求和什么的,
: 老话怎么说, 是骡子是马,拉出来溜溜.
: 对了,至少一两百million row, 50,100列以上的表才是工业强度。
: 低于这个量级的免谈.

l*******m
发帖数: 1096
19
这些用shell基本都能做,而且基本就是一个功能就写一行。基本不用RAM, 还能用到
multi-core

【在 b********1 的大作中提到】
: 比如从事如下简单的操作,
: 1.数据更新
: 2.数据extraction,简单的join
: 3.娶每组最大最小,
: 4,算个均值,求和什么的,
: 老话怎么说, 是骡子是马,拉出来溜溜.
: 对了,至少一两百million row, 50,100列以上的表才是工业强度。
: 低于这个量级的免谈.

c****t
发帖数: 19049
20
工业强度是算matrix inverse

【在 b********1 的大作中提到】
: 比如从事如下简单的操作,
: 1.数据更新
: 2.数据extraction,简单的join
: 3.娶每组最大最小,
: 4,算个均值,求和什么的,
: 老话怎么说, 是骡子是马,拉出来溜溜.
: 对了,至少一两百million row, 50,100列以上的表才是工业强度。
: 低于这个量级的免谈.

C******n
发帖数: 284
21
搞不懂做统计的人居然热衷于讨论软件的优劣
什么场合穿什么衣服,什么问题适合用什么软件就随手拿来用罢了
如果你是老板,那你压根不用考虑哪个软件好哪个不好,随机指定一个让工人们用就行了
如果你不是老板,那老板让你用什么,你就用什么,费什么话啊
1 (共1页)
进入Statistics版参与讨论
相关主题
六月份上Python/R/Hive 课的同学请与我联系最近有没有面试google quantitative analyst的?
大家知道statsguy靠谱吗?关于SAS,SPSS,R,Python
最近统计工作好找吗~StatsGuy: 再次感谢选课的同学们!
做培训的有一点感受打听统计entry level起薪
如何处理下面这种情况statsGuy的python和R课程观后感。。。。。。
分享: 从SAS 到 Python 与 R怎么由 SAS programmer 转成 data scientist (转载)
再谈湾区工作,Python R及SAS也谈为什麽要学习Python(对Python没兴趣的请跳过:-)
谢谢已经注册Python R 培训和已经上完课的同学们!~回答一个同学们经常问的关于Python培训课的问题
相关话题的讨论汇总
话题: 数据话题: python话题: sas话题: million话题: pk