b********1 发帖数: 291 | 1 比如从事如下简单的操作,
1.数据更新
2.数据extraction,简单的join
3.娶每组最大最小,
4,算个均值,求和什么的,
老话怎么说, 是骡子是马,拉出来溜溜.
对了,至少一两百million row, 50,100列以上的表才是工业强度。
低于这个量级的免谈. |
h***i 发帖数: 3844 | 2 10-20 million row 有多少个公司能达到都是问题。
【在 b********1 的大作中提到】 : 比如从事如下简单的操作, : 1.数据更新 : 2.数据extraction,简单的join : 3.娶每组最大最小, : 4,算个均值,求和什么的, : 老话怎么说, 是骡子是马,拉出来溜溜. : 对了,至少一两百million row, 50,100列以上的表才是工业强度。 : 低于这个量级的免谈.
|
D******n 发帖数: 2836 | 3 panel data 也许不难。
【在 h***i 的大作中提到】 : 10-20 million row 有多少个公司能达到都是问题。
|
h***i 发帖数: 3844 | 4 多数情况下,看看excel表就行了,没那么数据可以分析 or 需要分析。
【在 D******n 的大作中提到】 : panel data 也许不难。
|
q**j 发帖数: 10612 | 5 当然sas厉害。说r, python好的主要还是这两个不要钱。
【在 b********1 的大作中提到】 : 比如从事如下简单的操作, : 1.数据更新 : 2.数据extraction,简单的join : 3.娶每组最大最小, : 4,算个均值,求和什么的, : 老话怎么说, 是骡子是马,拉出来溜溜. : 对了,至少一两百million row, 50,100列以上的表才是工业强度。 : 低于这个量级的免谈.
|
b********1 发帖数: 291 | 6 没有这个量级, 辩论p啊 我老两千多年前就看你们辩论。 哦,现在你们俩不辩论太阳
大小了, 改辩论sas 和R了 呵呵, 真是时代在发展了呀 转眼到了二十一世纪。
我把当年看你俩辩论的事情贴出来。 好好温习下 。
孔子东游,见两小儿辩斗,问其故。
一儿曰:“我以日始出时去人近,而日中时远也。”一儿以日初出远,而日中时近也。
一儿曰:“日初出大如车盖,及日中,则如盘盂,此不为远者小而近者大乎?”
一儿曰:“日初出沧沧凉凉,及其日中如探汤,此不为近者热而远者凉乎?”
孔子不能决也。两小儿笑曰:“孰为汝多知乎?” |
D******n 发帖数: 2836 | 7 我的意思是 many accounts , many snapshots.
譬如几十万个accounts, 6,7年的data。
【在 h***i 的大作中提到】 : 多数情况下,看看excel表就行了,没那么数据可以分析 or 需要分析。
|
b********1 发帖数: 291 | 8 哈根达斯 好久不见,还在这里玩 ?
我老所说的一两百million绝不是信口开河. 一个小型信用卡公司一个月的transaction
, 保守说,20个million, 肯定有的。 那些连锁店,卖pissa的,卖菜卖水果卖哈根
达斯的,全美国范围内一个月交易量比这个也少不到哪儿去 。
statsguy说被一家有名公司面试题所震惊, 我就好奇, 这么大的公司,会有多少客户
? 绝对不会少于一个million吧? 一个million的客户,两三年的数据, 很轻松就上
100million了,用R? 我还真替他们捏一把汗.
退一万步说,不管你们公司什么业务, 三大信用局的数据 总买吧 ? 两三个月买一回
, 让vp心情好的时候签字, 她总不好拒绝吧, 那么一年买四次, 猜猜您手里就有多
少行数据
【在 D******n 的大作中提到】 : 我的意思是 many accounts , many snapshots. : 譬如几十万个accounts, 6,7年的data。
|
s*r 发帖数: 2757 | 9 数据大了不都应该扔到database里,然后用这些软件发sql命令吗 |
b********1 发帖数: 291 | 10 确实在database里, 但sas/r/python运算的时候要能load进来,然后算一些乌七八糟
的东西。问题是谁能玩转一两百million的数据,谁才有资格入围. 如果仅仅couple
million的数据,无非是从左手导到右手, sas/r/python都差不多。
【在 s*r 的大作中提到】 : 数据大了不都应该扔到database里,然后用这些软件发sql命令吗
|
|
|
s*r 发帖数: 2757 | 11 为什么不是用sql命令产生sufficient statistic到统计软件里面进行计算
【在 b********1 的大作中提到】 : 确实在database里, 但sas/r/python运算的时候要能load进来,然后算一些乌七八糟 : 的东西。问题是谁能玩转一两百million的数据,谁才有资格入围. 如果仅仅couple : million的数据,无非是从左手导到右手, sas/r/python都差不多。
|
b********1 发帖数: 291 | 12 原则上可以,实际上没人这么干。
劳动分工不同。 我想大部分数据库都有函数产生statistic, 做个回归也不在话下. 可
数据库软件毕竟不是统计软件。
再者, 用sql写个循环 可比sas/r/python难多了。
【在 s*r 的大作中提到】 : 为什么不是用sql命令产生sufficient statistic到统计软件里面进行计算
|
S******y 发帖数: 1123 | 13 谢谢您读我的贴。
不过您理解错了。
我说 被震惊,是因发现 连那个传统大公司新成立的DS部门也不用SAS了
我现在经常用Python 处理的一个数据文件约150 GB 左右,more than1 billion
transactions, dumped out from Hadoop. 不过只是processing and reporting. 没有
直接做统计模型
不过大家系统配置不一样. 大家八仙过海,爱用啥兵器用啥,只要自己的猫能抓老鼠
就各显神通吧 :-)
transaction
【在 b********1 的大作中提到】 : 哈根达斯 好久不见,还在这里玩 ? : 我老所说的一两百million绝不是信口开河. 一个小型信用卡公司一个月的transaction : , 保守说,20个million, 肯定有的。 那些连锁店,卖pissa的,卖菜卖水果卖哈根 : 达斯的,全美国范围内一个月交易量比这个也少不到哪儿去 。 : statsguy说被一家有名公司面试题所震惊, 我就好奇, 这么大的公司,会有多少客户 : ? 绝对不会少于一个million吧? 一个million的客户,两三年的数据, 很轻松就上 : 100million了,用R? 我还真替他们捏一把汗. : 退一万步说,不管你们公司什么业务, 三大信用局的数据 总买吧 ? 两三个月买一回 : , 让vp心情好的时候签字, 她总不好拒绝吧, 那么一年买四次, 猜猜您手里就有多 : 少行数据
|
b********1 发帖数: 291 | 14 不客气,大家共同学习,共同进步嘛。我毫不怀疑r,python在西岸的地位,并且从目前
的趋势看,势头越来越猛,会占据更大的市场份额. 我讨论的主要目的是,心里的一
点疑惑:对于中等规模的数据(既不是ecommerce,social_network那种海量数据, 也
不是couple_million的小数据),究竟哪一种软件能够胜任? 特别是那种经常用软件
做data_manipulation,regression什么的.
另外,你的学习班我是双手赞成的 物美价廉。放心我不是来搅混水的 呵呵。不明白为
什么删帖.
【在 S******y 的大作中提到】 : 谢谢您读我的贴。 : 不过您理解错了。 : 我说 被震惊,是因发现 连那个传统大公司新成立的DS部门也不用SAS了 : 我现在经常用Python 处理的一个数据文件约150 GB 左右,more than1 billion : transactions, dumped out from Hadoop. 不过只是processing and reporting. 没有 : 直接做统计模型 : 不过大家系统配置不一样. 大家八仙过海,爱用啥兵器用啥,只要自己的猫能抓老鼠 : 就各显神通吧 :-) : : transaction
|
D******n 发帖数: 2836 | 15 这是哪个马甲啊?
数据太大就sample呗,或者在account level distribute computing一下。
transaction
【在 b********1 的大作中提到】 : 哈根达斯 好久不见,还在这里玩 ? : 我老所说的一两百million绝不是信口开河. 一个小型信用卡公司一个月的transaction : , 保守说,20个million, 肯定有的。 那些连锁店,卖pissa的,卖菜卖水果卖哈根 : 达斯的,全美国范围内一个月交易量比这个也少不到哪儿去 。 : statsguy说被一家有名公司面试题所震惊, 我就好奇, 这么大的公司,会有多少客户 : ? 绝对不会少于一个million吧? 一个million的客户,两三年的数据, 很轻松就上 : 100million了,用R? 我还真替他们捏一把汗. : 退一万步说,不管你们公司什么业务, 三大信用局的数据 总买吧 ? 两三个月买一回 : , 让vp心情好的时候签字, 她总不好拒绝吧, 那么一年买四次, 猜猜您手里就有多 : 少行数据
|
n****n 发帖数: 11 | 16 有同感。我想,StatsGuy所举的例子虽然是大公司,但是它的数据部门却很新,算是
Startup,一般这种情况下总是希望少花钱,多办事,甚至不花钱。
transaction
【在 b********1 的大作中提到】 : 哈根达斯 好久不见,还在这里玩 ? : 我老所说的一两百million绝不是信口开河. 一个小型信用卡公司一个月的transaction : , 保守说,20个million, 肯定有的。 那些连锁店,卖pissa的,卖菜卖水果卖哈根 : 达斯的,全美国范围内一个月交易量比这个也少不到哪儿去 。 : statsguy说被一家有名公司面试题所震惊, 我就好奇, 这么大的公司,会有多少客户 : ? 绝对不会少于一个million吧? 一个million的客户,两三年的数据, 很轻松就上 : 100million了,用R? 我还真替他们捏一把汗. : 退一万步说,不管你们公司什么业务, 三大信用局的数据 总买吧 ? 两三个月买一回 : , 让vp心情好的时候签字, 她总不好拒绝吧, 那么一年买四次, 猜猜您手里就有多 : 少行数据
|
b********1 发帖数: 291 | 17 嘻嘻 我可是pharmd时代的老id啊, 这一转眼好几年过去了啊。
我看几位中央老同志还都‘健在’. 陈老师不来玩了? 他一发言我就犯晕啊。anyme也
找到工作了,恭喜。
【在 D******n 的大作中提到】 : 这是哪个马甲啊? : 数据太大就sample呗,或者在account level distribute computing一下。 : : transaction
|
h***i 发帖数: 3844 | 18 你还不如比较比较salary.
【在 b********1 的大作中提到】 : 比如从事如下简单的操作, : 1.数据更新 : 2.数据extraction,简单的join : 3.娶每组最大最小, : 4,算个均值,求和什么的, : 老话怎么说, 是骡子是马,拉出来溜溜. : 对了,至少一两百million row, 50,100列以上的表才是工业强度。 : 低于这个量级的免谈.
|
l*******m 发帖数: 1096 | 19 这些用shell基本都能做,而且基本就是一个功能就写一行。基本不用RAM, 还能用到
multi-core
【在 b********1 的大作中提到】 : 比如从事如下简单的操作, : 1.数据更新 : 2.数据extraction,简单的join : 3.娶每组最大最小, : 4,算个均值,求和什么的, : 老话怎么说, 是骡子是马,拉出来溜溜. : 对了,至少一两百million row, 50,100列以上的表才是工业强度。 : 低于这个量级的免谈.
|
c****t 发帖数: 19049 | 20 工业强度是算matrix inverse
【在 b********1 的大作中提到】 : 比如从事如下简单的操作, : 1.数据更新 : 2.数据extraction,简单的join : 3.娶每组最大最小, : 4,算个均值,求和什么的, : 老话怎么说, 是骡子是马,拉出来溜溜. : 对了,至少一两百million row, 50,100列以上的表才是工业强度。 : 低于这个量级的免谈.
|
C******n 发帖数: 284 | 21 搞不懂做统计的人居然热衷于讨论软件的优劣
什么场合穿什么衣服,什么问题适合用什么软件就随手拿来用罢了
如果你是老板,那你压根不用考虑哪个软件好哪个不好,随机指定一个让工人们用就行了
如果你不是老板,那老板让你用什么,你就用什么,费什么话啊 |