由买买提看人间百态

topics

全部话题 - 话题: statsguy
首页 上页 1 2 3 4 下页 末页 (共4页)
S******y
发帖数: 1123
1
来自主题: Statistics版 - 如何处理下面这种情况
#Python 2.6 StatsGuy 2010-09-27
import itertools
txt='''
1001
1001
1001
1001
1002
1002
1002
1002
1002'''
txt_lst = txt.split('\n')
txt_lst.remove('')
def get_my_id(ls):
my_id = ls[0:4]
return my_id
# Loop over id-blocks using the groupby function
for my_id, g in itertools.groupby(txt_lst, get_my_id):
ls=list(g)
for index, item in enumerate(ls):
print item + '.' + str(index+1)
#################################################
w*****e
发帖数: 806
2
来自主题: Statistics版 - Statistics版 - 水枪排名
时段: 2010, July-Aug
排名 ID 帖数
1 actuaries 131
2 littlebirds 111
3 dashagen 96
4 papertigra 79
5 tnegietni 78
6 scimitar 69
7 zerk 64
8 pepsico 53
9 sir 46
10 fanta 43
11 oloolo 35
12 statsguy 34
13 baicaibangzi 33
14 shuibao 29
15 songkun 29
16 providential 28
17 drburnie 28
18 tape 27
19 dapangmao 26
20 woodbridge 26
21 aquar 25
22 bighappy 25
23 hehehehe
D******n
发帖数: 2836
3
来自主题: Statistics版 - Statistics版 - 水枪排名
1-8 月
1 dashagen 691
2 papertigra 441
3 actuaries 426
4 sir 294
5 littlebirds 276
6 oloolo 226
7 hehehehe 202
8 zerk 186
9 aquar 173
10 pharmd 152
11 orange06 146
12 libra 134
13 statsguy 134
14 flyerr 133
15 drburnie 129
16 tnegietni 126
17 wallice 124
18 bighappy 120
19 daydayup1 119
20 songkun 117
21 westjourney 103
22 bullren 99
23 dapangmao
D******n
发帖数: 2836
4
来自主题: Statistics版 - Statistics版 - 水枪排名
2009
1 songkun 360
2 qqzj 332
3 orange06 261
4 dashagen 256
5 papertigra 253
6 oloolo 213
7 sir 170
8 drburnie 163
9 geography 157
10 zhongdianshi 129
11 statsguy 120
12 pharmd 115
13 birspring 113
14 doublefish 86
15 himalaya 80
16 goldmember 72
17 gutenacht 70
18 hezhi 62
19 jackspears 61
20 hehehehe 57
21 mitguests 53
22 bighappy 53
23 alexwater 51
24 fanta 48
25 moncheri427 46
26 cloverzj 44
27 baicaibangzi 43
28 daydayup1 43
29 acervulina 42
30 zaoxie 42
31 yyll51 42
32 zhaohuiziwo 41
33 zi
d*******o
发帖数: 493
5
做marketing的小公司或者自己做star-up用不起SAS,只有选R+Python了
板上的StatsGuy就是python的大牛,我经常跟他学写python
d*******o
发帖数: 493
6
来自主题: Statistics版 - Text-mining 紅樓夢 - update(1)
牛B!
人人网和开心网学facebook做tailed web ad,汉字的text mining问题怎么都解决不了。
StatsGuy哥什么时候做成了,带着大猫我一起创业好了。
d*******o
发帖数: 493
7
来自主题: Statistics版 - Text-mining 紅樓夢 - update(1)
学术届那些吹牛犯要是能做成这个,早就下海捞钱了。汉字 text minning的不是一般
的难,
StatsGuy写的NMFN package有开创性的价值,成熟以后可以跟李彦宏的汉字搜索相提并
论了。
S******y
发帖数: 1123
8
来自主题: Statistics版 - 现在SAS就业市场很火吗?
Pig 是在Hadoop 上运行Map-Reduce 的工具。Twitter内部用这个来做scoring (so
that their data do not need to leave Hadoop for both model fitting and
scoring).
Python, Hadoop 是潮流,今年需求强劲。
仅供参考。
m*********[email protected]
S******y
发帖数: 1123
9
来自主题: Statistics版 - 分享: 从SAS 到 Python 与 R
最近看到不少帖子,讨论到学习Python 与 R 的需求。
我想在这里分享一下自己的经历。希望对大家有帮助 :-)
我以前在传统行业做统计和SAS programming. 过着平稳的技术生活,在平常工作中不
断提高SAS水平,也曾去SAS Conference 做过 presentation. 也算是老板手下的SAS技
术骨干吧 (心里也挺踏实:-)。可是我N年前一个偶然的机会来到湾区,从此开始了"二
次创业"的奋斗史 (教训啊 来湾区的决定要慎重:-)
落脚未稳,首先就发现SAS在湾区不是主流技术(银行,药厂除外),大部分主流科技公
司对SAS可以说是有点排斥的 (越新的公司越如此)。也情有可缘,这里的公司更cost
effective, 即使买得起统计软件,也不愿在技术工具上受制于人。我曾有一次向老板
大力推荐SAS,要求公司买SAS licenses,他们也照做了,现在想起来可能人家多花
了几万块买SAS licenses也有点不太情愿吧。(唉,自己当时太年轻了 :-)
改变不了世界就改变自己吧:-)
于是我就想办法逐渐换自己的skill set。这个转化过程需要点时间,我也得... 阅读全帖
S******y
发帖数: 1123
10
来自主题: Statistics版 - 分享: 从SAS 到 Python 与 R
呵呵,谢谢。真心是白菜价啊
把十年经验压缩成两小时的课程,倾注了好多心血啊 :-)
外面任一个业界培训都是近两干刀。我熟悉正式Python 及Hadoop的公司培训内容。我
把他们两三天的课抓重点 压缩成两小时。
自觉有教课天赋,曾有教一位会计专业同学,从完全不会SAS到通过SAS证书考试,理论
加hands-on coding 做题,只花
两三个星期 (平均每天 30 -40分钟)
------------------------------
现在新开了两门课-
1- Python中级实战
2- R中级实战
code 和例子 皆取自工业界实例。
谢谢已注册课程的同学们!
35块一小时是春节期优惠价。打算上课的同学们,请抓紧。请电邮我
m*********[email protected]
S******y
发帖数: 1123
11
来自主题: Statistics版 - 分享: 从SAS 到 Python 与 R
呵呵,谢谢。真心是白菜价啊
把十年经验压缩成两小时的课程,倾注了好多心血啊 :-)
外面任一个业界培训都是近两干刀。我熟悉正式Python 及Hadoop的公司培训内容。我
把他们两三天的课抓重点 压缩成两小时。
自觉有教课天赋,曾有教一位会计专业同学,从完全不会SAS到通过SAS证书考试,理论
加hands-on coding 做题,只花
两三个星期 (平均每天 30 -40分钟)
------------------------------
现在新开了两门课-
1- Python中级实战
2- R中级实战
code 和例子 皆取自工业界实例。
谢谢已注册课程的同学们!
35块一小时是春节期优惠价。打算上课的同学们,请抓紧。请电邮我
m*********[email protected]
S******y
发帖数: 1123
12
哈哈,都是很好问题 不过您说的都是CEO 级别操的心。
对我们干技术活的,技不压身,多多益善
现在有公司愿出优厚薪水请DS及懂Python R Hadoop人才,大家不妨先把钱赚了再说
两年后上面提到的有些讨论命题可能就不成立了
祝大家马年大吉 马上发财!
欢迎联络我 m*********[email protected]
http://plus.google.com/109275868505226513618/about
S******y
发帖数: 1123
13
来自主题: Statistics版 - 再谈湾区工作,Python R及SAS
哈哈,这个不难。
象您这样有统计和R基础的,可以上我的SAS速成实战班,保证您两个小时后可以掌握80
%的major SAS functionalities in daily industry tasks
feel free to contact me at - m*********[email protected]
S******y
发帖数: 1123
14
来自主题: Statistics版 - 再谈湾区工作,Python R及SAS
谢谢回应。
看来您不在湾区。
这里的公司,尤其是创业型公司,招人时候有点象wall st.招的时候觉得合适有潜力的
申请人,可以敲锣打鼓的迎进来。要立刻上手。每个人都要hands on. 如果不能
perform, 两三个礼拜可以立刻走人。我见过VP两三月没成绩卷铺盖走人的 (资本主义
社会啊。。)
第一个例子,可能是级別高,公司assume你统计强有潜力能自如转换工具。我觉得是双
方underestimate从SAS转到R的难度。两个工具思维方式很大区別。比如SAS 处理是
row based 而R处理是column based
第二个例子,我当时简历上SAS R都有哦。后来想来想去,可能因为招人的主管是斯坦
福毕业的 :-) 教训啊,碰到斯坦福的人干万别提SAS哦。那儿是R的大本营,那里的统
计系教授闲得沒事就
写R package玩啊。
欢迎大家联系我 - m*********[email protected]
S******y
发帖数: 1123
15
来自主题: Statistics版 - 再谈湾区工作,Python R及SAS
哈哈,不排除有牛人什么都一看就会。。
读documentation, 网上搜stackoverflow也要花点时间吧。假如你白天上班一天好几个
会,晚上赶着回家接孩子,可能都没有整块一点的时间自学新工具吧
欢迎大家来上我的online培训,Python或者 R两小时实战课程will jump start your
skill set portfolio 请联系我 m*********[email protected]
谢谢!

主要
statis
项是
q**0
发帖数: 2
16
来自主题: Statistics版 - 再谈湾区工作,Python R及SAS
谢谢,StatsGuy的分享!很受益,期待更多好贴!
r*****n
发帖数: 5
17
顶一下~
昨天刚上完statsguy的hadoop python 课
内容非常贴近工作~讲解的也很耐心
我random问的问题都非常尽责的找了补充资料给我
推荐给需要python和hadoop起步的同学!!
S******y
发帖数: 1123
18
谢谢大家的兴趣。
打算上课的同学请电邮我-
m*********[email protected]
==============================================
您也可以在 Eventbrite 报名
周末课程
http://www.eventbrite.com/e/python-training-weekend-class-by-st via @eventbrite
周三课程
http://www.eventbrite.com/e/python-training-wednesday-class-by- via @eventbrite
报名之后您会收到我的 SkypeID 和 pre-class instructions (including
installation notes)
谢谢!
S******y
发帖数: 1123
19
两方面准备 -
1) DS and ML knowledge and practice
2) 掌握Python, R, Hadoop
仅供参考。祝马到成功!
m*********[email protected]
S******y
发帖数: 1123
20
可以看一下这个公司 -
http://www.katrisk.com/
从Risk Management Solutions 里面的人出来开的
仅供参考。
m*********[email protected]
S******y
发帖数: 1123
21
来自主题: Statistics版 - offer求分析
可否 跟他们约个时间 电话谈一谈,不妨问一下这些问题 包括绿卡政策。之后说 让
我想一想,let me think about it and get back to you
同时其他公司的程序不要停。
仅供参考。
m*********[email protected]
S******y
发帖数: 1123
22
来自主题: Statistics版 - 该让公司买什么软件
哈哈 我也碰到过客户花几百万买了product recommendation software 基本完全不
work
最后我给他们做了一个item based CF 效果很不错
m*********[email protected]

过N
S******y
发帖数: 1123
23
来自主题: Statistics版 - 最近又被深深震撼了一次!!
一个家喻户晓的全球大品牌公司。最近比较新开的data science group
我跟他们组内部的人聊了聊。大概接触了五六个人。说起用的工具,几乎每个人都讲在
用Python R Hive 其中组里有个印度小女生,还特別提到她主要工具就是R
被HM要求在白板上当场写code. 同一道题,答案要求分別用SQL/Hive, Python, R各写
一遍。这个不难,我每天都用这些,挺熟的。拿起marker就写。HM很满意 而且用手机
对着答案拍照. 之后又让比较了几个常用算法的 order of complexity
-----------------------------------------------------------------------------
基本上没有一个人提到SAS. 震撼! 没想到啊,因为这家并非硅谷科技公司啊。I was
expecting they would at least ask me about SAS "proc logistic" regression
No. nothing about SAS.
欢迎上我的两小时Python/R/H... 阅读全帖
S******y
发帖数: 1123
24
来自主题: Statistics版 - 求推荐R的教程
呵呵,有几个同学刚上过我的R course 反馈都不错 :-)
m*********[email protected]
http://plus.google.com/109275868505226513618/about
b********1
发帖数: 291
25
哈根达斯 好久不见,还在这里玩 ?
我老所说的一两百million绝不是信口开河. 一个小型信用卡公司一个月的transaction
, 保守说,20个million, 肯定有的。 那些连锁店,卖pissa的,卖菜卖水果卖哈根
达斯的,全美国范围内一个月交易量比这个也少不到哪儿去 。
statsguy说被一家有名公司面试题所震惊, 我就好奇, 这么大的公司,会有多少客户
? 绝对不会少于一个million吧? 一个million的客户,两三年的数据, 很轻松就上
100million了,用R? 我还真替他们捏一把汗.
退一万步说,不管你们公司什么业务, 三大信用局的数据 总买吧 ? 两三个月买一回
, 让vp心情好的时候签字, 她总不好拒绝吧, 那么一年买四次, 猜猜您手里就有多
少行数据
n****n
发帖数: 11
26
有同感。我想,StatsGuy所举的例子虽然是大公司,但是它的数据部门却很新,算是
Startup,一般这种情况下总是希望少花钱,多办事,甚至不花钱。

transaction
S******y
发帖数: 1123
27
已经两次被删贴了
从此老老实实做人, 努力摆好自家地摊儿 在这块地头上 认真好好混 :-)
祝大家新春快乐!
m*********[email protected]
d*********k
发帖数: 1239
28
我觉得你的这个问题很好
貌似statsguy 最近和python 杠上了
这个可是quantitative analyst 不是data scientist 啊 都能和hadoop 扯上
S******y
发帖数: 1123
29
哈哈 谢谢补充!
我之所以沒提R, 是因为狗家早就假定你来申请之前已经会R了. 如果连R都不会那 就不
用费劲了:-)
祝大家马年大吉 马上发财!
m*********[email protected]
S******y
发帖数: 1123
30
哈哈 那就请楼上这位 面试回来 给大家汇报一下吧 看看谁猜中考题多一些 :-)
祝大家马年大吉 马上发财!
m*********[email protected]
S******y
发帖数: 1123
31
假定您准备硕士毕业 去工业界 -
Bayesian 的课上一门就够了
有时间可以去CS 系上一门本科生的数据结构
祝大家马年大吉 马上发财!
m*********[email protected]
S******y
发帖数: 1123
32
Thanks for sharing on HLDA.
I am going to try some LDA analysis on Mahout this month :-)
m*********[email protected]
http://plus.google.com/109275868505226513618/about
S******y
发帖数: 1123
33
来自主题: Statistics版 - 保险的modeler好不好?
保险业的modeler从传统的精算为主,过渡到精算 + machine learning并行。估计每家
都在上马 Hadoop 或已经开始用Hadoop. 学会Hive 和Pig 应该可以得到加分
Good luck!
m*********[email protected]
http://plus.google.com/109275868505226513618/about
S******y
发帖数: 1123
34
来自主题: Statistics版 - 保险的modeler好不好?
哈哈 看来在保险公司做过的还真不多
我以前在的保险公司几年前已经在试安装调试Hadoop. 因为telematics device每三十
秒记录一次driving各方面的metrics 数据规模将来会非常大. 反正早晚都上Hadoop.
不如干脆早点上马.
当时没人会set up Hadoop,只有一家印度人开的consulting firm 号称自己是Hadoop专
家,当时就请了他们. 记得跟他们印度专家视频,印度那边是半夜两点多,两个老印哥
们不知从那儿抄了两段example code给我们做demo. 我当场差点笑翻了, 就是觉得那哥
俩半夜两点起来demo太可爱了 :-)
您说用SAS也沒错,SAS数据处理这块在保险公司人人都会。不会也不要紧,送你去做
SAS培训,保证你学会为止 :-)
当然SAS modeling 这块就靠个人统计功底了 :-)
m*********[email protected]
http://plus.google.com/109275868505226513618/about
S******y
发帖数: 1123
35
来自主题: Statistics版 - 关于SAS,SPSS,R,Python
With your biostats background, you can start with R first.
Then, next step - you can dive into Python.
Python Success Stories -
http://www.python.org/about/success/#engineering
Happy Python :-)
-statsGuy
欢迎浏览Python/R/Hadoop实战速成课网页-
http://plus.google.com/+statsGuyMITBBS/about
---------------------
S******y
发帖数: 1123
36
来自主题: Statistics版 - 关于SAS,SPSS,R,Python
With your biostats background, you can start with R first.
Then, next step - you can dive into Python.
Python Success Stories -
http://www.python.org/about/success/#engineering
Happy Python :-)
-statsGuy
欢迎浏览Python/R/Hadoop实战速成课网页-
http://plus.google.com/+statsGuyMITBBS/about
---------------------
s******r
发帖数: 1524
37
来自主题: Statistics版 - ~StatsGuy: 再次感谢选课的同学们!
大忽悠啊.你老人家孜孜不倦得宣传了好几年.实在抗不住了.现在太忙,过些日子也要
pikup Python/R/Hadoop.
谢谢

financial
S******y
发帖数: 1123
38
来自主题: Statistics版 - ~StatsGuy: 再次感谢选课的同学们!
欢迎硅谷金融女侠 :-)
s*********e
发帖数: 1051
39
来自主题: Statistics版 - ~StatsGuy: 再次感谢选课的同学们!
你把东西做得更professional一点,收得再贵一点,我帮你在linkedin和我的博客上再
宣传一下。

financial
s******r
发帖数: 1524
40
来自主题: Statistics版 - ~StatsGuy: 再次感谢选课的同学们!
向大家血泪泣诉,千万不要长时间潜水啊.这不都怀疑我老人家做变性手术了.
S******y
发帖数: 1123
41
来自主题: Statistics版 - ~StatsGuy: 再次感谢选课的同学们!
抱歉抱歉
不小心看成 "江山如此多娇" 了 :-)
S******y
发帖数: 1123
42
来自主题: Statistics版 - ~StatsGuy: 再次感谢选课的同学们!
谢谢statcompute兄!
嗯,正在向这两个方向努力。
S******y
发帖数: 1123
43
来自主题: Statistics版 - ~StatsGuy: 再次感谢选课的同学们!
多谢 oloolo 兄的很多好建议!
S******y
发帖数: 1123
44
来自主题: Statistics版 - Kaggle: 一个学习Data Science极佳平台
本周六(3/8)的R 培训课其中一部分 将包括Kaggle.com
During this class, we will cover -
1) R concepts review thoroughly (data types, data structure, functions,
control
statements, File I/O, graphs, etc)
2) R to visualize, re-code, and explore variables in the loan underwriting
data
3) going over one Kaggle.com Competition from beginning to end (using R to
build model and generate/submit your own prediction scores)
--------------------------------------------------
Here is the link to register if you are intereste... 阅读全帖
h***x
发帖数: 586
45
来自主题: Statistics版 - 打听统计entry level起薪
StatsGuy应该向广告传媒界进军,统计作为副业就可以了。:-)
S******y
发帖数: 1123
46
凡上过培训课及已注册的同学,均可以得到简历修改建议 (feedback)免费服务
请在subject line上注明desired 的 career方向 (e.g. data scientist or
statistical analyst 在银行, 药厂, 互联网或保险公司等)
来信一般在四十八小时内回复。I will provide feedback in multiple bullet
points (approximately one-page long).
谢谢!
m*********[email protected]
欢迎浏览Python/R/Hadoop实战速成课网页-
http://plus.google.com/+statsGuyMITBBS/about
----------------------------------------------
S******y
发帖数: 1123
47
现提供简历修改建议 (feedback)免费服务
I will provide written feedback on resumes sent to me in email (
approximately one-page long). Feel free to remove personal info.
Due to limited bandwidth, 暂仅限于上过陪训课或已注册的同学。
谢谢!
m*********[email protected]
欢迎浏览Python/R/Hadoop实战速成课网页-
http://plus.google.com/+statsGuyMITBBS/about
----------------------------------------------
S******y
发帖数: 1123
48
来自主题: Statistics版 - 本周六(3/8)的R 培训课
本周六(3/8)的R 培训课 将包括 Kaggle 竞赛实战速成
During this class, we will cover -
1) R concepts review thoroughly (data types, data structure - vector, list,
data frame, matrix, array; functions, control statements, File I/O, graphs,
etc)
2) R to visualize, re-code, and explore variables in a real-world financial
underwriting data set from an online financial institution
3) going over one Kaggle.com Competition from beginning to end (using R to
build your own model, generate & submit your own prediction scor... 阅读全帖
z*****s
发帖数: 428
49
Is ad allowed here?

I
real
key
questions
feedback,
r******3
发帖数: 857
50
是真的吗?不是托?

I
real
key
questions
feedback,
首页 上页 1 2 3 4 下页 末页 (共4页)