c***z 发帖数: 6348 | 1 【 以下文字转载自 JobHunting 讨论区 】
发信人: phunter (程式猎人:LA摸机会资深成员), 信区: JobHunting
标 题: 讲个找数据科学工作的捷径 aka 刷Kaggle题迅速入门data scient
发信站: BBS 未名空间站 (Mon Apr 27 18:26:38 2015, 美东)
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教... 阅读全帖 |
|
p*****r 发帖数: 1883 | 2 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票 ht... 阅读全帖 |
|
p*****r 发帖数: 1883 | 3 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票
ht... 阅读全帖 |
|
S******y 发帖数: 1123 | 4 Kaggle是预测性建模和分析比赛平台. 通过这个平台,Sponsors 提供数据和问题的描
述。 参赛者尝试不同的技术相互竞争,以产生最佳的模型和预测结果。(参赛者使用最
多工具的是 Python, R)
Kaggle叁与者有约95,000全世界的数据科学家,来自计算机科学,统计学,经济学和数
学领域。 Kaggle最有名的是300万美元的HealthCare Data比赛 。最近的另一项比赛着
眼于提高手势识别的微软Kinect。
比赛已经导致了许多成功的项目,包括改进现有技术在HIV研究, 交通预测 等
等。 在Kaggle比赛取得成果的基础上 一些学术论文已经发表。
2011年11月, Kaggle宣布A系列轮融资1100万美元。另一个著名的投资人是Hal
Varian,谷歌首席经济学家,他形容Kaggle组织世界上最有才华的数据科学家的脑力.
2011年Kaggle搬到了旧金山 经历了快速扩张阶段。
-----------------------
(以上摘自/编译自 维基百科)
鼓励大家利用这一极佳学习平台,迅速提高data science水平更上一层楼!
可以自学也可以上我... 阅读全帖 |
|
R********n 发帖数: 3601 | 5 【 以下文字转载自 Programming 讨论区 】
发信人: newegg06 (egg), 信区: Programming
标 题: 是不是我看错了,Kaggle上可做的题一共11题? (转载)
发信站: BBS 未名空间站 (Thu Mar 30 22:46:21 2017, 美东)
发信人: newegg06 (egg), 信区: JobHunting
标 题: 是不是我看错了,Kaggle上可做的题一共11题?
发信站: BBS 未名空间站 (Thu Mar 30 22:45:07 2017, 美东)
我只对build ML models感兴趣。看了一下一共11 active competitions?
https://www.kaggle.com/competitions
怎么才这么点题目?又看了一下kernels tab,都是前人的答案,不是题目。
https://www.kaggle.com/kernels |
|
|
w***g 发帖数: 5958 | 7 哪怕就是stacked技巧搞到了几个第一名,基本上也就能吃香的喝辣的。
就怕前50都进不了。现在的行情,随便做做就是几百名的样子。我最近
拿了个167名,也是开始花了好多力气,后来没精力做了。
Stacking大家现在都会做了,要做得比别人好其实非常难。
对于kaggle master来说,只要能接触到行业流程,
搞performance和robustness吊打行业专家一点问题都没有。
脑子好使的人,能者无所不能。我就是脑子不太好使,所以排名一直上不去。
现在其实就两个问题。一个是kaggle master太少。
还有一个是行业不开放,就是有本事的人也看不到数据。
一般公司,招到个在kaggle上写半吊子kernel/tutorial的,就能当个宝了。
一个产业到了中国人手里,马上就把所有人的饭碗都做砸了--
这个过程中我当然也出了一己之力。 |
|
M********0 发帖数: 1230 | 8 大牛所说表示部分赞同 任何领域或者比赛能搞到top绝对是需要有脑子的
就好比刷题刷到ACM奖牌
但对于一般的kaggler照猫画虎 调调包做一做stacking我觉得kaggle对于提升经验值帮
忙不大 刚开始作为敲门砖还可以
我们曾经和data robot打过交道 很失望 据说他们公司网罗过不少kaggle master和
top50, founder就是两个好几年前的master
虽然我承认要是单挑kaggle竞赛 我可能比不过他们 但是你所谓的行业内流程 包括
feature engineering都是要花时间做研究和实验的啊 宝贵之处就在这里呢啊
这就好比你把好的idea都想好了 每一步需要注意些什么 然后让学生去做实验 自然最
后能出来好结果 |
|
d******c 发帖数: 2407 | 9 经常看到有人推荐刷kaggle,有几个转行靠kaggle实际成功的例子?
去看看kaggle blog上对竞赛成功者的访谈,感觉一下自己和他们的距离。很多人是
machine learning master/phd,本身就是做这个的。
刷题帮助找工作成功的例子则到处都是。 |
|
r**********e 发帖数: 587 | 10 水货bioinformatics phd要毕业,有一定的python和r的经验;加上对machine
learning很有热情;所以现在非常想转data science。现在刷kaggle不亦乐乎,一方面
练习machine learning,一方面学习基本的data clean经验,同时还锻炼python
但对于我们转行的来说,刷kaggle对于转成general data scientist有多大帮助呢?
有人说必须要competition very high ranking才行,才能摆在resume上来秀一秀
另外,我也是用python刷leetcode,因为data sci工作数量远远少于码工,所以也是一
颗红心两种准备,万一找不到data sci的工作,还可以直接programmer。但码工主流是
java,只会python能成么
谢谢大家 |
|
|
f********a 发帖数: 1109 | 12 【 以下文字转载自 Joke 讨论区 】
发信人: chunjuan (👍春卷🐱更多春卷👍), 信区: Joke
标 题: Kaggle比赛禁止中国人参加 (转载)
发信站: BBS 未名空间站 (Thu May 25 16:24:51 2017, 美东)
发信人: howardx (howard), 信区: Programming
标 题: Kaggle比赛禁止中国人参加
发信站: BBS 未名空间站 (Thu May 25 15:57:12 2017, 美东)
最新的120万大奖的比赛禁止中国人参加第二轮
国人连续两次年度冠军把这帮孙子吓倒了 |
|
e*******o 发帖数: 4654 | 13 牛逼
说实话我觉个kaggle拿钱,性价比奇低。
好多人一年干的活,也顶不上kaggle上5k的project。
适合wdong这样不以挣钱为目的的大牛。
等我下学期学学machine learning, 也去凑凑热闹。 |
|
l*******m 发帖数: 1096 | 14 话说kaggle有3,4个深度学习民间高手,自己写framework到kaggle试水。这位老兄
就是一个,他用.net + cuda |
|
e*******o 发帖数: 4654 | 15 牛逼
说实话我觉个kaggle拿钱,性价比奇低。
好多人一年干的活,也顶不上kaggle上5k的project。
适合wdong这样不以挣钱为目的的大牛。
等我下学期学学machine learning, 也去凑凑热闹。 |
|
l*******m 发帖数: 1096 | 16 话说kaggle有3,4个深度学习民间高手,自己写framework到kaggle试水。这位老兄
就是一个,他用.net + cuda |
|
f******2 发帖数: 2455 | 17 先顶再问。
1,kaggle的测评机制怎么做的?暴力算法结果如何重复?
2. 如果用tensorflow这类东东做轮子参加kaggle竞赛,多少精力是搭轮子,多少是
fine tune模型和参数? 能有个百分比预估吗?
validation
了。
做, |
|
w*******x 发帖数: 489 | 18 从来没上过这个版, 今天去Peru 大使馆去签证碰到一哥们也去取,然后他说我是不是
这个做kaggle的,我吃了一惊,他说因为mitbbs有人说这个事,他也关注,看着像....
, 我就跑来看看 :)
首先我们不是夫妻店啊....(我老婆知道了以后肯定不让我和女性合作project了...)
早期我用传统的segmentation方法做到0.016, 那时候排第5的样子 我发帖找用CNN方法
的人合作(这样可以省掉我从头写CNN的麻烦)这个Tencia就说可以和我合作~
我本来觉得做segmentation还可以有好多好多可以做的,后来做了半个月,完全没有改
进,我就彻底扔掉了这个方法,一心做CNN (我们用python, theano, lasagne, cuda,
其实也很快的,train 2个小时就收敛了,forcast 10几20秒一个case )了,很快我们
的分数就到了0.0105左右,后来又细节上做了很多小的改进,才到in-sample 0.0936
(最后我们的test 0.0948). 这个比赛我觉得大方向对了(用CNN predict contour,
不是volu... 阅读全帖 |
|
c*********l 发帖数: 3438 | 19 【 以下文字转载自 DataSciences 讨论区 】
发信人: flareon (), 信区: DataSciences
标 题: Kaggle入门问题
发信站: BBS 未名空间站 (Fri Apr 14 18:16:24 2017, 美东)
一直在看kaggle kernel,自己也写一点,但没想过参赛
有一些很愚蠢的问题是:
1. 对于已经结束的competition,为啥我无法看到winning kernel呢?
2. 是不是只有还在进行的比赛,才能看到kernel呢?还是说这些show kernel的人是不
参与比赛的?
3. competition分为featured,research 。。好几种,到底啥区别呢?
谢谢 |
|
b****u 发帖数: 1130 | 20 Kaggle上的问题其实还是不错的。
不过看了几个top的题解,觉得现在的Kaggler有点像过去的炼丹师。他们主要的工作就
是搞出各种各样的feature,各种变换。然后放到几个标准模型,比如NN,lightGBM,
xgboot,得到结果。
没有数学,也没算法。总体感觉就是个力气活。
班上像wdong那样的计算机水平很高,数学水平也不错的,估计是瞧不起Kaggle这帮人
的。 |
|
M********0 发帖数: 1230 | 21 Kaggle就是搞搞玩的
现实中每个行业的水都很深 单单数据采集这一块学问就挺大 不同的数据做出来的
model无论performance还是robust都差的远了
kaggle上多数就是一个现成的dataset 和给一个Iris数据本质上没有区别
另外那些为了追求0.01的提高弄出来的各种stacked技巧很多在production上根本用不
了 只是炫技而已 |
|
g****t 发帖数: 31659 | 22 开创一个数据和行业结合的生产流程是很极难的。
for example:办公自动化这样事后看起来极容易的东西,
在开始是极难的事情。
专家有两种,一种是坐享其成的。
就是用excel的。肯定输给kaggle的牛人。
第二种是虚空造物的。
我不认为kaggle专家进了电子表格领域,能赢最早在Mac上面发明电子表格,
卖给steve jobs的那位老侠。那老侠后来advocate了web doc。后来好像给了
Google成了goog doc |
|
g****t 发帖数: 31659 | 23 Wdong说的被吊打的专家是走别人的路的那种“专家”。
而不是开辟道路(例如发明电子表格)的那种真专家。
前者不被kaggle master年轻人吊打也会被别人吊打。
他们的工作和刷题本质区别不大。
后者我看到的话会避免和他走一个方向。因为和真正的
革新者竞争,结局不确定性很大。
历史上有个著名数学家被poincare摧毁了灵魂……
: 是的 我赞同
: 所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解
和研究的
: 随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不
太可能
我觉
: 得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的
逻辑回归做分
类 那
: 我随随便便上个xgboost就能吊打”这种例子
|
|
S******y 发帖数: 1123 | 24 本周六(3/8)的R 培训课其中一部分 将包括Kaggle.com
During this class, we will cover -
1) R concepts review thoroughly (data types, data structure, functions,
control
statements, File I/O, graphs, etc)
2) R to visualize, re-code, and explore variables in the loan underwriting
data
3) going over one Kaggle.com Competition from beginning to end (using R to
build model and generate/submit your own prediction scores)
--------------------------------------------------
Here is the link to register if you are intereste... 阅读全帖 |
|
g****h 发帖数: 481 | 25 板上有没有同学通过kaggle的竞赛找到过工作?kaggle的排名多少才能对找工作有所帮
助? |
|
l*******m 发帖数: 1096 | 26 There are two major duties of DS: insight and predictive modeling.
Kaggle mainly covers the modeling part. But Kaggle can really help build up
your DS/ML experience. |
|
s****h 发帖数: 3979 | 27 今天无意在kaggle上发现了这道题,要预测CTR rate:
https://www.kaggle.com/c/avazu-ctr-prediction
不利的一点是这题已经出来两个多月,还有2周就截止了。
有趣的是这题变量很多,啥machine learning的tool都可以随便试,所以目前已经提交
答案的队居然有1400+,估计都是啥顺手的toolbox都拿来试一试。
论坛上看到很多人说直接用Vowpal Wabbit,还没tuning呢,结果就接近目前排名最高的
team了。
大家有兴趣的一起看看?分享一下思路?
evaluation is based on Logarithmic Loss.
觉得不合理啊,实际应用中应该用number of correct prediction吧。
下午比较空,就下载了数据,load进hive,先算了算group by各个变量的CTR。
我目前的思路比较too simple too naive。就是每个变量替换成该group by变量的CTR
,然后general linear regression试试看效果如何。 |
|
s****h 发帖数: 3979 | 28 今天无意在kaggle上发现了这道题,要预测CTR rate:
https://www.kaggle.com/c/avazu-ctr-prediction
不利的一点是这题已经出来两个多月,还有2周就截止了。
有趣的是这题变量很多,啥machine learning的tool都可以随便试,所以目前已经提交
答案的队居然有1400+,估计都是啥顺手的toolbox都拿来试一试。
论坛上看到很多人说直接用Vowpal Wabbit,还没tuning呢,结果就接近目前排名最高的
team了。
大家有兴趣的一起看看?分享一下思路?
evaluation is based on Logarithmic Loss.
觉得不合理啊,实际应用中应该用number of correct prediction吧。
下午比较空,就下载了数据,load进hive,先算了算group by各个变量的CTR。
我目前的思路比较too simple too naive。就是每个变量替换成该group by变量的CTR
,然后general linear regression试试看效果如何。 |
|
t******5 发帖数: 47 | 29 Kaggle对去FLAG是不是没什么用处阿,看KAGGLE总排名前一百的貌似都没有FLAG工作的。
好奇FLAG的Data scientist都什么背景的,难道都是TOP10 CS PHD? |
|
t******5 发帖数: 47 | 30 Kaggle对去FLAG是不是没什么用处阿,看KAGGLE总排名前一百的貌似都没有FLAG工作的。
好奇FLAG的Data scientist都什么背景的,难道都是TOP10 CS PHD? |
|
r**********e 发帖数: 587 | 31 因为过去搞生物信息,所以我有一定的python和r的经验
加上对machine learning很有热情;现在非常想转data science。
所以现在刷kaggle不亦乐乎,一方面练习machine learning,一方面学习基本的data
clean经验,同时还锻炼python
但对于我们转行的来说,刷kaggle对于转成general data scientist有多大帮助呢?
有人说必须要competition very high ranking才行,才能摆在resume上来秀一秀
另外,我也是用python刷leetcode,因为data sci工作数量远远少于码工,所以也是一
颗红心两种准备,万一找不到data sci的工作,还可以直接programmer。但码工主流是
java,只会python能成么 |
|
l**********r 发帖数: 47 | 32 楼主的声音振聋发聩啊,好好学习,刷kaggle去了 |
|
w****x 发帖数: 14 | 33 大牛帅不帅啊?加我吧, 我刚想去kaggle上玩玩呢。
L1 |
|
p*****r 发帖数: 1883 | 34 不好意思不是大牛也只是普通帅,kaggle上面你随便挑个人多的比赛,看看好心人(一
般这个好心人是 Abhishek)贴的beat the benchmark的代码,从那个开始做,看他代
码里写的,你加自己的内容进去。这个自学阶段能很快提高。 |
|
G****e 发帖数: 1480 | 35 顶p老师。
话说我以前公司analytic组还经常一起组队参加Kaggle,老板看到排名高的ID是无限喜
欢啊。 |
|
l*****a 发帖数: 111 | 36 收藏
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮.......
. |
|
|
l**********r 发帖数: 47 | 38 楼主的声音振聋发聩啊,好好学习,刷kaggle去了 |
|
w****x 发帖数: 14 | 39 大牛帅不帅啊?加我吧, 我刚想去kaggle上玩玩呢。
L1 |
|
p*****r 发帖数: 1883 | 40 不好意思不是大牛也只是普通帅,kaggle上面你随便挑个人多的比赛,看看好心人(一
般这个好心人是 Abhishek)贴的beat the benchmark的代码,从那个开始做,看他代
码里写的,你加自己的内容进去。这个自学阶段能很快提高。 |
|
G****e 发帖数: 1480 | 41 顶p老师。
话说我以前公司analytic组还经常一起组队参加Kaggle,老板看到排名高的ID是无限喜
欢啊。 |
|
l*****a 发帖数: 111 | 42 收藏
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮.......
. |
|
|
发帖数: 1 | 44 what's kaggle?
such a weird name |
|
s*******h 发帖数: 3219 | 45 【 以下文字转载自 Programming 讨论区 】
发信人: sammamish (sammamish), 信区: Programming
标 题: 你们刷Kaggle 泰坦尼克的最好成绩是多少?
发信站: BBS 未名空间站 (Fri Apr 14 14:12:38 2017, 美东)
抱上来听听 |
|
c******n 发帖数: 16666 | 46 【 以下文字转载自 Programming 讨论区 】
发信人: howardx (howard), 信区: Programming
标 题: Kaggle比赛禁止中国人参加
发信站: BBS 未名空间站 (Thu May 25 15:57:12 2017, 美东)
最新的120万大奖的比赛禁止中国人参加第二轮
国人连续两次年度冠军把这帮孙子吓倒了 |
|
d****o 发帖数: 32610 | 47 kaggle没得玩了还可以玩Quantopian |
|
|
n*****3 发帖数: 1584 | 49 能拿个 kaggle master ,
resume 上还是能增色不少奥 |
|
s*********d 发帖数: 531 | 50 膜拜大牛,感觉进top 10%已经很难了,上次做一个kaggle的项目,抽3天时间从早到晚
的搞,累了个半死。。。能指点下经验吗,现在会一些基本的ensemble了,stacking,
bagging什么的,不知道进一步提高的点在哪,feature engineering完全找不到方向.. |
|