由买买提看人间百态

topics

全部话题 - 话题: kaggle
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
c***z
发帖数: 6348
1
【 以下文字转载自 JobHunting 讨论区 】
发信人: phunter (程式猎人:LA摸机会资深成员), 信区: JobHunting
标 题: 讲个找数据科学工作的捷径 aka 刷Kaggle题迅速入门data scient
发信站: BBS 未名空间站 (Mon Apr 27 18:26:38 2015, 美东)
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教... 阅读全帖
p*****r
发帖数: 1883
2
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票 ht... 阅读全帖
p*****r
发帖数: 1883
3
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票
ht... 阅读全帖
S******y
发帖数: 1123
4
来自主题: Statistics版 - Kaggle: 一个学习Data Science极佳平台
Kaggle是预测性建模和分析比赛平台. 通过这个平台,Sponsors 提供数据和问题的描
述。 参赛者尝试不同的技术相互竞争,以产生最佳的模型和预测结果。(参赛者使用最
多工具的是 Python, R)
Kaggle叁与者有约95,000全世界的数据科学家,来自计算机科学,统计学,经济学和数
学领域。 Kaggle最有名的是300万美元的HealthCare Data比赛 。最近的另一项比赛着
眼于提高手势识别的微软Kinect。
比赛已经导致了许多成功的项目,包括改进现有技术在HIV研究, 交通预测 等
等。 在Kaggle比赛取得成果的基础上 一些学术论文已经发表。
2011年11月, Kaggle宣布A系列轮融资1100万美元。另一个著名的投资人是Hal
Varian,谷歌首席经济学家,他形容Kaggle组织世界上最有才华的数据科学家的脑力.
2011年Kaggle搬到了旧金山 经历了快速扩张阶段。
-----------------------
(以上摘自/编译自 维基百科)
鼓励大家利用这一极佳学习平台,迅速提高data science水平更上一层楼!
可以自学也可以上我... 阅读全帖
R********n
发帖数: 3601
5
【 以下文字转载自 Programming 讨论区 】
发信人: newegg06 (egg), 信区: Programming
标 题: 是不是我看错了,Kaggle上可做的题一共11题? (转载)
发信站: BBS 未名空间站 (Thu Mar 30 22:46:21 2017, 美东)
发信人: newegg06 (egg), 信区: JobHunting
标 题: 是不是我看错了,Kaggle上可做的题一共11题?
发信站: BBS 未名空间站 (Thu Mar 30 22:45:07 2017, 美东)
我只对build ML models感兴趣。看了一下一共11 active competitions?
https://www.kaggle.com/competitions
怎么才这么点题目?又看了一下kernels tab,都是前人的答案,不是题目。
https://www.kaggle.com/kernels
n******6
发帖数: 1829
6
【 以下文字转载自 JobHunting 讨论区 】
发信人: newegg06 (egg), 信区: JobHunting
标 题: 是不是我看错了,Kaggle上可做的题一共11题?
发信站: BBS 未名空间站 (Thu Mar 30 22:45:07 2017, 美东)
我只对build ML models感兴趣。看了一下一共11 active competitions?
https://www.kaggle.com/competitions
怎么才这么点题目?又看了一下kernels tab,都是前人的答案,不是题目。
https://www.kaggle.com/kernels
w***g
发帖数: 5958
7
来自主题: Programming版 - 看了几个kaggle的答题,有点迷惑了
哪怕就是stacked技巧搞到了几个第一名,基本上也就能吃香的喝辣的。
就怕前50都进不了。现在的行情,随便做做就是几百名的样子。我最近
拿了个167名,也是开始花了好多力气,后来没精力做了。
Stacking大家现在都会做了,要做得比别人好其实非常难。
对于kaggle master来说,只要能接触到行业流程,
搞performance和robustness吊打行业专家一点问题都没有。
脑子好使的人,能者无所不能。我就是脑子不太好使,所以排名一直上不去。
现在其实就两个问题。一个是kaggle master太少。
还有一个是行业不开放,就是有本事的人也看不到数据。
一般公司,招到个在kaggle上写半吊子kernel/tutorial的,就能当个宝了。
一个产业到了中国人手里,马上就把所有人的饭碗都做砸了--
这个过程中我当然也出了一己之力。
M********0
发帖数: 1230
8
来自主题: Programming版 - 看了几个kaggle的答题,有点迷惑了
大牛所说表示部分赞同 任何领域或者比赛能搞到top绝对是需要有脑子的
就好比刷题刷到ACM奖牌
但对于一般的kaggler照猫画虎 调调包做一做stacking我觉得kaggle对于提升经验值帮
忙不大 刚开始作为敲门砖还可以
我们曾经和data robot打过交道 很失望 据说他们公司网罗过不少kaggle master和
top50, founder就是两个好几年前的master
虽然我承认要是单挑kaggle竞赛 我可能比不过他们 但是你所谓的行业内流程 包括
feature engineering都是要花时间做研究和实验的啊 宝贵之处就在这里呢啊
这就好比你把好的idea都想好了 每一步需要注意些什么 然后让学生去做实验 自然最
后能出来好结果
d******c
发帖数: 2407
9
来自主题: DataSciences版 - 刷kaggle对找工作有用么?
经常看到有人推荐刷kaggle,有几个转行靠kaggle实际成功的例子?
去看看kaggle blog上对竞赛成功者的访谈,感觉一下自己和他们的距离。很多人是
machine learning master/phd,本身就是做这个的。
刷题帮助找工作成功的例子则到处都是。
r**********e
发帖数: 587
10
来自主题: JobHunting版 - 刷kaggle对找ds工作有多大帮助?
水货bioinformatics phd要毕业,有一定的python和r的经验;加上对machine
learning很有热情;所以现在非常想转data science。现在刷kaggle不亦乐乎,一方面
练习machine learning,一方面学习基本的data clean经验,同时还锻炼python
但对于我们转行的来说,刷kaggle对于转成general data scientist有多大帮助呢?
有人说必须要competition very high ranking才行,才能摆在resume上来秀一秀
另外,我也是用python刷leetcode,因为data sci工作数量远远少于码工,所以也是一
颗红心两种准备,万一找不到data sci的工作,还可以直接programmer。但码工主流是
java,只会python能成么
谢谢大家
n******6
发帖数: 1829
11
我只对build ML models感兴趣。看了一下一共11 active competitions?
https://www.kaggle.com/competitions
怎么才这么点题目?又看了一下kernels tab,都是前人的答案,不是题目。
https://www.kaggle.com/kernels
f********a
发帖数: 1109
12
来自主题: JobHunting版 - Kaggle比赛禁止中国人参加 (转载)
【 以下文字转载自 Joke 讨论区 】
发信人: chunjuan (👍春卷🐱更多春卷👍), 信区: Joke
标 题: Kaggle比赛禁止中国人参加 (转载)
发信站: BBS 未名空间站 (Thu May 25 16:24:51 2017, 美东)
发信人: howardx (howard), 信区: Programming
标 题: Kaggle比赛禁止中国人参加
发信站: BBS 未名空间站 (Thu May 25 15:57:12 2017, 美东)
最新的120万大奖的比赛禁止中国人参加第二轮
国人连续两次年度冠军把这帮孙子吓倒了
e*******o
发帖数: 4654
13
来自主题: Programming版 - kaggle上那批人太逆天了
牛逼
说实话我觉个kaggle拿钱,性价比奇低。
好多人一年干的活,也顶不上kaggle上5k的project。
适合wdong这样不以挣钱为目的的大牛。
等我下学期学学machine learning, 也去凑凑热闹。
l*******m
发帖数: 1096
14
来自主题: Programming版 - kaggle上那批人太逆天了
话说kaggle有3,4个深度学习民间高手,自己写framework到kaggle试水。这位老兄
就是一个,他用.net + cuda
e*******o
发帖数: 4654
15
来自主题: Programming版 - kaggle上那批人太逆天了
牛逼
说实话我觉个kaggle拿钱,性价比奇低。
好多人一年干的活,也顶不上kaggle上5k的project。
适合wdong这样不以挣钱为目的的大牛。
等我下学期学学machine learning, 也去凑凑热闹。
l*******m
发帖数: 1096
16
来自主题: Programming版 - kaggle上那批人太逆天了
话说kaggle有3,4个深度学习民间高手,自己写framework到kaggle试水。这位老兄
就是一个,他用.net + cuda
f******2
发帖数: 2455
17
来自主题: Programming版 - 总结一下kaggle比赛
先顶再问。
1,kaggle的测评机制怎么做的?暴力算法结果如何重复?
2. 如果用tensorflow这类东东做轮子参加kaggle竞赛,多少精力是搭轮子,多少是
fine tune模型和参数? 能有个百分比预估吗?

validation
了。
做,
w*******x
发帖数: 489
18
来自主题: Programming版 - 总结一下kaggle比赛
从来没上过这个版, 今天去Peru 大使馆去签证碰到一哥们也去取,然后他说我是不是
这个做kaggle的,我吃了一惊,他说因为mitbbs有人说这个事,他也关注,看着像....
, 我就跑来看看 :)
首先我们不是夫妻店啊....(我老婆知道了以后肯定不让我和女性合作project了...)
早期我用传统的segmentation方法做到0.016, 那时候排第5的样子 我发帖找用CNN方法
的人合作(这样可以省掉我从头写CNN的麻烦)这个Tencia就说可以和我合作~
我本来觉得做segmentation还可以有好多好多可以做的,后来做了半个月,完全没有改
进,我就彻底扔掉了这个方法,一心做CNN (我们用python, theano, lasagne, cuda,
其实也很快的,train 2个小时就收敛了,forcast 10几20秒一个case )了,很快我们
的分数就到了0.0105左右,后来又细节上做了很多小的改进,才到in-sample 0.0936
(最后我们的test 0.0948). 这个比赛我觉得大方向对了(用CNN predict contour,
不是volu... 阅读全帖
c*********l
发帖数: 3438
19
来自主题: Programming版 - Kaggle入门问题 (转载)
【 以下文字转载自 DataSciences 讨论区 】
发信人: flareon (), 信区: DataSciences
标 题: Kaggle入门问题
发信站: BBS 未名空间站 (Fri Apr 14 18:16:24 2017, 美东)
一直在看kaggle kernel,自己也写一点,但没想过参赛
有一些很愚蠢的问题是:
1. 对于已经结束的competition,为啥我无法看到winning kernel呢?
2. 是不是只有还在进行的比赛,才能看到kernel呢?还是说这些show kernel的人是不
参与比赛的?
3. competition分为featured,research 。。好几种,到底啥区别呢?
谢谢
b****u
发帖数: 1130
20
来自主题: Programming版 - 看了几个kaggle的答题,有点迷惑了
Kaggle上的问题其实还是不错的。
不过看了几个top的题解,觉得现在的Kaggler有点像过去的炼丹师。他们主要的工作就
是搞出各种各样的feature,各种变换。然后放到几个标准模型,比如NN,lightGBM,
xgboot,得到结果。
没有数学,也没算法。总体感觉就是个力气活。
班上像wdong那样的计算机水平很高,数学水平也不错的,估计是瞧不起Kaggle这帮人
的。
M********0
发帖数: 1230
21
来自主题: Programming版 - 看了几个kaggle的答题,有点迷惑了
Kaggle就是搞搞玩的
现实中每个行业的水都很深 单单数据采集这一块学问就挺大 不同的数据做出来的
model无论performance还是robust都差的远了
kaggle上多数就是一个现成的dataset 和给一个Iris数据本质上没有区别
另外那些为了追求0.01的提高弄出来的各种stacked技巧很多在production上根本用不
了 只是炫技而已
g****t
发帖数: 31659
22
来自主题: Programming版 - 看了几个kaggle的答题,有点迷惑了
开创一个数据和行业结合的生产流程是很极难的。
for example:办公自动化这样事后看起来极容易的东西,
在开始是极难的事情。
专家有两种,一种是坐享其成的。
就是用excel的。肯定输给kaggle的牛人。
第二种是虚空造物的。
我不认为kaggle专家进了电子表格领域,能赢最早在Mac上面发明电子表格,
卖给steve jobs的那位老侠。那老侠后来advocate了web doc。后来好像给了
Google成了goog doc
g****t
发帖数: 31659
23
来自主题: Programming版 - 看了几个kaggle的答题,有点迷惑了
Wdong说的被吊打的专家是走别人的路的那种“专家”。
而不是开辟道路(例如发明电子表格)的那种真专家。
前者不被kaggle master年轻人吊打也会被别人吊打。
他们的工作和刷题本质区别不大。
后者我看到的话会避免和他走一个方向。因为和真正的
革新者竞争,结局不确定性很大。
历史上有个著名数学家被poincare摧毁了灵魂……


: 是的 我赞同

: 所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解
和研究的

: 随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不
太可能
我觉

: 得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的
逻辑回归做分
类 那

: 我随随便便上个xgboost就能吊打”这种例子

S******y
发帖数: 1123
24
来自主题: Statistics版 - Kaggle: 一个学习Data Science极佳平台
本周六(3/8)的R 培训课其中一部分 将包括Kaggle.com
During this class, we will cover -
1) R concepts review thoroughly (data types, data structure, functions,
control
statements, File I/O, graphs, etc)
2) R to visualize, re-code, and explore variables in the loan underwriting
data
3) going over one Kaggle.com Competition from beginning to end (using R to
build model and generate/submit your own prediction scores)
--------------------------------------------------
Here is the link to register if you are intereste... 阅读全帖
g****h
发帖数: 481
25
板上有没有同学通过kaggle的竞赛找到过工作?kaggle的排名多少才能对找工作有所帮
助?
l*******m
发帖数: 1096
26
There are two major duties of DS: insight and predictive modeling.
Kaggle mainly covers the modeling part. But Kaggle can really help build up
your DS/ML experience.
s****h
发帖数: 3979
27
今天无意在kaggle上发现了这道题,要预测CTR rate:
https://www.kaggle.com/c/avazu-ctr-prediction
不利的一点是这题已经出来两个多月,还有2周就截止了。
有趣的是这题变量很多,啥machine learning的tool都可以随便试,所以目前已经提交
答案的队居然有1400+,估计都是啥顺手的toolbox都拿来试一试。
论坛上看到很多人说直接用Vowpal Wabbit,还没tuning呢,结果就接近目前排名最高的
team了。
大家有兴趣的一起看看?分享一下思路?
evaluation is based on Logarithmic Loss.
觉得不合理啊,实际应用中应该用number of correct prediction吧。
下午比较空,就下载了数据,load进hive,先算了算group by各个变量的CTR。
我目前的思路比较too simple too naive。就是每个变量替换成该group by变量的CTR
,然后general linear regression试试看效果如何。
s****h
发帖数: 3979
28
今天无意在kaggle上发现了这道题,要预测CTR rate:
https://www.kaggle.com/c/avazu-ctr-prediction
不利的一点是这题已经出来两个多月,还有2周就截止了。
有趣的是这题变量很多,啥machine learning的tool都可以随便试,所以目前已经提交
答案的队居然有1400+,估计都是啥顺手的toolbox都拿来试一试。
论坛上看到很多人说直接用Vowpal Wabbit,还没tuning呢,结果就接近目前排名最高的
team了。
大家有兴趣的一起看看?分享一下思路?
evaluation is based on Logarithmic Loss.
觉得不合理啊,实际应用中应该用number of correct prediction吧。
下午比较空,就下载了数据,load进hive,先算了算group by各个变量的CTR。
我目前的思路比较too simple too naive。就是每个变量替换成该group by变量的CTR
,然后general linear regression试试看效果如何。
t******5
发帖数: 47
29
来自主题: DataSciences版 - 有没有人一起组队做kaggle?
Kaggle对去FLAG是不是没什么用处阿,看KAGGLE总排名前一百的貌似都没有FLAG工作的。
好奇FLAG的Data scientist都什么背景的,难道都是TOP10 CS PHD?
t******5
发帖数: 47
30
来自主题: DataSciences版 - 有没有人一起组队做kaggle?
Kaggle对去FLAG是不是没什么用处阿,看KAGGLE总排名前一百的貌似都没有FLAG工作的。
好奇FLAG的Data scientist都什么背景的,难道都是TOP10 CS PHD?
r**********e
发帖数: 587
31
来自主题: DataSciences版 - 刷kaggle对找工作有用么?
因为过去搞生物信息,所以我有一定的python和r的经验
加上对machine learning很有热情;现在非常想转data science。
所以现在刷kaggle不亦乐乎,一方面练习machine learning,一方面学习基本的data
clean经验,同时还锻炼python
但对于我们转行的来说,刷kaggle对于转成general data scientist有多大帮助呢?
有人说必须要competition very high ranking才行,才能摆在resume上来秀一秀
另外,我也是用python刷leetcode,因为data sci工作数量远远少于码工,所以也是一
颗红心两种准备,万一找不到data sci的工作,还可以直接programmer。但码工主流是
java,只会python能成么
l**********r
发帖数: 47
32
楼主的声音振聋发聩啊,好好学习,刷kaggle去了
w****x
发帖数: 14
33
大牛帅不帅啊?加我吧, 我刚想去kaggle上玩玩呢。

L1
p*****r
发帖数: 1883
34
不好意思不是大牛也只是普通帅,kaggle上面你随便挑个人多的比赛,看看好心人(一
般这个好心人是 Abhishek)贴的beat the benchmark的代码,从那个开始做,看他代
码里写的,你加自己的内容进去。这个自学阶段能很快提高。
G****e
发帖数: 1480
35
顶p老师。
话说我以前公司analytic组还经常一起组队参加Kaggle,老板看到排名高的ID是无限喜
欢啊。
l*****a
发帖数: 111
36
收藏

贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮.......
.
c*******m
发帖数: 522
l**********r
发帖数: 47
38
楼主的声音振聋发聩啊,好好学习,刷kaggle去了
w****x
发帖数: 14
39
大牛帅不帅啊?加我吧, 我刚想去kaggle上玩玩呢。

L1
p*****r
发帖数: 1883
40
不好意思不是大牛也只是普通帅,kaggle上面你随便挑个人多的比赛,看看好心人(一
般这个好心人是 Abhishek)贴的beat the benchmark的代码,从那个开始做,看他代
码里写的,你加自己的内容进去。这个自学阶段能很快提高。
G****e
发帖数: 1480
41
顶p老师。
话说我以前公司analytic组还经常一起组队参加Kaggle,老板看到排名高的ID是无限喜
欢啊。
l*****a
发帖数: 111
42
收藏

贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮.......
.
c*******m
发帖数: 522

发帖数: 1
44
来自主题: JobHunting版 - 快刷 kaggle 吧
what's kaggle?
such a weird name
s*******h
发帖数: 3219
45
【 以下文字转载自 Programming 讨论区 】
发信人: sammamish (sammamish), 信区: Programming
标 题: 你们刷Kaggle 泰坦尼克的最好成绩是多少?
发信站: BBS 未名空间站 (Fri Apr 14 14:12:38 2017, 美东)
抱上来听听
c******n
发帖数: 16666
46
【 以下文字转载自 Programming 讨论区 】
发信人: howardx (howard), 信区: Programming
标 题: Kaggle比赛禁止中国人参加
发信站: BBS 未名空间站 (Thu May 25 15:57:12 2017, 美东)
最新的120万大奖的比赛禁止中国人参加第二轮
国人连续两次年度冠军把这帮孙子吓倒了
d****o
发帖数: 32610
47
kaggle没得玩了还可以玩Quantopian
c******n
发帖数: 16666
n*****3
发帖数: 1584
49
来自主题: Programming版 - kaggle上那批人太逆天了
能拿个 kaggle master ,
resume 上还是能增色不少奥
s*********d
发帖数: 531
50
来自主题: Programming版 - kaggle上那批人太逆天了
膜拜大牛,感觉进top 10%已经很难了,上次做一个kaggle的项目,抽3天时间从早到晚
的搞,累了个半死。。。能指点下经验吗,现在会一些基本的ensemble了,stacking,
bagging什么的,不知道进一步提高的点在哪,feature engineering完全找不到方向..
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)