由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 看了几个kaggle的答题,有点迷惑了
相关主题
Kaggle 泰坦尼克80%几的准确率再上不去了,怎么办总结一下kaggle比赛
关于搞ML刷数据的职业前途有没有大牛愿意牵头搞一个 deep learning project
ML 需不需要搞懂那些数学数据科学碗2017
准备向wdong大牛学习单干了Kaggle 被买了
how to use stack(s) to realize a queque数据碗的结果出来了 weidong站上英雄榜了
关于thread的stackAi这个社团很多人是很坏的
请教一道题 (转载)Kaggle比赛禁止中国人参加
kaggle上那批人太逆天了Zillow Prize讨论专用贴
相关话题的讨论汇总
话题: kaggle话题: br话题: 行业话题: 吊打话题: 专家
进入Programming版参与讨论
1 (共1页)
b****u
发帖数: 1130
1
Kaggle上的问题其实还是不错的。
不过看了几个top的题解,觉得现在的Kaggler有点像过去的炼丹师。他们主要的工作就
是搞出各种各样的feature,各种变换。然后放到几个标准模型,比如NN,lightGBM,
xgboot,得到结果。
没有数学,也没算法。总体感觉就是个力气活。
班上像wdong那样的计算机水平很高,数学水平也不错的,估计是瞧不起Kaggle这帮人
的。
e*******o
发帖数: 4654
2
粗快好猛就行,实际应用不就这么回事。
M********0
发帖数: 1230
3
Kaggle就是搞搞玩的
现实中每个行业的水都很深 单单数据采集这一块学问就挺大 不同的数据做出来的
model无论performance还是robust都差的远了
kaggle上多数就是一个现成的dataset 和给一个Iris数据本质上没有区别
另外那些为了追求0.01的提高弄出来的各种stacked技巧很多在production上根本用不
了 只是炫技而已
w***g
发帖数: 5958
4
哪怕就是stacked技巧搞到了几个第一名,基本上也就能吃香的喝辣的。
就怕前50都进不了。现在的行情,随便做做就是几百名的样子。我最近
拿了个167名,也是开始花了好多力气,后来没精力做了。
Stacking大家现在都会做了,要做得比别人好其实非常难。
对于kaggle master来说,只要能接触到行业流程,
搞performance和robustness吊打行业专家一点问题都没有。
脑子好使的人,能者无所不能。我就是脑子不太好使,所以排名一直上不去。
现在其实就两个问题。一个是kaggle master太少。
还有一个是行业不开放,就是有本事的人也看不到数据。
一般公司,招到个在kaggle上写半吊子kernel/tutorial的,就能当个宝了。
一个产业到了中国人手里,马上就把所有人的饭碗都做砸了--
这个过程中我当然也出了一己之力。

【在 M********0 的大作中提到】
: Kaggle就是搞搞玩的
: 现实中每个行业的水都很深 单单数据采集这一块学问就挺大 不同的数据做出来的
: model无论performance还是robust都差的远了
: kaggle上多数就是一个现成的dataset 和给一个Iris数据本质上没有区别
: 另外那些为了追求0.01的提高弄出来的各种stacked技巧很多在production上根本用不
: 了 只是炫技而已

w***g
发帖数: 5958
5
我就是脑子不够。认识我的基本上都见到过我剃光了头发散热加速。
Kaggle和deep learning就是炼丹。因为没有recipe,所以经验和感觉很重要。
但是需要看到的是,在一个竞争很激烈的领域能做到第一,哪怕是体育运动,
最后也都是看脑子。所以看到著名比赛的第一名,我都是很有敬畏之心的。



【在 b****u 的大作中提到】
: Kaggle上的问题其实还是不错的。
: 不过看了几个top的题解,觉得现在的Kaggler有点像过去的炼丹师。他们主要的工作就
: 是搞出各种各样的feature,各种变换。然后放到几个标准模型,比如NN,lightGBM,
: xgboot,得到结果。
: 没有数学,也没算法。总体感觉就是个力气活。
: 班上像wdong那样的计算机水平很高,数学水平也不错的,估计是瞧不起Kaggle这帮人
: 的。

g****t
发帖数: 31659
6
年纪大了就没法和年轻人争第一了。
开个方向让别人争第一更实际些。

【在 w***g 的大作中提到】
: 我就是脑子不够。认识我的基本上都见到过我剃光了头发散热加速。
: Kaggle和deep learning就是炼丹。因为没有recipe,所以经验和感觉很重要。
: 但是需要看到的是,在一个竞争很激烈的领域能做到第一,哪怕是体育运动,
: 最后也都是看脑子。所以看到著名比赛的第一名,我都是很有敬畏之心的。
:
: ,

g****t
发帖数: 31659
7
开创一个数据和行业结合的生产流程是很极难的。
for example:办公自动化这样事后看起来极容易的东西,
在开始是极难的事情。
专家有两种,一种是坐享其成的。
就是用excel的。肯定输给kaggle的牛人。
第二种是虚空造物的。
我不认为kaggle专家进了电子表格领域,能赢最早在Mac上面发明电子表格,
卖给steve jobs的那位老侠。那老侠后来advocate了web doc。后来好像给了
Google成了goog doc

【在 w***g 的大作中提到】
: 哪怕就是stacked技巧搞到了几个第一名,基本上也就能吃香的喝辣的。
: 就怕前50都进不了。现在的行情,随便做做就是几百名的样子。我最近
: 拿了个167名,也是开始花了好多力气,后来没精力做了。
: Stacking大家现在都会做了,要做得比别人好其实非常难。
: 对于kaggle master来说,只要能接触到行业流程,
: 搞performance和robustness吊打行业专家一点问题都没有。
: 脑子好使的人,能者无所不能。我就是脑子不太好使,所以排名一直上不去。
: 现在其实就两个问题。一个是kaggle master太少。
: 还有一个是行业不开放,就是有本事的人也看不到数据。
: 一般公司,招到个在kaggle上写半吊子kernel/tutorial的,就能当个宝了。

m******r
发帖数: 1033
8
'看了几个top的题解',
楼主看的是scoring code, 怎么derived出来的, 别人不讲你看不到。
我当年看高考数学题,答案也很简单, 自己做就做不出来了。
告诉你求均值, 是个人都说简单。 为啥均值好, 只有高斯能明白了。
M********0
发帖数: 1230
9
大牛所说表示部分赞同 任何领域或者比赛能搞到top绝对是需要有脑子的
就好比刷题刷到ACM奖牌
但对于一般的kaggler照猫画虎 调调包做一做stacking我觉得kaggle对于提升经验值帮
忙不大 刚开始作为敲门砖还可以
我们曾经和data robot打过交道 很失望 据说他们公司网罗过不少kaggle master和
top50, founder就是两个好几年前的master
虽然我承认要是单挑kaggle竞赛 我可能比不过他们 但是你所谓的行业内流程 包括
feature engineering都是要花时间做研究和实验的啊 宝贵之处就在这里呢啊
这就好比你把好的idea都想好了 每一步需要注意些什么 然后让学生去做实验 自然最
后能出来好结果

【在 w***g 的大作中提到】
: 哪怕就是stacked技巧搞到了几个第一名,基本上也就能吃香的喝辣的。
: 就怕前50都进不了。现在的行情,随便做做就是几百名的样子。我最近
: 拿了个167名,也是开始花了好多力气,后来没精力做了。
: Stacking大家现在都会做了,要做得比别人好其实非常难。
: 对于kaggle master来说,只要能接触到行业流程,
: 搞performance和robustness吊打行业专家一点问题都没有。
: 脑子好使的人,能者无所不能。我就是脑子不太好使,所以排名一直上不去。
: 现在其实就两个问题。一个是kaggle master太少。
: 还有一个是行业不开放,就是有本事的人也看不到数据。
: 一般公司,招到个在kaggle上写半吊子kernel/tutorial的,就能当个宝了。

g****t
发帖数: 31659
10
开创计算技术和行业结合的办法,等于是小革命。
这个和kaggle比赛不是一种类型的事。

【在 M********0 的大作中提到】
: 大牛所说表示部分赞同 任何领域或者比赛能搞到top绝对是需要有脑子的
: 就好比刷题刷到ACM奖牌
: 但对于一般的kaggler照猫画虎 调调包做一做stacking我觉得kaggle对于提升经验值帮
: 忙不大 刚开始作为敲门砖还可以
: 我们曾经和data robot打过交道 很失望 据说他们公司网罗过不少kaggle master和
: top50, founder就是两个好几年前的master
: 虽然我承认要是单挑kaggle竞赛 我可能比不过他们 但是你所谓的行业内流程 包括
: feature engineering都是要花时间做研究和实验的啊 宝贵之处就在这里呢啊
: 这就好比你把好的idea都想好了 每一步需要注意些什么 然后让学生去做实验 自然最
: 后能出来好结果

相关主题
关于thread的stack总结一下kaggle比赛
请教一道题 (转载)有没有大牛愿意牵头搞一个 deep learning project
kaggle上那批人太逆天了数据科学碗2017
进入Programming版参与讨论
M********0
发帖数: 1230
11
是的 我赞同
所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解和研究的
随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不太可能 我觉
得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的逻辑回归做分类 那
我随随便便上个xgboost就能吊打”这种例子

【在 g****t 的大作中提到】
: 开创计算技术和行业结合的办法,等于是小革命。
: 这个和kaggle比赛不是一种类型的事。

g****t
发帖数: 31659
12
Wdong说的被吊打的专家是走别人的路的那种“专家”。
而不是开辟道路(例如发明电子表格)的那种真专家。
前者不被kaggle master年轻人吊打也会被别人吊打。
他们的工作和刷题本质区别不大。
后者我看到的话会避免和他走一个方向。因为和真正的
革新者竞争,结局不确定性很大。
历史上有个著名数学家被poincare摧毁了灵魂……


: 是的 我赞同

: 所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解
和研究的

: 随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不
太可能
我觉

: 得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的
逻辑回归做分
类 那

: 我随随便便上个xgboost就能吊打”这种例子



【在 M********0 的大作中提到】
: 是的 我赞同
: 所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解和研究的
: 随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不太可能 我觉
: 得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的逻辑回归做分类 那
: 我随随便便上个xgboost就能吊打”这种例子

w***g
发帖数: 5958
13
你说的真专家的竞争来自硅谷的entrepreneur。
那批人天天想着要disrupt别人的market。
总的来说这世界越来越难混。

【在 g****t 的大作中提到】
: Wdong说的被吊打的专家是走别人的路的那种“专家”。
: 而不是开辟道路(例如发明电子表格)的那种真专家。
: 前者不被kaggle master年轻人吊打也会被别人吊打。
: 他们的工作和刷题本质区别不大。
: 后者我看到的话会避免和他走一个方向。因为和真正的
: 革新者竞争,结局不确定性很大。
: 历史上有个著名数学家被poincare摧毁了灵魂……
:
:
: 是的 我赞同
:
: 所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解

x**********i
发帖数: 658
14
wdong老师这气概令人拜服

:我就是脑子不够。认识我的基本上都见到过我剃光了头发散热加速。
x**********i
发帖数: 658
15
请问能不能简单讲讲stacking究竟啥意思,用中文翻译下?谢谢

:哪怕就是stacked技巧搞到了几个第一名,基本上也就能吃香的喝辣的。
:就怕前50都进不了。现在的行情,随便做做就是几百名的样子。我最近
x**********i
发帖数: 658
16
这见解掷地有声
确实是,看别人的解题,真简单,自己真的很难

:'看了几个top的题解',
:楼主看的是scoring code, 怎么derived出来的, 别人不讲你看不到。
w***g
发帖数: 5958
17
我这种感觉得亲自上kaggle上做过才有。
就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。
就跟武侠片里拍的,俩白胡子老头对掌拼内力似地。
外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01,
第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。
对于第三梯队的,想前进0.01挤进top 10%拿铜牌,同样是难于登天,
任你stack多少model,上不去就是上不去。
-- 然后就只好怪爹妈给自己生的脑子差。

【在 M********0 的大作中提到】
: 是的 我赞同
: 所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解和研究的
: 随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不太可能 我觉
: 得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的逻辑回归做分类 那
: 我随随便便上个xgboost就能吊打”这种例子

x**********i
发帖数: 658
18
stack就是combine several models together? 我以为是啥技术或者算法

:我这种感觉得亲自上kaggle上做过才有。
:就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。
g****t
发帖数: 31659
19
这种感觉我天天有。我太太,我姐长期智力压制我......


: 我这种感觉得亲自上kaggle上做过才有。

: 就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。

: 就跟武侠片里拍的,俩白胡子老头对掌拼内力似地。

: 外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01,

: 第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。

: 对于第三梯队的,想前进0.01挤进top 10%拿铜牌,同样是难于登天,

: 任你stack多少model,上不去就是上不去。

: -- 然后就只好怪爹妈给自己生的脑子差。



【在 w***g 的大作中提到】
: 我这种感觉得亲自上kaggle上做过才有。
: 就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。
: 就跟武侠片里拍的,俩白胡子老头对掌拼内力似地。
: 外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01,
: 第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。
: 对于第三梯队的,想前进0.01挤进top 10%拿铜牌,同样是难于登天,
: 任你stack多少model,上不去就是上不去。
: -- 然后就只好怪爹妈给自己生的脑子差。

M********0
发帖数: 1230
20
打游戏有这种感觉。。。
纽北赛道 任我怎么开都和高手差几秒 不知道哪几个弯被拉开的差距

【在 w***g 的大作中提到】
: 我这种感觉得亲自上kaggle上做过才有。
: 就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。
: 就跟武侠片里拍的,俩白胡子老头对掌拼内力似地。
: 外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01,
: 第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。
: 对于第三梯队的,想前进0.01挤进top 10%拿铜牌,同样是难于登天,
: 任你stack多少model,上不去就是上不去。
: -- 然后就只好怪爹妈给自己生的脑子差。

相关主题
Kaggle 被买了Kaggle比赛禁止中国人参加
数据碗的结果出来了 weidong站上英雄榜了Zillow Prize讨论专用贴
Ai这个社团很多人是很坏的廖方舟 李哲 金奖! (转载)
进入Programming版参与讨论
g****t
发帖数: 31659
21
倒不一定是要disrupt市场。
主要是现实世界本身是无穷维的。不是什么题可以frame 住。面对竞争的情况,有些人
的思路本身就不是去做别人出的题。而是把题目废了。
这是个思维习惯。中国学生其实也没有谁是天生爱刷题的。多数是从小价值观训练。题
刷的多了,对问题的原初思考能力就收到限制。
但这不是说刷题这个办法不好。或者冠军不牛。只是说人的天赋倾向不同。解决问题的
approach也不同。


: 你说的真专家的竞争来自硅谷的entrepreneur。

: 那批人天天想着要disrupt别人的market。

: 总的来说这世界越来越难混。



【在 w***g 的大作中提到】
: 我这种感觉得亲自上kaggle上做过才有。
: 就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。
: 就跟武侠片里拍的,俩白胡子老头对掌拼内力似地。
: 外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01,
: 第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。
: 对于第三梯队的,想前进0.01挤进top 10%拿铜牌,同样是难于登天,
: 任你stack多少model,上不去就是上不去。
: -- 然后就只好怪爹妈给自己生的脑子差。

d******c
发帖数: 2407
22
我觉得这是读书读太多了
现实中竞争需要一点street smart,有的人能发现leak,偷偷用了当然有利
还有的人是到处找目前最新的抄来用,当blackbox。你肯定要搞清楚原理,经常自己实
现,这样能用上的技术数量就差一个数量级
然后说不定人家有渠道或者投资了不少机器,有的人敢赌,花一大笔钱买好机器,或者
上amazon花钱train,又比你自己攒机算cost提高效率省钱速度快。
就跟前面某人回帖说过一样,如果你被逼到必须靠kaggle生存,无论如何用什么手段都
得得个奖,那做法跟你现在的可能还是会很不一样。

【在 w***g 的大作中提到】
: 我这种感觉得亲自上kaggle上做过才有。
: 就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。
: 就跟武侠片里拍的,俩白胡子老头对掌拼内力似地。
: 外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01,
: 第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。
: 对于第三梯队的,想前进0.01挤进top 10%拿铜牌,同样是难于登天,
: 任你stack多少model,上不去就是上不去。
: -- 然后就只好怪爹妈给自己生的脑子差。

d******c
发帖数: 2407
23
有的时候必须投资,算投入产出比,中国人喜欢算小账,往往省钱第一
那个clojure创始人的talk,有人放了transcript在github上,无数人看,加星,他怎
么弄的transcript?花钱在amazon turk之类的地方雇印度人听写的。中国人无论如何
不会想到这个办法,肯定想用什么语音识别之类。他花了不超过$500,但这对他个人的
宣传作用是很大的,远超过这$500.
N*****r
发帖数: 94
24


这是典型的没做过数据挖掘的想法
觉得发明新算法新思路才是高大上, 特征工程什么的都是脏活
实际上的应用, 相比别人做的好, 99%都是因为特征工程做的好,数据清洗做的好

【在 b****u 的大作中提到】
: Kaggle上的问题其实还是不错的。
: 不过看了几个top的题解,觉得现在的Kaggler有点像过去的炼丹师。他们主要的工作就
: 是搞出各种各样的feature,各种变换。然后放到几个标准模型,比如NN,lightGBM,
: xgboot,得到结果。
: 没有数学,也没算法。总体感觉就是个力气活。
: 班上像wdong那样的计算机水平很高,数学水平也不错的,估计是瞧不起Kaggle这帮人
: 的。

N*****r
发帖数: 94
25

搞笑
人肉识别这招显然是中国人先搞的
12306那图形验证码AI几乎无效,现在很多都是人肉识别返回结果

【在 d******c 的大作中提到】
: 有的时候必须投资,算投入产出比,中国人喜欢算小账,往往省钱第一
: 那个clojure创始人的talk,有人放了transcript在github上,无数人看,加星,他怎
: 么弄的transcript?花钱在amazon turk之类的地方雇印度人听写的。中国人无论如何
: 不会想到这个办法,肯定想用什么语音识别之类。他花了不超过$500,但这对他个人的
: 宣传作用是很大的,远超过这$500.

c*5
发帖数: 130
26
能进top200就够厉害的
d******c
发帖数: 2407
27
我说的是自己个人出钱干一件没有直接收益的事情这一点。
focus在技术上,你就完全miss the point

【在 N*****r 的大作中提到】
:
: 搞笑
: 人肉识别这招显然是中国人先搞的
: 12306那图形验证码AI几乎无效,现在很多都是人肉识别返回结果

1 (共1页)
进入Programming版参与讨论
相关主题
Zillow Prize讨论专用贴how to use stack(s) to realize a queque
廖方舟 李哲 金奖! (转载)关于thread的stack
什么都别说了,刷题是王道,我要加入拳皇帮了请教一道题 (转载)
C语言的变量都一定要放在stack上吗?kaggle上那批人太逆天了
Kaggle 泰坦尼克80%几的准确率再上不去了,怎么办总结一下kaggle比赛
关于搞ML刷数据的职业前途有没有大牛愿意牵头搞一个 deep learning project
ML 需不需要搞懂那些数学数据科学碗2017
准备向wdong大牛学习单干了Kaggle 被买了
相关话题的讨论汇总
话题: kaggle话题: br话题: 行业话题: 吊打话题: 专家