看了几个kaggle的答题，有点迷惑了 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 看了几个kaggle的答题，有点迷惑了

相关主题
● Kaggle 泰坦尼克80%几的准确率再上不去了，怎么办	● 总结一下kaggle比赛
● 关于搞ML刷数据的职业前途	● 有没有大牛愿意牵头搞一个 deep learning project
● ML 需不需要搞懂那些数学	● 数据科学碗2017
● 准备向wdong大牛学习单干了	● Kaggle 被买了
● how to use stack(s) to realize a queque	● 数据碗的结果出来了 weidong站上英雄榜了
● 关于thread的stack	● Ai这个社团很多人是很坏的
● 请教一道题 (转载)	● Kaggle比赛禁止中国人参加
● kaggle上那批人太逆天了	● Zillow Prize讨论专用贴

相关话题的讨论汇总
话题: kaggle话题: br话题: 行业话题: 吊打话题: 专家

进入Programming版参与讨论

(共1页)

b****u
发帖数: 1130

Kaggle上的问题其实还是不错的。
不过看了几个top的题解，觉得现在的Kaggler有点像过去的炼丹师。他们主要的工作就
是搞出各种各样的feature，各种变换。然后放到几个标准模型，比如NN，lightGBM，
xgboot，得到结果。
没有数学，也没算法。总体感觉就是个力气活。
班上像wdong那样的计算机水平很高，数学水平也不错的，估计是瞧不起Kaggle这帮人
的。

e*******o
发帖数: 4654

粗快好猛就行，实际应用不就这么回事。

M********0
发帖数: 1230

Kaggle就是搞搞玩的
现实中每个行业的水都很深单单数据采集这一块学问就挺大不同的数据做出来的
model无论performance还是robust都差的远了
kaggle上多数就是一个现成的dataset 和给一个Iris数据本质上没有区别
另外那些为了追求0.01的提高弄出来的各种stacked技巧很多在production上根本用不
了只是炫技而已

w***g
发帖数: 5958

哪怕就是stacked技巧搞到了几个第一名，基本上也就能吃香的喝辣的。
就怕前50都进不了。现在的行情，随便做做就是几百名的样子。我最近
拿了个167名，也是开始花了好多力气，后来没精力做了。
Stacking大家现在都会做了，要做得比别人好其实非常难。
对于kaggle master来说，只要能接触到行业流程，
搞performance和robustness吊打行业专家一点问题都没有。
脑子好使的人，能者无所不能。我就是脑子不太好使，所以排名一直上不去。
现在其实就两个问题。一个是kaggle master太少。
还有一个是行业不开放，就是有本事的人也看不到数据。
一般公司，招到个在kaggle上写半吊子kernel/tutorial的，就能当个宝了。
一个产业到了中国人手里，马上就把所有人的饭碗都做砸了--
这个过程中我当然也出了一己之力。

【在 M********0 的大作中提到】

: Kaggle就是搞搞玩的
: 现实中每个行业的水都很深单单数据采集这一块学问就挺大不同的数据做出来的
: model无论performance还是robust都差的远了
: kaggle上多数就是一个现成的dataset 和给一个Iris数据本质上没有区别
: 另外那些为了追求0.01的提高弄出来的各种stacked技巧很多在production上根本用不
: 了只是炫技而已

w***g
发帖数: 5958

我就是脑子不够。认识我的基本上都见到过我剃光了头发散热加速。
Kaggle和deep learning就是炼丹。因为没有recipe，所以经验和感觉很重要。
但是需要看到的是，在一个竞争很激烈的领域能做到第一，哪怕是体育运动，
最后也都是看脑子。所以看到著名比赛的第一名，我都是很有敬畏之心的。

，

【在 b****u 的大作中提到】

: Kaggle上的问题其实还是不错的。
: 不过看了几个top的题解，觉得现在的Kaggler有点像过去的炼丹师。他们主要的工作就
: 是搞出各种各样的feature，各种变换。然后放到几个标准模型，比如NN，lightGBM，
: xgboot，得到结果。
: 没有数学，也没算法。总体感觉就是个力气活。
: 班上像wdong那样的计算机水平很高，数学水平也不错的，估计是瞧不起Kaggle这帮人
: 的。

g****t
发帖数: 31659

年纪大了就没法和年轻人争第一了。
开个方向让别人争第一更实际些。

【在 w***g 的大作中提到】

: 我就是脑子不够。认识我的基本上都见到过我剃光了头发散热加速。
: Kaggle和deep learning就是炼丹。因为没有recipe，所以经验和感觉很重要。
: 但是需要看到的是，在一个竞争很激烈的领域能做到第一，哪怕是体育运动，
: 最后也都是看脑子。所以看到著名比赛的第一名，我都是很有敬畏之心的。
:
: ，

g****t
发帖数: 31659

开创一个数据和行业结合的生产流程是很极难的。
for example:办公自动化这样事后看起来极容易的东西，
在开始是极难的事情。
专家有两种，一种是坐享其成的。
就是用excel的。肯定输给kaggle的牛人。
第二种是虚空造物的。
我不认为kaggle专家进了电子表格领域，能赢最早在Mac上面发明电子表格，
卖给steve jobs的那位老侠。那老侠后来advocate了web doc。后来好像给了
Google成了goog doc

【在 w***g 的大作中提到】

: 哪怕就是stacked技巧搞到了几个第一名，基本上也就能吃香的喝辣的。
: 就怕前50都进不了。现在的行情，随便做做就是几百名的样子。我最近
: 拿了个167名，也是开始花了好多力气，后来没精力做了。
: Stacking大家现在都会做了，要做得比别人好其实非常难。
: 对于kaggle master来说，只要能接触到行业流程，
: 搞performance和robustness吊打行业专家一点问题都没有。
: 脑子好使的人，能者无所不能。我就是脑子不太好使，所以排名一直上不去。
: 现在其实就两个问题。一个是kaggle master太少。
: 还有一个是行业不开放，就是有本事的人也看不到数据。
: 一般公司，招到个在kaggle上写半吊子kernel/tutorial的，就能当个宝了。

m******r
发帖数: 1033

'看了几个top的题解',
楼主看的是scoring code, 怎么derived出来的，别人不讲你看不到。
我当年看高考数学题，答案也很简单，自己做就做不出来了。
告诉你求均值，是个人都说简单。为啥均值好，只有高斯能明白了。

M********0
发帖数: 1230

大牛所说表示部分赞同任何领域或者比赛能搞到top绝对是需要有脑子的
就好比刷题刷到ACM奖牌
但对于一般的kaggler照猫画虎调调包做一做stacking我觉得kaggle对于提升经验值帮
忙不大刚开始作为敲门砖还可以
我们曾经和data robot打过交道很失望据说他们公司网罗过不少kaggle master和
top50, founder就是两个好几年前的master
虽然我承认要是单挑kaggle竞赛我可能比不过他们但是你所谓的行业内流程包括
feature engineering都是要花时间做研究和实验的啊宝贵之处就在这里呢啊
这就好比你把好的idea都想好了每一步需要注意些什么然后让学生去做实验自然最
后能出来好结果

【在 w***g 的大作中提到】

g****t
发帖数: 31659

开创计算技术和行业结合的办法，等于是小革命。
这个和kaggle比赛不是一种类型的事。

【在 M********0 的大作中提到】

: 大牛所说表示部分赞同任何领域或者比赛能搞到top绝对是需要有脑子的
: 就好比刷题刷到ACM奖牌
: 但对于一般的kaggler照猫画虎调调包做一做stacking我觉得kaggle对于提升经验值帮
: 忙不大刚开始作为敲门砖还可以
: 我们曾经和data robot打过交道很失望据说他们公司网罗过不少kaggle master和
: top50, founder就是两个好几年前的master
: 虽然我承认要是单挑kaggle竞赛我可能比不过他们但是你所谓的行业内流程包括
: feature engineering都是要花时间做研究和实验的啊宝贵之处就在这里呢啊
: 这就好比你把好的idea都想好了每一步需要注意些什么然后让学生去做实验自然最
: 后能出来好结果

相关主题
● 关于thread的stack	● 总结一下kaggle比赛
● 请教一道题 (转载)	● 有没有大牛愿意牵头搞一个 deep learning project
● kaggle上那批人太逆天了	● 数据科学碗2017
进入Programming版参与讨论

M********0
发帖数: 1230

是的我赞同
所以我觉得在一个相对成熟的行业里要想做的更好是需要时间深入理解和研究的
随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家我觉得不太可能我觉
得wdong这点说的略夸张不是每个行业都是“他们还在用老掉牙的逻辑回归做分类那
我随随便便上个xgboost就能吊打”这种例子

【在 g****t 的大作中提到】

: 开创计算技术和行业结合的办法，等于是小革命。
: 这个和kaggle比赛不是一种类型的事。

g****t
发帖数: 31659

Wdong说的被吊打的专家是走别人的路的那种“专家”。
而不是开辟道路（例如发明电子表格）的那种真专家。
前者不被kaggle master年轻人吊打也会被别人吊打。
他们的工作和刷题本质区别不大。
后者我看到的话会避免和他走一个方向。因为和真正的
革新者竞争，结局不确定性很大。
历史上有个著名数学家被poincare摧毁了灵魂……

: 是的我赞同

: 所以我觉得在一个相对成熟的行业里要想做的更好是需要时间深入理解
和研究的

: 随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家我觉得不
太可能
我觉

: 得wdong这点说的略夸张不是每个行业都是“他们还在用老掉牙的
逻辑回归做分
类那

: 我随随便便上个xgboost就能吊打”这种例子

【在 M********0 的大作中提到】

: 是的我赞同
: 所以我觉得在一个相对成熟的行业里要想做的更好是需要时间深入理解和研究的
: 随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家我觉得不太可能我觉
: 得wdong这点说的略夸张不是每个行业都是“他们还在用老掉牙的逻辑回归做分类那
: 我随随便便上个xgboost就能吊打”这种例子

w***g
发帖数: 5958

你说的真专家的竞争来自硅谷的entrepreneur。
那批人天天想着要disrupt别人的market。
总的来说这世界越来越难混。

【在 g****t 的大作中提到】

: Wdong说的被吊打的专家是走别人的路的那种“专家”。
: 而不是开辟道路（例如发明电子表格）的那种真专家。
: 前者不被kaggle master年轻人吊打也会被别人吊打。
: 他们的工作和刷题本质区别不大。
: 后者我看到的话会避免和他走一个方向。因为和真正的
: 革新者竞争，结局不确定性很大。
: 历史上有个著名数学家被poincare摧毁了灵魂……
:
:
: 是的我赞同
:
: 所以我觉得在一个相对成熟的行业里要想做的更好是需要时间深入理解

x**********i
发帖数: 658

wdong老师这气概令人拜服

：我就是脑子不够。认识我的基本上都见到过我剃光了头发散热加速。
：

x**********i
发帖数: 658

请问能不能简单讲讲stacking究竟啥意思，用中文翻译下？谢谢

：哪怕就是stacked技巧搞到了几个第一名，基本上也就能吃香的喝辣的。
：就怕前50都进不了。现在的行情，随便做做就是几百名的样子。我最近

x**********i
发帖数: 658

这见解掷地有声
确实是，看别人的解题，真简单，自己真的很难

：'看了几个top的题解',
：楼主看的是scoring code, 怎么derived出来的，别人不讲你看不到。

w***g
发帖数: 5958

我这种感觉得亲自上kaggle上做过才有。
就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。
就跟武侠片里拍的，俩白胡子老头对掌拼内力似地。
外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01，
第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。
对于第三梯队的，想前进0.01挤进top 10%拿铜牌，同样是难于登天，
任你stack多少model，上不去就是上不去。
-- 然后就只好怪爹妈给自己生的脑子差。

【在 M********0 的大作中提到】

x**********i
发帖数: 658

stack就是combine several models together? 我以为是啥技术或者算法

：我这种感觉得亲自上kaggle上做过才有。
：就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。

g****t
发帖数: 31659

这种感觉我天天有。我太太，我姐长期智力压制我......

: 我这种感觉得亲自上kaggle上做过才有。

: 就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。

: 就跟武侠片里拍的，俩白胡子老头对掌拼内力似地。

: 外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01，

: 第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。

: 对于第三梯队的，想前进0.01挤进top 10%拿铜牌，同样是难于登天，

: 任你stack多少model，上不去就是上不去。

: -- 然后就只好怪爹妈给自己生的脑子差。

【在 w***g 的大作中提到】

: 我这种感觉得亲自上kaggle上做过才有。
: 就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。
: 就跟武侠片里拍的，俩白胡子老头对掌拼内力似地。
: 外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01，
: 第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。
: 对于第三梯队的，想前进0.01挤进top 10%拿铜牌，同样是难于登天，
: 任你stack多少model，上不去就是上不去。
: -- 然后就只好怪爹妈给自己生的脑子差。

M********0
发帖数: 1230

打游戏有这种感觉。。。
纽北赛道任我怎么开都和高手差几秒不知道哪几个弯被拉开的差距

【在 w***g 的大作中提到】

相关主题
● Kaggle 被买了	● Kaggle比赛禁止中国人参加
● 数据碗的结果出来了 weidong站上英雄榜了	● Zillow Prize讨论专用贴
● Ai这个社团很多人是很坏的	● 廖方舟李哲金奖！ (转载)
进入Programming版参与讨论

g****t
发帖数: 31659

倒不一定是要disrupt市场。
主要是现实世界本身是无穷维的。不是什么题可以frame 住。面对竞争的情况，有些人
的思路本身就不是去做别人出的题。而是把题目废了。
这是个思维习惯。中国学生其实也没有谁是天生爱刷题的。多数是从小价值观训练。题
刷的多了，对问题的原初思考能力就收到限制。
但这不是说刷题这个办法不好。或者冠军不牛。只是说人的天赋倾向不同。解决问题的
approach也不同。

: 你说的真专家的竞争来自硅谷的entrepreneur。

: 那批人天天想着要disrupt别人的market。

: 总的来说这世界越来越难混。

【在 w***g 的大作中提到】

d******c
发帖数: 2407

我觉得这是读书读太多了
现实中竞争需要一点street smart，有的人能发现leak，偷偷用了当然有利
还有的人是到处找目前最新的抄来用，当blackbox。你肯定要搞清楚原理，经常自己实
现，这样能用上的技术数量就差一个数量级
然后说不定人家有渠道或者投资了不少机器，有的人敢赌，花一大笔钱买好机器，或者
上amazon花钱train，又比你自己攒机算cost提高效率省钱速度快。
就跟前面某人回帖说过一样，如果你被逼到必须靠kaggle生存，无论如何用什么手段都
得得个奖，那做法跟你现在的可能还是会很不一样。

【在 w***g 的大作中提到】

d******c
发帖数: 2407

有的时候必须投资，算投入产出比，中国人喜欢算小账，往往省钱第一
那个clojure创始人的talk，有人放了transcript在github上，无数人看，加星，他怎
么弄的transcript？花钱在amazon turk之类的地方雇印度人听写的。中国人无论如何
不会想到这个办法，肯定想用什么语音识别之类。他花了不超过$500，但这对他个人的
宣传作用是很大的，远超过这$500.

N*****r
发帖数: 94

，
这是典型的没做过数据挖掘的想法
觉得发明新算法新思路才是高大上，特征工程什么的都是脏活
实际上的应用，相比别人做的好， 99%都是因为特征工程做的好，数据清洗做的好

【在 b****u 的大作中提到】

N*****r
发帖数: 94

搞笑
人肉识别这招显然是中国人先搞的
12306那图形验证码AI几乎无效，现在很多都是人肉识别返回结果

【在 d******c 的大作中提到】

: 有的时候必须投资，算投入产出比，中国人喜欢算小账，往往省钱第一
: 那个clojure创始人的talk，有人放了transcript在github上，无数人看，加星，他怎
: 么弄的transcript？花钱在amazon turk之类的地方雇印度人听写的。中国人无论如何
: 不会想到这个办法，肯定想用什么语音识别之类。他花了不超过$500，但这对他个人的
: 宣传作用是很大的，远超过这$500.

c*5
发帖数: 130

能进top200就够厉害的

d******c
发帖数: 2407

我说的是自己个人出钱干一件没有直接收益的事情这一点。
focus在技术上，你就完全miss the point

【在 N*****r 的大作中提到】

:
: 搞笑
: 人肉识别这招显然是中国人先搞的
: 12306那图形验证码AI几乎无效，现在很多都是人肉识别返回结果

(共1页)

进入Programming版参与讨论

相关主题
● Zillow Prize讨论专用贴	● how to use stack(s) to realize a queque
● 廖方舟李哲金奖！ (转载)	● 关于thread的stack
● 什么都别说了，刷题是王道，我要加入拳皇帮了	● 请教一道题 (转载)
● C语言的变量都一定要放在stack上吗？	● kaggle上那批人太逆天了
● Kaggle 泰坦尼克80%几的准确率再上不去了，怎么办	● 总结一下kaggle比赛
● 关于搞ML刷数据的职业前途	● 有没有大牛愿意牵头搞一个 deep learning project
● ML 需不需要搞懂那些数学	● 数据科学碗2017
● 准备向wdong大牛学习单干了	● Kaggle 被买了

相关话题的讨论汇总
话题: kaggle话题: br话题: 行业话题: 吊打话题: 专家

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天