b****u 发帖数: 1130 | 1 Kaggle上的问题其实还是不错的。
不过看了几个top的题解,觉得现在的Kaggler有点像过去的炼丹师。他们主要的工作就
是搞出各种各样的feature,各种变换。然后放到几个标准模型,比如NN,lightGBM,
xgboot,得到结果。
没有数学,也没算法。总体感觉就是个力气活。
班上像wdong那样的计算机水平很高,数学水平也不错的,估计是瞧不起Kaggle这帮人
的。 |
e*******o 发帖数: 4654 | |
M********0 发帖数: 1230 | 3 Kaggle就是搞搞玩的
现实中每个行业的水都很深 单单数据采集这一块学问就挺大 不同的数据做出来的
model无论performance还是robust都差的远了
kaggle上多数就是一个现成的dataset 和给一个Iris数据本质上没有区别
另外那些为了追求0.01的提高弄出来的各种stacked技巧很多在production上根本用不
了 只是炫技而已 |
w***g 发帖数: 5958 | 4 哪怕就是stacked技巧搞到了几个第一名,基本上也就能吃香的喝辣的。
就怕前50都进不了。现在的行情,随便做做就是几百名的样子。我最近
拿了个167名,也是开始花了好多力气,后来没精力做了。
Stacking大家现在都会做了,要做得比别人好其实非常难。
对于kaggle master来说,只要能接触到行业流程,
搞performance和robustness吊打行业专家一点问题都没有。
脑子好使的人,能者无所不能。我就是脑子不太好使,所以排名一直上不去。
现在其实就两个问题。一个是kaggle master太少。
还有一个是行业不开放,就是有本事的人也看不到数据。
一般公司,招到个在kaggle上写半吊子kernel/tutorial的,就能当个宝了。
一个产业到了中国人手里,马上就把所有人的饭碗都做砸了--
这个过程中我当然也出了一己之力。
【在 M********0 的大作中提到】 : Kaggle就是搞搞玩的 : 现实中每个行业的水都很深 单单数据采集这一块学问就挺大 不同的数据做出来的 : model无论performance还是robust都差的远了 : kaggle上多数就是一个现成的dataset 和给一个Iris数据本质上没有区别 : 另外那些为了追求0.01的提高弄出来的各种stacked技巧很多在production上根本用不 : 了 只是炫技而已
|
w***g 发帖数: 5958 | 5 我就是脑子不够。认识我的基本上都见到过我剃光了头发散热加速。
Kaggle和deep learning就是炼丹。因为没有recipe,所以经验和感觉很重要。
但是需要看到的是,在一个竞争很激烈的领域能做到第一,哪怕是体育运动,
最后也都是看脑子。所以看到著名比赛的第一名,我都是很有敬畏之心的。
,
【在 b****u 的大作中提到】 : Kaggle上的问题其实还是不错的。 : 不过看了几个top的题解,觉得现在的Kaggler有点像过去的炼丹师。他们主要的工作就 : 是搞出各种各样的feature,各种变换。然后放到几个标准模型,比如NN,lightGBM, : xgboot,得到结果。 : 没有数学,也没算法。总体感觉就是个力气活。 : 班上像wdong那样的计算机水平很高,数学水平也不错的,估计是瞧不起Kaggle这帮人 : 的。
|
g****t 发帖数: 31659 | 6 年纪大了就没法和年轻人争第一了。
开个方向让别人争第一更实际些。
【在 w***g 的大作中提到】 : 我就是脑子不够。认识我的基本上都见到过我剃光了头发散热加速。 : Kaggle和deep learning就是炼丹。因为没有recipe,所以经验和感觉很重要。 : 但是需要看到的是,在一个竞争很激烈的领域能做到第一,哪怕是体育运动, : 最后也都是看脑子。所以看到著名比赛的第一名,我都是很有敬畏之心的。 : : ,
|
g****t 发帖数: 31659 | 7 开创一个数据和行业结合的生产流程是很极难的。
for example:办公自动化这样事后看起来极容易的东西,
在开始是极难的事情。
专家有两种,一种是坐享其成的。
就是用excel的。肯定输给kaggle的牛人。
第二种是虚空造物的。
我不认为kaggle专家进了电子表格领域,能赢最早在Mac上面发明电子表格,
卖给steve jobs的那位老侠。那老侠后来advocate了web doc。后来好像给了
Google成了goog doc
【在 w***g 的大作中提到】 : 哪怕就是stacked技巧搞到了几个第一名,基本上也就能吃香的喝辣的。 : 就怕前50都进不了。现在的行情,随便做做就是几百名的样子。我最近 : 拿了个167名,也是开始花了好多力气,后来没精力做了。 : Stacking大家现在都会做了,要做得比别人好其实非常难。 : 对于kaggle master来说,只要能接触到行业流程, : 搞performance和robustness吊打行业专家一点问题都没有。 : 脑子好使的人,能者无所不能。我就是脑子不太好使,所以排名一直上不去。 : 现在其实就两个问题。一个是kaggle master太少。 : 还有一个是行业不开放,就是有本事的人也看不到数据。 : 一般公司,招到个在kaggle上写半吊子kernel/tutorial的,就能当个宝了。
|
m******r 发帖数: 1033 | 8 '看了几个top的题解',
楼主看的是scoring code, 怎么derived出来的, 别人不讲你看不到。
我当年看高考数学题,答案也很简单, 自己做就做不出来了。
告诉你求均值, 是个人都说简单。 为啥均值好, 只有高斯能明白了。 |
M********0 发帖数: 1230 | 9 大牛所说表示部分赞同 任何领域或者比赛能搞到top绝对是需要有脑子的
就好比刷题刷到ACM奖牌
但对于一般的kaggler照猫画虎 调调包做一做stacking我觉得kaggle对于提升经验值帮
忙不大 刚开始作为敲门砖还可以
我们曾经和data robot打过交道 很失望 据说他们公司网罗过不少kaggle master和
top50, founder就是两个好几年前的master
虽然我承认要是单挑kaggle竞赛 我可能比不过他们 但是你所谓的行业内流程 包括
feature engineering都是要花时间做研究和实验的啊 宝贵之处就在这里呢啊
这就好比你把好的idea都想好了 每一步需要注意些什么 然后让学生去做实验 自然最
后能出来好结果
【在 w***g 的大作中提到】 : 哪怕就是stacked技巧搞到了几个第一名,基本上也就能吃香的喝辣的。 : 就怕前50都进不了。现在的行情,随便做做就是几百名的样子。我最近 : 拿了个167名,也是开始花了好多力气,后来没精力做了。 : Stacking大家现在都会做了,要做得比别人好其实非常难。 : 对于kaggle master来说,只要能接触到行业流程, : 搞performance和robustness吊打行业专家一点问题都没有。 : 脑子好使的人,能者无所不能。我就是脑子不太好使,所以排名一直上不去。 : 现在其实就两个问题。一个是kaggle master太少。 : 还有一个是行业不开放,就是有本事的人也看不到数据。 : 一般公司,招到个在kaggle上写半吊子kernel/tutorial的,就能当个宝了。
|
g****t 发帖数: 31659 | 10 开创计算技术和行业结合的办法,等于是小革命。
这个和kaggle比赛不是一种类型的事。
【在 M********0 的大作中提到】 : 大牛所说表示部分赞同 任何领域或者比赛能搞到top绝对是需要有脑子的 : 就好比刷题刷到ACM奖牌 : 但对于一般的kaggler照猫画虎 调调包做一做stacking我觉得kaggle对于提升经验值帮 : 忙不大 刚开始作为敲门砖还可以 : 我们曾经和data robot打过交道 很失望 据说他们公司网罗过不少kaggle master和 : top50, founder就是两个好几年前的master : 虽然我承认要是单挑kaggle竞赛 我可能比不过他们 但是你所谓的行业内流程 包括 : feature engineering都是要花时间做研究和实验的啊 宝贵之处就在这里呢啊 : 这就好比你把好的idea都想好了 每一步需要注意些什么 然后让学生去做实验 自然最 : 后能出来好结果
|
|
|
M********0 发帖数: 1230 | 11 是的 我赞同
所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解和研究的
随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不太可能 我觉
得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的逻辑回归做分类 那
我随随便便上个xgboost就能吊打”这种例子
【在 g****t 的大作中提到】 : 开创计算技术和行业结合的办法,等于是小革命。 : 这个和kaggle比赛不是一种类型的事。
|
g****t 发帖数: 31659 | 12 Wdong说的被吊打的专家是走别人的路的那种“专家”。
而不是开辟道路(例如发明电子表格)的那种真专家。
前者不被kaggle master年轻人吊打也会被别人吊打。
他们的工作和刷题本质区别不大。
后者我看到的话会避免和他走一个方向。因为和真正的
革新者竞争,结局不确定性很大。
历史上有个著名数学家被poincare摧毁了灵魂……
: 是的 我赞同
: 所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解
和研究的
: 随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不
太可能
我觉
: 得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的
逻辑回归做分
类 那
: 我随随便便上个xgboost就能吊打”这种例子
【在 M********0 的大作中提到】 : 是的 我赞同 : 所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解和研究的 : 随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不太可能 我觉 : 得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的逻辑回归做分类 那 : 我随随便便上个xgboost就能吊打”这种例子
|
w***g 发帖数: 5958 | 13 你说的真专家的竞争来自硅谷的entrepreneur。
那批人天天想着要disrupt别人的market。
总的来说这世界越来越难混。
【在 g****t 的大作中提到】 : Wdong说的被吊打的专家是走别人的路的那种“专家”。 : 而不是开辟道路(例如发明电子表格)的那种真专家。 : 前者不被kaggle master年轻人吊打也会被别人吊打。 : 他们的工作和刷题本质区别不大。 : 后者我看到的话会避免和他走一个方向。因为和真正的 : 革新者竞争,结局不确定性很大。 : 历史上有个著名数学家被poincare摧毁了灵魂…… : : : 是的 我赞同 : : 所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解
|
x**********i 发帖数: 658 | 14 wdong老师这气概令人拜服
:我就是脑子不够。认识我的基本上都见到过我剃光了头发散热加速。
: |
x**********i 发帖数: 658 | 15 请问能不能简单讲讲stacking究竟啥意思,用中文翻译下?谢谢
:哪怕就是stacked技巧搞到了几个第一名,基本上也就能吃香的喝辣的。
:就怕前50都进不了。现在的行情,随便做做就是几百名的样子。我最近 |
x**********i 发帖数: 658 | 16 这见解掷地有声
确实是,看别人的解题,真简单,自己真的很难
:'看了几个top的题解',
:楼主看的是scoring code, 怎么derived出来的, 别人不讲你看不到。 |
w***g 发帖数: 5958 | 17 我这种感觉得亲自上kaggle上做过才有。
就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。
就跟武侠片里拍的,俩白胡子老头对掌拼内力似地。
外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01,
第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。
对于第三梯队的,想前进0.01挤进top 10%拿铜牌,同样是难于登天,
任你stack多少model,上不去就是上不去。
-- 然后就只好怪爹妈给自己生的脑子差。
【在 M********0 的大作中提到】 : 是的 我赞同 : 所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解和研究的 : 随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不太可能 我觉 : 得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的逻辑回归做分类 那 : 我随随便便上个xgboost就能吊打”这种例子
|
x**********i 发帖数: 658 | 18 stack就是combine several models together? 我以为是啥技术或者算法
:我这种感觉得亲自上kaggle上做过才有。
:就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。 |
g****t 发帖数: 31659 | 19 这种感觉我天天有。我太太,我姐长期智力压制我......
: 我这种感觉得亲自上kaggle上做过才有。
: 就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。
: 就跟武侠片里拍的,俩白胡子老头对掌拼内力似地。
: 外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01,
: 第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。
: 对于第三梯队的,想前进0.01挤进top 10%拿铜牌,同样是难于登天,
: 任你stack多少model,上不去就是上不去。
: -- 然后就只好怪爹妈给自己生的脑子差。
【在 w***g 的大作中提到】 : 我这种感觉得亲自上kaggle上做过才有。 : 就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。 : 就跟武侠片里拍的,俩白胡子老头对掌拼内力似地。 : 外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01, : 第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。 : 对于第三梯队的,想前进0.01挤进top 10%拿铜牌,同样是难于登天, : 任你stack多少model,上不去就是上不去。 : -- 然后就只好怪爹妈给自己生的脑子差。
|
M********0 发帖数: 1230 | 20 打游戏有这种感觉。。。
纽北赛道 任我怎么开都和高手差几秒 不知道哪几个弯被拉开的差距
【在 w***g 的大作中提到】 : 我这种感觉得亲自上kaggle上做过才有。 : 就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。 : 就跟武侠片里拍的,俩白胡子老头对掌拼内力似地。 : 外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01, : 第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。 : 对于第三梯队的,想前进0.01挤进top 10%拿铜牌,同样是难于登天, : 任你stack多少model,上不去就是上不去。 : -- 然后就只好怪爹妈给自己生的脑子差。
|
|
|
g****t 发帖数: 31659 | 21 倒不一定是要disrupt市场。
主要是现实世界本身是无穷维的。不是什么题可以frame 住。面对竞争的情况,有些人
的思路本身就不是去做别人出的题。而是把题目废了。
这是个思维习惯。中国学生其实也没有谁是天生爱刷题的。多数是从小价值观训练。题
刷的多了,对问题的原初思考能力就收到限制。
但这不是说刷题这个办法不好。或者冠军不牛。只是说人的天赋倾向不同。解决问题的
approach也不同。
: 你说的真专家的竞争来自硅谷的entrepreneur。
: 那批人天天想着要disrupt别人的market。
: 总的来说这世界越来越难混。
【在 w***g 的大作中提到】 : 我这种感觉得亲自上kaggle上做过才有。 : 就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。 : 就跟武侠片里拍的,俩白胡子老头对掌拼内力似地。 : 外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01, : 第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。 : 对于第三梯队的,想前进0.01挤进top 10%拿铜牌,同样是难于登天, : 任你stack多少model,上不去就是上不去。 : -- 然后就只好怪爹妈给自己生的脑子差。
|
d******c 发帖数: 2407 | 22 我觉得这是读书读太多了
现实中竞争需要一点street smart,有的人能发现leak,偷偷用了当然有利
还有的人是到处找目前最新的抄来用,当blackbox。你肯定要搞清楚原理,经常自己实
现,这样能用上的技术数量就差一个数量级
然后说不定人家有渠道或者投资了不少机器,有的人敢赌,花一大笔钱买好机器,或者
上amazon花钱train,又比你自己攒机算cost提高效率省钱速度快。
就跟前面某人回帖说过一样,如果你被逼到必须靠kaggle生存,无论如何用什么手段都
得得个奖,那做法跟你现在的可能还是会很不一样。
【在 w***g 的大作中提到】 : 我这种感觉得亲自上kaggle上做过才有。 : 就是你拼了老命也干不过人家。而且对方还在同时做不止一个比赛。 : 就跟武侠片里拍的,俩白胡子老头对掌拼内力似地。 : 外人看不出来多艰难。比如第一梯队的在0.95左右拼0.01, : 第二梯队的在0.90左右拼0.01。第三梯队的在0.85左右拼0.01。 : 对于第三梯队的,想前进0.01挤进top 10%拿铜牌,同样是难于登天, : 任你stack多少model,上不去就是上不去。 : -- 然后就只好怪爹妈给自己生的脑子差。
|
d******c 发帖数: 2407 | 23 有的时候必须投资,算投入产出比,中国人喜欢算小账,往往省钱第一
那个clojure创始人的talk,有人放了transcript在github上,无数人看,加星,他怎
么弄的transcript?花钱在amazon turk之类的地方雇印度人听写的。中国人无论如何
不会想到这个办法,肯定想用什么语音识别之类。他花了不超过$500,但这对他个人的
宣传作用是很大的,远超过这$500. |
N*****r 发帖数: 94 | 24
,
这是典型的没做过数据挖掘的想法
觉得发明新算法新思路才是高大上, 特征工程什么的都是脏活
实际上的应用, 相比别人做的好, 99%都是因为特征工程做的好,数据清洗做的好
【在 b****u 的大作中提到】 : Kaggle上的问题其实还是不错的。 : 不过看了几个top的题解,觉得现在的Kaggler有点像过去的炼丹师。他们主要的工作就 : 是搞出各种各样的feature,各种变换。然后放到几个标准模型,比如NN,lightGBM, : xgboot,得到结果。 : 没有数学,也没算法。总体感觉就是个力气活。 : 班上像wdong那样的计算机水平很高,数学水平也不错的,估计是瞧不起Kaggle这帮人 : 的。
|
N*****r 发帖数: 94 | 25
搞笑
人肉识别这招显然是中国人先搞的
12306那图形验证码AI几乎无效,现在很多都是人肉识别返回结果
【在 d******c 的大作中提到】 : 有的时候必须投资,算投入产出比,中国人喜欢算小账,往往省钱第一 : 那个clojure创始人的talk,有人放了transcript在github上,无数人看,加星,他怎 : 么弄的transcript?花钱在amazon turk之类的地方雇印度人听写的。中国人无论如何 : 不会想到这个办法,肯定想用什么语音识别之类。他花了不超过$500,但这对他个人的 : 宣传作用是很大的,远超过这$500.
|
c*5 发帖数: 130 | |
d******c 发帖数: 2407 | 27 我说的是自己个人出钱干一件没有直接收益的事情这一点。
focus在技术上,你就完全miss the point
【在 N*****r 的大作中提到】 : : 搞笑 : 人肉识别这招显然是中国人先搞的 : 12306那图形验证码AI几乎无效,现在很多都是人肉识别返回结果
|