由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 训练一个模型收$3000
相关主题
Re: Zillow Prize kaggle的比赛 求问数据科学碗2017
求教 xgboost train error 非常小,咋回事Kaggle 被买了
单变量xgboost模型好的吓人,求解数据碗的结果出来了 weidong站上英雄榜了
kaggle上那批人太逆天了Ai这个社团很多人是很坏的
总结一下kaggle比赛Kaggle比赛禁止中国人参加
关于搞ML刷数据的职业前途Zillow Prize讨论专用贴
有没有大牛愿意牵头搞一个 deep learning project廖方舟 李哲 金奖! (转载)
ML 需不需要搞懂那些数学准备向wdong大牛学习单干了
相关话题的讨论汇总
话题: br话题: 模型话题: xgboost话题: 训练话题: tf
进入Programming版参与讨论
1 (共1页)
w***g
发帖数: 5958
1
比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。
假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。
其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天
用来拉生意,还有一天折腾各种事情。
这么算下来,一年revenue是 52 * 5 * 2000 = 52万。
分钱方法是我一年拿20万,小弟没人拿6.4万。
但其实是不可行的。
1. 每年从哪里去找260个模型训练的活。
2. 每个人工作其实都不轻松。
3. 没算各种场地器材utility的overhead。没算任何benefit。
4. 会熟练训练模型的小弟这点钱根本招不到。
要大家活得舒服,每个模型得能收$5000。
这样可以养一个专业的sales。
就是最近有一票生意要训练一大堆模型,我说$3000一个模型。
加起来出了一个对方根本无法承受的价。我还觉得风险太大做不出来,
我自己也没时间去做。
可见模型训练这种事情必须得能自动化才行。
l******n
发帖数: 9344
2
这种工作是三年不开张,开张吃三年的

【在 w***g 的大作中提到】
: 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。
: 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。
: 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天
: 用来拉生意,还有一天折腾各种事情。
: 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。
: 分钱方法是我一年拿20万,小弟没人拿6.4万。
: 但其实是不可行的。
: 1. 每年从哪里去找260个模型训练的活。
: 2. 每个人工作其实都不轻松。
: 3. 没算各种场地器材utility的overhead。没算任何benefit。

m******r
发帖数: 1033
3
承包给国内行不行? 其实你以培训班的名义, 招募转行的,不收对方钱,让对方干活
。只要愿意学的,也可以。
你想我学个R, 学了大概两年,烧了不少脑细胞, 才摸个皮毛,还跑到函数编程,绕
了一大圈。 想想都傻.
要是当初有大师指点,多好。
再说,训练数据不都是机器白天晚上跑,人在旁边看热闹么?
l*******m
发帖数: 1096
4
昨天晚上受到巨额水费。今天找人locate和挖地修水管花了$1800

:比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。
:假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。
f******2
发帖数: 2455
5
收费模型不对。要有售后服务(这些人工资低),然后提高价钱。
这样你就能看到高margin了。现在这个模型团队维持不住
x****u
发帖数: 44466
6
我有一个疑问,有多少知道怎么收集数据但唯独不会训练模型的人啊?
有些人你告诉他收集数据,人家会说收集了10G的数据,里面一共5个case,标签总数
100,你慢慢学吧

【在 w***g 的大作中提到】
: 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。
: 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。
: 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天
: 用来拉生意,还有一天折腾各种事情。
: 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。
: 分钱方法是我一年拿20万,小弟没人拿6.4万。
: 但其实是不可行的。
: 1. 每年从哪里去找260个模型训练的活。
: 2. 每个人工作其实都不轻松。
: 3. 没算各种场地器材utility的overhead。没算任何benefit。

w***g
发帖数: 5958
7
有一些专门做图片生意的人,有很多很多图片,但是想挖掘图片的价值。
如果从收集数据开始做,那样自然钱就收得比较多了。

【在 x****u 的大作中提到】
: 我有一个疑问,有多少知道怎么收集数据但唯独不会训练模型的人啊?
: 有些人你告诉他收集数据,人家会说收集了10G的数据,里面一共5个case,标签总数
: 100,你慢慢学吧

x****u
发帖数: 44466
8
是国内的数据工厂么?

【在 w***g 的大作中提到】
: 有一些专门做图片生意的人,有很多很多图片,但是想挖掘图片的价值。
: 如果从收集数据开始做,那样自然钱就收得比较多了。

g****t
发帖数: 31659
9
我觉得这个问题可能是反过来。假设minsit的数据量,要做到95%这个性能,至少有5种办
法可以做到。
深学类库平台 调参数 这个办法流行是因为:第一,会自己写算法的人少。第二,C
plus plus写起来慢。所以自己写算法不划算。
但是你数据集只有三五千图片。全python写程序应该可以满足要求。那么会很快。这种
情况下,调模型不如自己写算法效率高。机器学习算法如果去掉乱七八糟的选项,很多
算法的算术部分其实写不满一页纸。
所以假如你python手写分类器。我觉得很可能2天搞定一个3,5千图片的图片分类应该
是无
压力的。
w***g
发帖数: 5958
10
你这个肯定不行。我太有经验了。一星期只够调几次参数。
并且手写分类器也基本不可能干过tf和xgboost。

种办

【在 g****t 的大作中提到】
: 我觉得这个问题可能是反过来。假设minsit的数据量,要做到95%这个性能,至少有5种办
: 法可以做到。
: 深学类库平台 调参数 这个办法流行是因为:第一,会自己写算法的人少。第二,C
: plus plus写起来慢。所以自己写算法不划算。
: 但是你数据集只有三五千图片。全python写程序应该可以满足要求。那么会很快。这种
: 情况下,调模型不如自己写算法效率高。机器学习算法如果去掉乱七八糟的选项,很多
: 算法的算术部分其实写不满一页纸。
: 所以假如你python手写分类器。我觉得很可能2天搞定一个3,5千图片的图片分类应该
: 是无
: 压力的。

相关主题
有没有大牛愿意牵头搞一个 deep learning projectKaggle 被买了
ML 需不需要搞懂那些数学数据碗的结果出来了 weidong站上英雄榜了
数据科学碗2017Ai这个社团很多人是很坏的
进入Programming版参与讨论
w*****r
发帖数: 197
11
你这个模型的bug在于雇了5个H1b,而且一人一周只train一个模型
基于同一套脚本,如果我把所有命令行变成按键,只要是心智健全的人,一天培训就能
上岗,假设平均训练一个模型要点10次按钮,每人每天要求至少点10000次按钮,这就
是1000个模型,再除去租cloud的费用,是不是赚翻了?
w***g
发帖数: 5958
12
我已经建议他们这条路线了。训练出来的模型管不管用另说,
自动化训练势在必行了。大不了我每个数据试20种configuration。
每个花10块钱租云训练,也就200的计算成本。

【在 w*****r 的大作中提到】
: 你这个模型的bug在于雇了5个H1b,而且一人一周只train一个模型
: 基于同一套脚本,如果我把所有命令行变成按键,只要是心智健全的人,一天培训就能
: 上岗,假设平均训练一个模型要点10次按钮,每人每天要求至少点10000次按钮,这就
: 是1000个模型,再除去租cloud的费用,是不是赚翻了?

w***g
发帖数: 5958
13
图片素材厂商。

【在 x****u 的大作中提到】
: 是国内的数据工厂么?
r****t
发帖数: 10904
14
还有这种厂商?有没有例子我看看,好奇怪,他们卖什么的?

【在 w***g 的大作中提到】
: 图片素材厂商。
r****t
发帖数: 10904
15
啥需求需要训练一大堆模型?

【在 w***g 的大作中提到】
: 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。
: 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。
: 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天
: 用来拉生意,还有一天折腾各种事情。
: 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。
: 分钱方法是我一年拿20万,小弟没人拿6.4万。
: 但其实是不可行的。
: 1. 每年从哪里去找260个模型训练的活。
: 2. 每个人工作其实都不轻松。
: 3. 没算各种场地器材utility的overhead。没算任何benefit。

e*******o
发帖数: 4654
16
这种商业模式都很苦逼。
做产品才能挣非苦力的钱。
x****u
发帖数: 44466
17
xgboost调参也那么慢?

【在 w***g 的大作中提到】
: 你这个肯定不行。我太有经验了。一星期只够调几次参数。
: 并且手写分类器也基本不可能干过tf和xgboost。
:
: 种办

g****t
发帖数: 31659
18
MNIST 6万图片。KNN弄个Jupyter notebook改改,跑到95%以上没问题。就不说别的算
法了。
三五千图片那么少,95%和98%的区别就没什么意义了。另外tf本身参数多,还容易
overfitting.


: 你这个肯定不行。我太有经验了。一星期只够调几次参数。

: 并且手写分类器也基本不可能干过tf和xgboost。

: 种办



【在 w***g 的大作中提到】
: 图片素材厂商。
g****t
发帖数: 31659
19
更慢。我觉得xgboost其实没什么大用。dl比较普世。尽管如果不做数据增加什么的,
容易overfitting。


: xgboost调参也那么慢?



【在 x****u 的大作中提到】
: xgboost调参也那么慢?
x****u
发帖数: 44466
20
mnist用各大框架的例子也能跑到99%以上吧

【在 g****t 的大作中提到】
: MNIST 6万图片。KNN弄个Jupyter notebook改改,跑到95%以上没问题。就不说别的算
: 法了。
: 三五千图片那么少,95%和98%的区别就没什么意义了。另外tf本身参数多,还容易
: overfitting.
:
:
: 你这个肯定不行。我太有经验了。一星期只够调几次参数。
:
: 并且手写分类器也基本不可能干过tf和xgboost。
:
: 种办
:

相关主题
Kaggle比赛禁止中国人参加准备向wdong大牛学习单干了
Zillow Prize讨论专用贴什么都别说了,刷题是王道,我要加入拳皇帮了
廖方舟 李哲 金奖! (转载)看了几个kaggle的答题,有点迷惑了
进入Programming版参与讨论
x****u
发帖数: 44466
21
xgboost适合小数据
如果来了图片那必须果断上dl

【在 g****t 的大作中提到】
: 更慢。我觉得xgboost其实没什么大用。dl比较普世。尽管如果不做数据增加什么的,
: 容易overfitting。
:
:
: xgboost调参也那么慢?
:

g****t
发帖数: 31659
22
确实是可以。但是框架对你来说是不透明的。所以调节受限制很多。如果你手写个增强
型的knn,增强型的svm, ...
很多古代算法mnist这么少数据的其实都能到90%. 95%的不多但也有不少。
再往上所谓的99%那就是不懂的人胡扯八道了。这问题以前讲过。这里就不说了。


: mnist用各大框架的例子也能跑到99%以上吧



【在 x****u 的大作中提到】
: xgboost适合小数据
: 如果来了图片那必须果断上dl

x****u
发帖数: 44466
23
mnist验证集99%不难啊

【在 g****t 的大作中提到】
: 确实是可以。但是框架对你来说是不透明的。所以调节受限制很多。如果你手写个增强
: 型的knn,增强型的svm, ...
: 很多古代算法mnist这么少数据的其实都能到90%. 95%的不多但也有不少。
: 再往上所谓的99%那就是不懂的人胡扯八道了。这问题以前讲过。这里就不说了。
:
:
: mnist用各大框架的例子也能跑到99%以上吧
:

g****t
发帖数: 31659
24
图片切变,对齐,数据增强什么的做好了吗?这些杂工其实最费时间,还容易出错。


: 图片素材厂商。



【在 w***g 的大作中提到】
: 图片素材厂商。
x****u
发帖数: 44466
25
各大框架默认都有预处理器

【在 g****t 的大作中提到】
: 图片切变,对齐,数据增强什么的做好了吗?这些杂工其实最费时间,还容易出错。
:
:
: 图片素材厂商。
:

g****t
发帖数: 31659
26
我的意思是这些步骤的thresholds之类的东西定好了吗。
数据部分废工时。


: 各大框架默认都有预处理器



【在 x****u 的大作中提到】
: 各大框架默认都有预处理器
g****t
发帖数: 31659
27
你看看以前的帖。再琢磨琢磨。所谓的准确率到一定程度之后都是骗人的。这不是难不
难的问题。玩命加参数,计算机速度快了,小数据集能有多难?


: mnist验证集99%不难啊



【在 x****u 的大作中提到】
: 各大框架默认都有预处理器
x****u
发帖数: 44466
28
哪篇?

【在 g****t 的大作中提到】
: 你看看以前的帖。再琢磨琢磨。所谓的准确率到一定程度之后都是骗人的。这不是难不
: 难的问题。玩命加参数,计算机速度快了,小数据集能有多难?
:
:
: mnist验证集99%不难啊
:

g****t
发帖数: 31659
29
很早以前了。简单说,mnist不少label本身就没有意义,是作者加的,不是人群给的。
你做一个分类,把错误的挑出来一个个看看,慢慢就琢磨明白了。


: 哪篇?



【在 x****u 的大作中提到】
: 哪篇?
x****u
发帖数: 44466
30
信上面还有地址不是
你写的时候只要心里想着是0,哪怕写成6了电脑也应该认成0

【在 g****t 的大作中提到】
: 很早以前了。简单说,mnist不少label本身就没有意义,是作者加的,不是人群给的。
: 你做一个分类,把错误的挑出来一个个看看,慢慢就琢磨明白了。
:
:
: 哪篇?
:

相关主题
predictive analysis只能用来prediction吧?求教 xgboost train error 非常小,咋回事
如何评价google的Cloud AutoML单变量xgboost模型好的吓人,求解
Re: Zillow Prize kaggle的比赛 求问kaggle上那批人太逆天了
进入Programming版参与讨论
g****t
发帖数: 31659
31
最简单的解释,mnist 起源于一个产品。准确率只是一个中间环节的人为定义。端到端
的来讲,99%的准确率的算法比98%的算法能节省人工吗?
如果答案是否,那么这种准确率就是为了科研方便所做的方便性约定。但是这种都有和
现实match不到的地方。
其他的解释,你现在理解不了。


: 信上面还有地址不是

: 你写的时候只要心里想着是0,哪怕写成6了电脑也应该认成0



【在 x****u 的大作中提到】
: 信上面还有地址不是
: 你写的时候只要心里想着是0,哪怕写成6了电脑也应该认成0

x****u
发帖数: 44466
32
98% -> 99%就是错误率减半
错误率就等于二次投递的成本系数,减半意义太大了

【在 g****t 的大作中提到】
: 最简单的解释,mnist 起源于一个产品。准确率只是一个中间环节的人为定义。端到端
: 的来讲,99%的准确率的算法比98%的算法能节省人工吗?
: 如果答案是否,那么这种准确率就是为了科研方便所做的方便性约定。但是这种都有和
: 现实match不到的地方。
: 其他的解释,你现在理解不了。
:
:
: 信上面还有地址不是
:
: 你写的时候只要心里想着是0,哪怕写成6了电脑也应该认成0
:

g****t
发帖数: 31659
33
你这是纸上的错误率。你把这个准确率做个exp映射什么的,再定义一个所谓的“
错误度”,
从0到360作为一个指标。那么可以弄出来超级错误度减少80%的结论。
实际上连乘法除法,也就是问题的scale那一步都可能会出现和现实对不上的情况。
更别说这些衍生的一些约定了。在纸上。这种东西都是乱枪打鸟,要多少都可以有。


: 98% -

【在 x****u 的大作中提到】
: 98% -> 99%就是错误率减半
: 错误率就等于二次投递的成本系数,减半意义太大了

g****t
发帖数: 31659
34
回到主贴。简单的说,小型图片分类,我怀疑自动化深学框架,不一定比传统做偏统计
的ML
工人的working flow更经济。
还一个问题,大型框架到发展到一定阶段以后其实是以让更广的人使用为目标的,所以
可能引入很多麻烦,降低专家级用户的效率。也许买个企业版什么的可解决这类问题。
x****u
发帖数: 44466
35
图片问题基本是深学天下了,而且新的轮子就是特别好使。
VGG加上BN性能立即爆表,不用说resnet了

【在 g****t 的大作中提到】
: 回到主贴。简单的说,小型图片分类,我怀疑自动化深学框架,不一定比传统做偏统计
: 的ML
: 工人的working flow更经济。
: 还一个问题,大型框架到发展到一定阶段以后其实是以让更广的人使用为目标的,所以
: 可能引入很多麻烦,降低专家级用户的效率。也许买个企业版什么的可解决这类问题。

g****t
发帖数: 31659
36
你似乎不熟悉tf
Mnist最原始的cnn性能就已经爆表了
那需要你说的那些buzz words


: 图片问题基本是深学天下了,而且新的轮子就是特别好使。

: VGG加上BN性能立即爆表,不用说resnet了



【在 x****u 的大作中提到】
: 图片问题基本是深学天下了,而且新的轮子就是特别好使。
: VGG加上BN性能立即爆表,不用说resnet了

n******t
发帖数: 4406
37
這些事情都是因為別人花了3000刀不一定能掙回3000刀,否則都不是問題。

【在 w***g 的大作中提到】
: 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。
: 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。
: 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天
: 用来拉生意,还有一天折腾各种事情。
: 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。
: 分钱方法是我一年拿20万,小弟没人拿6.4万。
: 但其实是不可行的。
: 1. 每年从哪里去找260个模型训练的活。
: 2. 每个人工作其实都不轻松。
: 3. 没算各种场地器材utility的overhead。没算任何benefit。

x****u
发帖数: 44466
38
mnist用最新的技术可以做到错误率0
更复杂的网络用非dl性能太差

【在 g****t 的大作中提到】
: 你似乎不熟悉tf
: Mnist最原始的cnn性能就已经爆表了
: 那需要你说的那些buzz words
:
:
: 图片问题基本是深学天下了,而且新的轮子就是特别好使。
:
: VGG加上BN性能立即爆表,不用说resnet了
:

w***g
发帖数: 5958
39
读一篇论文,我会先看它用了什么数据集做验证。
如果我看到一篇论文只用了nmist做验证,除非名声特别响,
剩下的我就不会看一个字了。因为作者deliver的信息是
无非是几选一。1. 这个方法作者自己都不是很看好,
不愿意花时间多验证几个数据集。2. 这个方法在别的数据
集上表现不好。3. 这个作者缺乏工程能力,大的数据集
搞不定。
做项目卖钱,最重要的是降低最后deliver的风险和
成本。按这两个考虑,我目前的策略就是。
1. 表格类的数据无脑上xgboost。纯表格类的项目也没有/不愿意接。
2. 信号类(心电,图片,CT/MRI,音频视频)的数据无脑上DL。
3. 别的项目既没有也接不了。
Again,现在的IT经济已经被VC控制了。VC-backed startup和
上市公司给的工资远超过传统企业。小作坊不可能招得起talent。

【在 g****t 的大作中提到】
: 你似乎不熟悉tf
: Mnist最原始的cnn性能就已经爆表了
: 那需要你说的那些buzz words
:
:
: 图片问题基本是深学天下了,而且新的轮子就是特别好使。
:
: VGG加上BN性能立即爆表,不用说resnet了
:

x****u
发帖数: 44466
40
我的话是先上kaggle上找找类似kernel都是怎么写的,哈哈哈

【在 w***g 的大作中提到】
: 读一篇论文,我会先看它用了什么数据集做验证。
: 如果我看到一篇论文只用了nmist做验证,除非名声特别响,
: 剩下的我就不会看一个字了。因为作者deliver的信息是
: 无非是几选一。1. 这个方法作者自己都不是很看好,
: 不愿意花时间多验证几个数据集。2. 这个方法在别的数据
: 集上表现不好。3. 这个作者缺乏工程能力,大的数据集
: 搞不定。
: 做项目卖钱,最重要的是降低最后deliver的风险和
: 成本。按这两个考虑,我目前的策略就是。
: 1. 表格类的数据无脑上xgboost。纯表格类的项目也没有/不愿意接。

相关主题
总结一下kaggle比赛ML 需不需要搞懂那些数学
关于搞ML刷数据的职业前途数据科学碗2017
有没有大牛愿意牵头搞一个 deep learning projectKaggle 被买了
进入Programming版参与讨论
w***g
发帖数: 5958
41
kaggle这个东西出来,把data scientist中产阶级全都杀死了。
顶级DS吃香的喝辣的,初级DS直接找kernel上就能秒杀中产DS。
中间的,自己写也写不过public kernel,也体现不出啥价值了。

【在 x****u 的大作中提到】
: 我的话是先上kaggle上找找类似kernel都是怎么写的,哈哈哈
x****u
发帖数: 44466
42
其实kaggle上面的东西能看懂用起来的已经不算初级ds了吧

【在 w***g 的大作中提到】
: kaggle这个东西出来,把data scientist中产阶级全都杀死了。
: 顶级DS吃香的喝辣的,初级DS直接找kernel上就能秒杀中产DS。
: 中间的,自己写也写不过public kernel,也体现不出啥价值了。

g****t
发帖数: 31659
43
我提mnist是因为感觉也许mnist就比3,5千图片的training set难。毕竟mnist有6万图
片。


: 读一篇论文,我会先看它用了什么数据集做验证。

: 如果我看到一篇论文只用了nmist做验证,除非名声特别响,

: 剩下的我就不会看一个字了。因为作者deliver的信息是

: 无非是几选一。1. 这个方法作者自己都不是很看好,

: 不愿意花时间多验证几个数据集。2. 这个方法在别的数据

: 集上表现不好。3. 这个作者缺乏工程能力,大的数据集

: 搞不定。

: 做项目卖钱,最重要的是降低最后deliver的风险和

: 成本。按这两个考虑,我目前的策略就是。

: 1. 表格类的数据无脑上xgboost。纯表格类的项目也没有/不愿意接。



【在 w***g 的大作中提到】
: kaggle这个东西出来,把data scientist中产阶级全都杀死了。
: 顶级DS吃香的喝辣的,初级DS直接找kernel上就能秒杀中产DS。
: 中间的,自己写也写不过public kernel,也体现不出啥价值了。

w***g
发帖数: 5958
44
mnist单个图片小,所以虽然样本多,总体也还是CPU能够handle的范围。
而且完全不需要预处理。所以是灌水文的最爱。

【在 g****t 的大作中提到】
: 我提mnist是因为感觉也许mnist就比3,5千图片的training set难。毕竟mnist有6万图
: 片。
:
:
: 读一篇论文,我会先看它用了什么数据集做验证。
:
: 如果我看到一篇论文只用了nmist做验证,除非名声特别响,
:
: 剩下的我就不会看一个字了。因为作者deliver的信息是
:
: 无非是几选一。1. 这个方法作者自己都不是很看好,
:
: 不愿意花时间多验证几个数据集。2. 这个方法在别的数据
:
: 集上表现不好。3. 这个作者缺乏工程能力,大的数据集
:
: 搞不定。

g****t
发帖数: 31659
45
这要看DS的统计基础,也就是大二概率是不是学的牢靠。真懂统计的,假如open
source或者kaggle出了个好的kernal 其实不是问题。
因为两个方法的residual只要方向不一样,理论上就可以有效平均,得到更强壮的方法
。这个和买股票没有人会只买涨的最快的那个是一样的原因。
为了适应新时代,传统的DS应该把这些kernal看作底层axiom module往上做。不然确实
是很快就没饭吃。他们的工作很可能会被懂得描述问题带入现存tool的软件工程师代替。


: kaggle这个东西出来,把data scientist中产阶级全都杀死了。

: 顶级DS吃香的喝辣的,初级DS直接找kernel上就能秒杀中产DS。

: 中间的,自己写也写不过public kernel,也体现不出啥价值了。



【在 w***g 的大作中提到】
: mnist单个图片小,所以虽然样本多,总体也还是CPU能够handle的范围。
: 而且完全不需要预处理。所以是灌水文的最爱。

w***g
发帖数: 5958
46

替。
----------------------------------------------------------------------------
----
就是这样。

【在 g****t 的大作中提到】
: 这要看DS的统计基础,也就是大二概率是不是学的牢靠。真懂统计的,假如open
: source或者kaggle出了个好的kernal 其实不是问题。
: 因为两个方法的residual只要方向不一样,理论上就可以有效平均,得到更强壮的方法
: 。这个和买股票没有人会只买涨的最快的那个是一样的原因。
: 为了适应新时代,传统的DS应该把这些kernal看作底层axiom module往上做。不然确实
: 是很快就没饭吃。他们的工作很可能会被懂得描述问题带入现存tool的软件工程师代替。
:
:
: kaggle这个东西出来,把data scientist中产阶级全都杀死了。
:
: 顶级DS吃香的喝辣的,初级DS直接找kernel上就能秒杀中产DS。
:
: 中间的,自己写也写不过public kernel,也体现不出啥价值了。

g****t
发帖数: 31659
47
说实话十几万一年的高端DS,一个月做的模型,极大的可能不如你招h1b一星期做出来
的。那么未来他们工作的价值最多也就是现在工资的1/10.
技术以及技术的宿主software tool飞速发展,这个没办法。

【在 w***g 的大作中提到】
:
: 替。
: ----------------------------------------------------------------------------
: ----
: 就是这样。

W***o
发帖数: 6519
48
董老板的work flow要如同福特汽车开始一样实现流水线化就会降低成本了
不过这种需要不停的去开发新客户,还不如去bid 一些政府的长期项目(3-5 年)做。
政府的项目可以很大;
类似的思路可以是去政府项目承包商的sub-contractor,
比如去booz allen hamilton, gd 这种大的承包商分一杯他们没能力没资源做的分项目做
政府的项目很稳定,一般不受经济环境大气候影响
l*******m
发帖数: 1096
49
现在的形式是海华基本拿不到政府项目。如果有个老白的皮包公司拉项目,还是很肥的

:董老板的work flow要如同福特汽车开始一样实现流水线化就会降低成本了
w***g
发帖数: 5958
50
收买几个老白老黑,控股他们,让他们出面去申请不知道行不行。
最近在看/读《教父》,觉得真牛啊。我现在手下有两个比较可靠的人,
将来做大了让他们当caporegime。

【在 l*******m 的大作中提到】
: 现在的形式是海华基本拿不到政府项目。如果有个老白的皮包公司拉项目,还是很肥的
:
: :董老板的work flow要如同福特汽车开始一样实现流水线化就会降低成本了
: :

相关主题
数据碗的结果出来了 weidong站上英雄榜了Zillow Prize讨论专用贴
Ai这个社团很多人是很坏的廖方舟 李哲 金奖! (转载)
Kaggle比赛禁止中国人参加准备向wdong大牛学习单干了
进入Programming版参与讨论
x**********i
发帖数: 658
51
wdong老师,请问用tf+xgboost怎么做?我只知道tf做分类器,但苦于不知道怎么加上
xgboost。你能推荐几个公开的github projects作为参考吗?谢谢

【在 w***g 的大作中提到】
: 你这个肯定不行。我太有经验了。一星期只够调几次参数。
: 并且手写分类器也基本不可能干过tf和xgboost。
:
: 种办

l*******1
发帖数: 1
52
训练200多模型最后一个还和第一个成本一样,应该陷入沉思了
x***4
发帖数: 1815
53
这么干何必呢。累死累活才这么一点钱。为什么老中总是挑破活。

【在 w***g 的大作中提到】
: 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。
: 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。
: 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天
: 用来拉生意,还有一天折腾各种事情。
: 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。
: 分钱方法是我一年拿20万,小弟没人拿6.4万。
: 但其实是不可行的。
: 1. 每年从哪里去找260个模型训练的活。
: 2. 每个人工作其实都不轻松。
: 3. 没算各种场地器材utility的overhead。没算任何benefit。

x**********i
发帖数: 658
54
那些排名靠前的kernel作者愿意分享?

【在 w***g 的大作中提到】
: kaggle这个东西出来,把data scientist中产阶级全都杀死了。
: 顶级DS吃香的喝辣的,初级DS直接找kernel上就能秒杀中产DS。
: 中间的,自己写也写不过public kernel,也体现不出啥价值了。

g****t
发帖数: 31659
55
对技艺一般的ds来讲。我认为
花时间看kaggle, github上的各种公开模型,拼凑一下,大概率比自己做模型更有效率。
但是拼凑也要一些经验和背景知识。这条路比较适合软件出身的人走,可以把DS的人的
位置弄的无关紧要。


: 那些排名靠前的kernel作者愿意分享?



【在 x**********i 的大作中提到】
: 那些排名靠前的kernel作者愿意分享?
x****u
发帖数: 44466
56
有个imagenet打底,3,5千图片不在话下
怕的就是10张MRI让你学出100种疾病标签这种外行数据集

【在 g****t 的大作中提到】
: 我提mnist是因为感觉也许mnist就比3,5千图片的training set难。毕竟mnist有6万图
: 片。
:
:
: 读一篇论文,我会先看它用了什么数据集做验证。
:
: 如果我看到一篇论文只用了nmist做验证,除非名声特别响,
:
: 剩下的我就不会看一个字了。因为作者deliver的信息是
:
: 无非是几选一。1. 这个方法作者自己都不是很看好,
:
: 不愿意花时间多验证几个数据集。2. 这个方法在别的数据
:
: 集上表现不好。3. 这个作者缺乏工程能力,大的数据集
:
: 搞不定。

w***g
发帖数: 5958
57
xgboost tf没一般的做法。tf跑到spark上也是。提出这种需求或者架构,本身就是露
馅了。


: wdong老师,请问用tf xgboost怎么做?我只知道tf做分类器,但苦于不知道怎
么加上

: xgboost。你能推荐几个公开的github projects作为参考吗?谢谢



【在 x**********i 的大作中提到】
: 那些排名靠前的kernel作者愿意分享?
w*****r
发帖数: 197
58
Tf好像有个boosted tree classifier,效果不如xgboost, yahoo 有个遗腹子,就是
tensorflow on spark


: xgboost tf没一般的做法。tf跑到spark上也是。提出这种需求或者架构
,本身
就是露

: 馅了。

: 么加上



【在 w***g 的大作中提到】
: xgboost tf没一般的做法。tf跑到spark上也是。提出这种需求或者架构,本身就是露
: 馅了。
:
:
: wdong老师,请问用tf xgboost怎么做?我只知道tf做分类器,但苦于不知道怎
: 么加上
:
: xgboost。你能推荐几个公开的github projects作为参考吗?谢谢
:

h***n
发帖数: 1275
59
问一下,训练好的模型的用途是啥,商业上,怎么赚钱 ?

【在 w***g 的大作中提到】
: 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。
: 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。
: 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天
: 用来拉生意,还有一天折腾各种事情。
: 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。
: 分钱方法是我一年拿20万,小弟没人拿6.4万。
: 但其实是不可行的。
: 1. 每年从哪里去找260个模型训练的活。
: 2. 每个人工作其实都不轻松。
: 3. 没算各种场地器材utility的overhead。没算任何benefit。

g****t
发帖数: 31659
60
是不是tf那个estimator里的?我好像也见过。


: Tf好像有个boosted tree classifier,效果不如xgboost, yahoo 有个遗腹子,
就是

: tensorflow on spark

:

【在 w*****r 的大作中提到】
: Tf好像有个boosted tree classifier,效果不如xgboost, yahoo 有个遗腹子,就是
: tensorflow on spark
:
:
: xgboost tf没一般的做法。tf跑到spark上也是。提出这种需求或者架构
: ,本身
: 就是露
:
: 馅了。
:
: 么加上
:

相关主题
什么都别说了,刷题是王道,我要加入拳皇帮了如何评价google的Cloud AutoML
看了几个kaggle的答题,有点迷惑了Re: Zillow Prize kaggle的比赛 求问
predictive analysis只能用来prediction吧?求教 xgboost train error 非常小,咋回事
进入Programming版参与讨论
a*****g
发帖数: 19398
61
不错啊。w

【在 w***g 的大作中提到】
: 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。
: 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。
: 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天
: 用来拉生意,还有一天折腾各种事情。
: 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。
: 分钱方法是我一年拿20万,小弟没人拿6.4万。
: 但其实是不可行的。
: 1. 每年从哪里去找260个模型训练的活。
: 2. 每个人工作其实都不轻松。
: 3. 没算各种场地器材utility的overhead。没算任何benefit。

1 (共1页)
进入Programming版参与讨论
相关主题
什么都别说了,刷题是王道,我要加入拳皇帮了总结一下kaggle比赛
看了几个kaggle的答题,有点迷惑了关于搞ML刷数据的职业前途
predictive analysis只能用来prediction吧?有没有大牛愿意牵头搞一个 deep learning project
如何评价google的Cloud AutoMLML 需不需要搞懂那些数学
Re: Zillow Prize kaggle的比赛 求问数据科学碗2017
求教 xgboost train error 非常小,咋回事Kaggle 被买了
单变量xgboost模型好的吓人,求解数据碗的结果出来了 weidong站上英雄榜了
kaggle上那批人太逆天了Ai这个社团很多人是很坏的
相关话题的讨论汇总
话题: br话题: 模型话题: xgboost话题: 训练话题: tf