由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
CS版 - machine learning工业界用的多不多?
相关主题
Machine Learning里的一些算法是否有经典库啊?求根据gini index生成decision tree的小软件
关于使用weka的问题data mining的软件包
Classfication 比较好的算法是什么?请推荐data mining的书
请教machine learning 哪个方向比较有前途?怎样衡量降维的效果?
Data Mining Libraries: Java, C/C++/C#如何量化文档中topic的个数多少呢?
machine learning toolkit packagerw LDA 的学习曲线~~
什么 clustering 的openSource么?computer vision研究需要用些什么software?
有没有懂LDA(Blei)model得大侠给解释一下请问ANN有什么好用的模拟软件啊? (转载)
相关话题的讨论汇总
话题: 工业界话题: learning话题: machine话题: 算法话题: 学术界
进入CS版参与讨论
1 (共1页)
sa
发帖数: 1384
1
好像学术界多,工业界不怎么用,对吗?
sa
发帖数: 1384
2
ding

【在 sa 的大作中提到】
: 好像学术界多,工业界不怎么用,对吗?
j*****n
发帖数: 1545
3
工业界不怎么用machine learning, 他们用data mining ....
学术界的machine learning 太理想化了, 数据都是很简单的。工业界要考虑的东西太
多了,学术界搞的那些理论算法只是工业界1个大系统里面很小的一块,而且这1块很多
时候都已经有现成的API用。
my 2 cents
j*****n
发帖数: 1545
4
我觉得还有1种说法很有道理,
More data usually beats better algorithms
工业届很火的big data其实也是这个道理,算法的差别很容易就能被更多的training搞
定,但更多的training是有普适的价值,所以搞更好的算法不如搞更多的数据。当然
SVM的价值确实能够体现出来,这种跨时代意义的算法还是不可否认。所以就几个大牛
搞搞machine learning就行了,我们这些小兵就搞搞应用就好。
学术界都是关心 better algorithms, 整很多很玄的东西,但实际上很多问题一些简单
的classifier就能做的很好,WEKA 里面的很多例子都说明了现在的问题不在于搞更好
的算法,而在于怎么把现有的算法用的更好。
still my2cents
S**I
发帖数: 15689
5
完全赞同;我在学校的时候做过一些优化算法,去公司里实习的时候被告知俺们就是用
最简单的那种,复杂的东东从来不用......

【在 j*****n 的大作中提到】
: 我觉得还有1种说法很有道理,
: More data usually beats better algorithms
: 工业届很火的big data其实也是这个道理,算法的差别很容易就能被更多的training搞
: 定,但更多的training是有普适的价值,所以搞更好的算法不如搞更多的数据。当然
: SVM的价值确实能够体现出来,这种跨时代意义的算法还是不可否认。所以就几个大牛
: 搞搞machine learning就行了,我们这些小兵就搞搞应用就好。
: 学术界都是关心 better algorithms, 整很多很玄的东西,但实际上很多问题一些简单
: 的classifier就能做的很好,WEKA 里面的很多例子都说明了现在的问题不在于搞更好
: 的算法,而在于怎么把现有的算法用的更好。
: still my2cents

X*****r
发帖数: 2521
6
讲讲
哪种是公司用的?

【在 S**I 的大作中提到】
: 完全赞同;我在学校的时候做过一些优化算法,去公司里实习的时候被告知俺们就是用
: 最简单的那种,复杂的东东从来不用......

j*****n
发帖数: 1545
7
工业界不在乎什么算法,这些算法现在都是API了,你要做的更多是data
preprocessing 和 data filtering. 然后就是调API 1个1个试,从最简单的开始,
比如做classification的就从最简单的decision tree 开始试

【在 X*****r 的大作中提到】
: 讲讲
: 哪种是公司用的?

s*******n
发帖数: 38
8
最简单不是LDA么?

【在 j*****n 的大作中提到】
: 工业界不在乎什么算法,这些算法现在都是API了,你要做的更多是data
: preprocessing 和 data filtering. 然后就是调API 1个1个试,从最简单的开始,
: 比如做classification的就从最简单的decision tree 开始试

L*****k
发帖数: 327
9
你说的这些都有道理,不过还是要说一点,那些大家都知道的问题(也就是很多现成
API,比如classification,clustering)可以调用的,只是我们需要解决问题的一部
分,而且很多实际问题是需要人去创造性解决的。这才应该是学ML,DM的PhD的价值所
在,这也是做其他方向,号称自己懂ML/DM的人所做不了的

【在 j*****n 的大作中提到】
: 我觉得还有1种说法很有道理,
: More data usually beats better algorithms
: 工业届很火的big data其实也是这个道理,算法的差别很容易就能被更多的training搞
: 定,但更多的training是有普适的价值,所以搞更好的算法不如搞更多的数据。当然
: SVM的价值确实能够体现出来,这种跨时代意义的算法还是不可否认。所以就几个大牛
: 搞搞machine learning就行了,我们这些小兵就搞搞应用就好。
: 学术界都是关心 better algorithms, 整很多很玄的东西,但实际上很多问题一些简单
: 的classifier就能做的很好,WEKA 里面的很多例子都说明了现在的问题不在于搞更好
: 的算法,而在于怎么把现有的算法用的更好。
: still my2cents

d******e
发帖数: 7844
10
这个已经far from简单了,最简单的应该是Naive Bayes或者CART

【在 s*******n 的大作中提到】
: 最简单不是LDA么?
相关主题
machine learning toolkit package求根据gini index生成decision tree的小软件
什么 clustering 的openSource么?data mining的软件包
有没有懂LDA(Blei)model得大侠给解释一下请推荐data mining的书
进入CS版参与讨论
s*******n
发帖数: 38
11
在做PCA+LDA的飘过。。。

【在 d******e 的大作中提到】
: 这个已经far from简单了,最简单的应该是Naive Bayes或者CART
D***r
发帖数: 7511
12
你说machine learning的数据简单是什么意思?
事实上machine learning里很大一部分都是在讨论如何转化和利用现有的数据
像生物信息学就是因为数据特殊一般统计方法和规则方法不能用,
才成了一门学科

【在 j*****n 的大作中提到】
: 工业界不怎么用machine learning, 他们用data mining ....
: 学术界的machine learning 太理想化了, 数据都是很简单的。工业界要考虑的东西太
: 多了,学术界搞的那些理论算法只是工业界1个大系统里面很小的一块,而且这1块很多
: 时候都已经有现成的API用。
: my 2 cents

L*****k
发帖数: 327
13
很多人都只是在实际工作中用了下SVM,or boosting or PCA,就都觉得自己懂ML了。
。。
无数人辛苦努力,创造了理论,再有无数人努力,优化算法,再来无数人,写好code来
共享来让普通人用用。到了最后,一些门外汉用了用,感慨下,觉得这也没什么意思。
。。

【在 D***r 的大作中提到】
: 你说machine learning的数据简单是什么意思?
: 事实上machine learning里很大一部分都是在讨论如何转化和利用现有的数据
: 像生物信息学就是因为数据特殊一般统计方法和规则方法不能用,
: 才成了一门学科

o******y
发帖数: 446
14
学术界的实验数据都比较简单吧。就是有点小玩具的意思。

你说machine learning的数据简单是什么意思?
事实上machine learning里很大一部分都是在讨论如何转化和利用现有的数据
像生物信息学就是因为数据特殊一般统计方法和规则方法不能用,
才成了一门学科

【在 D***r 的大作中提到】
: 你说machine learning的数据简单是什么意思?
: 事实上machine learning里很大一部分都是在讨论如何转化和利用现有的数据
: 像生物信息学就是因为数据特殊一般统计方法和规则方法不能用,
: 才成了一门学科

L*****k
发帖数: 327
15
学术界大数据,小数据都有,想要看大的,please check imageNet
最为一些做原创性算法的工作,一般是不要求做在大数据上面的。自然,这里面可能有
些工作推广性不够,但是也会有很多好的idea在这个里面做出来
至于一些learning theory的,更加用不到大数据

【在 o******y 的大作中提到】
: 学术界的实验数据都比较简单吧。就是有点小玩具的意思。
:
: 你说machine learning的数据简单是什么意思?
: 事实上machine learning里很大一部分都是在讨论如何转化和利用现有的数据
: 像生物信息学就是因为数据特殊一般统计方法和规则方法不能用,
: 才成了一门学科

o******y
发帖数: 446
16
简单跟大小不是一个概念吧。
我想工业界的复杂更多的是从原始的
数据到你能够运行某些算法中间
要经过很多的处理。到最后能跑算法
的数据,工业界就倾向跑稳定简单的算法
就OK. 更多的工作是前面的步骤。
学术界就是假定要跑算法的数据就
这样子了,省略了前面的步骤,
然后在上面建立'fancy'的模型。

【在 L*****k 的大作中提到】
: 学术界大数据,小数据都有,想要看大的,please check imageNet
: 最为一些做原创性算法的工作,一般是不要求做在大数据上面的。自然,这里面可能有
: 些工作推广性不够,但是也会有很多好的idea在这个里面做出来
: 至于一些learning theory的,更加用不到大数据

L*****k
发帖数: 327
17
数据的获取和预处理自然也是一个问题,这个如果是很应用针对性的(很特定的一个情
形),当然是工业界在做,这个也不是有研究价值,为什么是要学术界做呢
如果是比较一般性的,比如针对图像的特征提取,或者针对网页温本科的特征提取,这
就都是学术界会去做的

【在 o******y 的大作中提到】
: 简单跟大小不是一个概念吧。
: 我想工业界的复杂更多的是从原始的
: 数据到你能够运行某些算法中间
: 要经过很多的处理。到最后能跑算法
: 的数据,工业界就倾向跑稳定简单的算法
: 就OK. 更多的工作是前面的步骤。
: 学术界就是假定要跑算法的数据就
: 这样子了,省略了前面的步骤,
: 然后在上面建立'fancy'的模型。

o******y
发帖数: 446
18
没有说一定要学术界做。
是说学术界跟工业界的区别。
工业界更加注重实际问题,和解决问题方法的稳定性。
学术界注重创造性(paper 导向),
能够解决问题但是不创新引不起学术兴趣。
但是很多创新都是没用的,花拳绣腿。
不过1%有用的话也就够工业界使了。

【在 L*****k 的大作中提到】
: 数据的获取和预处理自然也是一个问题,这个如果是很应用针对性的(很特定的一个情
: 形),当然是工业界在做,这个也不是有研究价值,为什么是要学术界做呢
: 如果是比较一般性的,比如针对图像的特征提取,或者针对网页温本科的特征提取,这
: 就都是学术界会去做的

L*****k
发帖数: 327
19
对,学术界的很多创新都里实际很远,只要有1%有用那就是推动整个业界进步的巨大动
力了
但同理,工业界99%甚至更多的公司,都只是重复别人(公司或者学校)做过的事情,
不管是从创造性,或者是解决实际的难问题上,都对其他人没有什么意义。想M/G/IBM
这样真的解决了些难问题的公司,太少了

【在 o******y 的大作中提到】
: 没有说一定要学术界做。
: 是说学术界跟工业界的区别。
: 工业界更加注重实际问题,和解决问题方法的稳定性。
: 学术界注重创造性(paper 导向),
: 能够解决问题但是不创新引不起学术兴趣。
: 但是很多创新都是没用的,花拳绣腿。
: 不过1%有用的话也就够工业界使了。

1 (共1页)
进入CS版参与讨论
相关主题
请问ANN有什么好用的模拟软件啊? (转载)Data Mining Libraries: Java, C/C++/C#
weka新手使用问题machine learning toolkit package
EE转专业下周见CS教授面试求指点什么 clustering 的openSource么?
这里做image processing的人多不多啊?有没有懂LDA(Blei)model得大侠给解释一下
Machine Learning里的一些算法是否有经典库啊?求根据gini index生成decision tree的小软件
关于使用weka的问题data mining的软件包
Classfication 比较好的算法是什么?请推荐data mining的书
请教machine learning 哪个方向比较有前途?怎样衡量降维的效果?
相关话题的讨论汇总
话题: 工业界话题: learning话题: machine话题: 算法话题: 学术界