machine learning工业界用的多不多？ - CS版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

CS版 - machine learning工业界用的多不多？

相关主题
● Machine Learning里的一些算法是否有经典库啊？	● 求根据gini index生成decision tree的小软件
● 关于使用weka的问题	● data mining的软件包
● Classfication 比较好的算法是什么?	● 请推荐data mining的书
● 请教machine learning 哪个方向比较有前途？	● 怎样衡量降维的效果？
● Data Mining Libraries: Java, C/C++/C#	● 如何量化文档中topic的个数多少呢？
● machine learning toolkit package	● rw LDA 的学习曲线~~
● 什么 clustering 的openSource么？	● computer vision研究需要用些什么software?
● 有没有懂LDA(Blei)model得大侠给解释一下	● 请问ANN有什么好用的模拟软件啊？ (转载)

相关话题的讨论汇总
话题: 工业界话题: learning话题: machine话题: 算法话题: 学术界

进入CS版参与讨论

(共1页)

sa
发帖数: 1384

好像学术界多，工业界不怎么用，对吗？

sa
发帖数: 1384

ding

【在 sa 的大作中提到】

: 好像学术界多，工业界不怎么用，对吗？

j*****n
发帖数: 1545

工业界不怎么用machine learning, 他们用data mining ....
学术界的machine learning 太理想化了，数据都是很简单的。工业界要考虑的东西太
多了，学术界搞的那些理论算法只是工业界1个大系统里面很小的一块，而且这1块很多
时候都已经有现成的API用。
my 2 cents

j*****n
发帖数: 1545

我觉得还有1种说法很有道理，
More data usually beats better algorithms
工业届很火的big data其实也是这个道理，算法的差别很容易就能被更多的training搞
定，但更多的training是有普适的价值，所以搞更好的算法不如搞更多的数据。当然
SVM的价值确实能够体现出来，这种跨时代意义的算法还是不可否认。所以就几个大牛
搞搞machine learning就行了，我们这些小兵就搞搞应用就好。
学术界都是关心 better algorithms, 整很多很玄的东西，但实际上很多问题一些简单
的classifier就能做的很好，WEKA 里面的很多例子都说明了现在的问题不在于搞更好
的算法，而在于怎么把现有的算法用的更好。
still my2cents

S**I
发帖数: 15689

完全赞同；我在学校的时候做过一些优化算法，去公司里实习的时候被告知俺们就是用
最简单的那种，复杂的东东从来不用......

【在 j*****n 的大作中提到】

: 我觉得还有1种说法很有道理，
: More data usually beats better algorithms
: 工业届很火的big data其实也是这个道理，算法的差别很容易就能被更多的training搞
: 定，但更多的training是有普适的价值，所以搞更好的算法不如搞更多的数据。当然
: SVM的价值确实能够体现出来，这种跨时代意义的算法还是不可否认。所以就几个大牛
: 搞搞machine learning就行了，我们这些小兵就搞搞应用就好。
: 学术界都是关心 better algorithms, 整很多很玄的东西，但实际上很多问题一些简单
: 的classifier就能做的很好，WEKA 里面的很多例子都说明了现在的问题不在于搞更好
: 的算法，而在于怎么把现有的算法用的更好。
: still my2cents

X*****r
发帖数: 2521

讲讲
哪种是公司用的？

【在 S**I 的大作中提到】

: 完全赞同；我在学校的时候做过一些优化算法，去公司里实习的时候被告知俺们就是用
: 最简单的那种，复杂的东东从来不用......

j*****n
发帖数: 1545

工业界不在乎什么算法，这些算法现在都是API了，你要做的更多是data
preprocessing 和 data filtering. 然后就是调API　１个１个试，从最简单的开始，
比如做classification的就从最简单的decision tree　开始试

【在 X*****r 的大作中提到】

: 讲讲
: 哪种是公司用的？

s*******n
发帖数: 38

最简单不是LDA么？

【在 j*****n 的大作中提到】

: 工业界不在乎什么算法，这些算法现在都是API了，你要做的更多是data
: preprocessing 和 data filtering. 然后就是调API　１个１个试，从最简单的开始，
: 比如做classification的就从最简单的decision tree　开始试

L*****k
发帖数: 327

你说的这些都有道理，不过还是要说一点，那些大家都知道的问题（也就是很多现成
API，比如classification，clustering）可以调用的，只是我们需要解决问题的一部
分，而且很多实际问题是需要人去创造性解决的。这才应该是学ML，DM的PhD的价值所
在，这也是做其他方向，号称自己懂ML/DM的人所做不了的

【在 j*****n 的大作中提到】

d******e
发帖数: 7844

这个已经far from简单了，最简单的应该是Naive Bayes或者CART

【在 s*******n 的大作中提到】

: 最简单不是LDA么？

相关主题
● machine learning toolkit package	● 求根据gini index生成decision tree的小软件
● 什么 clustering 的openSource么？	● data mining的软件包
● 有没有懂LDA(Blei)model得大侠给解释一下	● 请推荐data mining的书
进入CS版参与讨论

s*******n
发帖数: 38

在做PCA+LDA的飘过。。。

【在 d******e 的大作中提到】

: 这个已经far from简单了，最简单的应该是Naive Bayes或者CART

D***r
发帖数: 7511

你说machine learning的数据简单是什么意思？
事实上machine learning里很大一部分都是在讨论如何转化和利用现有的数据
像生物信息学就是因为数据特殊一般统计方法和规则方法不能用，
才成了一门学科

【在 j*****n 的大作中提到】

: 工业界不怎么用machine learning, 他们用data mining ....
: 学术界的machine learning 太理想化了，数据都是很简单的。工业界要考虑的东西太
: 多了，学术界搞的那些理论算法只是工业界1个大系统里面很小的一块，而且这1块很多
: 时候都已经有现成的API用。
: my 2 cents

L*****k
发帖数: 327

很多人都只是在实际工作中用了下SVM，or boosting or PCA，就都觉得自己懂ML了。
。。
无数人辛苦努力，创造了理论，再有无数人努力，优化算法，再来无数人，写好code来
共享来让普通人用用。到了最后，一些门外汉用了用，感慨下，觉得这也没什么意思。
。。

【在 D***r 的大作中提到】

: 你说machine learning的数据简单是什么意思？
: 事实上machine learning里很大一部分都是在讨论如何转化和利用现有的数据
: 像生物信息学就是因为数据特殊一般统计方法和规则方法不能用，
: 才成了一门学科

o******y
发帖数: 446

学术界的实验数据都比较简单吧。就是有点小玩具的意思。

你说machine learning的数据简单是什么意思？
事实上machine learning里很大一部分都是在讨论如何转化和利用现有的数据
像生物信息学就是因为数据特殊一般统计方法和规则方法不能用，
才成了一门学科

【在 D***r 的大作中提到】

L*****k
发帖数: 327

学术界大数据，小数据都有，想要看大的，please check imageNet
最为一些做原创性算法的工作，一般是不要求做在大数据上面的。自然，这里面可能有
些工作推广性不够，但是也会有很多好的idea在这个里面做出来
至于一些learning theory的，更加用不到大数据

【在 o******y 的大作中提到】

: 学术界的实验数据都比较简单吧。就是有点小玩具的意思。
:
: 你说machine learning的数据简单是什么意思？
: 事实上machine learning里很大一部分都是在讨论如何转化和利用现有的数据
: 像生物信息学就是因为数据特殊一般统计方法和规则方法不能用，
: 才成了一门学科

o******y
发帖数: 446

简单跟大小不是一个概念吧。
我想工业界的复杂更多的是从原始的
数据到你能够运行某些算法中间
要经过很多的处理。到最后能跑算法
的数据，工业界就倾向跑稳定简单的算法
就OK. 更多的工作是前面的步骤。
学术界就是假定要跑算法的数据就
这样子了，省略了前面的步骤，
然后在上面建立'fancy'的模型。

【在 L*****k 的大作中提到】

: 学术界大数据，小数据都有，想要看大的，please check imageNet
: 最为一些做原创性算法的工作，一般是不要求做在大数据上面的。自然，这里面可能有
: 些工作推广性不够，但是也会有很多好的idea在这个里面做出来
: 至于一些learning theory的，更加用不到大数据

L*****k
发帖数: 327

数据的获取和预处理自然也是一个问题，这个如果是很应用针对性的（很特定的一个情
形），当然是工业界在做，这个也不是有研究价值，为什么是要学术界做呢
如果是比较一般性的，比如针对图像的特征提取，或者针对网页温本科的特征提取，这
就都是学术界会去做的

【在 o******y 的大作中提到】

: 简单跟大小不是一个概念吧。
: 我想工业界的复杂更多的是从原始的
: 数据到你能够运行某些算法中间
: 要经过很多的处理。到最后能跑算法
: 的数据，工业界就倾向跑稳定简单的算法
: 就OK. 更多的工作是前面的步骤。
: 学术界就是假定要跑算法的数据就
: 这样子了，省略了前面的步骤，
: 然后在上面建立'fancy'的模型。

o******y
发帖数: 446

没有说一定要学术界做。
是说学术界跟工业界的区别。
工业界更加注重实际问题，和解决问题方法的稳定性。
学术界注重创造性(paper 导向)，
能够解决问题但是不创新引不起学术兴趣。
但是很多创新都是没用的，花拳绣腿。
不过1%有用的话也就够工业界使了。

【在 L*****k 的大作中提到】

: 数据的获取和预处理自然也是一个问题，这个如果是很应用针对性的（很特定的一个情
: 形），当然是工业界在做，这个也不是有研究价值，为什么是要学术界做呢
: 如果是比较一般性的，比如针对图像的特征提取，或者针对网页温本科的特征提取，这
: 就都是学术界会去做的

L*****k
发帖数: 327

对，学术界的很多创新都里实际很远，只要有1%有用那就是推动整个业界进步的巨大动
力了
但同理，工业界99%甚至更多的公司，都只是重复别人（公司或者学校）做过的事情，
不管是从创造性，或者是解决实际的难问题上，都对其他人没有什么意义。想M/G/IBM
这样真的解决了些难问题的公司，太少了

【在 o******y 的大作中提到】

: 没有说一定要学术界做。
: 是说学术界跟工业界的区别。
: 工业界更加注重实际问题，和解决问题方法的稳定性。
: 学术界注重创造性(paper 导向)，
: 能够解决问题但是不创新引不起学术兴趣。
: 但是很多创新都是没用的，花拳绣腿。
: 不过1%有用的话也就够工业界使了。

(共1页)

进入CS版参与讨论

相关主题
● 请问ANN有什么好用的模拟软件啊？ (转载)	● Data Mining Libraries: Java, C/C++/C#
● weka新手使用问题	● machine learning toolkit package
● EE转专业下周见CS教授面试求指点	● 什么 clustering 的openSource么？
● 这里做image processing的人多不多啊？	● 有没有懂LDA(Blei)model得大侠给解释一下
● Machine Learning里的一些算法是否有经典库啊？	● 求根据gini index生成decision tree的小软件
● 关于使用weka的问题	● data mining的软件包
● Classfication 比较好的算法是什么?	● 请推荐data mining的书
● 请教machine learning 哪个方向比较有前途？	● 怎样衡量降维的效果？

相关话题的讨论汇总
话题: 工业界话题: learning话题: machine话题: 算法话题: 学术界

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天