n******g 发帖数: 2201 | 1 【 以下文字转载自 Military 讨论区 】
发信人: nostring (尼), 信区: Military
标 题: 机器学习的本质到底是线性代数还是概率论?
发信站: BBS 未名空间站 (Tue May 31 22:06:32 2016, 美东)
大牛们,别跟我说两个都是。我想知道,哪个更根本,更本质?? |
s**********e 发帖数: 33562 | |
r***e 发帖数: 10135 | 3 主流是Bayesian Statistics吧
【在 s**********e 的大作中提到】 : 本质就是函数逼近论 -- 根据我的理解。
|
C*****l 发帖数: 3211 | 4 要有请大数学家lookacar回答这种问题。。
【在 n******g 的大作中提到】 : 【 以下文字转载自 Military 讨论区 】 : 发信人: nostring (尼), 信区: Military : 标 题: 机器学习的本质到底是线性代数还是概率论? : 发信站: BBS 未名空间站 (Tue May 31 22:06:32 2016, 美东) : 大牛们,别跟我说两个都是。我想知道,哪个更根本,更本质??
|
s**********e 发帖数: 33562 | 5 概率是语言,统计是工具,函数逼近是灵魂。
【在 r***e 的大作中提到】 : 主流是Bayesian Statistics吧
|
r***e 发帖数: 10135 | 6 个人感觉是两种思维方式
传统的总想找个尽善尽美的物理模型
现代的不要求物理模型或者只有弱物理模型;只要大量数据中仿真找到pattern model
就可以了
【在 s**********e 的大作中提到】 : 概率是语言,统计是工具,函数逼近是灵魂。
|
s**********e 发帖数: 33562 | 7 所以说是函数逼近嘛。比方说人工神经网络,就可以暴力逼近相当广泛的一大类函数。
model
【在 r***e 的大作中提到】 : 个人感觉是两种思维方式 : 传统的总想找个尽善尽美的物理模型 : 现代的不要求物理模型或者只有弱物理模型;只要大量数据中仿真找到pattern model : 就可以了
|
r***e 发帖数: 10135 | 8 您这还是往数值分析上靠,不是主流机器学习啊
不过无所谓,现在顶着同一个热门名头,大家还是自己干自己熟悉的
【在 s**********e 的大作中提到】 : 所以说是函数逼近嘛。比方说人工神经网络,就可以暴力逼近相当广泛的一大类函数。 : : model
|
s**********e 发帖数: 33562 | 9 数值分析只是函数逼近论的一个应用,或者说,跟Bayesian那一套东西,都只是工具。
逼近,才是灵魂。
我说的是机器学习的本质。事实上,说白了,机器要学习的就是已知输入和期望输出之
间的映射。因为你不知道概率分布,所以需要用样本来进行学习。Linear classifier
,linear regression啥的,就是拿线性函数来逼近输出;Boosting就是拿weak
learner的函数做非线性的组合来逼近输出;神经网络就是拿有结构的非线性函数来暴
力逼近输出。如果去找pattern,那就是拿各种pattern来逼近输出。当然这个跟传统的
函数逼近论不一样,传统的函数逼近论很多时候是用简单的函数例如线性或者多项式函
数来逼近已知的复杂函数,而机器学习是连这个函数都不知道,所以就涉及到推广性问
题和VC-dimension之类的“新”东西。
当然,俺也没有学过机器学习,基本就是胎教水平。呵呵。
【在 r***e 的大作中提到】 : 您这还是往数值分析上靠,不是主流机器学习啊 : 不过无所谓,现在顶着同一个热门名头,大家还是自己干自己熟悉的
|
j******l 发帖数: 2790 | 10 这个问题问的和下面这个问题差不多:
天马流星拳的本质是拳还是流星? |
|
|
o****9 发帖数: 479 | 11 看来虎肉真是在做这个方向。终于找到可以显摆学问的机会了,平时的扯蛋都不见了。
classifier
【在 s**********e 的大作中提到】 : 数值分析只是函数逼近论的一个应用,或者说,跟Bayesian那一套东西,都只是工具。 : 逼近,才是灵魂。 : 我说的是机器学习的本质。事实上,说白了,机器要学习的就是已知输入和期望输出之 : 间的映射。因为你不知道概率分布,所以需要用样本来进行学习。Linear classifier : ,linear regression啥的,就是拿线性函数来逼近输出;Boosting就是拿weak : learner的函数做非线性的组合来逼近输出;神经网络就是拿有结构的非线性函数来暴 : 力逼近输出。如果去找pattern,那就是拿各种pattern来逼近输出。当然这个跟传统的 : 函数逼近论不一样,传统的函数逼近论很多时候是用简单的函数例如线性或者多项式函 : 数来逼近已知的复杂函数,而机器学习是连这个函数都不知道,所以就涉及到推广性问 : 题和VC-dimension之类的“新”东西。
|
s**********e 发帖数: 33562 | 12 其实我现在才是在扯蛋。。。
【在 o****9 的大作中提到】 : 看来虎肉真是在做这个方向。终于找到可以显摆学问的机会了,平时的扯蛋都不见了。 : : classifier
|
s**********e 发帖数: 33562 | 13 机器学习的本质到底是机,还是器学习?
【在 j******l 的大作中提到】 : 这个问题问的和下面这个问题差不多: : 天马流星拳的本质是拳还是流星?
|
l***y 发帖数: 4671 | 14 多种视角,多种做法。函数逼近是一种视角。线性回归其实可以从别的视角来理解,比
如说从模式识别来看,可以一直融会贯通到小波变换去。再比如说从混合模型去看,从
因果论去看,等等。其实因果论更接近本质,但是也更复杂,更多的使用图论工具。
classifier
【在 s**********e 的大作中提到】 : 数值分析只是函数逼近论的一个应用,或者说,跟Bayesian那一套东西,都只是工具。 : 逼近,才是灵魂。 : 我说的是机器学习的本质。事实上,说白了,机器要学习的就是已知输入和期望输出之 : 间的映射。因为你不知道概率分布,所以需要用样本来进行学习。Linear classifier : ,linear regression啥的,就是拿线性函数来逼近输出;Boosting就是拿weak : learner的函数做非线性的组合来逼近输出;神经网络就是拿有结构的非线性函数来暴 : 力逼近输出。如果去找pattern,那就是拿各种pattern来逼近输出。当然这个跟传统的 : 函数逼近论不一样,传统的函数逼近论很多时候是用简单的函数例如线性或者多项式函 : 数来逼近已知的复杂函数,而机器学习是连这个函数都不知道,所以就涉及到推广性问 : 题和VC-dimension之类的“新”东西。
|
s**********e 发帖数: 33562 | 15 还是输入输出的关系。
【在 l***y 的大作中提到】 : 多种视角,多种做法。函数逼近是一种视角。线性回归其实可以从别的视角来理解,比 : 如说从模式识别来看,可以一直融会贯通到小波变换去。再比如说从混合模型去看,从 : 因果论去看,等等。其实因果论更接近本质,但是也更复杂,更多的使用图论工具。 : : classifier
|
l***y 发帖数: 4671 | 16 从 machine training 的角度看是这样。但是从 knowledge discovery 的角度看,不
是这样。恰好是 machine learning 的主要两个方向。
【在 s**********e 的大作中提到】 : 还是输入输出的关系。
|
s**********e 发帖数: 33562 | 17 knowledge discovery 怎么个看法呢?
【在 l***y 的大作中提到】 : 从 machine training 的角度看是这样。但是从 knowledge discovery 的角度看,不 : 是这样。恰好是 machine learning 的主要两个方向。
|
l***y 发帖数: 4671 | 18 Hypothesis test。
【在 s**********e 的大作中提到】 : knowledge discovery 怎么个看法呢?
|
s**********e 发帖数: 33562 | 19 嗯,有道理。而且不只是做test,还需要去找hypothesis。
【在 l***y 的大作中提到】 : Hypothesis test。
|
l***y 发帖数: 4671 | 20 Knowledge discovery 经常用到 working hypothesis,这种 hypothesis 本身的意义
并不重要,重要的是可以作为工具用来筛选 knowledge,比如说筛选 associations,
causal relations,等等。构建这样的 working hypothesis 是整个工作中最核心最具
挑战的地方。
大部分备选的 working hypothesis 都特别简单。比如说GSEA 就是用一个很简单的 KS
test。可是极其难构建出合适的来,需要对要做的问题的脾气以及数据的味道吃得特
别透,还需要有些直觉或者说运气。手头有一个已经做了快一年了,死去活来欲哭无泪
啊。
【在 s**********e 的大作中提到】 : 嗯,有道理。而且不只是做test,还需要去找hypothesis。
|
|
|
s**********e 发帖数: 33562 | 21 不过这些好像不属于狭义machine learning的范畴?我读过那几本教材都没有提这些。
KS
【在 l***y 的大作中提到】 : Knowledge discovery 经常用到 working hypothesis,这种 hypothesis 本身的意义 : 并不重要,重要的是可以作为工具用来筛选 knowledge,比如说筛选 associations, : causal relations,等等。构建这样的 working hypothesis 是整个工作中最核心最具 : 挑战的地方。 : 大部分备选的 working hypothesis 都特别简单。比如说GSEA 就是用一个很简单的 KS : test。可是极其难构建出合适的来,需要对要做的问题的脾气以及数据的味道吃得特 : 别透,还需要有些直觉或者说运气。手头有一个已经做了快一年了,死去活来欲哭无泪 : 啊。
|
h********0 发帖数: 12056 | 22 我也想学习一下machine learning, 不知道这里面有多少是忽悠有多少是真的有意思
的东西。
KS
【在 l***y 的大作中提到】 : Knowledge discovery 经常用到 working hypothesis,这种 hypothesis 本身的意义 : 并不重要,重要的是可以作为工具用来筛选 knowledge,比如说筛选 associations, : causal relations,等等。构建这样的 working hypothesis 是整个工作中最核心最具 : 挑战的地方。 : 大部分备选的 working hypothesis 都特别简单。比如说GSEA 就是用一个很简单的 KS : test。可是极其难构建出合适的来,需要对要做的问题的脾气以及数据的味道吃得特 : 别透,还需要有些直觉或者说运气。手头有一个已经做了快一年了,死去活来欲哭无泪 : 啊。
|
z***t 发帖数: 2374 | 23 理解成函数逼近是对的
不过是一个笼统的理解
具体如何来做决定了不同的研究方向
统计现在还是Bayesian当家
ML是nonlinear learning和large-scale optimization比较主流
生统那就是另一回事了 |
s**********e 发帖数: 33562 | 24 nonlinear learning 这一坨具体是指什么呢?
【在 z***t 的大作中提到】 : 理解成函数逼近是对的 : 不过是一个笼统的理解 : 具体如何来做决定了不同的研究方向 : 统计现在还是Bayesian当家 : ML是nonlinear learning和large-scale optimization比较主流 : 生统那就是另一回事了
|
s**********e 发帖数: 33562 | 25 这个是真有用的东西,实实在在的,有理论有实践。当然也免不了一些宣传的泡沫。
【在 h********0 的大作中提到】 : 我也想学习一下machine learning, 不知道这里面有多少是忽悠有多少是真的有意思 : 的东西。 : : KS
|
l***y 发帖数: 4671 | 26 的确不属于经典的 machine learning,应该说属于经典的 data mining,只不过现在
在生物医学领域两者界限有模糊区域。大家经常用pattern recognition 来含糊带过。
比如说,clustering 就属于两者交界的地方。
举个例子:对于组织的单细胞RNA-seq的分析,就很难确切说属于 machine learning
还是 data mining,事实上做的时候也不去管这些名词。再比如说,对 DNA 上的
regulatory domain 的综合分析也是这样。
【在 s**********e 的大作中提到】 : 不过这些好像不属于狭义machine learning的范畴?我读过那几本教材都没有提这些。 : : KS
|
l***y 发帖数: 4671 | 27 ML 现在比较热门又成熟的,有基于神经网络的 deep learning。我比较感兴趣的是基
于树的deep learning 和基于 incomplete graph 的 deep learning。
【在 z***t 的大作中提到】 : 理解成函数逼近是对的 : 不过是一个笼统的理解 : 具体如何来做决定了不同的研究方向 : 统计现在还是Bayesian当家 : ML是nonlinear learning和large-scale optimization比较主流 : 生统那就是另一回事了
|
s**********e 发帖数: 33562 | 28 Deep Learnig在AlphaGo后又火了一把啊。
【在 l***y 的大作中提到】 : ML 现在比较热门又成熟的,有基于神经网络的 deep learning。我比较感兴趣的是基 : 于树的deep learning 和基于 incomplete graph 的 deep learning。
|
t****r 发帖数: 702 | 29 统计咋会是Bayesian当家?Bayesian对非统计专业的人入门门槛低些而已,不一定要对
统计理论有比较彻底的了解。科班出身的人当中,Bayes还是相对小众,虽然近些年变得
更popular了一些。
【在 z***t 的大作中提到】 : 理解成函数逼近是对的 : 不过是一个笼统的理解 : 具体如何来做决定了不同的研究方向 : 统计现在还是Bayesian当家 : ML是nonlinear learning和large-scale optimization比较主流 : 生统那就是另一回事了
|
X******2 发帖数: 5859 | 30 的确是这样的。
变得
【在 t****r 的大作中提到】 : 统计咋会是Bayesian当家?Bayesian对非统计专业的人入门门槛低些而已,不一定要对 : 统计理论有比较彻底的了解。科班出身的人当中,Bayes还是相对小众,虽然近些年变得 : 更popular了一些。
|
|
|
X******2 发帖数: 5859 | 31 ML更准确的讲是函数估计,给定一些数据(通常带点噪音)。
【在 z***t 的大作中提到】 : 理解成函数逼近是对的 : 不过是一个笼统的理解 : 具体如何来做决定了不同的研究方向 : 统计现在还是Bayesian当家 : ML是nonlinear learning和large-scale optimization比较主流 : 生统那就是另一回事了
|
h********0 发帖数: 12056 | 32 大家能不能推荐点好的书或review article?
【在 s**********e 的大作中提到】 : 这个是真有用的东西,实实在在的,有理论有实践。当然也免不了一些宣传的泡沫。
|
l***y 发帖数: 4671 | 33 哈哈,frequentist vs bayesian,围观~~~
变得
【在 t****r 的大作中提到】 : 统计咋会是Bayesian当家?Bayesian对非统计专业的人入门门槛低些而已,不一定要对 : 统计理论有比较彻底的了解。科班出身的人当中,Bayes还是相对小众,虽然近些年变得 : 更popular了一些。
|
l***y 发帖数: 4671 | 34 Alpha go 那篇 nature 很赞啊。有哲学意义:我要是说这是展现了从 logo 创世纪,
会不会被当作神棍。。。
【在 s**********e 的大作中提到】 : Deep Learnig在AlphaGo后又火了一把啊。
|
e****g 发帖数: 4434 | 35 谢谢虎肉, 我一下就觉得自己可以多摆乎不少了。
classifier
【在 s**********e 的大作中提到】 : 数值分析只是函数逼近论的一个应用,或者说,跟Bayesian那一套东西,都只是工具。 : 逼近,才是灵魂。 : 我说的是机器学习的本质。事实上,说白了,机器要学习的就是已知输入和期望输出之 : 间的映射。因为你不知道概率分布,所以需要用样本来进行学习。Linear classifier : ,linear regression啥的,就是拿线性函数来逼近输出;Boosting就是拿weak : learner的函数做非线性的组合来逼近输出;神经网络就是拿有结构的非线性函数来暴 : 力逼近输出。如果去找pattern,那就是拿各种pattern来逼近输出。当然这个跟传统的 : 函数逼近论不一样,传统的函数逼近论很多时候是用简单的函数例如线性或者多项式函 : 数来逼近已知的复杂函数,而机器学习是连这个函数都不知道,所以就涉及到推广性问 : 题和VC-dimension之类的“新”东西。
|
h********0 发帖数: 12056 | 36 bayesian 对量子力学比 frequency 更深刻。
【在 l***y 的大作中提到】 : 哈哈,frequentist vs bayesian,围观~~~ : : 变得
|
g****t 发帖数: 31659 | 37 虎肉老师,
My two cents:
所有的学习,都可以分为两类。
一类是使用梯度的,一类是不使用梯度的。
函数你所指的应该就是连续函数。一般建立在函数这个概念基础上的就
是用梯度的学习。所以属于第一类。
第二类,往往算是属于组合数学或者数理逻辑。各种图树什么的,以及
数理逻辑的消去什么的。都属于这一类。
但是梯度这里又有个问题,我认为多元微积分和一元微积分是本质上不同的
,虽然都叫同一个名字。所以实际上第一类应该分为两类,一种是
曲线的梯度,一类是2维以上的。
【在 s**********e 的大作中提到】 : 本质就是函数逼近论 -- 根据我的理解。
|