w***g 发帖数: 5958 | 1 multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
原始算法的老命。这个所有人都知道。
2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
大部分alternative架构的研究,圈死了人们的想象力。
CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
东西本身存在的合理性。
一个新手开始学用CNN,把别人的model跑通应该用不了几个小时。然后立刻就会
遇到一个问题:为什么别人的architecture要这么定?怎么样可以改这个
architecture让预测效果变得更好? 因为design space实在太大,又没有
一个像牛顿定理那样的指导原则,所以architecture设计基本上是一门
black magic。新手与老手的区别也在于老手看到一个dataset以后对于怎么
定architecture最好更有"感觉"。
我要吹的是,目前描述CNN architecture的这套语言本身就是很不合理的,甚至
是不应该存在的。这个不合理性是设计architecture难的本质原因,而不是没有
牛顿定理。一个合理的有CNN预测能力的模型,应该只需要十几个功能正交的
参数(meta parameter),而不是一层复一层垒重复性的东西。我相信所有学习
CNN的人都有观察到了这种重复性或者说是冗余,并且在那一瞬间达到了和真相
最接近的一个local optimum。然后一旦开始纠结怎么垒层数,我觉得就开始
堕入邪道了。轮子的最终用户其实没啥选择的余地,因为轮子就是这样的,
语言限制思维。但是这么多轮子全都在垒层数拾人牙慧,让我觉得这个
世界是多么没有审美力和想象力。
算法的大框架我已经有了,但是没啥时间和资源来做,能力上也有些不足。
我觉得世界上应该还是有一些人能想到我在想的东西,并且有能力把它做出来。
我可以比较肯定地说,现在还在垒层数需要architecture描述脚本的轮子,
其实都是纸老虎。五年之内应该全都会被颠覆。现在刚开始读PhD的同学,建议
不要把时间浪费在研究怎么垒层数这种无谓的问题上面,要么思考一些更加
本质的事情,要么干脆去做application。
故弄玄虚一下,这些文字献给王垠吧。 |
w***g 发帖数: 5958 | 2 没有人跟得上吗,还是我脑子出问题了?
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
l*******m 发帖数: 1096 | 3 真正做研究的现在都在做RL, recurrent. CNN做不动了。cnn的重心有些偏向inference
加速,我现在可以在没有heatsink的arm上80 ms per frame. 中型网络。
两个星期前,打印了四片RL文章,准备学术讨论, 跟上前沿。结果谁也没读,凡事太多
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
h*i 发帖数: 3446 | 4 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。
我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义,
ambition在西方是褒义)。
整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就
觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
ET 发帖数: 10701 | 5 虽然对这个话题一窍不通,但能明白你说的意思。
大部分还是跟着潮流走。
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
w***g 发帖数: 5958 | 6 做出来再说就成马后炮了。再说做了也可能做不出来,反而丢了工作。
我就选了小富即安,以后没啥前途我也认了。
穷人没啥机会成本,可以去搞野心。
小富了再去搞野心,机会成本太大,不划算。这个不是中国人的问题,
全人类都一样。Larry Ellison号称哈佛毕业就完蛋也是这个原因,
因为哈佛一毕业一般就小富了,不会再去实现野心。
CEO里面骗子的比例比PhD的比例要高得多,但是骗子中穷人的比例比
PhD中穷人的比例要高得更多。
Update: 应该是耶鲁。反正都一样。
【在 h*i 的大作中提到】 : 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。 : : 我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义, : ambition在西方是褒义)。 : 整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就 : 觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。 :
|
w***g 发帖数: 5958 | 7 话说我那个kgraph你还用吗?我有两年没改算法,发现已经被CMU和老毛子团队比下去
了, MIT也有一波人没放弃LSH最近又搞了个轮子出来。我这两天业余时间都在改进
kgraph。这种规模得轮子属于业于时间搞搞还可以一拼的。这种事情做不到世界第一
就等于没做。我东家最近情况不是很好,如果他们完蛋了我就全力去做CNN。
老毛子战斗力太强了。
【在 h*i 的大作中提到】 : 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。 : : 我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义, : ambition在西方是褒义)。 : 整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就 : 觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。 :
|
d*******r 发帖数: 3299 | 8 就是你说这个 idea, 你业余做不下来?
wdong 你自己当个体户,应该很爽的,工作时间应该很好掌控吧.
【在 w***g 的大作中提到】 : 做出来再说就成马后炮了。再说做了也可能做不出来,反而丢了工作。 : 我就选了小富即安,以后没啥前途我也认了。 : 穷人没啥机会成本,可以去搞野心。 : 小富了再去搞野心,机会成本太大,不划算。这个不是中国人的问题, : 全人类都一样。Larry Ellison号称哈佛毕业就完蛋也是这个原因, : 因为哈佛一毕业一般就小富了,不会再去实现野心。 : CEO里面骗子的比例比PhD的比例要高得多,但是骗子中穷人的比例比 : PhD中穷人的比例要高得更多。 : Update: 应该是耶鲁。反正都一样。
|
W***o 发帖数: 6519 | 9 ambition 那叫“抱负”,这个在中文里绝对是褒义词
【在 h*i 的大作中提到】 : 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。 : : 我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义, : ambition在西方是褒义)。 : 整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就 : 觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。 :
|
w***g 发帖数: 5958 | 10 我其实没啥业余不业余的,但是现在手头要做得东西还不少。
等task queue排空点肯定会做的。但是确实水平有限不一定
做的出东西来。我有过很多算法上的idea,最后能干活的很少。
相比之下发个贴做个预言要容易得多。
【在 d*******r 的大作中提到】 : 就是你说这个 idea, 你业余做不下来? : wdong 你自己当个体户,应该很爽的,工作时间应该很好掌控吧.
|
|
|
v*******e 发帖数: 11604 | 11 楼主就瞎叨叨。neuron network精髓就在层数上,层数越多越牛。 |
h*i 发帖数: 3446 | 12 还在用。不过我们公司有点转型了,现在主要在做别的东西,用处不太大了。
我觉得DL啥的用处有限,就是堆数据,但弄数据是个人最难做的,所以不太适合你。
你要有兴趣,我个人觉得做图数据库更有前景,不是分布式那种,而是单机(也许用
GPU)的。不管你们信不信,我个人觉得AI的下一个突破就在这里。
【在 w***g 的大作中提到】 : 话说我那个kgraph你还用吗?我有两年没改算法,发现已经被CMU和老毛子团队比下去 : 了, MIT也有一波人没放弃LSH最近又搞了个轮子出来。我这两天业余时间都在改进 : kgraph。这种规模得轮子属于业于时间搞搞还可以一拼的。这种事情做不到世界第一 : 就等于没做。我东家最近情况不是很好,如果他们完蛋了我就全力去做CNN。 : 老毛子战斗力太强了。
|
x****u 发帖数: 44466 | 13 我觉得生物进化出5-6层大脑视觉皮层,应该是暗示了什么原理的
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
x****u 发帖数: 44466 | 14 MSRA已经搞出了1000层的怪胎了,还是没造出上帝来。
【在 v*******e 的大作中提到】 : 楼主就瞎叨叨。neuron network精髓就在层数上,层数越多越牛。
|
l******n 发帖数: 9344 | 15 wdong,干脆搞个神经网络的编程培训班,在中国肯定是高端大气的,市场大大的,将来
进BAT或者来去其他地方肯定有帮助。感觉比给人写code干事还靠谱点
何如?
【在 w***g 的大作中提到】 : 我其实没啥业余不业余的,但是现在手头要做得东西还不少。 : 等task queue排空点肯定会做的。但是确实水平有限不一定 : 做的出东西来。我有过很多算法上的idea,最后能干活的很少。 : 相比之下发个贴做个预言要容易得多。
|
m****s 发帖数: 1481 | 16 需要那么多层主要是工程问题,理论上已经证明了只需一层的浅网络就可以模拟任何数
学模型,但是实际中没有有效的算法能学出来适合解决问题的模型,所以才用很深的网
络分层学习特征,才能达到解决实际问题的效果。
另外神经网络只是受到人脑的启发,实际上和人脑的工作原理是不是一样根本没有人说
得清,因为人脑是怎么工作的现在还没弄明白,所以说什么真相,都是压根儿没学明白
的,根本没有所谓的真相,只有基于具体问题的performance好不好。
深度学习现在主要两大块,generative和discriminative,也就是无监督和有监督,
CNN只是一种模型,其他还有很多种模型,而且神经网络很多时候也不是单独在用,和
其他机器学习模型结合也是扩展业务的一个大的发展方向。
深度神经网络现在是处于hype之中,但是真正搞这个领域的还是很清楚它的优缺点和接
下来的研究重点的。hinton一直致力于继续研究人脑的机理来改进神经网络模型,其他
一些大牛则不过分拘泥于模拟自然脑,而是利用已经发掘的神经网络的原理另辟蹊径开
发应用,比如lecun的抛弃语法,词,句完全从字母学习语言的应用。在某些课题上确
实进步空间不大,比如静态图片分类,但是有些课题还有很大潜力可挖,比如文本处理
,语音,视频场景分析等等。现在就谈硬伤为时尚早 |
x****u 发帖数: 44466 | 17 你没看到本质啊
现在既然是要骗钱,那名头是最很重要的。人家宁可要个10年前的2-3流AI phd,也不
一定对转行的数据科学家感兴趣。
【在 l******n 的大作中提到】 : wdong,干脆搞个神经网络的编程培训班,在中国肯定是高端大气的,市场大大的,将来 : 进BAT或者来去其他地方肯定有帮助。感觉比给人写code干事还靠谱点 : 何如?
|
c*****w 发帖数: 50 | 18 在我看来CNN的本质在于
一是convolution, 这个约束极大的减少了参数的数量。
二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接近
人脑了。
按照Hinton牛的说法,CNN的改进方向在Pooling
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
L****8 发帖数: 3938 | 19 如果去掉pooling
多层毫无用处
【在 c*****w 的大作中提到】 : 在我看来CNN的本质在于 : 一是convolution, 这个约束极大的减少了参数的数量。 : 二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接近 : 人脑了。 : 按照Hinton牛的说法,CNN的改进方向在Pooling
|
L****8 发帖数: 3938 | 20 我觉得CNN有效的重要原因之一 是max pooling+分层
这是对物体形状/纹理的很好的编码
比如 如下两个形状 都可以被识别为一类
--------------
_ _
- - -- --- ---
- _
【在 m****s 的大作中提到】 : 需要那么多层主要是工程问题,理论上已经证明了只需一层的浅网络就可以模拟任何数 : 学模型,但是实际中没有有效的算法能学出来适合解决问题的模型,所以才用很深的网 : 络分层学习特征,才能达到解决实际问题的效果。 : 另外神经网络只是受到人脑的启发,实际上和人脑的工作原理是不是一样根本没有人说 : 得清,因为人脑是怎么工作的现在还没弄明白,所以说什么真相,都是压根儿没学明白 : 的,根本没有所谓的真相,只有基于具体问题的performance好不好。 : 深度学习现在主要两大块,generative和discriminative,也就是无监督和有监督, : CNN只是一种模型,其他还有很多种模型,而且神经网络很多时候也不是单独在用,和 : 其他机器学习模型结合也是扩展业务的一个大的发展方向。 : 深度神经网络现在是处于hype之中,但是真正搞这个领域的还是很清楚它的优缺点和接
|
|
|
y*j 发帖数: 3139 | 21 1. 这不叫convolution,这是weight sharing,它能避免overfitting
2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多
传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题
,还有当时的硬件配置比现在差太远了, 导致当时的失败。
我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提
高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。
:在我看来CNN的本质在于
:一是convolution, 这个约束极大的减少了参数的数量。
:二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接
近人脑了。
:按照Hinton牛的说法,CNN的改进方向在Pooling
【在 c*****w 的大作中提到】 : 在我看来CNN的本质在于 : 一是convolution, 这个约束极大的减少了参数的数量。 : 二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接近 : 人脑了。 : 按照Hinton牛的说法,CNN的改进方向在Pooling
|
x****u 发帖数: 44466 | 22 现在神经网络单机的计算能力,已经超过了人脑。
当然结构大不一样,目前单机只够模拟人脑的部分功能。
【在 y*j 的大作中提到】 : 1. 这不叫convolution,这是weight sharing,它能避免overfitting : 2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多 : 传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题 : ,还有当时的硬件配置比现在差太远了, 导致当时的失败。 : 我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提 : 高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。 : : :在我看来CNN的本质在于 : :一是convolution, 这个约束极大的减少了参数的数量。 : :二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接
|
y*j 发帖数: 3139 | 23 并行能力比人脑差太远了,人脑有10^11个neurons. 现在计算机的计算能力就好比是自
闭症患者的特殊能力,但是没有很好的学习能力。
:现在神经网络单机的计算能力,已经超过了人脑。
:当然结构大不一样,目前单机只够模拟人脑的部分功能。
【在 x****u 的大作中提到】 : 现在神经网络单机的计算能力,已经超过了人脑。 : 当然结构大不一样,目前单机只够模拟人脑的部分功能。
|
x****u 发帖数: 44466 | 24 人脑的运算速度比芯片慢n个数量级,而且人脑有极为苛刻的功耗限制,几十年前就有
paper发现最大激活的神经元数不超过1%。
所以综合这两点,人脑计算能力已经在7-8年前被电脑超过了。当然目前cpu,gpu的结
构是非常不适合当神经网络就是了。
【在 y*j 的大作中提到】 : 并行能力比人脑差太远了,人脑有10^11个neurons. 现在计算机的计算能力就好比是自 : 闭症患者的特殊能力,但是没有很好的学习能力。 : : :现在神经网络单机的计算能力,已经超过了人脑。 : :当然结构大不一样,目前单机只够模拟人脑的部分功能。
|
c*****w 发帖数: 50 | 25 不一定的,非线性是必需,比如ReLU。pooling不一定必需,但实际非常有效。LeCun有
篇paper说为啥要多层,当然他也是猜。
【在 L****8 的大作中提到】 : 如果去掉pooling : 多层毫无用处
|
c*****w 发帖数: 50 | 26 你看CNN某一层“被激发”的feature,也就那么几个,有人认为这和大脑很类似。但并
不是说其它大量的feature就没用,它们会在其它的input pattern下被激发。和人脑比
起来神经网络还很粗陋,人脑复杂的神经元间的连接不是那么容易就模拟的,CNN也许
抓到了一些关键,所以比较成功。
【在 x****u 的大作中提到】 : 人脑的运算速度比芯片慢n个数量级,而且人脑有极为苛刻的功耗限制,几十年前就有 : paper发现最大激活的神经元数不超过1%。 : 所以综合这两点,人脑计算能力已经在7-8年前被电脑超过了。当然目前cpu,gpu的结 : 构是非常不适合当神经网络就是了。
|
c*****w 发帖数: 50 | 27 convolution enables weight sharing。否则干嘛用convolution,直接上full
connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了
overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构
还不是最优。
【在 y*j 的大作中提到】 : 1. 这不叫convolution,这是weight sharing,它能避免overfitting : 2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多 : 传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题 : ,还有当时的硬件配置比现在差太远了, 导致当时的失败。 : 我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提 : 高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。 : : :在我看来CNN的本质在于 : :一是convolution, 这个约束极大的减少了参数的数量。 : :二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接
|
L****8 发帖数: 3938 | 28 pooling是提高推广能力的法宝 尤其是物体是线框类的比如数字
【在 c*****w 的大作中提到】 : 不一定的,非线性是必需,比如ReLU。pooling不一定必需,但实际非常有效。LeCun有 : 篇paper说为啥要多层,当然他也是猜。
|
w***g 发帖数: 5958 | 29 还真不一定是你说的那样,pooling也是一种非线性。
其实ReLU+pool就相当于去掉ReLU,然后在每个pooling window里加一个0。
其实再想想,把这个0去掉或许也能干活。
【在 c*****w 的大作中提到】 : 不一定的,非线性是必需,比如ReLU。pooling不一定必需,但实际非常有效。LeCun有 : 篇paper说为啥要多层,当然他也是猜。
|
c*********e 发帖数: 16335 | 30 什么叫骗子啊?这年月,叫 会吹牛。 我公司的ceo就特别会吹。 白人特别会说,做不
行。看看obama就明白了。白人都这德性。
【在 w***g 的大作中提到】 : 做出来再说就成马后炮了。再说做了也可能做不出来,反而丢了工作。 : 我就选了小富即安,以后没啥前途我也认了。 : 穷人没啥机会成本,可以去搞野心。 : 小富了再去搞野心,机会成本太大,不划算。这个不是中国人的问题, : 全人类都一样。Larry Ellison号称哈佛毕业就完蛋也是这个原因, : 因为哈佛一毕业一般就小富了,不会再去实现野心。 : CEO里面骗子的比例比PhD的比例要高得多,但是骗子中穷人的比例比 : PhD中穷人的比例要高得更多。 : Update: 应该是耶鲁。反正都一样。
|
|
|
x****u 发帖数: 44466 | 31 CNN的一大问题就是和人脑比不够稀疏
【在 c*****w 的大作中提到】 : 你看CNN某一层“被激发”的feature,也就那么几个,有人认为这和大脑很类似。但并 : 不是说其它大量的feature就没用,它们会在其它的input pattern下被激发。和人脑比 : 起来神经网络还很粗陋,人脑复杂的神经元间的连接不是那么容易就模拟的,CNN也许 : 抓到了一些关键,所以比较成功。
|
x****u 发帖数: 44466 | 32 CNN在解决overfitting上已经远远超过人类了
人的大脑在同样情况下不可避免的要过拟合
【在 c*****w 的大作中提到】 : convolution enables weight sharing。否则干嘛用convolution,直接上full : connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了 : overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构 : 还不是最优。
|
L****8 发帖数: 3938 | 33 详细讲讲?
【在 w***g 的大作中提到】 : 还真不一定是你说的那样,pooling也是一种非线性。 : 其实ReLU+pool就相当于去掉ReLU,然后在每个pooling window里加一个0。 : 其实再想想,把这个0去掉或许也能干活。
|
w***g 发帖数: 5958 | 34 为什么去掉0也能干活?因为一个pooling window中有十几个数,几乎必然有一个大于0。
即使不加0,最大值小于0的可能性也很小。
【在 L****8 的大作中提到】 : 详细讲讲?
|
L****8 发帖数: 3938 | 35 你这意思是说 pooling才是核心技术?
于0。
【在 w***g 的大作中提到】 : 为什么去掉0也能干活?因为一个pooling window中有十几个数,几乎必然有一个大于0。 : 即使不加0,最大值小于0的可能性也很小。
|
s*****w 发帖数: 1527 | 36 赞大牛!
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
w*******x 发帖数: 489 | 37 我觉得CNN 本身作为视觉图像处理(模拟人类或动物视觉神经部分)应该是已经非常成
熟和有效了,不需要太多数据(order of 100)就可以达到高精度(比如把region of
interest 做segmentaion 出来)。performance差主要来源于后面的类似于人的逻辑处
理的层 (比如判断什么物体,手势,结构等等),这些层也决定了人脑远胜于动物的
脑子,这些一般就简单的用fully connected layer来模拟,或者增加CNN的层数+FC
layer来做,也许完全是”错“的。CNN很大程度解决了图像/语音处理,但也许DNN的发
展还需要有个突破来解决逻辑处理 也许是某种RNN?
我就想,智商160和智商60的大脑结构差在哪里? train出来的网络performance可以有
如此大的差别~~~
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
L****8 发帖数: 3938 | 38 今天仔细想了想 觉得多层是没必要的
假设 有三层 全连接
第一层 第二层 第三层
第一层和第二层之间连接关系 A=[a_ij] 链接 节点i(第一层) 和 节点j (第二层)
第二层和第三层之间连接关系 B=[b_jk] 链接 节点i(第一层) 和 节点j (第二层)
wdong所说有道理, 如果用ReLU节点+max pooling 那么多数情况输入都是正的 ReLU就
是个线性放大器
如果忽略放大倍数,第一层和第三层直接连接关系C=[c_ik] 满足 矩阵C=A*B
这么看来 CNN的法宝 就是 max pooling + dropout
max pooling 相当于分级模板匹配 对物体形变的一种离散化
dropout 相当于聚类
我把 max pooling 的想法用在了另一个应用上 效果不错
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
L****8 发帖数: 3938 | 39 研究的如何了?
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
N*****m 发帖数: 42603 | 40 感觉现在搞计算机的数学功底不行
谁要是把CNN的数学理论原理搞出来了,搞个图灵应该轻轻松松
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
|
|
L****8 发帖数: 3938 | 41 我设计了一种新的结构
相当于CNN 两层conv 两层max-pooling
MNIST 上跑到了0.87 错误率
是个啥水平?
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
a*********y 发帖数: 63 | 42 也不能简单地说数学功底不行. 神经网络的数学模型归根到底是一个非线性系统. 然而
现在的数学对非线性系统还没有什么系统的有效的解决方法,除了一些特殊的情况.
所以不能说搞计算机的数学功底不行, 而是现在的数学就这个水平.
【在 N*****m 的大作中提到】 : 感觉现在搞计算机的数学功底不行 : 谁要是把CNN的数学理论原理搞出来了,搞个图灵应该轻轻松松
|
k****i 发帖数: 101 | 43 NN从计算的角度,相当于以“普适”的算法产生不同的参数来对应于各种特定的算法,
并能从中选择最优的参数来解答问题。
从CNN的角度,flying parts就是堆层超参,用各种architectures及frameworks来实现
并简化该过程。
大作中提到的meta parameters是要fix the flying parts,进而能适配各种应用吗?
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
d*******r 发帖数: 3299 | 44 那所以大家都是在瞎蒙? 那在这个瞎蒙过程中,数学在哪一部分比较起作用?
【在 a*********y 的大作中提到】 : 也不能简单地说数学功底不行. 神经网络的数学模型归根到底是一个非线性系统. 然而 : 现在的数学对非线性系统还没有什么系统的有效的解决方法,除了一些特殊的情况. : 所以不能说搞计算机的数学功底不行, 而是现在的数学就这个水平.
|
k****i 发帖数: 101 | 45 数据↑ ⇒ S↑
参数↓ ⇒ N↓
【在 c*****w 的大作中提到】 : convolution enables weight sharing。否则干嘛用convolution,直接上full : connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了 : overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构 : 还不是最优。
|
v*****k 发帖数: 7798 | 46 我说诸位表瞎猜cnn的物理意义了。这物理意义包括为啥convolution 为啥pooling学一
点信号处理就清楚的很。 |
a*********y 发帖数: 63 | 47 ZKSS please.
【在 v*****k 的大作中提到】 : 我说诸位表瞎猜cnn的物理意义了。这物理意义包括为啥convolution 为啥pooling学一 : 点信号处理就清楚的很。
|
w***g 发帖数: 5958 | 48 CNN就是多层带模糊和扰动的模版匹配. 刚好操作跟信号处理的convolution
很像, 所以叫CNN. 为啥我跟信号处理没关系. 信号处理的核心是FFT,
CNN和FFT的关系最多到有一小撮人用FFT加速运算, 而且这撮人已经好久没有
消息了.
【在 a*********y 的大作中提到】 : ZKSS please.
|
T*******x 发帖数: 8565 | 49 赞。
【在 w*******x 的大作中提到】 : 我觉得CNN 本身作为视觉图像处理(模拟人类或动物视觉神经部分)应该是已经非常成 : 熟和有效了,不需要太多数据(order of 100)就可以达到高精度(比如把region of : interest 做segmentaion 出来)。performance差主要来源于后面的类似于人的逻辑处 : 理的层 (比如判断什么物体,手势,结构等等),这些层也决定了人脑远胜于动物的 : 脑子,这些一般就简单的用fully connected layer来模拟,或者增加CNN的层数+FC : layer来做,也许完全是”错“的。CNN很大程度解决了图像/语音处理,但也许DNN的发 : 展还需要有个突破来解决逻辑处理 也许是某种RNN? : 我就想,智商160和智商60的大脑结构差在哪里? train出来的网络performance可以有 : 如此大的差别~~~
|
j*********n 发帖数: 74 | |
|
|
J**********r 发帖数: 508 | 51 zan
【在 w***g 的大作中提到】 : CNN就是多层带模糊和扰动的模版匹配. 刚好操作跟信号处理的convolution : 很像, 所以叫CNN. 为啥我跟信号处理没关系. 信号处理的核心是FFT, : CNN和FFT的关系最多到有一小撮人用FFT加速运算, 而且这撮人已经好久没有 : 消息了.
|
w***g 发帖数: 5958 | 52 multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
原始算法的老命。这个所有人都知道。
2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
大部分alternative架构的研究,圈死了人们的想象力。
CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
东西本身存在的合理性。
一个新手开始学用CNN,把别人的model跑通应该用不了几个小时。然后立刻就会
遇到一个问题:为什么别人的architecture要这么定?怎么样可以改这个
architecture让预测效果变得更好? 因为design space实在太大,又没有
一个像牛顿定理那样的指导原则,所以architecture设计基本上是一门
black magic。新手与老手的区别也在于老手看到一个dataset以后对于怎么
定architecture最好更有"感觉"。
我要吹的是,目前描述CNN architecture的这套语言本身就是很不合理的,甚至
是不应该存在的。这个不合理性是设计architecture难的本质原因,而不是没有
牛顿定理。一个合理的有CNN预测能力的模型,应该只需要十几个功能正交的
参数(meta parameter),而不是一层复一层垒重复性的东西。我相信所有学习
CNN的人都有观察到了这种重复性或者说是冗余,并且在那一瞬间达到了和真相
最接近的一个local optimum。然后一旦开始纠结怎么垒层数,我觉得就开始
堕入邪道了。轮子的最终用户其实没啥选择的余地,因为轮子就是这样的,
语言限制思维。但是这么多轮子全都在垒层数拾人牙慧,让我觉得这个
世界是多么没有审美力和想象力。
算法的大框架我已经有了,但是没啥时间和资源来做,能力上也有些不足。
我觉得世界上应该还是有一些人能想到我在想的东西,并且有能力把它做出来。
我可以比较肯定地说,现在还在垒层数需要architecture描述脚本的轮子,
其实都是纸老虎。五年之内应该全都会被颠覆。现在刚开始读PhD的同学,建议
不要把时间浪费在研究怎么垒层数这种无谓的问题上面,要么思考一些更加
本质的事情,要么干脆去做application。
故弄玄虚一下,这些文字献给王垠吧。 |
w***g 发帖数: 5958 | 53 没有人跟得上吗,还是我脑子出问题了?
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
l*******m 发帖数: 1096 | 54 真正做研究的现在都在做RL, recurrent. CNN做不动了。cnn的重心有些偏向inference
加速,我现在可以在没有heatsink的arm上80 ms per frame. 中型网络。
两个星期前,打印了四片RL文章,准备学术讨论, 跟上前沿。结果谁也没读,凡事太多
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
h*i 发帖数: 3446 | 55 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。
我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义,
ambition在西方是褒义)。
整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就
觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
ET 发帖数: 10701 | 56 虽然对这个话题一窍不通,但能明白你说的意思。
大部分还是跟着潮流走。
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
w***g 发帖数: 5958 | 57 做出来再说就成马后炮了。再说做了也可能做不出来,反而丢了工作。
我就选了小富即安,以后没啥前途我也认了。
穷人没啥机会成本,可以去搞野心。
小富了再去搞野心,机会成本太大,不划算。这个不是中国人的问题,
全人类都一样。Larry Ellison号称哈佛毕业就完蛋也是这个原因,
因为哈佛一毕业一般就小富了,不会再去实现野心。
CEO里面骗子的比例比PhD的比例要高得多,但是骗子中穷人的比例比
PhD中穷人的比例要高得更多。
Update: 应该是耶鲁。反正都一样。
【在 h*i 的大作中提到】 : 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。 : : 我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义, : ambition在西方是褒义)。 : 整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就 : 觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。 :
|
w***g 发帖数: 5958 | 58 话说我那个kgraph你还用吗?我有两年没改算法,发现已经被CMU和老毛子团队比下去
了, MIT也有一波人没放弃LSH最近又搞了个轮子出来。我这两天业余时间都在改进
kgraph。这种规模得轮子属于业于时间搞搞还可以一拼的。这种事情做不到世界第一
就等于没做。我东家最近情况不是很好,如果他们完蛋了我就全力去做CNN。
老毛子战斗力太强了。
【在 h*i 的大作中提到】 : 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。 : : 我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义, : ambition在西方是褒义)。 : 整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就 : 觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。 :
|
d*******r 发帖数: 3299 | 59 就是你说这个 idea, 你业余做不下来?
wdong 你自己当个体户,应该很爽的,工作时间应该很好掌控吧.
【在 w***g 的大作中提到】 : 做出来再说就成马后炮了。再说做了也可能做不出来,反而丢了工作。 : 我就选了小富即安,以后没啥前途我也认了。 : 穷人没啥机会成本,可以去搞野心。 : 小富了再去搞野心,机会成本太大,不划算。这个不是中国人的问题, : 全人类都一样。Larry Ellison号称哈佛毕业就完蛋也是这个原因, : 因为哈佛一毕业一般就小富了,不会再去实现野心。 : CEO里面骗子的比例比PhD的比例要高得多,但是骗子中穷人的比例比 : PhD中穷人的比例要高得更多。 : Update: 应该是耶鲁。反正都一样。
|
W***o 发帖数: 6519 | 60 ambition 那叫“抱负”,这个在中文里绝对是褒义词
【在 h*i 的大作中提到】 : 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。 : : 我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义, : ambition在西方是褒义)。 : 整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就 : 觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。 :
|
|
|
w***g 发帖数: 5958 | 61 我其实没啥业余不业余的,但是现在手头要做得东西还不少。
等task queue排空点肯定会做的。但是确实水平有限不一定
做的出东西来。我有过很多算法上的idea,最后能干活的很少。
相比之下发个贴做个预言要容易得多。
【在 d*******r 的大作中提到】 : 就是你说这个 idea, 你业余做不下来? : wdong 你自己当个体户,应该很爽的,工作时间应该很好掌控吧.
|
h*i 发帖数: 3446 | 62 还在用。不过我们公司有点转型了,现在主要在做别的东西,用处不太大了。
我觉得DL啥的用处有限,就是堆数据,但弄数据是个人最难做的,所以不太适合你。
你要有兴趣,我个人觉得做图数据库更有前景,不是分布式那种,而是单机(也许用
GPU)的。不管你们信不信,我个人觉得AI的下一个突破就在这里。
【在 w***g 的大作中提到】 : 话说我那个kgraph你还用吗?我有两年没改算法,发现已经被CMU和老毛子团队比下去 : 了, MIT也有一波人没放弃LSH最近又搞了个轮子出来。我这两天业余时间都在改进 : kgraph。这种规模得轮子属于业于时间搞搞还可以一拼的。这种事情做不到世界第一 : 就等于没做。我东家最近情况不是很好,如果他们完蛋了我就全力去做CNN。 : 老毛子战斗力太强了。
|
x****u 发帖数: 44466 | 63 我觉得生物进化出5-6层大脑视觉皮层,应该是暗示了什么原理的
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
x****u 发帖数: 44466 | 64 MSRA已经搞出了1000层的怪胎了,还是没造出上帝来。
【在 v*******e 的大作中提到】 : 楼主就瞎叨叨。neuron network精髓就在层数上,层数越多越牛。
|
l******n 发帖数: 9344 | 65 wdong,干脆搞个神经网络的编程培训班,在中国肯定是高端大气的,市场大大的,将来
进BAT或者来去其他地方肯定有帮助。感觉比给人写code干事还靠谱点
何如?
【在 w***g 的大作中提到】 : 我其实没啥业余不业余的,但是现在手头要做得东西还不少。 : 等task queue排空点肯定会做的。但是确实水平有限不一定 : 做的出东西来。我有过很多算法上的idea,最后能干活的很少。 : 相比之下发个贴做个预言要容易得多。
|
m****s 发帖数: 1481 | 66 需要那么多层主要是工程问题,理论上已经证明了只需一层的浅网络就可以模拟任何数
学模型,但是实际中没有有效的算法能学出来适合解决问题的模型,所以才用很深的网
络分层学习特征,才能达到解决实际问题的效果。
另外神经网络只是受到人脑的启发,实际上和人脑的工作原理是不是一样根本没有人说
得清,因为人脑是怎么工作的现在还没弄明白,所以说什么真相,都是压根儿没学明白
的,根本没有所谓的真相,只有基于具体问题的performance好不好。
深度学习现在主要两大块,generative和discriminative,也就是无监督和有监督,
CNN只是一种模型,其他还有很多种模型,而且神经网络很多时候也不是单独在用,和
其他机器学习模型结合也是扩展业务的一个大的发展方向。
深度神经网络现在是处于hype之中,但是真正搞这个领域的还是很清楚它的优缺点和接
下来的研究重点的。hinton一直致力于继续研究人脑的机理来改进神经网络模型,其他
一些大牛则不过分拘泥于模拟自然脑,而是利用已经发掘的神经网络的原理另辟蹊径开
发应用,比如lecun的抛弃语法,词,句完全从字母学习语言的应用。在某些课题上确
实进步空间不大,比如静态图片分类,但是有些课题还有很大潜力可挖,比如文本处理
,语音,视频场景分析等等。现在就谈硬伤为时尚早 |
x****u 发帖数: 44466 | 67 你没看到本质啊
现在既然是要骗钱,那名头是最很重要的。人家宁可要个10年前的2-3流AI phd,也不
一定对转行的数据科学家感兴趣。
【在 l******n 的大作中提到】 : wdong,干脆搞个神经网络的编程培训班,在中国肯定是高端大气的,市场大大的,将来 : 进BAT或者来去其他地方肯定有帮助。感觉比给人写code干事还靠谱点 : 何如?
|
c*****w 发帖数: 50 | 68 在我看来CNN的本质在于
一是convolution, 这个约束极大的减少了参数的数量。
二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接近
人脑了。
按照Hinton牛的说法,CNN的改进方向在Pooling
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
L****8 发帖数: 3938 | 69 如果去掉pooling
多层毫无用处
【在 c*****w 的大作中提到】 : 在我看来CNN的本质在于 : 一是convolution, 这个约束极大的减少了参数的数量。 : 二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接近 : 人脑了。 : 按照Hinton牛的说法,CNN的改进方向在Pooling
|
L****8 发帖数: 3938 | 70 我觉得CNN有效的重要原因之一 是max pooling+分层
这是对物体形状/纹理的很好的编码
比如 如下两个形状 都可以被识别为一类
--------------
_ _
- - -- --- ---
- _
【在 m****s 的大作中提到】 : 需要那么多层主要是工程问题,理论上已经证明了只需一层的浅网络就可以模拟任何数 : 学模型,但是实际中没有有效的算法能学出来适合解决问题的模型,所以才用很深的网 : 络分层学习特征,才能达到解决实际问题的效果。 : 另外神经网络只是受到人脑的启发,实际上和人脑的工作原理是不是一样根本没有人说 : 得清,因为人脑是怎么工作的现在还没弄明白,所以说什么真相,都是压根儿没学明白 : 的,根本没有所谓的真相,只有基于具体问题的performance好不好。 : 深度学习现在主要两大块,generative和discriminative,也就是无监督和有监督, : CNN只是一种模型,其他还有很多种模型,而且神经网络很多时候也不是单独在用,和 : 其他机器学习模型结合也是扩展业务的一个大的发展方向。 : 深度神经网络现在是处于hype之中,但是真正搞这个领域的还是很清楚它的优缺点和接
|
|
|
y*j 发帖数: 3139 | 71 1. 这不叫convolution,这是weight sharing,它能避免overfitting
2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多
传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题
,还有当时的硬件配置比现在差太远了, 导致当时的失败。
我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提
高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。
:在我看来CNN的本质在于
:一是convolution, 这个约束极大的减少了参数的数量。
:二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接
近人脑了。
:按照Hinton牛的说法,CNN的改进方向在Pooling
【在 c*****w 的大作中提到】 : 在我看来CNN的本质在于 : 一是convolution, 这个约束极大的减少了参数的数量。 : 二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接近 : 人脑了。 : 按照Hinton牛的说法,CNN的改进方向在Pooling
|
x****u 发帖数: 44466 | 72 现在神经网络单机的计算能力,已经超过了人脑。
当然结构大不一样,目前单机只够模拟人脑的部分功能。
【在 y*j 的大作中提到】 : 1. 这不叫convolution,这是weight sharing,它能避免overfitting : 2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多 : 传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题 : ,还有当时的硬件配置比现在差太远了, 导致当时的失败。 : 我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提 : 高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。 : : :在我看来CNN的本质在于 : :一是convolution, 这个约束极大的减少了参数的数量。 : :二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接
|
y*j 发帖数: 3139 | 73 并行能力比人脑差太远了,人脑有10^11个neurons. 现在计算机的计算能力就好比是自
闭症患者的特殊能力,但是没有很好的学习能力。
:现在神经网络单机的计算能力,已经超过了人脑。
:当然结构大不一样,目前单机只够模拟人脑的部分功能。
【在 x****u 的大作中提到】 : 现在神经网络单机的计算能力,已经超过了人脑。 : 当然结构大不一样,目前单机只够模拟人脑的部分功能。
|
x****u 发帖数: 44466 | 74 人脑的运算速度比芯片慢n个数量级,而且人脑有极为苛刻的功耗限制,几十年前就有
paper发现最大激活的神经元数不超过1%。
所以综合这两点,人脑计算能力已经在7-8年前被电脑超过了。当然目前cpu,gpu的结
构是非常不适合当神经网络就是了。
【在 y*j 的大作中提到】 : 并行能力比人脑差太远了,人脑有10^11个neurons. 现在计算机的计算能力就好比是自 : 闭症患者的特殊能力,但是没有很好的学习能力。 : : :现在神经网络单机的计算能力,已经超过了人脑。 : :当然结构大不一样,目前单机只够模拟人脑的部分功能。
|
c*****w 发帖数: 50 | 75 不一定的,非线性是必需,比如ReLU。pooling不一定必需,但实际非常有效。LeCun有
篇paper说为啥要多层,当然他也是猜。
【在 L****8 的大作中提到】 : 如果去掉pooling : 多层毫无用处
|
c*****w 发帖数: 50 | 76 你看CNN某一层“被激发”的feature,也就那么几个,有人认为这和大脑很类似。但并
不是说其它大量的feature就没用,它们会在其它的input pattern下被激发。和人脑比
起来神经网络还很粗陋,人脑复杂的神经元间的连接不是那么容易就模拟的,CNN也许
抓到了一些关键,所以比较成功。
【在 x****u 的大作中提到】 : 人脑的运算速度比芯片慢n个数量级,而且人脑有极为苛刻的功耗限制,几十年前就有 : paper发现最大激活的神经元数不超过1%。 : 所以综合这两点,人脑计算能力已经在7-8年前被电脑超过了。当然目前cpu,gpu的结 : 构是非常不适合当神经网络就是了。
|
c*****w 发帖数: 50 | 77 convolution enables weight sharing。否则干嘛用convolution,直接上full
connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了
overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构
还不是最优。
【在 y*j 的大作中提到】 : 1. 这不叫convolution,这是weight sharing,它能避免overfitting : 2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多 : 传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题 : ,还有当时的硬件配置比现在差太远了, 导致当时的失败。 : 我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提 : 高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。 : : :在我看来CNN的本质在于 : :一是convolution, 这个约束极大的减少了参数的数量。 : :二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接
|
L****8 发帖数: 3938 | 78 pooling是提高推广能力的法宝 尤其是物体是线框类的比如数字
【在 c*****w 的大作中提到】 : 不一定的,非线性是必需,比如ReLU。pooling不一定必需,但实际非常有效。LeCun有 : 篇paper说为啥要多层,当然他也是猜。
|
w***g 发帖数: 5958 | 79 还真不一定是你说的那样,pooling也是一种非线性。
其实ReLU+pool就相当于去掉ReLU,然后在每个pooling window里加一个0。
其实再想想,把这个0去掉或许也能干活。
【在 c*****w 的大作中提到】 : 不一定的,非线性是必需,比如ReLU。pooling不一定必需,但实际非常有效。LeCun有 : 篇paper说为啥要多层,当然他也是猜。
|
c*********e 发帖数: 16335 | 80 什么叫骗子啊?这年月,叫 会吹牛。 我公司的ceo就特别会吹。 白人特别会说,做不
行。看看obama就明白了。白人都这德性。
【在 w***g 的大作中提到】 : 做出来再说就成马后炮了。再说做了也可能做不出来,反而丢了工作。 : 我就选了小富即安,以后没啥前途我也认了。 : 穷人没啥机会成本,可以去搞野心。 : 小富了再去搞野心,机会成本太大,不划算。这个不是中国人的问题, : 全人类都一样。Larry Ellison号称哈佛毕业就完蛋也是这个原因, : 因为哈佛一毕业一般就小富了,不会再去实现野心。 : CEO里面骗子的比例比PhD的比例要高得多,但是骗子中穷人的比例比 : PhD中穷人的比例要高得更多。 : Update: 应该是耶鲁。反正都一样。
|
|
|
x****u 发帖数: 44466 | 81 CNN的一大问题就是和人脑比不够稀疏
【在 c*****w 的大作中提到】 : 你看CNN某一层“被激发”的feature,也就那么几个,有人认为这和大脑很类似。但并 : 不是说其它大量的feature就没用,它们会在其它的input pattern下被激发。和人脑比 : 起来神经网络还很粗陋,人脑复杂的神经元间的连接不是那么容易就模拟的,CNN也许 : 抓到了一些关键,所以比较成功。
|
x****u 发帖数: 44466 | 82 CNN在解决overfitting上已经远远超过人类了
人的大脑在同样情况下不可避免的要过拟合
【在 c*****w 的大作中提到】 : convolution enables weight sharing。否则干嘛用convolution,直接上full : connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了 : overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构 : 还不是最优。
|
L****8 发帖数: 3938 | 83 详细讲讲?
【在 w***g 的大作中提到】 : 还真不一定是你说的那样,pooling也是一种非线性。 : 其实ReLU+pool就相当于去掉ReLU,然后在每个pooling window里加一个0。 : 其实再想想,把这个0去掉或许也能干活。
|
w***g 发帖数: 5958 | 84 为什么去掉0也能干活?因为一个pooling window中有十几个数,几乎必然有一个大于0。
即使不加0,最大值小于0的可能性也很小。
【在 L****8 的大作中提到】 : 详细讲讲?
|
L****8 发帖数: 3938 | 85 你这意思是说 pooling才是核心技术?
于0。
【在 w***g 的大作中提到】 : 为什么去掉0也能干活?因为一个pooling window中有十几个数,几乎必然有一个大于0。 : 即使不加0,最大值小于0的可能性也很小。
|
s*****w 发帖数: 1527 | 86 赞大牛!
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
w*******x 发帖数: 489 | 87 我觉得CNN 本身作为视觉图像处理(模拟人类或动物视觉神经部分)应该是已经非常成
熟和有效了,不需要太多数据(order of 100)就可以达到高精度(比如把region of
interest 做segmentaion 出来)。performance差主要来源于后面的类似于人的逻辑处
理的层 (比如判断什么物体,手势,结构等等),这些层也决定了人脑远胜于动物的
脑子,这些一般就简单的用fully connected layer来模拟,或者增加CNN的层数+FC
layer来做,也许完全是”错“的。CNN很大程度解决了图像/语音处理,但也许DNN的发
展还需要有个突破来解决逻辑处理 也许是某种RNN?
我就想,智商160和智商60的大脑结构差在哪里? train出来的网络performance可以有
如此大的差别~~~
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
L****8 发帖数: 3938 | 88 今天仔细想了想 觉得多层是没必要的
假设 有三层 全连接
第一层 第二层 第三层
第一层和第二层之间连接关系 A=[a_ij] 链接 节点i(第一层) 和 节点j (第二层)
第二层和第三层之间连接关系 B=[b_jk] 链接 节点i(第一层) 和 节点j (第二层)
wdong所说有道理, 如果用ReLU节点+max pooling 那么多数情况输入都是正的 ReLU就
是个线性放大器
如果忽略放大倍数,第一层和第三层直接连接关系C=[c_ik] 满足 矩阵C=A*B
这么看来 CNN的法宝 就是 max pooling + dropout
max pooling 相当于分级模板匹配 对物体形变的一种离散化
dropout 相当于聚类
我把 max pooling 的想法用在了另一个应用上 效果不错
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
L****8 发帖数: 3938 | 89 研究的如何了?
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
N*****m 发帖数: 42603 | 90 感觉现在搞计算机的数学功底不行
谁要是把CNN的数学理论原理搞出来了,搞个图灵应该轻轻松松
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
|
|
L****8 发帖数: 3938 | 91 我设计了一种新的结构
相当于CNN 两层conv 两层max-pooling
MNIST 上跑到了0.87 错误率
是个啥水平?
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
a*********y 发帖数: 63 | 92 也不能简单地说数学功底不行. 神经网络的数学模型归根到底是一个非线性系统. 然而
现在的数学对非线性系统还没有什么系统的有效的解决方法,除了一些特殊的情况.
所以不能说搞计算机的数学功底不行, 而是现在的数学就这个水平.
【在 N*****m 的大作中提到】 : 感觉现在搞计算机的数学功底不行 : 谁要是把CNN的数学理论原理搞出来了,搞个图灵应该轻轻松松
|
k****i 发帖数: 101 | 93 NN从计算的角度,相当于以“普适”的算法产生不同的参数来对应于各种特定的算法,
并能从中选择最优的参数来解答问题。
从CNN的角度,flying parts就是堆层超参,用各种architectures及frameworks来实现
并简化该过程。
大作中提到的meta parameters是要fix the flying parts,进而能适配各种应用吗?
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
d*******r 发帖数: 3299 | 94 那所以大家都是在瞎蒙? 那在这个瞎蒙过程中,数学在哪一部分比较起作用?
【在 a*********y 的大作中提到】 : 也不能简单地说数学功底不行. 神经网络的数学模型归根到底是一个非线性系统. 然而 : 现在的数学对非线性系统还没有什么系统的有效的解决方法,除了一些特殊的情况. : 所以不能说搞计算机的数学功底不行, 而是现在的数学就这个水平.
|
k****i 发帖数: 101 | 95 数据↑ ⇒ S↑
参数↓ ⇒ N↓
【在 c*****w 的大作中提到】 : convolution enables weight sharing。否则干嘛用convolution,直接上full : connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了 : overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构 : 还不是最优。
|
v*****k 发帖数: 7798 | 96 我说诸位表瞎猜cnn的物理意义了。这物理意义包括为啥convolution 为啥pooling学一
点信号处理就清楚的很。 |
a*********y 发帖数: 63 | 97 ZKSS please.
【在 v*****k 的大作中提到】 : 我说诸位表瞎猜cnn的物理意义了。这物理意义包括为啥convolution 为啥pooling学一 : 点信号处理就清楚的很。
|
w***g 发帖数: 5958 | 98 CNN就是多层带模糊和扰动的模版匹配. 刚好操作跟信号处理的convolution
很像, 所以叫CNN. 为啥我跟信号处理没关系. 信号处理的核心是FFT,
CNN和FFT的关系最多到有一小撮人用FFT加速运算, 而且这撮人已经好久没有
消息了.
【在 a*********y 的大作中提到】 : ZKSS please.
|
T*******x 发帖数: 8565 | 99 赞。
【在 w*******x 的大作中提到】 : 我觉得CNN 本身作为视觉图像处理(模拟人类或动物视觉神经部分)应该是已经非常成 : 熟和有效了,不需要太多数据(order of 100)就可以达到高精度(比如把region of : interest 做segmentaion 出来)。performance差主要来源于后面的类似于人的逻辑处 : 理的层 (比如判断什么物体,手势,结构等等),这些层也决定了人脑远胜于动物的 : 脑子,这些一般就简单的用fully connected layer来模拟,或者增加CNN的层数+FC : layer来做,也许完全是”错“的。CNN很大程度解决了图像/语音处理,但也许DNN的发 : 展还需要有个突破来解决逻辑处理 也许是某种RNN? : 我就想,智商160和智商60的大脑结构差在哪里? train出来的网络performance可以有 : 如此大的差别~~~
|
j*********n 发帖数: 74 | |
|
|
J**********r 发帖数: 508 | 101 zan
【在 w***g 的大作中提到】 : CNN就是多层带模糊和扰动的模版匹配. 刚好操作跟信号处理的convolution : 很像, 所以叫CNN. 为啥我跟信号处理没关系. 信号处理的核心是FFT, : CNN和FFT的关系最多到有一小撮人用FFT加速运算, 而且这撮人已经好久没有 : 消息了.
|
g****t 发帖数: 31659 | 102 where is Liber8 now?
I tested with MNIST earlier too. But I did not use soft computation
methods.
【在 L****8 的大作中提到】 : 我设计了一种新的结构 : 相当于CNN 两层conv 两层max-pooling : MNIST 上跑到了0.87 错误率 : 是个啥水平?
|
g****t 发帖数: 31659 | 103 For those question in the originial post:
"怎么样可以改这个
architecture让预测效果变得更好? 因为design space实在太大,又没有
一个像牛顿定理那样的指导原则
"
-----------------------------------------------------------
我有个处理参数的技术。
不管你什么预测模型,或者分类模型。
假如5个参数,分别选00001,00010,。。这样,然后
出来5路误差序列,e1,e2,e3,e4,e5。
通过对数据进行线性滤波的前处理,然后结果再逆变换
回来后处理,让中间的误差方向尽量分散。就是这五路误差尽量
正交。
直觉上来讲,误差的方向分散了,那么参数就充分用到了。
上面方法故意不考虑几个参数同时改变时候的coorelation情况,
相当于把一些东西简化成对角阵。这样使用面可以更广一些。
这个尽量把误差分散和正交的思路是我处理这些问题时侯的主要的trick。
前处理滤波器和后处理滤波器,可以优化设计出来
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
z*****k 发帖数: 600 | 104 >>我的印象中没有人质疑architecture这个东西本身存在的合理性。。。。
>>为什么别人的architecture要这么定?
架构与brain视觉中枢神经架构比较相符。你可以质疑,但是单单质疑没啥意思。
>>应该只需要十几个功能正交的参数(meta parameter),而不是一层复一层垒重复性的
东西。
已有的正交的东西都试过了,才有人出来搞nn而且很成功。再说正交那都是线性主义的
老一套,试了又试,知道不行了。 nn优点恰好就是引入了非线性且融合得比较好。多
层重复架构是早旧有的仿视觉处理的multiscale approach, 不是nn弄出来的新东西。
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
s********k 发帖数: 6180 | 105 假如第一层有16个feature map,第二层又来8个 filter,第二层就有16*8个feature
map了?这个越往后feature map会爆炸增加吧
【在 L****8 的大作中提到】 : 今天仔细想了想 觉得多层是没必要的 : 假设 有三层 全连接 : 第一层 第二层 第三层 : 第一层和第二层之间连接关系 A=[a_ij] 链接 节点i(第一层) 和 节点j (第二层) : 第二层和第三层之间连接关系 B=[b_jk] 链接 节点i(第一层) 和 节点j (第二层) : wdong所说有道理, 如果用ReLU节点+max pooling 那么多数情况输入都是正的 ReLU就 : 是个线性放大器 : 如果忽略放大倍数,第一层和第三层直接连接关系C=[c_ik] 满足 矩阵C=A*B : 这么看来 CNN的法宝 就是 max pooling + dropout : max pooling 相当于分级模板匹配 对物体形变的一种离散化
|
z*****k 发帖数: 600 | 106 No, 8 in your example, ie the same as the # of the filters
【在 s********k 的大作中提到】 : 假如第一层有16个feature map,第二层又来8个 filter,第二层就有16*8个feature : map了?这个越往后feature map会爆炸增加吧
|
s********k 发帖数: 6180 | 107 假设原图第一层layer有16个filter,会出来16个feature map吧,那第二层又有8个
filter,应该会对16个feature map再做CNN?还是只是对原图做CNN?
【在 z*****k 的大作中提到】 : No, 8 in your example, ie the same as the # of the filters
|
z*****k 发帖数: 600 | 108 第二层又有8个filter,当然结果是8个feature maps。每个Filter要作用在上一层的所
有的 16 个feature maps上。不然 DCNN 的“D”的作用没法完全发挥!
【在 s********k 的大作中提到】 : 假设原图第一层layer有16个filter,会出来16个feature map吧,那第二层又有8个 : filter,应该会对16个feature map再做CNN?还是只是对原图做CNN?
|
s********k 发帖数: 6180 | 109 对啊,第二层每个filter‘要用在上一层的16个feature map,所以最后第二层的
feature map就是16*8个
【在 z*****k 的大作中提到】 : 第二层又有8个filter,当然结果是8个feature maps。每个Filter要作用在上一层的所 : 有的 16 个feature maps上。不然 DCNN 的“D”的作用没法完全发挥!
|
g****t 发帖数: 31659 | 110 1d 卷积就是RC电路什么的。2维是wave equation 之类PDE的解。
http://www.emis.de/journals/HOA/DENM/2007/49251.pdf
check equation 1.3
【在 a*********y 的大作中提到】 : ZKSS please.
|
|
|
g****t 发帖数: 31659 | 111 我分开说,是因为多变量fourier分析其实我个人认为数学上没什么说法。
单变量的则研究的比较清楚了。
我怀疑最后是因为平面闭合曲线可以把平面分成两部分。
高维空间一条闭合曲线没这个兴致。
所以高维计算,各种分层分段分grid,步长什么的学问很大。
和time series这种1维的很不同。
【在 g****t 的大作中提到】 : 1d 卷积就是RC电路什么的。2维是wave equation 之类PDE的解。 : http://www.emis.de/journals/HOA/DENM/2007/49251.pdf : check equation 1.3
|
N*****m 发帖数: 42603 | 112 据说DL的数学理论有人用group theory解决了
不知道真假
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|
g****t 发帖数: 31659 | 113 This paper:
https://arxiv.org/abs/1410.3831
看着有道理。
但是重整化群本身就是个大的计算坑。这就好比说deep learning被PDE解释了类似。
‘解决’这个不好定义。
【在 N*****m 的大作中提到】 : 据说DL的数学理论有人用group theory解决了 : 不知道真假
|
c*****e 发帖数: 3226 | 114 很多公司最后 data scientist 工作就是把这些模型运行一下,调节一下参数
【在 w***g 的大作中提到】 : multi-layer convolutional neural network在一定程度上已经很接近事情的真相了, : 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果: : 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代 : 原始算法的老命。这个所有人都知道。 : 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了 : 大部分alternative架构的研究,圈死了人们的想象力。 : CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。 : 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都 : 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数, : 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
|