Facebook的用CNN作翻译怎么性能超过RNN的 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - Facebook的用CNN作翻译怎么性能超过RNN的

相关主题
● LSTM 是不是坨屎？
● 深度学习对时间序列数据有什么好办法吗？
● seq-to-seq model的参数share吗？
● 胡扯几句什么叫Deep Learning入门
● 有没有做sentiment analysis的，求思路
● volta一出，业余玩家都要玩完啦
● 马工能转数据分析师吗？
● 求教， python 对于很奇怪的字符的encoding 怎么处理？
● 用python urlopen 抓mitbbs页面的问题
● 这是什么编码？

相关话题的讨论汇总
话题: cnn话题: rnn话题: lstm话题: facebook话题: br

进入Programming版参与讨论

(共1页)

s********k
发帖数: 6180

按照我的理解，其实就是用stacked CNN，前面提取局部句子信息，后面的CNN layer提
取更长距离相对全局文章信息，来模拟RNN的可以处理任意长度句子。这样好处是训练
起来估计容易点，可以并行，参数少，但是感觉没有时间序列信息，还是容易overfit
啊。FB用了啥trick？

g****t
发帖数: 31659

你压根无从比较。说不定就是谁的数据多，工程师修的好就赢

c******t
发帖数: 944

根本没超过RNN，FB这批作者用大3-4倍的网络来训，然后claim性能最佳，却根本不看
狗的另一篇文章。
https://arxiv.org/abs/1701.06538
看完你再比比，同样大小的网络（参数数量），RNN还是超过CNN。
我不想说FAIR的研究人员不老实，但起码不严谨，哪里超过state-of-the-art，根本没
有嘛。

c******t
发帖数: 944

用的是同一个benchmark，同样的训练数据，还是可比的。

【在 g****t 的大作中提到】

: 你压根无从比较。说不定就是谁的数据多，工程师修的好就赢

g****t
发帖数: 31659

都是攒GPU
你2000个，我3000个
揣着明白装糊涂，弄的热热闹闹
我不认为算法上有多少新创制

: 根本没超过RNN，FB这批作者用大3-4倍的网络来训，然后claim性能最佳，却根
本不看

: 狗的另一篇文章。

: https://arxiv.org/abs/1701.06538

: 看完你再比比，同样大小的网络（参数数量），RNN还是超过CNN。

: 我不想说FAIR的研究人员不老实，但起码不严谨，哪里超过state-of-the-art，
根本没

: 有嘛。

【在 c******t 的大作中提到】

: 用的是同一个benchmark，同样的训练数据，还是可比的。

g****t
发帖数: 31659

你有没有听说过Quine的翻译不确定性原理

: 用的是同一个benchmark，同样的训练数据，还是可比的。

【在 c******t 的大作中提到】

: 用的是同一个benchmark，同样的训练数据，还是可比的。

c******t
发帖数: 944

不能说没有。
但是CNN的问题远远没有解决。首先句子长度有限，跟早期LSTM一样，但是LSTM已经解
决了。
虽然我觉得FAIR这班人为了搞大新闻有点不择手段（除了LeCun靠谱），但是CNN我认为
还是未来的方向。LSTM的问题是训练慢，CNN并行起来超级快。并行化是趋势。虽然这
篇吹过头了，但是很可能是一个巨大突破的开始。

【在 g****t 的大作中提到】

: 都是攒GPU
: 你2000个，我3000个
: 揣着明白装糊涂，弄的热热闹闹
: 我不认为算法上有多少新创制
:
:
: 根本没超过RNN，FB这批作者用大3-4倍的网络来训，然后claim性能最佳，却根
: 本不看
:
: 狗的另一篇文章。
:
: https://arxiv.org/abs/1701.06538
:
: 看完你再比比，同样大小的网络（参数数量），RNN还是超过CNN。

c******t
发帖数: 944

你可以先看看评测方法。这跟翻译是否不确定没有关系。

【在 g****t 的大作中提到】

: 你有没有听说过Quine的翻译不确定性原理
:
:
: 用的是同一个benchmark，同样的训练数据，还是可比的。
:

c******t
发帖数: 944

Decode的时候还是一个个词出，前一个词的hidden layer会feed到后一个词里去。其实
我觉得是脱裤子放屁，老早就有人提过Dilated CNN做encoder, LSTM/GRU做decoder。

overfit

【在 s********k 的大作中提到】

: 按照我的理解，其实就是用stacked CNN，前面提取局部句子信息，后面的CNN layer提
: 取更长距离相对全局文章信息，来模拟RNN的可以处理任意长度句子。这样好处是训练
: 起来估计容易点，可以并行，参数少，但是感觉没有时间序列信息，还是容易overfit
: 啊。FB用了啥trick？

g****t
发帖数: 31659

我前两天花时间看了一天文献
没看到什么新东西
如下是我的浅见：
都是启发式猜个策略
做出来效果不错类型的实验报告
这些东西朝不保夕
我不认为有多大意义
增广见闻罢了
不见得这些文章不好
我是无法分辨这些文章哪个更好
你有数据
有几千GPU
总能出新文章的
这就好比杨振宁早就说
高能物理完蛋了一样
到了比拼装备的阶段
没什么机会给散户了
要我说
就不要浪费时间看算法的细枝末节了
我不认为会有算法的突破
不如检查novel的应用领域
这个可以有戏

: 你可以先看看评测方法。这跟翻译是否不确定没有关系。

【在 c******t 的大作中提到】

: Decode的时候还是一个个词出，前一个词的hidden layer会feed到后一个词里去。其实
: 我觉得是脱裤子放屁，老早就有人提过Dilated CNN做encoder, LSTM/GRU做decoder。
:
: overfit

相关主题
● 胡扯几句什么叫Deep Learning入门
● 有没有做sentiment analysis的，求思路
● volta一出，业余玩家都要玩完啦
● 马工能转数据分析师吗？
进入Programming版参与讨论

c******t
发帖数: 944

对于拿工资的马工，当然是指哪打哪。

【在 g****t 的大作中提到】

: 我前两天花时间看了一天文献
: 没看到什么新东西
: 如下是我的浅见：
: 都是启发式猜个策略
: 做出来效果不错类型的实验报告
: 这些东西朝不保夕
: 我不认为有多大意义
: 增广见闻罢了
: 不见得这些文章不好
: 我是无法分辨这些文章哪个更好

s********k
发帖数: 6180

CNN用的参数肯定多，如果不比较参数多少，只看准确率呢？

【在 c******t 的大作中提到】

: 根本没超过RNN，FB这批作者用大3-4倍的网络来训，然后claim性能最佳，却根本不看
: 狗的另一篇文章。
: https://arxiv.org/abs/1701.06538
: 看完你再比比，同样大小的网络（参数数量），RNN还是超过CNN。
: 我不想说FAIR的研究人员不老实，但起码不严谨，哪里超过state-of-the-art，根本没
: 有嘛。

s********k
发帖数: 6180

"跟早期LSTM一样，但是LSTM已经解决了?"大牛说说LSTM怎么解决的？还是说早期的RNN
，然后被LSTM解决？

【在 c******t 的大作中提到】

: 不能说没有。
: 但是CNN的问题远远没有解决。首先句子长度有限，跟早期LSTM一样，但是LSTM已经解
: 决了。
: 虽然我觉得FAIR这班人为了搞大新闻有点不择手段（除了LeCun靠谱），但是CNN我认为
: 还是未来的方向。LSTM的问题是训练慢，CNN并行起来超级快。并行化是趋势。虽然这
: 篇吹过头了，但是很可能是一个巨大突破的开始。

s********k
发帖数: 6180

倒不是说一定要算法创新，只是觉得CNN虽然能近似模拟RNN，按道理不会比LSTM做得更
好啊？狗家也有足够的机器堆啊，还是狗家已经对这样翻译这种事情不上心了？

【在 g****t 的大作中提到】

s********k
发帖数: 6180

CNN的句子长度是不是可以用stacked CNN layer解决，一个个CNN layer逐渐提取越来
越长的全局信息，我觉得CNN不好办的是没有时序信息加进去，理论上是不是更容易
overfit

【在 c******t 的大作中提到】

c******t
发帖数: 944

看前文，并没有比LSTM更好，狗之前有文章，前面我提到了，更大的LSTM才是state of
art，但是FAIR要装看不见那也是没办法。

【在 s********k 的大作中提到】

: 倒不是说一定要算法创新，只是觉得CNN虽然能近似模拟RNN，按道理不会比LSTM做得更
: 好啊？狗家也有足够的机器堆啊，还是狗家已经对这样翻译这种事情不上心了？

c******t
发帖数: 944

就是这么做的，但是decoding如果也是CNN的话，不好控制输出长度。比较自然的办法
是CNN encoding + RNN decoding。看狗脸谁先做到更好吧。

【在 s********k 的大作中提到】

: CNN的句子长度是不是可以用stacked CNN layer解决，一个个CNN layer逐渐提取越来
: 越长的全局信息，我觉得CNN不好办的是没有时序信息加进去，理论上是不是更容易
: overfit

s********k
发帖数: 6180

不太清楚CNN encoding之后的抽象信息对于RNN来说意义是一样的吗？

【在 c******t 的大作中提到】

: 就是这么做的，但是decoding如果也是CNN的话，不好控制输出长度。比较自然的办法
: 是CNN encoding + RNN decoding。看狗脸谁先做到更好吧。

c******t
发帖数: 944

额，为何不一样呢？不都是backprop出来的...

【在 s********k 的大作中提到】

: 不太清楚CNN encoding之后的抽象信息对于RNN来说意义是一样的吗？

s********k
发帖数: 6180

我理解CNN encoding就是说先用CNN去训练一个类似embedding space，然后RNN decode
？是这个意思？

【在 c******t 的大作中提到】

: 额，为何不一样呢？不都是backprop出来的...

相关主题
● 求教， python 对于很奇怪的字符的encoding 怎么处理？
● 用python urlopen 抓mitbbs页面的问题
● 这是什么编码？
● 请教：关于sentence classification
进入Programming版参与讨论

c******t
发帖数: 944

整个输出feed到RNN啊

decode

【在 s********k 的大作中提到】

: 我理解CNN encoding就是说先用CNN去训练一个类似embedding space，然后RNN decode
: ？是这个意思？

s********k
发帖数: 6180

哦，就是CNN的输出不接FC layer，接上RNN？这样的参数岂不是更多？

【在 c******t 的大作中提到】

: 整个输出feed到RNN啊
:
: decode

c******t
发帖数: 944

Encoder哪有直接fc的，rnn encoder也都是接rnn decoder。

【在 s********k 的大作中提到】

: 哦，就是CNN的输出不接FC layer，接上RNN？这样的参数岂不是更多？

(共1页)

进入Programming版参与讨论

相关主题
● 这是什么编码？
● 请教：关于sentence classification
● 神经网络研究的致命伤
● CNN做NLP工程多吗？
● xiaoju 老师进来一下
● ｃｎｎ大牛们，这种特征如何提取呢？
● Keras 现在支持mxnet了
● CNN网络之后一般还要加FNN？
● 请教一个C++的设计问题
● DL一个基础问题：

相关话题的讨论汇总
话题: cnn话题: rnn话题: lstm话题: facebook话题: br

boards