boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - Facebook的用CNN作翻译怎么性能超过RNN的
相关主题
LSTM 是不是坨屎?
深度学习对时间序列数据有什么好办法吗?
seq-to-seq model的参数share吗?
胡扯几句什么叫Deep Learning入门
有没有做sentiment analysis的,求思路
volta一出,业余玩家都要玩完啦
马工能转数据分析师吗?
求教, python 对于很奇怪的字符的encoding 怎么处理?
用python urlopen 抓mitbbs页面的问题
这是什么编码?
相关话题的讨论汇总
话题: cnn话题: rnn话题: lstm话题: facebook话题: br
进入Programming版参与讨论
1 (共1页)
s********k
发帖数: 6180
1
按照我的理解,其实就是用stacked CNN,前面提取局部句子信息,后面的CNN layer提
取更长距离相对全局文章信息,来模拟RNN的可以处理任意长度句子。这样好处是训练
起来估计容易点,可以并行,参数少,但是感觉没有时间序列信息,还是容易overfit
啊。FB用了啥trick?
g****t
发帖数: 31659
2
你压根无从比较。说不定就是谁的数据多,工程师修的好就赢
c******t
发帖数: 944
3
根本没超过RNN,FB这批作者用大3-4倍的网络来训,然后claim性能最佳,却根本不看
狗的另一篇文章。
https://arxiv.org/abs/1701.06538
看完你再比比,同样大小的网络(参数数量),RNN还是超过CNN。
我不想说FAIR的研究人员不老实,但起码不严谨,哪里超过state-of-the-art,根本没
有嘛。
c******t
发帖数: 944
4
用的是同一个benchmark,同样的训练数据,还是可比的。

【在 g****t 的大作中提到】
: 你压根无从比较。说不定就是谁的数据多,工程师修的好就赢
g****t
发帖数: 31659
5
都是攒GPU
你2000个,我3000个
揣着明白装糊涂,弄的热热闹闹
我不认为算法上有多少新创制


: 根本没超过RNN,FB这批作者用大3-4倍的网络来训,然后claim性能最佳,却根
本不看

: 狗的另一篇文章。

: https://arxiv.org/abs/1701.06538

: 看完你再比比,同样大小的网络(参数数量),RNN还是超过CNN。

: 我不想说FAIR的研究人员不老实,但起码不严谨,哪里超过state-of-the-art,
根本没

: 有嘛。



【在 c******t 的大作中提到】
: 用的是同一个benchmark,同样的训练数据,还是可比的。
g****t
发帖数: 31659
6
你有没有听说过Quine的翻译不确定性原理


: 用的是同一个benchmark,同样的训练数据,还是可比的。



【在 c******t 的大作中提到】
: 用的是同一个benchmark,同样的训练数据,还是可比的。
c******t
发帖数: 944
7
不能说没有。
但是CNN的问题远远没有解决。首先句子长度有限,跟早期LSTM一样,但是LSTM已经解
决了。
虽然我觉得FAIR这班人为了搞大新闻有点不择手段(除了LeCun靠谱),但是CNN我认为
还是未来的方向。LSTM的问题是训练慢,CNN并行起来超级快。并行化是趋势。虽然这
篇吹过头了,但是很可能是一个巨大突破的开始。

【在 g****t 的大作中提到】
: 都是攒GPU
: 你2000个,我3000个
: 揣着明白装糊涂,弄的热热闹闹
: 我不认为算法上有多少新创制
:
:
: 根本没超过RNN,FB这批作者用大3-4倍的网络来训,然后claim性能最佳,却根
: 本不看
:
: 狗的另一篇文章。
:
: https://arxiv.org/abs/1701.06538
:
: 看完你再比比,同样大小的网络(参数数量),RNN还是超过CNN。

c******t
发帖数: 944
8
你可以先看看评测方法。这跟翻译是否不确定没有关系。

【在 g****t 的大作中提到】
: 你有没有听说过Quine的翻译不确定性原理
:
:
: 用的是同一个benchmark,同样的训练数据,还是可比的。
:

c******t
发帖数: 944
9
Decode的时候还是一个个词出,前一个词的hidden layer会feed到后一个词里去。其实
我觉得是脱裤子放屁,老早就有人提过Dilated CNN做encoder, LSTM/GRU做decoder。

overfit

【在 s********k 的大作中提到】
: 按照我的理解,其实就是用stacked CNN,前面提取局部句子信息,后面的CNN layer提
: 取更长距离相对全局文章信息,来模拟RNN的可以处理任意长度句子。这样好处是训练
: 起来估计容易点,可以并行,参数少,但是感觉没有时间序列信息,还是容易overfit
: 啊。FB用了啥trick?

g****t
发帖数: 31659
10
我前两天花时间看了一天文献
没看到什么新东西
如下是我的浅见:
都是启发式猜个策略
做出来效果不错类型的实验报告
这些东西朝不保夕
我不认为有多大意义
增广见闻罢了
不见得这些文章不好
我是无法分辨这些文章哪个更好
你有数据
有几千GPU
总能出新文章的
这就好比杨振宁早就说
高能物理完蛋了一样
到了比拼装备的阶段
没什么机会给散户了
要我说
就不要浪费时间看算法的细枝末节了
我不认为会有算法的突破
不如检查novel的应用领域
这个可以有戏


: 你可以先看看评测方法。这跟翻译是否不确定没有关系。



【在 c******t 的大作中提到】
: Decode的时候还是一个个词出,前一个词的hidden layer会feed到后一个词里去。其实
: 我觉得是脱裤子放屁,老早就有人提过Dilated CNN做encoder, LSTM/GRU做decoder。
:
: overfit

相关主题
胡扯几句什么叫Deep Learning入门
有没有做sentiment analysis的,求思路
volta一出,业余玩家都要玩完啦
马工能转数据分析师吗?
进入Programming版参与讨论
c******t
发帖数: 944
11
对于拿工资的马工,当然是指哪打哪。

【在 g****t 的大作中提到】
: 我前两天花时间看了一天文献
: 没看到什么新东西
: 如下是我的浅见:
: 都是启发式猜个策略
: 做出来效果不错类型的实验报告
: 这些东西朝不保夕
: 我不认为有多大意义
: 增广见闻罢了
: 不见得这些文章不好
: 我是无法分辨这些文章哪个更好

s********k
发帖数: 6180
12
CNN用的参数肯定多,如果不比较参数多少,只看准确率呢?

【在 c******t 的大作中提到】
: 根本没超过RNN,FB这批作者用大3-4倍的网络来训,然后claim性能最佳,却根本不看
: 狗的另一篇文章。
: https://arxiv.org/abs/1701.06538
: 看完你再比比,同样大小的网络(参数数量),RNN还是超过CNN。
: 我不想说FAIR的研究人员不老实,但起码不严谨,哪里超过state-of-the-art,根本没
: 有嘛。

s********k
发帖数: 6180
13
"跟早期LSTM一样,但是LSTM已经解决了?"大牛说说LSTM怎么解决的?还是说早期的RNN
,然后被LSTM解决?

【在 c******t 的大作中提到】
: 不能说没有。
: 但是CNN的问题远远没有解决。首先句子长度有限,跟早期LSTM一样,但是LSTM已经解
: 决了。
: 虽然我觉得FAIR这班人为了搞大新闻有点不择手段(除了LeCun靠谱),但是CNN我认为
: 还是未来的方向。LSTM的问题是训练慢,CNN并行起来超级快。并行化是趋势。虽然这
: 篇吹过头了,但是很可能是一个巨大突破的开始。

s********k
发帖数: 6180
14
倒不是说一定要算法创新,只是觉得CNN虽然能近似模拟RNN,按道理不会比LSTM做得更
好啊?狗家也有足够的机器堆啊,还是狗家已经对这样翻译这种事情不上心了?

【在 g****t 的大作中提到】
: 都是攒GPU
: 你2000个,我3000个
: 揣着明白装糊涂,弄的热热闹闹
: 我不认为算法上有多少新创制
:
:
: 根本没超过RNN,FB这批作者用大3-4倍的网络来训,然后claim性能最佳,却根
: 本不看
:
: 狗的另一篇文章。
:
: https://arxiv.org/abs/1701.06538
:
: 看完你再比比,同样大小的网络(参数数量),RNN还是超过CNN。

s********k
发帖数: 6180
15
CNN的句子长度是不是可以用stacked CNN layer解决,一个个CNN layer逐渐提取越来
越长的全局信息,我觉得CNN不好办的是没有时序信息加进去,理论上是不是更容易
overfit

【在 c******t 的大作中提到】
: 不能说没有。
: 但是CNN的问题远远没有解决。首先句子长度有限,跟早期LSTM一样,但是LSTM已经解
: 决了。
: 虽然我觉得FAIR这班人为了搞大新闻有点不择手段(除了LeCun靠谱),但是CNN我认为
: 还是未来的方向。LSTM的问题是训练慢,CNN并行起来超级快。并行化是趋势。虽然这
: 篇吹过头了,但是很可能是一个巨大突破的开始。

c******t
发帖数: 944
16
看前文,并没有比LSTM更好,狗之前有文章,前面我提到了,更大的LSTM才是state of
art,但是FAIR要装看不见那也是没办法。

【在 s********k 的大作中提到】
: 倒不是说一定要算法创新,只是觉得CNN虽然能近似模拟RNN,按道理不会比LSTM做得更
: 好啊?狗家也有足够的机器堆啊,还是狗家已经对这样翻译这种事情不上心了?

c******t
发帖数: 944
17
就是这么做的,但是decoding如果也是CNN的话,不好控制输出长度。比较自然的办法
是CNN encoding + RNN decoding。看狗脸谁先做到更好吧。

【在 s********k 的大作中提到】
: CNN的句子长度是不是可以用stacked CNN layer解决,一个个CNN layer逐渐提取越来
: 越长的全局信息,我觉得CNN不好办的是没有时序信息加进去,理论上是不是更容易
: overfit

s********k
发帖数: 6180
18
不太清楚CNN encoding之后的抽象信息对于RNN来说意义是一样的吗?

【在 c******t 的大作中提到】
: 就是这么做的,但是decoding如果也是CNN的话,不好控制输出长度。比较自然的办法
: 是CNN encoding + RNN decoding。看狗脸谁先做到更好吧。

c******t
发帖数: 944
19
额,为何不一样呢?不都是backprop出来的...

【在 s********k 的大作中提到】
: 不太清楚CNN encoding之后的抽象信息对于RNN来说意义是一样的吗?
s********k
发帖数: 6180
20
我理解CNN encoding就是说先用CNN去训练一个类似embedding space,然后RNN decode
?是这个意思?

【在 c******t 的大作中提到】
: 额,为何不一样呢?不都是backprop出来的...
相关主题
求教, python 对于很奇怪的字符的encoding 怎么处理?
用python urlopen 抓mitbbs页面的问题
这是什么编码?
请教:关于sentence classification
进入Programming版参与讨论
c******t
发帖数: 944
21
整个输出feed到RNN啊

decode

【在 s********k 的大作中提到】
: 我理解CNN encoding就是说先用CNN去训练一个类似embedding space,然后RNN decode
: ?是这个意思?

s********k
发帖数: 6180
22
哦,就是CNN的输出不接FC layer,接上RNN?这样的参数岂不是更多?

【在 c******t 的大作中提到】
: 整个输出feed到RNN啊
:
: decode

c******t
发帖数: 944
23
Encoder哪有直接fc的,rnn encoder也都是接rnn decoder。

【在 s********k 的大作中提到】
: 哦,就是CNN的输出不接FC layer,接上RNN?这样的参数岂不是更多?
1 (共1页)
进入Programming版参与讨论
相关主题
这是什么编码?
请教:关于sentence classification
神经网络研究的致命伤
CNN做NLP工程多吗?
xiaoju 老师进来一下
cnn大牛们,这种特征如何提取呢?
Keras 现在支持mxnet了
CNN网络之后一般还要加FNN?
请教一个C++的设计问题
DL一个基础问题:
相关话题的讨论汇总
话题: cnn话题: rnn话题: lstm话题: facebook话题: br