s********k 发帖数: 6180 | 1 按照我的理解,其实就是用stacked CNN,前面提取局部句子信息,后面的CNN layer提
取更长距离相对全局文章信息,来模拟RNN的可以处理任意长度句子。这样好处是训练
起来估计容易点,可以并行,参数少,但是感觉没有时间序列信息,还是容易overfit
啊。FB用了啥trick? |
g****t 发帖数: 31659 | 2 你压根无从比较。说不定就是谁的数据多,工程师修的好就赢 |
c******t 发帖数: 944 | 3 根本没超过RNN,FB这批作者用大3-4倍的网络来训,然后claim性能最佳,却根本不看
狗的另一篇文章。
https://arxiv.org/abs/1701.06538
看完你再比比,同样大小的网络(参数数量),RNN还是超过CNN。
我不想说FAIR的研究人员不老实,但起码不严谨,哪里超过state-of-the-art,根本没
有嘛。 |
c******t 发帖数: 944 | 4 用的是同一个benchmark,同样的训练数据,还是可比的。
【在 g****t 的大作中提到】 : 你压根无从比较。说不定就是谁的数据多,工程师修的好就赢
|
g****t 发帖数: 31659 | 5 都是攒GPU
你2000个,我3000个
揣着明白装糊涂,弄的热热闹闹
我不认为算法上有多少新创制
: 根本没超过RNN,FB这批作者用大3-4倍的网络来训,然后claim性能最佳,却根
本不看
: 狗的另一篇文章。
: https://arxiv.org/abs/1701.06538
: 看完你再比比,同样大小的网络(参数数量),RNN还是超过CNN。
: 我不想说FAIR的研究人员不老实,但起码不严谨,哪里超过state-of-the-art,
根本没
: 有嘛。
【在 c******t 的大作中提到】 : 用的是同一个benchmark,同样的训练数据,还是可比的。
|
g****t 发帖数: 31659 | 6 你有没有听说过Quine的翻译不确定性原理
: 用的是同一个benchmark,同样的训练数据,还是可比的。
【在 c******t 的大作中提到】 : 用的是同一个benchmark,同样的训练数据,还是可比的。
|
c******t 发帖数: 944 | 7 不能说没有。
但是CNN的问题远远没有解决。首先句子长度有限,跟早期LSTM一样,但是LSTM已经解
决了。
虽然我觉得FAIR这班人为了搞大新闻有点不择手段(除了LeCun靠谱),但是CNN我认为
还是未来的方向。LSTM的问题是训练慢,CNN并行起来超级快。并行化是趋势。虽然这
篇吹过头了,但是很可能是一个巨大突破的开始。
【在 g****t 的大作中提到】 : 都是攒GPU : 你2000个,我3000个 : 揣着明白装糊涂,弄的热热闹闹 : 我不认为算法上有多少新创制 : : : 根本没超过RNN,FB这批作者用大3-4倍的网络来训,然后claim性能最佳,却根 : 本不看 : : 狗的另一篇文章。 : : https://arxiv.org/abs/1701.06538 : : 看完你再比比,同样大小的网络(参数数量),RNN还是超过CNN。
|
c******t 发帖数: 944 | 8 你可以先看看评测方法。这跟翻译是否不确定没有关系。
【在 g****t 的大作中提到】 : 你有没有听说过Quine的翻译不确定性原理 : : : 用的是同一个benchmark,同样的训练数据,还是可比的。 :
|
|
c******t 发帖数: 944 | 9 Decode的时候还是一个个词出,前一个词的hidden layer会feed到后一个词里去。其实
我觉得是脱裤子放屁,老早就有人提过Dilated CNN做encoder, LSTM/GRU做decoder。
overfit
【在 s********k 的大作中提到】 : 按照我的理解,其实就是用stacked CNN,前面提取局部句子信息,后面的CNN layer提 : 取更长距离相对全局文章信息,来模拟RNN的可以处理任意长度句子。这样好处是训练 : 起来估计容易点,可以并行,参数少,但是感觉没有时间序列信息,还是容易overfit : 啊。FB用了啥trick?
|
g****t 发帖数: 31659 | 10 我前两天花时间看了一天文献
没看到什么新东西
如下是我的浅见:
都是启发式猜个策略
做出来效果不错类型的实验报告
这些东西朝不保夕
我不认为有多大意义
增广见闻罢了
不见得这些文章不好
我是无法分辨这些文章哪个更好
你有数据
有几千GPU
总能出新文章的
这就好比杨振宁早就说
高能物理完蛋了一样
到了比拼装备的阶段
没什么机会给散户了
要我说
就不要浪费时间看算法的细枝末节了
我不认为会有算法的突破
不如检查novel的应用领域
这个可以有戏
: 你可以先看看评测方法。这跟翻译是否不确定没有关系。
【在 c******t 的大作中提到】 : Decode的时候还是一个个词出,前一个词的hidden layer会feed到后一个词里去。其实 : 我觉得是脱裤子放屁,老早就有人提过Dilated CNN做encoder, LSTM/GRU做decoder。 : : overfit
|
|
|
c******t 发帖数: 944 | 11 对于拿工资的马工,当然是指哪打哪。
【在 g****t 的大作中提到】 : 我前两天花时间看了一天文献 : 没看到什么新东西 : 如下是我的浅见: : 都是启发式猜个策略 : 做出来效果不错类型的实验报告 : 这些东西朝不保夕 : 我不认为有多大意义 : 增广见闻罢了 : 不见得这些文章不好 : 我是无法分辨这些文章哪个更好
|
s********k 发帖数: 6180 | 12 CNN用的参数肯定多,如果不比较参数多少,只看准确率呢?
【在 c******t 的大作中提到】 : 根本没超过RNN,FB这批作者用大3-4倍的网络来训,然后claim性能最佳,却根本不看 : 狗的另一篇文章。 : https://arxiv.org/abs/1701.06538 : 看完你再比比,同样大小的网络(参数数量),RNN还是超过CNN。 : 我不想说FAIR的研究人员不老实,但起码不严谨,哪里超过state-of-the-art,根本没 : 有嘛。
|
s********k 发帖数: 6180 | 13 "跟早期LSTM一样,但是LSTM已经解决了?"大牛说说LSTM怎么解决的?还是说早期的RNN
,然后被LSTM解决?
【在 c******t 的大作中提到】 : 不能说没有。 : 但是CNN的问题远远没有解决。首先句子长度有限,跟早期LSTM一样,但是LSTM已经解 : 决了。 : 虽然我觉得FAIR这班人为了搞大新闻有点不择手段(除了LeCun靠谱),但是CNN我认为 : 还是未来的方向。LSTM的问题是训练慢,CNN并行起来超级快。并行化是趋势。虽然这 : 篇吹过头了,但是很可能是一个巨大突破的开始。
|
s********k 发帖数: 6180 | 14 倒不是说一定要算法创新,只是觉得CNN虽然能近似模拟RNN,按道理不会比LSTM做得更
好啊?狗家也有足够的机器堆啊,还是狗家已经对这样翻译这种事情不上心了?
【在 g****t 的大作中提到】 : 都是攒GPU : 你2000个,我3000个 : 揣着明白装糊涂,弄的热热闹闹 : 我不认为算法上有多少新创制 : : : 根本没超过RNN,FB这批作者用大3-4倍的网络来训,然后claim性能最佳,却根 : 本不看 : : 狗的另一篇文章。 : : https://arxiv.org/abs/1701.06538 : : 看完你再比比,同样大小的网络(参数数量),RNN还是超过CNN。
|
s********k 发帖数: 6180 | 15 CNN的句子长度是不是可以用stacked CNN layer解决,一个个CNN layer逐渐提取越来
越长的全局信息,我觉得CNN不好办的是没有时序信息加进去,理论上是不是更容易
overfit
【在 c******t 的大作中提到】 : 不能说没有。 : 但是CNN的问题远远没有解决。首先句子长度有限,跟早期LSTM一样,但是LSTM已经解 : 决了。 : 虽然我觉得FAIR这班人为了搞大新闻有点不择手段(除了LeCun靠谱),但是CNN我认为 : 还是未来的方向。LSTM的问题是训练慢,CNN并行起来超级快。并行化是趋势。虽然这 : 篇吹过头了,但是很可能是一个巨大突破的开始。
|
c******t 发帖数: 944 | 16 看前文,并没有比LSTM更好,狗之前有文章,前面我提到了,更大的LSTM才是state of
art,但是FAIR要装看不见那也是没办法。
【在 s********k 的大作中提到】 : 倒不是说一定要算法创新,只是觉得CNN虽然能近似模拟RNN,按道理不会比LSTM做得更 : 好啊?狗家也有足够的机器堆啊,还是狗家已经对这样翻译这种事情不上心了?
|
c******t 发帖数: 944 | 17 就是这么做的,但是decoding如果也是CNN的话,不好控制输出长度。比较自然的办法
是CNN encoding + RNN decoding。看狗脸谁先做到更好吧。
【在 s********k 的大作中提到】 : CNN的句子长度是不是可以用stacked CNN layer解决,一个个CNN layer逐渐提取越来 : 越长的全局信息,我觉得CNN不好办的是没有时序信息加进去,理论上是不是更容易 : overfit
|
s********k 发帖数: 6180 | 18 不太清楚CNN encoding之后的抽象信息对于RNN来说意义是一样的吗?
【在 c******t 的大作中提到】 : 就是这么做的,但是decoding如果也是CNN的话,不好控制输出长度。比较自然的办法 : 是CNN encoding + RNN decoding。看狗脸谁先做到更好吧。
|
c******t 发帖数: 944 | 19 额,为何不一样呢?不都是backprop出来的...
【在 s********k 的大作中提到】 : 不太清楚CNN encoding之后的抽象信息对于RNN来说意义是一样的吗?
|
s********k 发帖数: 6180 | 20 我理解CNN encoding就是说先用CNN去训练一个类似embedding space,然后RNN decode
?是这个意思?
【在 c******t 的大作中提到】 : 额,为何不一样呢?不都是backprop出来的...
|
|
|
c******t 发帖数: 944 | 21 整个输出feed到RNN啊
decode
【在 s********k 的大作中提到】 : 我理解CNN encoding就是说先用CNN去训练一个类似embedding space,然后RNN decode : ?是这个意思?
|
s********k 发帖数: 6180 | 22 哦,就是CNN的输出不接FC layer,接上RNN?这样的参数岂不是更多?
【在 c******t 的大作中提到】 : 整个输出feed到RNN啊 : : decode
|
c******t 发帖数: 944 | 23 Encoder哪有直接fc的,rnn encoder也都是接rnn decoder。
【在 s********k 的大作中提到】 : 哦,就是CNN的输出不接FC layer,接上RNN?这样的参数岂不是更多?
|