由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 自己的一个universal density estimator
相关主题
Facebook的用CNN作翻译怎么性能超过RNN的我来科普下深度学习的应用范围吧
怎么把 integer 转为 multi-byte integer format?业余时间想做一个project
大家来看看这个纯Javascript实现的QR二维码生成器计算和学习根本就是两回事
求教, python 对于很奇怪的字符的encoding 怎么处理?LSTM 是不是坨屎?
用react的试过中文么?想上手deep learning的看过来
encode high cardinality categorical features对于现在machine learning有个问题,请指教
问个GSL的问题CNN做NLP工程多吗?
问几个神经网络的问题为什么grid search伤人品
相关话题的讨论汇总
话题: density话题: estimator话题: br话题: universal话题: cifar
进入Programming版参与讨论
1 (共1页)
l******x
发帖数: 1
1
我自己主要用来做speech modeling的。在mnist, cifar上测了一下,应该比现在的方
法好些,就整理了一下,放在这里
https://github.com/lixilinx/TriNet4PdfEst
https://arxiv.org/pdf/2004.14593.pdf
感觉做这种hardcore的density estimation不是很流行,不知道本版有没有人做,大部
分都是像GAN,variational autoencoder这些绕着走的方法。
g****t
发帖数: 31659
2
Thanks for sharing.
[1]I would like to provide a ref paper for these type of universal estimator
theorems (which is stated in the standard functional Epilson-N language ).
https://stats.stackexchange.com/questions/376275/is-there-a-universal-
approximation-theorem-for-monotone-functions
[2] Two additional questions:
(i)
Had you tried to apply the triangle structured mono neural network to
Imagnet?
https://dawn.cs.stanford.edu/benchmark/ImageNet/train.html
(ii)
As I remembered, previously, you shared some work on the pre-condition
matrix training approach. Is there any reason that prevents you from
applying
the your previous pre-condition training method? Any thoughts?

【在 l******x 的大作中提到】
: 我自己主要用来做speech modeling的。在mnist, cifar上测了一下,应该比现在的方
: 法好些,就整理了一下,放在这里
: https://github.com/lixilinx/TriNet4PdfEst
: https://arxiv.org/pdf/2004.14593.pdf
: 感觉做这种hardcore的density estimation不是很流行,不知道本版有没有人做,大部
: 分都是像GAN,variational autoencoder这些绕着走的方法。

x****u
发帖数: 44466
3
友提:看懂人家写的什么再评论。。。

estimator

【在 g****t 的大作中提到】
: Thanks for sharing.
: [1]I would like to provide a ref paper for these type of universal estimator
: theorems (which is stated in the standard functional Epilson-N language ).
: https://stats.stackexchange.com/questions/376275/is-there-a-universal-
: approximation-theorem-for-monotone-functions
: [2] Two additional questions:
: (i)
: Had you tried to apply the triangle structured mono neural network to
: Imagnet?
: https://dawn.cs.stanford.edu/benchmark/ImageNet/train.html

l******x
发帖数: 1
4
Thanks。 看了下Monotone and Partially Monotone Neural Networks的paper,他们
要求所有的系数都是正的,这个约束也太强了。而且即便按照他们的定义,不管input
的维数多大,一个hidden layer应该就够了。
例如input是3维的:x1, x2, x3。按照我定义的monotonic network unit,输出y1, y2
, y3分别对x1, x2, x3单调,这样和y1+y2+y3便是满足那片paper里定义的一个单调标
量函数。这样不管input维数多大,一个hidden layer即可。
l******x
发帖数: 1
5
如果不让那个monotonic network unit里面的参数以某种方式公用,到imagenet这个维
数memory很快就爆了。怎么公用最有效我也不知道,最后大概会扯到CNN上。
为了节省memory,我把不同含义的参数放在一个矩阵里,因此那种preconditioner没有
意义了。由于memory消耗过大,neural autoregressive flow从来没有处理过100维以
上的density estimation问题;我的方法也只能处理到几千维的density estimation,
再往上大概也很难,memory footprint太大(即便是高斯混合模型,存几个那么大的
covariance matrices就不得了)。
l*******m
发帖数: 1096
6
很牛。不过你应该看一下有很多基于normalizing flow的文章。我似乎记得cifar可以
做到3左右

:我自己主要用来做speech modeling的。在mnist, cifar上测了一下,应该比现在的方
:法好些,就整理了一下,放在这里
l******x
发帖数: 1
7
在universal density estimator这类里,TAN是我知道的做比较好的,cifar上3.98。
我所知道的比较有限。不知道有没有更好的。
当然,如果只局限于image,会比这个好很多,用CNN应该不难做到3.4。我的方法在训
练集上也可以接近这个number,只是参数太多,overfit了,test集上performance就下
来了。
g****t
发帖数: 31659
8
我没ieee账号。看不了那个文章。不过那个结论我有印象。他的定理是否可以直接推论
出你的这个网络是universal estimator ?
你的命题有些命题的given条件似乎写成了assumptions。不是太容易严格理清。


: Thanks。 看了下Monotone and Partially Monotone Neural Networks的
paper
,他们

: 要求所有的系数都是正的,这个约束也太强了。而且即便按照他们的定义
,不管
input

: 的维数多大,一个hidden layer应该就够了。

: 例如input是3维的:x1, x2, x3。按照我定义的monotonic network unit
,输出
y1, y2

: , y3分别对x1, x2, x3单调,这样和y1 y2 y3便是满足那片paper里定义
的一个
单调标

: 量函数。这样不管input维数多大,一个hidden layer即可。



【在 l******x 的大作中提到】
: 在universal density estimator这类里,TAN是我知道的做比较好的,cifar上3.98。
: 我所知道的比较有限。不知道有没有更好的。
: 当然,如果只局限于image,会比这个好很多,用CNN应该不难做到3.4。我的方法在训
: 练集上也可以接近这个number,只是参数太多,overfit了,test集上performance就下
: 来了。

g****t
发帖数: 31659
9
就是说你之前提到的那种二阶法,因为实现上数组的安排不一样,所以用不上?我理解
的正确吗?
我比较关心二阶法。


: 如果不让那个monotonic network unit里面的参数以某种方式公用,到imagenet
这个维

: 数memory很快就爆了。怎么公用最有效我也不知道,最后大概会扯到CNN上。

: 为了节省memory,我把不同含义的参数放在一个矩阵里,因此那种
preconditioner没有

: 意义了。由于memory消耗过大,neural autoregressive flow从来没有处理过
100维以

: 上的density estimation问题;我的方法也只能处理到几千维的density
estimation,

: 再往上大概也很难,memory footprint太大(即便是高斯混合模型,存几个那么
大的

: covariance matrices就不得了)。



【在 l******x 的大作中提到】
: 在universal density estimator这类里,TAN是我知道的做比较好的,cifar上3.98。
: 我所知道的比较有限。不知道有没有更好的。
: 当然,如果只局限于image,会比这个好很多,用CNN应该不难做到3.4。我的方法在训
: 练集上也可以接近这个number,只是参数太多,overfit了,test集上performance就下
: 来了。

g****t
发帖数: 31659
10
现在density estimator或者类似的思路还是做不了imagnet?
都是到cifar 10这个规模?这是我最关心的问题。


: 很牛。不过你应该看一下有很多基于normalizing flow的文章。我似乎记得
cifar可以

: 做到3左右

: :我自己主要用来做speech modeling的。在mnist, cifar上测了一下,
应该比
现在的方

: :法好些,就整理了一下,放在这里



【在 l*******m 的大作中提到】
: 很牛。不过你应该看一下有很多基于normalizing flow的文章。我似乎记得cifar可以
: 做到3左右
:
: :我自己主要用来做speech modeling的。在mnist, cifar上测了一下,应该比现在的方
: :法好些,就整理了一下,放在这里

相关主题
问个GSL的问题业余时间想做一个project
问几个神经网络的问题计算和学习根本就是两回事
我来科普下深度学习的应用范围吧LSTM 是不是坨屎?
进入Programming版参与讨论
g****t
发帖数: 31659
11
你继续蹲地上吐吐沫去。楼主跟我一个专业的。

【在 x****u 的大作中提到】
: 友提:看懂人家写的什么再评论。。。
:
: estimator

l******x
发帖数: 1
12
大概是推不出来。那个要求除了bias外都是正的系数,而且网络的depth至少和输入的
维数一样多,这个太过了。cifar就需要3*32*32=3072层!最后出来的还是标量。
是的,数组这么排的话那些sparse preconditioner用不了。而且memory这么紧张,算
Hessian-vector product还需要额外的memory开销,这大概不是个好方向。
imagenet这么搞肯定不行,维数到了3*224*224,存一个covariance matrix就需要1e10
这个量级的memory!最简单的方法就是像variational audoencoder那样,用CNN
encoder将image转到一个低维的latent space里来估计一个它的relative entropy的
bound。大部分有特定format的数据都可以这样做,比如sentence,用一个RNN-encoder
转到latent space里,这时便可用universal的density estimator.
x****u
发帖数: 44466
13
你问先自行搜一下答案会死?

【在 g****t 的大作中提到】
: 你继续蹲地上吐吐沫去。楼主跟我一个专业的。
g****t
发帖数: 31659
14
density估计出来后,可以做监督学习吧?准确率CIFAR你感觉能有多少?
我用chebyshev多项式估计density,在我laptop上性能稳定。准确率差CNN很多。

1e10
encoder

【在 l******x 的大作中提到】
: 大概是推不出来。那个要求除了bias外都是正的系数,而且网络的depth至少和输入的
: 维数一样多,这个太过了。cifar就需要3*32*32=3072层!最后出来的还是标量。
: 是的,数组这么排的话那些sparse preconditioner用不了。而且memory这么紧张,算
: Hessian-vector product还需要额外的memory开销,这大概不是个好方向。
: imagenet这么搞肯定不行,维数到了3*224*224,存一个covariance matrix就需要1e10
: 这个量级的memory!最简单的方法就是像variational audoencoder那样,用CNN
: encoder将image转到一个低维的latent space里来估计一个它的relative entropy的
: bound。大部分有特定format的数据都可以这样做,比如sentence,用一个RNN-encoder
: 转到latent space里,这时便可用universal的density estimator.

l******x
发帖数: 1
15
对于unsupervised learning, conditional density可能比较有用些,可以帮助找到些
有用的feature。
对于p(x|y),monotonic unit里的bias换成y的函数便可学习到conditional density。
这可能比现在流行的mutual information找feature要better conditioned。Mutual
information估计can be ill-conditioned,但mutual information的梯度和
conditional density的梯度是一个东西:
I(x,y) = E[log( p(x,y)/p(x)/p(y) )] = E[log p(x|y)] - E[log p(x)]
这里E[log p(x)]是一个常数。因此对于unsupervised learning来讲,conditional
density可能有些意义。
x****u
发帖数: 44466
16
我只是略知一点生成模型,感觉有个大风向,数学上漂亮的结果都不漂亮,数学上和结
果上都漂亮的存在性问题又无法求解
隐约感觉这个问题深层可能与NPC相关

【在 l******x 的大作中提到】
: 对于unsupervised learning, conditional density可能比较有用些,可以帮助找到些
: 有用的feature。
: 对于p(x|y),monotonic unit里的bias换成y的函数便可学习到conditional density。
: 这可能比现在流行的mutual information找feature要better conditioned。Mutual
: information估计can be ill-conditioned,但mutual information的梯度和
: conditional density的梯度是一个东西:
: I(x,y) = E[log( p(x,y)/p(x)/p(y) )] = E[log p(x|y)] - E[log p(x)]
: 这里E[log p(x)]是一个常数。因此对于unsupervised learning来讲,conditional
: density可能有些意义。

l******x
发帖数: 1
17
由数据到density或变成Gaussian noise这个方向问题不大。density可以用来做很多事
情。
由Gaussian noise到数据这个方向大概是ill posed problem。文本语音图像这些数据
有明显的clustering的结构,在变成Gaussian noise过程中,很多cluster挨在一起,
Jacobian在那些地方上几乎都是0,因此Gaussian noise到有意义的数据这个方向很病
态。很难有elegant, complete的solution.
c*******v
发帖数: 2599
18
我熟悉正交多项式方法估计density以及一些力学应用。就是你文章介绍中提到的那种
方法。所以很高兴知道其他方法的进展。再次感谢过来贴文。
在以前,ieee signal and processing其实是个sound杂志。我认为各种新的AI计算方
法在力
学方面的应用,是值得期待的。局限在视觉图片有些浪费了。
另外且不说性能好坏,力学计算软件,需要新的力量来冲击,不然几十年不进步。
我以前圈子的学术带头人去世了。不然我会找他谈谈,美国机械学会需要一
个专门阵地
,来发展神学。现在我印象里只有增刊。


: 由数据到density或变成Gaussian noise这个方向问题不大。density可以
用来做
很多事

: 情。

: 由Gaussian noise到数据这个方向大概是ill posed problem。文本语音
图像这
些数据

: 有明显的clustering的结构,在变成Gaussian noise过程中,很多
cluster挨在
一起,

: Jacobian在那些地方上几乎都是0,因此Gaussian noise到有意义的数据
这个方
向很病

: 态。很难有elegant, complete的solution.



【在 l******x 的大作中提到】
: 由数据到density或变成Gaussian noise这个方向问题不大。density可以用来做很多事
: 情。
: 由Gaussian noise到数据这个方向大概是ill posed problem。文本语音图像这些数据
: 有明显的clustering的结构,在变成Gaussian noise过程中,很多cluster挨在一起,
: Jacobian在那些地方上几乎都是0,因此Gaussian noise到有意义的数据这个方向很病
: 态。很难有elegant, complete的solution.

1 (共1页)
进入Programming版参与讨论
相关主题
groovy 不错啊用react的试过中文么?
[bssd] Neural network as a programming languageencode high cardinality categorical features
深度学习对时间序列数据有什么好办法吗?问个GSL的问题
cnn大牛们,这种特征如何提取呢?问几个神经网络的问题
Facebook的用CNN作翻译怎么性能超过RNN的我来科普下深度学习的应用范围吧
怎么把 integer 转为 multi-byte integer format?业余时间想做一个project
大家来看看这个纯Javascript实现的QR二维码生成器计算和学习根本就是两回事
求教, python 对于很奇怪的字符的encoding 怎么处理?LSTM 是不是坨屎?
相关话题的讨论汇总
话题: density话题: estimator话题: br话题: universal话题: cifar