m*****n 发帖数: 3644 | 1 都说alpha只管赢棋,不管赢多少。所以优势情况下可能乱下。
我在想,会不会有这种情况出现?
选择A,75%的赢面,赢10目。confidence interval [74%,76%]
选择B,80%的赢面,赢1目。confidence interval [70%,90%]
那会不会选择A? |
h*h 发帖数: 27852 | |
n*****t 发帖数: 22014 | 3 不会是简单的 a > b ? a : b
【在 m*****n 的大作中提到】 : 都说alpha只管赢棋,不管赢多少。所以优势情况下可能乱下。 : 我在想,会不会有这种情况出现? : 选择A,75%的赢面,赢10目。confidence interval [74%,76%] : 选择B,80%的赢面,赢1目。confidence interval [70%,90%] : 那会不会选择A?
|
m*****n 发帖数: 3644 | 4 数字没选好。B dominates A.现在修改后呢?B的Expected 赢面大,但是估值误差大。
A的expected赢面小,但是很精确 |
M*T 发帖数: 123 | 5 狗和人下的时候,我能理解赢面概率的概念。例如这手棋赢面80%,就是说下完以后,
人类所有回应里面,80%的走法都会导向输局,剩下20%的走法才会导向胜局。
狗和狗下的时候,这个概率我就有点糊涂了。对面是狗的话,即便这手胜率再大,它会
不知道那个20%怎么走?它肯定会走那20%的吧? |
I***e 发帖数: 1136 | 6 这个概率应该不是这么简单。感觉应该是minimax和DP结合一起算出来的一个score。 |
n*****t 发帖数: 22014 | 7 狗不知道对面的是谁,胜率始终是左右互搏。至于为什么是个百分比,因为 30 手以后
狗自己也算不清,只是判断各种变化后点目结果。
【在 M*T 的大作中提到】 : 狗和人下的时候,我能理解赢面概率的概念。例如这手棋赢面80%,就是说下完以后, : 人类所有回应里面,80%的走法都会导向输局,剩下20%的走法才会导向胜局。 : 狗和狗下的时候,这个概率我就有点糊涂了。对面是狗的话,即便这手胜率再大,它会 : 不知道那个20%怎么走?它肯定会走那20%的吧?
|
m*****n 发帖数: 3644 | 8 既然30手以后算不清,那就由confindence interval.盘面优势10目肯定比优势1目要好
。优势一目,谁知道什么时候对方走出计算机没看见的棋,扳回去了
【在 n*****t 的大作中提到】 : 狗不知道对面的是谁,胜率始终是左右互搏。至于为什么是个百分比,因为 30 手以后 : 狗自己也算不清,只是判断各种变化后点目结果。
|
r******i 发帖数: 1445 | 9 概率是用另外一个快一点(但准确度低一点)的神经网络下1000盘总结出来的。如果每
次模拟的sample size一样大,置信空间是一样的。
值神经网络也能给出一个概率,这个是训练出来的。
据那篇nature文章讲,取这两个值的平均数效果最好。
【在 I***e 的大作中提到】 : 这个概率应该不是这么简单。感觉应该是minimax和DP结合一起算出来的一个score。
|
I******n 发帖数: 5952 | 10 建议你看看姓田的那篇文章
【在 m*****n 的大作中提到】 : 都说alpha只管赢棋,不管赢多少。所以优势情况下可能乱下。 : 我在想,会不会有这种情况出现? : 选择A,75%的赢面,赢10目。confidence interval [74%,76%] : 选择B,80%的赢面,赢1目。confidence interval [70%,90%] : 那会不会选择A?
|
|
|
D******n 发帖数: 2965 | 11 我怀疑他们会有confidence interval的估计. 如果他们考虑问题太严谨,估计这个项
目也不会这么成功。要跟学术街一样,估计停留在净扯皮阶段了。如果没有CI,那选B
是妥妥的。
其实你这样的问题就是典型的学术扯皮类型的,理论上有趣,实践中有害
【在 m*****n 的大作中提到】 : 都说alpha只管赢棋,不管赢多少。所以优势情况下可能乱下。 : 我在想,会不会有这种情况出现? : 选择A,75%的赢面,赢10目。confidence interval [74%,76%] : 选择B,80%的赢面,赢1目。confidence interval [70%,90%] : 那会不会选择A?
|
o********s 发帖数: 971 | |
r***k 发帖数: 13586 | 13 所谓的赢10目本身应该就是一个期望值了,它是每种结果的输赢目数乘以该结果的概率
最后相加。而所谓的赢面,则是一个赢了为1输了为0的示性函数的期望。正常逻辑下,
电脑是不会考虑赢多少目,只会优化赢面的。这其实也就是说,在自己明显优势的情况
下,电脑一定会采取比较保守的策略。 |
n*****t 发帖数: 22014 | 14 风险于机遇共存
【在 m*****n 的大作中提到】 : 既然30手以后算不清,那就由confindence interval.盘面优势10目肯定比优势1目要好 : 。优势一目,谁知道什么时候对方走出计算机没看见的棋,扳回去了
|
m*****n 发帖数: 3644 | 15 要用Value at risk 管理。5%的极端情况下,最多能亏n目。alpha要保证亏了这n目,
还能赢,才是真正的赢 |
d****v 发帖数: 458 | 16 这个对人的心理是压力山大啊
当你看到狗的一步缓棋的时候,你先想到的是,我去,我要输给狗了 |
D******n 发帖数: 2965 | 17 要是狗狗把价值函数的表和计算能力交给我,我就故意下一步缓棋吓吓人。所以说,人
还是有机器没有的招。只不过这些招只有对人管用。象诸葛亮的空城计,估计狗狗就长
驱直入了。
【在 d****v 的大作中提到】 : 这个对人的心理是压力山大啊 : 当你看到狗的一步缓棋的时候,你先想到的是,我去,我要输给狗了
|
n******7 发帖数: 12463 | 18 同意
很多时候用这个expect value就很好了
要model个distribution出来看起来严谨了
其实加入的噪音可能更多
我现在正头疼这个
为了发文章 还不得不这么搞
B
【在 D******n 的大作中提到】 : 我怀疑他们会有confidence interval的估计. 如果他们考虑问题太严谨,估计这个项 : 目也不会这么成功。要跟学术街一样,估计停留在净扯皮阶段了。如果没有CI,那选B : 是妥妥的。 : 其实你这样的问题就是典型的学术扯皮类型的,理论上有趣,实践中有害
|
D******n 发帖数: 2965 | 19 没办法阿,有时候想想还是去工业界干得了,省得浪费生命扯皮。
【在 n******7 的大作中提到】 : 同意 : 很多时候用这个expect value就很好了 : 要model个distribution出来看起来严谨了 : 其实加入的噪音可能更多 : 我现在正头疼这个 : 为了发文章 还不得不这么搞 : : B
|
n******7 发帖数: 12463 | 20 确实
大部分时候再做无用功,pay的也不高,不知道折腾个啥
一辈子能做个alphaGO这样的东西,比发一陀论文都有意义多了
【在 D******n 的大作中提到】 : 没办法阿,有时候想想还是去工业界干得了,省得浪费生命扯皮。
|