由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Go版 - alphago的价值判断
相关主题
无需神化alpha go谈谈AlphaGo的算法 【转载】
我觉得大家把alpha go想的太复杂了阿狗多了一天时间处理数据
Nature重磅封面:谷歌人工智能击败欧洲围棋冠军作为一个程序员想开去
咱板上开个赌局吧技术贴(懂围棋的请进)
喆理围棋---关于Google人工智能围棋的访谈猜一下几个AlphaGo崩了的原因
神经网络的结构决定了他的极限从第四盘棋看狗狗的弱点
神猪在围棋TV表演让九子用default在笔记本上欺负天顶我买了15手李世石赢
本人弈城五段给大家分析一下吧周志华:关于强化学习策略
相关话题的讨论汇总
话题: 赢面话题: alphago话题: interval话题: confidence话题: 不会
进入Go版参与讨论
1 (共1页)
m*****n
发帖数: 3644
1
都说alpha只管赢棋,不管赢多少。所以优势情况下可能乱下。
我在想,会不会有这种情况出现?
选择A,75%的赢面,赢10目。confidence interval [74%,76%]
选择B,80%的赢面,赢1目。confidence interval [70%,90%]
那会不会选择A?
h*h
发帖数: 27852
2
B
n*****t
发帖数: 22014
3
不会是简单的 a > b ? a : b

【在 m*****n 的大作中提到】
: 都说alpha只管赢棋,不管赢多少。所以优势情况下可能乱下。
: 我在想,会不会有这种情况出现?
: 选择A,75%的赢面,赢10目。confidence interval [74%,76%]
: 选择B,80%的赢面,赢1目。confidence interval [70%,90%]
: 那会不会选择A?

m*****n
发帖数: 3644
4
数字没选好。B dominates A.现在修改后呢?B的Expected 赢面大,但是估值误差大。
A的expected赢面小,但是很精确
M*T
发帖数: 123
5
狗和人下的时候,我能理解赢面概率的概念。例如这手棋赢面80%,就是说下完以后,
人类所有回应里面,80%的走法都会导向输局,剩下20%的走法才会导向胜局。
狗和狗下的时候,这个概率我就有点糊涂了。对面是狗的话,即便这手胜率再大,它会
不知道那个20%怎么走?它肯定会走那20%的吧?
I***e
发帖数: 1136
6
这个概率应该不是这么简单。感觉应该是minimax和DP结合一起算出来的一个score。
n*****t
发帖数: 22014
7
狗不知道对面的是谁,胜率始终是左右互搏。至于为什么是个百分比,因为 30 手以后
狗自己也算不清,只是判断各种变化后点目结果。

【在 M*T 的大作中提到】
: 狗和人下的时候,我能理解赢面概率的概念。例如这手棋赢面80%,就是说下完以后,
: 人类所有回应里面,80%的走法都会导向输局,剩下20%的走法才会导向胜局。
: 狗和狗下的时候,这个概率我就有点糊涂了。对面是狗的话,即便这手胜率再大,它会
: 不知道那个20%怎么走?它肯定会走那20%的吧?

m*****n
发帖数: 3644
8
既然30手以后算不清,那就由confindence interval.盘面优势10目肯定比优势1目要好
。优势一目,谁知道什么时候对方走出计算机没看见的棋,扳回去了

【在 n*****t 的大作中提到】
: 狗不知道对面的是谁,胜率始终是左右互搏。至于为什么是个百分比,因为 30 手以后
: 狗自己也算不清,只是判断各种变化后点目结果。

r******i
发帖数: 1445
9
概率是用另外一个快一点(但准确度低一点)的神经网络下1000盘总结出来的。如果每
次模拟的sample size一样大,置信空间是一样的。
值神经网络也能给出一个概率,这个是训练出来的。
据那篇nature文章讲,取这两个值的平均数效果最好。

【在 I***e 的大作中提到】
: 这个概率应该不是这么简单。感觉应该是minimax和DP结合一起算出来的一个score。
I******n
发帖数: 5952
10
建议你看看姓田的那篇文章

【在 m*****n 的大作中提到】
: 都说alpha只管赢棋,不管赢多少。所以优势情况下可能乱下。
: 我在想,会不会有这种情况出现?
: 选择A,75%的赢面,赢10目。confidence interval [74%,76%]
: 选择B,80%的赢面,赢1目。confidence interval [70%,90%]
: 那会不会选择A?

相关主题
神经网络的结构决定了他的极限谈谈AlphaGo的算法 【转载】
神猪在围棋TV表演让九子用default在笔记本上欺负天顶阿狗多了一天时间处理数据
本人弈城五段给大家分析一下吧作为一个程序员想开去
进入Go版参与讨论
D******n
发帖数: 2965
11
我怀疑他们会有confidence interval的估计. 如果他们考虑问题太严谨,估计这个项
目也不会这么成功。要跟学术街一样,估计停留在净扯皮阶段了。如果没有CI,那选B
是妥妥的。
其实你这样的问题就是典型的学术扯皮类型的,理论上有趣,实践中有害

【在 m*****n 的大作中提到】
: 都说alpha只管赢棋,不管赢多少。所以优势情况下可能乱下。
: 我在想,会不会有这种情况出现?
: 选择A,75%的赢面,赢10目。confidence interval [74%,76%]
: 选择B,80%的赢面,赢1目。confidence interval [70%,90%]
: 那会不会选择A?

o********s
发帖数: 971
12
B
r***k
发帖数: 13586
13
所谓的赢10目本身应该就是一个期望值了,它是每种结果的输赢目数乘以该结果的概率
最后相加。而所谓的赢面,则是一个赢了为1输了为0的示性函数的期望。正常逻辑下,
电脑是不会考虑赢多少目,只会优化赢面的。这其实也就是说,在自己明显优势的情况
下,电脑一定会采取比较保守的策略。
n*****t
发帖数: 22014
14
风险于机遇共存

【在 m*****n 的大作中提到】
: 既然30手以后算不清,那就由confindence interval.盘面优势10目肯定比优势1目要好
: 。优势一目,谁知道什么时候对方走出计算机没看见的棋,扳回去了

m*****n
发帖数: 3644
15
要用Value at risk 管理。5%的极端情况下,最多能亏n目。alpha要保证亏了这n目,
还能赢,才是真正的赢
d****v
发帖数: 458
16
这个对人的心理是压力山大啊
当你看到狗的一步缓棋的时候,你先想到的是,我去,我要输给狗了
D******n
发帖数: 2965
17
要是狗狗把价值函数的表和计算能力交给我,我就故意下一步缓棋吓吓人。所以说,人
还是有机器没有的招。只不过这些招只有对人管用。象诸葛亮的空城计,估计狗狗就长
驱直入了。

【在 d****v 的大作中提到】
: 这个对人的心理是压力山大啊
: 当你看到狗的一步缓棋的时候,你先想到的是,我去,我要输给狗了

n******7
发帖数: 12463
18
同意
很多时候用这个expect value就很好了
要model个distribution出来看起来严谨了
其实加入的噪音可能更多
我现在正头疼这个
为了发文章 还不得不这么搞

B

【在 D******n 的大作中提到】
: 我怀疑他们会有confidence interval的估计. 如果他们考虑问题太严谨,估计这个项
: 目也不会这么成功。要跟学术街一样,估计停留在净扯皮阶段了。如果没有CI,那选B
: 是妥妥的。
: 其实你这样的问题就是典型的学术扯皮类型的,理论上有趣,实践中有害

D******n
发帖数: 2965
19
没办法阿,有时候想想还是去工业界干得了,省得浪费生命扯皮。

【在 n******7 的大作中提到】
: 同意
: 很多时候用这个expect value就很好了
: 要model个distribution出来看起来严谨了
: 其实加入的噪音可能更多
: 我现在正头疼这个
: 为了发文章 还不得不这么搞
:
: B

n******7
发帖数: 12463
20
确实
大部分时候再做无用功,pay的也不高,不知道折腾个啥
一辈子能做个alphaGO这样的东西,比发一陀论文都有意义多了

【在 D******n 的大作中提到】
: 没办法阿,有时候想想还是去工业界干得了,省得浪费生命扯皮。
1 (共1页)
进入Go版参与讨论
相关主题
周志华:关于强化学习策略喆理围棋---关于Google人工智能围棋的访谈
王垠:AlphaGo与人工智能zz神经网络的结构决定了他的极限
版上高手期待一下吧。过几个月就能和alphago下棋了神猪在围棋TV表演让九子用default在笔记本上欺负天顶
免费讲座:AlphaGo -- 一场人工智能挑战人类围棋冠军的战斗 (转载)本人弈城五段给大家分析一下吧
无需神化alpha go谈谈AlphaGo的算法 【转载】
我觉得大家把alpha go想的太复杂了阿狗多了一天时间处理数据
Nature重磅封面:谷歌人工智能击败欧洲围棋冠军作为一个程序员想开去
咱板上开个赌局吧技术贴(懂围棋的请进)
相关话题的讨论汇总
话题: 赢面话题: alphago话题: interval话题: confidence话题: 不会