第6页 - 关于mct的讨论汇总 - 话题女王

L*********4
发帖数: 883

1.78没有算到。那个地方比较宽，位置比较多，很难算全。神经网络根据以往手段估计
的都是其它普通手，AlphaGo根据估计的其它普通手算下去自己都是赢，所以就按照赢
棋的优势思维路子走了。
2.下到那个地方之后，局部没有什么好的应手，打劫的那些变化太长了，把系统算超时
了，没有时间之后选择了在浪费时间去算打劫变化之前搜到的最好手段，其实还有好多
即时的应手没有来得及搜（MCTS是个深度优先算法）。
3.白棋联络以后突然觉得自己不行了瞬间进入搅棋模式，如果看CrazyStone，就会发现
在AlphaGo乱下的时候，那时候的胜率从70%以上一下暴跌到接近0，估计AlphaGo的局势
估计也是差不多的.我其实不知道为什么会突然暴跌到接近0，按照人类观点应该还是有
的下的局面。可能他试的大多数分支里白棋都全体连回然后下面又用了很严厉的打入导
致黑棋全局除了上方两角以外完全没有空，要不就是左边一块全死（因为他的白棋太厉
害了，可能都已经看到了绝杀的手段）。所以直接瞬间进入搅棋模式开始在左下角找非
常小概率能成的劫（需要连走三手）。于是立刻大损，然后就没什么戏了。

L*********4
发帖数: 883

来自主题: Go版 - 猜一下几个AlphaGo崩了的原因

应该不是简单的程序bug。CrazyStone也有同样形势判断突然暴跌到0.可见用MCTS算法
的所有程序应该都得出了差不多的结论。

L*********4
发帖数: 883

来自主题: Go版 - 猜一下几个AlphaGo崩了的原因

价值网络不是用那个穷搜法的。价值网络是用MCTS，前面科普过，就是几个业三业五水
平的狗加一定随机性互下一直下到棋局结束然后算胜率。这个局部恐怕下对了的业五狗
极少。大部分业五狗都下错了所以导致误以为赢面还很高。

a******0
发帖数: 121

来自主题: Go版 - 从第四盘棋看狗狗的弱点

我对 Horizon Effect 的理解是：由搜索深度限制而看不到更远的事件。
AlphoGo 算法：用 Policy Network 设分枝、建一搜索树，每一枝结（node）由 Value
Network 设一价值，从每一树叶（leaf）起多次用随机下法（Monte Carlo Simulation
）把棋走到终盘，根据结果输赢反馈修改所有父母枝结的价值；最后价值底的分枝被
剪枝。基本原理与 minmax/alpha-bata 相同。
Deepmind 团队没有公开搜索树的深度，显然这由搜索时间、速度决定。但因为MCTS把
棋走到终盘，应该没有一个绝对的地平线(Horizon):地平线以外的招法完全看不到。

network

r******i
发帖数: 1445

来自主题: Go版 - 从第四盘棋看狗狗的弱点

同意你的理解。
也许对于MCTS，horizon effect是由搜索深度限制而不能精确地看到更远的事件。
回到alphago走先手自杀棋的问题上来，可能是这招先手自杀棋拖延了“精确”看到胜
率下降的搜索。
关于搜索深度，好像最大设定是40——nature文章的附表expansion threshold.
对Fan Hui的棋文章给了一个26手的主要变化图。
以此估计alphago的深度应该是20-30手。

Value
Simulation

r******i
发帖数: 1445

来自主题: Go版 - 从第四盘棋看狗狗的弱点

早期的围棋程序都是把棋盘分块处理的。这样局部算路好些，但是大局观极差，甚至下
不过初学者。
MCTS出现后，围棋程序都是整体考虑，结果局部算得又变差了。。。
谁能把这个问题解决了，也许围棋程序就完美了。

a******0
发帖数: 121

来自主题: Go版 - 从第四盘棋看狗狗的弱点

我当然是瞎猜。无从知晓 AlphaGo 如何决策。
假设AlphaGo计算出：1。双方最佳招法，赢棋几率为零；
2。有些顺序，对方走出非最佳招法，可以赢棋；很多人容易作的判断，AI会很难。
MCTS 的缺陷人们早已有研究，这盘棋是第一次 AlphaGo 露出这个破绽。
我自己就曾多次输给这种自杀式招法。
多年前，我常在网上下快棋，8分钟、不读秒，15分钟就一盘。收官时，一般只剩不到
30秒了；有时还碰到耍赖的，往自己空里放子，耗时间。我的策略是走绝对先手，立刻
把鼠标移到下一手、按键，这样对方一落子我就走出了下一手；1秒钟可以走两手。可
是有时对手知道我在抢时间，不应绝对先手、而是在自己死棋的地方自杀式损目地打吃
我，等我意识到时已落子它处，结果大片被杀。

O**l
发帖数: 12923

来自主题: Go版 - 蒙特卡罗是不是有天生缺陷？

谁他妈跟你说不可靠的
UCB是可以数学上证明converge的
你他妈当MCT是monte carlo啊

O**l
发帖数: 12923

来自主题: Go版 - 蒙特卡罗是不是有天生缺陷？

总状态空间的百万分之一
自己搜 mogo 2007的论文
你他妈MCT是啥都不知道就能在这喷真是醉了
估计围棋也不会下

s*****V
发帖数: 21731

来自主题: Go版 - 李世石吃亏在明处

没有任何阿尔法GO的有效对局信息。如果前面派几个低级别的先试试，说不定把问题暴
露清楚了，李世石再下就容易多了。MCTS只要不能全覆盖，就肯定会有盲点，人并非毫
无希望。

s*****V
发帖数: 21731

来自主题: Go版 - 写过程序的都知道

感觉MCTS的还是有严重的问题，比如simulation stage ，这个部分是跑大量的fast
simulation，但是怎么保证模拟对局是对的，围棋branchingfactor 这么高，即使跑个
1百万次也不能说明就行。围棋的问题是只要miss了一个对的就输了。

O**l
发帖数: 12923

来自主题: Go版 - 哈比斯说没用高手期局训练啊

四楼说啥了
用职业高手的棋谱就那十几万张 dcnn里面要训练的参数可能都是几十万个有个鸟用
而且bias巨大绝对over fitting到一个非常糟的一个local optima上了
dcnn的价值就是给出几十可能的走法根本不需要达到多高的段位
真正走哪个要靠MCT一步上亿次的模拟

O**l
发帖数: 12923

来自主题: Go版 - 哈比斯说没用高手期局训练啊

所谓induction 靠的是MCT
dcnn做的是prediction 给先验分布

m*******i
发帖数: 75

来自主题: Go版 - 听上去，李思思第五局策略已定？

我觉得要先捞后洗，然后逼着电脑必须屠龙才能赢。最好像第四局那样，在中腹制造出
复杂的变化，让电脑更容易出错。其实这都是我们的一厢情愿。就算李世石再现第四局
78妙手，电脑的MCTS在完全一样的局面下未必还会犯一样的愚蠢错误。我们只能说把水
尽量搅浑，让电脑和人类都看不清，这样才有机会。

m*******i
发帖数: 75

来自主题: Go版 - 听上去，李思思第五局策略已定？

我是从电脑的角度来考虑问题的。人类高手，包括李世石自己，都很清楚，78虽然妙，
但只要电脑及时收手，回头是岸，依然明显优势。但是，至少李世石直到这一手才拼出
来电脑的失误，而他在前三盘基本都是完败。说明MCTS在直线计算上确实有问题。

O**l
发帖数: 12923

来自主题: Go版 - 看大家讨论中比较少提这个 reinforcement learning

mct就是RL

a***m
发帖数: 5037

来自主题: Go版 - 看大家讨论中比较少提这个 reinforcement learning

mct 难道不是Monte-Carlo tree

a***m
发帖数: 5037

来自主题: Go版 - 看大家讨论中比较少提这个 reinforcement learning

MCT 不是搜索棋的时候用的吗
怎么能等同于学习的概念

a***m
发帖数: 5037

来自主题: Go版 - 看大家讨论中比较少提这个 reinforcement learning

Our Nature paper published on 28th January 2016, describes the technical
details behind a new approach to computer Go that combines Monte-Carlo tree
search with deep neural networks that have been trained by supervised
learning, from human expert games, and by reinforcement learning from games
of self-play.
就这句话也表明 MCT 和 RL 两个概念啊

O**l
发帖数: 12923

来自主题: Go版 - 看大家讨论中比较少提这个 reinforcement learning

MCT不是monte carlo
reinforcement learning本来就是online learning

a***m
发帖数: 5037

来自主题: Go版 - 看大家讨论中比较少提这个 reinforcement learning

MCT 是什么缩写？

O**l
发帖数: 12923

来自主题: Go版 - 看大家讨论中比较少提这个 reinforcement learning

名字没啥重要d
MCT = UCB + Monte-carlo simulation + minimax tree
属于RL的一种

O**l
发帖数: 12923

来自主题: Go版 - 看大家讨论中比较少提这个 reinforcement learning

这是MCT的原始paper
http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf
自己看看是不是RL

a***m
发帖数: 5037

来自主题: Go版 - 看大家讨论中比较少提这个 reinforcement learning

他不承认 MCT 是 Monte Carlo tree的缩写
你跟他浪费什么口水
定义都不同

t******l
发帖数: 10908

来自主题: Go版 - 看大家讨论中比较少提这个 reinforcement learning

也不一定，有些传统优化行业的算法，也是能像 MCT tree 一样凑几百万数据
的，也有事后校验工具。而且知道算法太纯的问题是不能考虑后边的实际情况。
而换到人眼，我觉得是有可能做一些估计的。
当然传统优化行业没人开支票，不会做高风险新玩意儿。不过作为一个纯计算学
问题用业余时间想想，也是有点意思。

O**l
发帖数: 12923

来自主题: Go版 - 看大家讨论中比较少提这个 reinforcement learning

这种半吊子智商低于30的真是扎堆出现啊
MCT的value和policy固定的？！！智商不高于30啊
老掉牙的书看多了真是影响智商
看不懂paper 还看不懂科普ppt吗
http://webdocs.cs.ualberta.ca/~games/go/seminar/notes/061109/uc

O**l
发帖数: 12923

来自主题: Go版 - 看大家讨论中比较少提这个 reinforcement learning

也是醉了
说了多少遍Mct的Policy就是learn
真是死鸭子嘴硬啊
还是那句话看不懂Paper 还看不懂上面的Ppt
智商低于30的玩意就不要在这扯什么什么基础了

c*****t
发帖数: 10738

来自主题: Go版 - 看大家讨论中比较少提这个 reinforcement learning

你们说的都对，AlphaGO里面先用DCNN train了个policy network, 这部分不算RL. 然
后用真正的RL方法enhance了policy network, 这部分就是deep Q-leaning。最后再加
上了MCT做search。

O**l
发帖数: 12923

来自主题: Go版 - 阿发狗片面追求胜率

对方胜率越高算的越多这个分支不选概率越小
MCT的理论上只要simulation足够可以算到所有盲点

O**l
发帖数: 12923

来自主题: Go版 - 阿发狗证明了天才和疯子就一尺之遥

其实还是dcnn有缺陷被MCT放大了
任何DCNN claim突破的领域都没100%准确的

O**l
发帖数: 12923

来自主题: Go版 - 阿发狗证明了天才和疯子就一尺之遥

理论上讲只要时间够 MCT是可以修正DCNN的先验分布的
goog的时间分配的算法上做得很糙

O**l
发帖数: 12923

来自主题: Go版 - 阿法狗第四局最终并不是输在对妙手的漏算上

狗是漏算以后假设对面也坐着一个狗
发现自己胜率为0 所以觉定瞎搅和
绝望情况下瞎搅和符合MCT的特征

t******l
发帖数: 10908

来自主题: Go版 - 阿法狗第四局最终并不是输在对妙手的漏算上

那主攻方向还是 DCNN 做的更好些。毕竟低级模块 MCT 受时间限制是天赋缺陷。

D*******r
发帖数: 2323

来自主题: Go版 - 阿法狗第四局最终并不是输在对妙手的漏算上

dcnn选点漏算 AND MCT计算量不够没能修正 AND 快速摆棋胜率评估极大偏差，这三个
条件要同时满足，才能重现昨天的bug。
人类能以多大的概率重现上面的条件？

d*********2
发帖数: 48111

来自主题: Go版 - 阿法狗第四局最终并不是输在对妙手的漏算上

一直都在说, 时间越长, 对电脑越有利.
如果是快棋赛, MCT的深度就很难取舍了

r******i
发帖数: 1445

来自主题: Go版 - 如果再来一盘执白对阿发狗

前面alphago应该会变招。毕竟MCTS有一定的随机性。
但是在关键局面应该不会变化太大。如果从72手开始下，估计alphago还会输。

w**********5
发帖数: 1741

来自主题: Go版 - 坐在李世石对面的那个人: 第三位主角出现了，中国台湾的黄世杰。黄世杰的经历就比较中国化了。 1997年，黄世杰进入台湾交通大学读本科，2001年本科毕业，同时狂热喜欢下围棋，是业余围棋高手。本

坐在李世石对面的那个人: 第三位主角出现了，中国台湾的黄世杰。
黄世杰的经历就比较中国化了。
1997年，黄世杰进入台湾交通大学读本科，2001年本科毕业，同时狂热喜欢下围棋，是
业余围棋高手。
本科毕业，没找到工作（开玩笑的，：）），于是想，考个研吧，于是考上了台湾师
范大学。
2001年-2003年，黄世杰在台湾师范大学读研，学习计算机。
硕士毕业，还是没找到工作，于是留在台湾师范大学做临时工（Research Fellow）（
2003-2004）。
2004年，他觉得这样临时工不行，开始准备考博，2004年考取师范大学博士。
2004-2011年，完成博士论文。
千年老博啊，博士读7年，估计打破很多记录，估计是读博期间下围棋太多。
不过好歹完成了博士论文。
论文题目：
New Heuristics
for Monte Carlo Tree Search Applied to the Game of Go.
博士论文：应用于计算机自动围棋的启发式的MCTS算法。
2011年，博士毕业以后，还是找不到工作（谁要一个7年博士就是研究怎么下棋的博士
呢？，呵呵），于是只能又去做临时工... 阅读全帖

a***m
发帖数: 5037

来自主题: Go版 - AlphaGo is not the solution to AI

http://hunch.net/?p=3692542
Congratulations are in order for the folks at Google Deepmind who have
mastered Go.
However, some of the discussion around this seems like giddy overstatement.
Wired says Machines have conquered the last games and Slashdot says We know
now that we don’t need any big new breakthroughs to get to true AI. The
truth is nowhere close.
For Go itself, it’s been well-known for a decade that Monte Carlo tree
search (i.e. valuation by assuming randomized playout) is unusually
e... 阅读全帖

O**l
发帖数: 12923

来自主题: Go版 - 第四盘阿法狗为啥要认输呀

alphago现在在细节还是做得满糙的比如时间分配落后情况下MCT选择方法
以及这个认输机制

P******a
发帖数: 1379

来自主题: Go版 - zt【FACEBOOK 围棋软件专家田渊栋博士对第四盘分析】

没算到按理说应当关系不大，田不是说把MCTS树清零重新搜就好了吗。树清零时出bug
这个听起来很低级，应当就是田说的估值网络的问题。因为78手是阿发狗认为小概率的
一手，而估值网络在左右互搏的训练中能下出这种小概率的情况也很少，由于类似情况
训练少，从而形成所谓的盲区？

s***y
发帖数: 357

来自主题: Go版 - 我现在敢80%肯定alpha go 搞不定小李的模仿棋

小李只要等漏招就可以了。DCNN 根本没戏　因为没有好的sample fit，MCTS 乱算, 而
且几乎每一步都换漏算，纯粹耽误时间。等到后面时间用的差不多了，小李一停止模仿
马上就挂。模仿棋可以最大化人类逻辑的优势，怎样最好的利用天元一子。
我认为这是系统性击败alpha go的最简单方法。

s***y
发帖数: 357

来自主题: Go版 - 我现在敢80%肯定alpha go 搞不定小李的模仿棋

模仿棋那是那么容易破的
你和高手下根本没有通用的破解方法。
请看俞斌和王雷的一局，
俞斌花了２个小时制造征子破模仿棋，结果模仿结束后王雷仍然优势，虽然后来的因计
算失误而落败。
http://sports.sina.com.cn/go/2005-06-20/21411624579.shtml
http://www.hoetom.com/matchviewer_html.jsp?id=1382
很多人跟本就没有研究过模仿棋。
让计算机破高手的模仿棋难于登天。特别是这种MCTS和DCNN 对于这种要求强逻辑的东
西根本无能为力。

s***y
发帖数: 357

来自主题: Go版 - 模仿棋是MCTS的梦魇

因为是随机Sample 而每一个局面都是对称的胜率也是差不多的，将导致到大量晃点
。而一旦出现野点就会被人类抓。

e*g
发帖数: 4981

来自主题: Go版 - 模仿棋是MCTS的梦魇

google和石头有协议，不许下模仿棋：）

b*******8
发帖数: 37364

来自主题: Go版 - 模仿棋是MCTS的梦魇

所以说还是沐猴而冠，没有真正明白自己在下围棋

R*****i
发帖数: 2126

来自主题: Go版 - 模仿棋是MCTS的梦魇

协议应该没有，不过以小李的棋份，不大可能下模仿棋，最多模仿个开局吧。因为这是
要写入围棋史册的，泥马小李不想被后人认为是无赖吧？

s***y
发帖数: 357

来自主题: Go版 - 模仿棋是MCTS的梦魇

这个确实，不过要是下出来模仿棋把疯狗调出来，估计就是名垂千史了。

O**l
发帖数: 12923

来自主题: Go版 - 哈萨比斯又给出新消息

就是DCNN的问题
那个局部MCT直接暴力计算就行了
程序还要调
DCNN的先验经验权值太高
或者在这种情况下重新分配时间时间分配算法太弱智了
应该不是大问题

O**l
发帖数: 12923

来自主题: Go版 - 哈萨比斯又给出新消息

程序还是做得很糙当然他们想更generalize
理论上走出一个搜索树几乎空白的节点居然不重新分配时间用MCT算清了
还是一分钟一步

O**l
发帖数: 12923

来自主题: Go版 - 哈萨比斯又给出新消息

所以太依赖DCNN了 79估计根本没有用MCT狠劲算

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天