由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Go版 - alphago其实根本不用学人的棋谱
相关主题
阿法狗生怕人类还不够绝望写过程序的都知道
阿法狗第二局最令人震惊的地方在于看大家讨论中比较少提这个 reinforcement learning
第三局估计也没啥可看了说说我眼中阿尔法的棋力
哈比斯说没用高手期局训练啊阿法狗下围棋离人类还差的远
神经网络的结构决定了他的极限棋渣判断太牛了
金明完9段点评AlphaGo: 缺点明显人输给狗是在计算能力上
原来阿尔法下的是5秒版的ZEN李世石吃亏在明处
从第四盘棋看狗狗的弱点刚看了小林让三子对黑森林的棋谱
相关话题的讨论汇总
话题: cnn话题: mct话题: 棋谱话题: branching话题: 每步
进入Go版参与讨论
1 (共1页)
O**l
发帖数: 12923
1
就是用CNN+MCT结果去train CNN 然后再迭代吧
cnn主要就是一个cut branching factor, 在MCT没有terminal node时候评估一下
比如最开始先offline CNN+MCT自己跟自己下
每步2Billion simulations 出一堆每步top 40%左右的棋谱
用这些棋谱直接train cnn, 假设cnn大概就能直接得到>40% candidates 然后再用
2billion MCT simulation
新棋谱的质量肯定好于每步top 40%, 用这个新的棋谱继续train cnn 不断迭代下去
其实根本不用学人的棋谱
O**l
发帖数: 12923
2
如果纯dcnn能达到kgs 3d
那意味着MCT之前branching factor肯定小于20
CNN+MCT的最终上限一定高于人类顶级高手
E******w
发帖数: 2616
3
你没仔细看他们的论文。学习人的棋谱进行模仿,这是提升机器水平的核心思想。把这
个改了,那个机器恐怕什么都不是。
围棋的复杂度决定了机器的自我训练只是起辅助作用。利用模仿来缩小搜索空间才是起
决定作用的方法。

2billion

【在 O**l 的大作中提到】
: 如果纯dcnn能达到kgs 3d
: 那意味着MCT之前branching factor肯定小于20
: CNN+MCT的最终上限一定高于人类顶级高手

O**l
发帖数: 12923
4
学习人类的棋谱开始阶段可能更快
到了职业1段的水平 自己跟自己下 迭代的更快 毕竟数据量更大
而且人的棋总有bias
其实他的核心就是CNN cut branching factor
本身CNN并不要求100%准确 只要尽可能多的cut branching factor 就行了
9*9 纯MCT已经无敌了
只要CNN能把branching factor降到9*9这个级别以下 再再MCT暴力求解 就无敌

【在 E******w 的大作中提到】
: 你没仔细看他们的论文。学习人的棋谱进行模仿,这是提升机器水平的核心思想。把这
: 个改了,那个机器恐怕什么都不是。
: 围棋的复杂度决定了机器的自我训练只是起辅助作用。利用模仿来缩小搜索空间才是起
: 决定作用的方法。
:
: 2billion

l******t
发帖数: 55733
5
机器一样有bias。self train反而变成闭门造车

【在 O**l 的大作中提到】
: 学习人类的棋谱开始阶段可能更快
: 到了职业1段的水平 自己跟自己下 迭代的更快 毕竟数据量更大
: 而且人的棋总有bias
: 其实他的核心就是CNN cut branching factor
: 本身CNN并不要求100%准确 只要尽可能多的cut branching factor 就行了
: 9*9 纯MCT已经无敌了
: 只要CNN能把branching factor降到9*9这个级别以下 再再MCT暴力求解 就无敌

O**l
发帖数: 12923
6
纯MCT bias非常小

【在 l******t 的大作中提到】
: 机器一样有bias。self train反而变成闭门造车
s***u
发帖数: 80
7
应该也是可能的。
实际不这么做也许有别的考虑

【在 O**l 的大作中提到】
: 就是用CNN+MCT结果去train CNN 然后再迭代吧
: cnn主要就是一个cut branching factor, 在MCT没有terminal node时候评估一下
: 比如最开始先offline CNN+MCT自己跟自己下
: 每步2Billion simulations 出一堆每步top 40%左右的棋谱
: 用这些棋谱直接train cnn, 假设cnn大概就能直接得到>40% candidates 然后再用
: 2billion MCT simulation
: 新棋谱的质量肯定好于每步top 40%, 用这个新的棋谱继续train cnn 不断迭代下去
: 其实根本不用学人的棋谱

1 (共1页)
进入Go版参与讨论
相关主题
刚看了小林让三子对黑森林的棋谱神经网络的结构决定了他的极限
围棋软件Zen,Pachi作者对AlphaGo提的一些问题和看法金明完9段点评AlphaGo: 缺点明显
罗洗河让AlphaGo四子的说法没有什么错原来阿尔法下的是5秒版的ZEN
田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?从第四盘棋看狗狗的弱点
阿法狗生怕人类还不够绝望写过程序的都知道
阿法狗第二局最令人震惊的地方在于看大家讨论中比较少提这个 reinforcement learning
第三局估计也没啥可看了说说我眼中阿尔法的棋力
哈比斯说没用高手期局训练啊阿法狗下围棋离人类还差的远
相关话题的讨论汇总
话题: cnn话题: mct话题: 棋谱话题: branching话题: 每步