O**l 发帖数: 12923 | 1 就是用CNN+MCT结果去train CNN 然后再迭代吧
cnn主要就是一个cut branching factor, 在MCT没有terminal node时候评估一下
比如最开始先offline CNN+MCT自己跟自己下
每步2Billion simulations 出一堆每步top 40%左右的棋谱
用这些棋谱直接train cnn, 假设cnn大概就能直接得到>40% candidates 然后再用
2billion MCT simulation
新棋谱的质量肯定好于每步top 40%, 用这个新的棋谱继续train cnn 不断迭代下去
其实根本不用学人的棋谱 |
O**l 发帖数: 12923 | 2 如果纯dcnn能达到kgs 3d
那意味着MCT之前branching factor肯定小于20
CNN+MCT的最终上限一定高于人类顶级高手 |
E******w 发帖数: 2616 | 3 你没仔细看他们的论文。学习人的棋谱进行模仿,这是提升机器水平的核心思想。把这
个改了,那个机器恐怕什么都不是。
围棋的复杂度决定了机器的自我训练只是起辅助作用。利用模仿来缩小搜索空间才是起
决定作用的方法。
2billion
【在 O**l 的大作中提到】 : 如果纯dcnn能达到kgs 3d : 那意味着MCT之前branching factor肯定小于20 : CNN+MCT的最终上限一定高于人类顶级高手
|
O**l 发帖数: 12923 | 4 学习人类的棋谱开始阶段可能更快
到了职业1段的水平 自己跟自己下 迭代的更快 毕竟数据量更大
而且人的棋总有bias
其实他的核心就是CNN cut branching factor
本身CNN并不要求100%准确 只要尽可能多的cut branching factor 就行了
9*9 纯MCT已经无敌了
只要CNN能把branching factor降到9*9这个级别以下 再再MCT暴力求解 就无敌
【在 E******w 的大作中提到】 : 你没仔细看他们的论文。学习人的棋谱进行模仿,这是提升机器水平的核心思想。把这 : 个改了,那个机器恐怕什么都不是。 : 围棋的复杂度决定了机器的自我训练只是起辅助作用。利用模仿来缩小搜索空间才是起 : 决定作用的方法。 : : 2billion
|
l******t 发帖数: 55733 | 5 机器一样有bias。self train反而变成闭门造车
【在 O**l 的大作中提到】 : 学习人类的棋谱开始阶段可能更快 : 到了职业1段的水平 自己跟自己下 迭代的更快 毕竟数据量更大 : 而且人的棋总有bias : 其实他的核心就是CNN cut branching factor : 本身CNN并不要求100%准确 只要尽可能多的cut branching factor 就行了 : 9*9 纯MCT已经无敌了 : 只要CNN能把branching factor降到9*9这个级别以下 再再MCT暴力求解 就无敌
|
O**l 发帖数: 12923 | 6 纯MCT bias非常小
【在 l******t 的大作中提到】 : 机器一样有bias。self train反而变成闭门造车
|
s***u 发帖数: 80 | 7 应该也是可能的。
实际不这么做也许有别的考虑
【在 O**l 的大作中提到】 : 就是用CNN+MCT结果去train CNN 然后再迭代吧 : cnn主要就是一个cut branching factor, 在MCT没有terminal node时候评估一下 : 比如最开始先offline CNN+MCT自己跟自己下 : 每步2Billion simulations 出一堆每步top 40%左右的棋谱 : 用这些棋谱直接train cnn, 假设cnn大概就能直接得到>40% candidates 然后再用 : 2billion MCT simulation : 新棋谱的质量肯定好于每步top 40%, 用这个新的棋谱继续train cnn 不断迭代下去 : 其实根本不用学人的棋谱
|