n*****t 发帖数: 22014 | 1 先列一下已知条件:
1、阿发狗的棋力大大强于设计者。
2、设计者对棋的理解显然大大不如李思思这样的一流棋手。
3、设计者无法教会阿狗抽象的好和坏,唯一能做的就是不断点目。
4、穷尽计算所有变化是绝不可能的。
5、阿发狗的棋长得飞快,这是通过大量左右互搏达到的。
6、显然不是设计者教的,而是真正在对局中学习的。
基于以上这些,我更关心阿发狗的决策是怎样进行的,猜测其原理如下
1、积累大量的棋谱。
2、对局时参考棋谱,找出统计意义最有可能获胜的下一手或几手。
3、由此展开,计算后续可能的变化,先计算对手利益最大化的第二手,再计算自己利
益最大化的第三手
4、综合以上结果,找出当前最有利的一招
5、对手应招后,在之前的运算基础上继续深化计算。如对手应招不在范围内,比如意
想不到的脱先,则重新计算。
如果是这样的话,总结一下
1、由于缺乏高段棋手的棋谱,很多判断是不正确的。
2、序盘雷同的太多,比如错小目开局现在下很多,虽然模式很容易匹配,但参考意义
很小。因此很容易下出局部小亏的招法。
3、中盘由于计算力强大,如果遇到人类应对不当的地方,很容易追平甚至扩大领先优
势。
4、官子几乎不存在任何勺子,棋盘太小,变化对阿狗来说太少了。试图让阿狗读秒超
时是枉然(李思思第二盘最后就是这么幻想的) |
t******l 发帖数: 10908 | 2 那末写天气预报大气方程程序的,是不是要先会算卦?
大规模优化算法对实际案例测试的结果,一般算法设计者在具体结果出来以前,
不能预料到该具体结果,属于正常现象。
至于具体算法和 junk paper,没有一千万张也有一百万本。
【在 n*****t 的大作中提到】 : 先列一下已知条件: : 1、阿发狗的棋力大大强于设计者。 : 2、设计者对棋的理解显然大大不如李思思这样的一流棋手。 : 3、设计者无法教会阿狗抽象的好和坏,唯一能做的就是不断点目。 : 4、穷尽计算所有变化是绝不可能的。 : 5、阿发狗的棋长得飞快,这是通过大量左右互搏达到的。 : 6、显然不是设计者教的,而是真正在对局中学习的。 : 基于以上这些,我更关心阿发狗的决策是怎样进行的,猜测其原理如下 : 1、积累大量的棋谱。 : 2、对局时参考棋谱,找出统计意义最有可能获胜的下一手或几手。
|
n*****t 发帖数: 22014 | 3 什么算法?第一手走天元价值多少目,你告诉我哪个 paper 里有?
围棋的魅力就在同样一手棋,10 个 9 段可能有 100 种判断,正因为计算无法穷尽才
保留了神秘。
【在 t******l 的大作中提到】 : 那末写天气预报大气方程程序的,是不是要先会算卦? : 大规模优化算法对实际案例测试的结果,一般算法设计者在具体结果出来以前, : 不能预料到该具体结果,属于正常现象。 : 至于具体算法和 junk paper,没有一千万张也有一百万本。
|
t******l 发帖数: 10908 | 4 博弈理论的基本精神是确保搞死具体的对手,而不是小学数学那种啥玩意儿都要
搞出一个一万年不变加放之四海皆准的具体数字。
【在 n*****t 的大作中提到】 : 什么算法?第一手走天元价值多少目,你告诉我哪个 paper 里有? : 围棋的魅力就在同样一手棋,10 个 9 段可能有 100 种判断,正因为计算无法穷尽才 : 保留了神秘。
|
n*****t 发帖数: 22014 | 5 围棋里有这种确定性吗?你不会跟我说角上的死活题吧。
【在 t******l 的大作中提到】 : 博弈理论的基本精神是确保搞死具体的对手,而不是小学数学那种啥玩意儿都要 : 搞出一个一万年不变加放之四海皆准的具体数字。
|
l******t 发帖数: 55733 | 6 现在我狗的布局明显和李大师一个层次。狗的形势判断更是高冷。 |
n*****t 发帖数: 22014 | 7 李大师布局很臭,后半盘计算更比不上电脑。
当然,大家摸着小鸡鸡说句良心话:这两盘李思思大概发挥了多少水平?
【在 l******t 的大作中提到】 : 现在我狗的布局明显和李大师一个层次。狗的形势判断更是高冷。
|
l******t 发帖数: 55733 | 8
李思思怎么能是大师。我说的是神一样存在的李大师。
李思思明显是正反手都被碾压了那还打个P。
【在 n*****t 的大作中提到】 : 李大师布局很臭,后半盘计算更比不上电脑。 : 当然,大家摸着小鸡鸡说句良心话:这两盘李思思大概发挥了多少水平?
|
t******l 发帖数: 10908 | 9 具体算法不知道。但所有的人类下棋这种快速而简单的思维,都是基于心理学上的
schema,也就是 prior knowledge。在这些 schema 基础上做 variation。
跟深蓝不同的是,现代计算机的发展,阿尔法狗可以把全世界所有已知的下过的棋局
都装在机器里。这样阿尔法狗可以计算出基本上人类在给定时间里可以想出来的所有
根据过去 schema 的 variation,以及各种 variation 的概率。
这样在机器训练的时候,阿尔法狗可以自己跟自己的克隆下,创建更多的 variation,
产生更多的 schema。
如果不在所有的 schema 的 variation 里,多半是无理棋。那阿尔法狗硬算也
不会吃亏。
外加跟石头下的时候,石头过去下的棋的所有 schema 都存在。而且比赛前阿尔法狗
还可以克隆一个石头风格阿尔法狗,事前把石头所有大概率的 schema variation
都跑一遍。
等等等等。
【在 n*****t 的大作中提到】 : 围棋里有这种确定性吗?你不会跟我说角上的死活题吧。
|
y****2 发帖数: 1017 | 10 李昌镐?
【在 l******t 的大作中提到】 : : 李思思怎么能是大师。我说的是神一样存在的李大师。 : 李思思明显是正反手都被碾压了那还打个P。
|
|
|
a****l 发帖数: 8211 | 11 其实光是一个没有勺子就很厉害了.以前李昌镐就是这种下法打遍天下,看上去前面不占
什么便宜,后来左冲冲右粘粘不知怎么就大优了.
【在 n*****t 的大作中提到】 : 先列一下已知条件: : 1、阿发狗的棋力大大强于设计者。 : 2、设计者对棋的理解显然大大不如李思思这样的一流棋手。 : 3、设计者无法教会阿狗抽象的好和坏,唯一能做的就是不断点目。 : 4、穷尽计算所有变化是绝不可能的。 : 5、阿发狗的棋长得飞快,这是通过大量左右互搏达到的。 : 6、显然不是设计者教的,而是真正在对局中学习的。 : 基于以上这些,我更关心阿发狗的决策是怎样进行的,猜测其原理如下 : 1、积累大量的棋谱。 : 2、对局时参考棋谱,找出统计意义最有可能获胜的下一手或几手。
|
b***u 发帖数: 60 | 12 我的帖子没人理,跟在你这里。
先将所有职业棋手的对局输入电脑训练。训练后的电脑就相当于有一个智囊团在后面。
智囊团中有低段棋手,有高段棋手。由于高段棋手人少,对局少。这时的电脑水平倾向
于低段。之后电脑左右互搏。互搏时可能要有一个随机开关。相当于有时听低段的建议
,有时听高段的建议。将互搏的对局输入电脑训练。就会加大电脑智囊团中高段棋手的
比率。不断重复这个过程,智囊团中高段棋手的比率就会接近百分之百。由于互搏中会
出现新的棋局。智囊团是可以超越最初智囊团的水平的。
【在 n*****t 的大作中提到】 : 先列一下已知条件: : 1、阿发狗的棋力大大强于设计者。 : 2、设计者对棋的理解显然大大不如李思思这样的一流棋手。 : 3、设计者无法教会阿狗抽象的好和坏,唯一能做的就是不断点目。 : 4、穷尽计算所有变化是绝不可能的。 : 5、阿发狗的棋长得飞快,这是通过大量左右互搏达到的。 : 6、显然不是设计者教的,而是真正在对局中学习的。 : 基于以上这些,我更关心阿发狗的决策是怎样进行的,猜测其原理如下 : 1、积累大量的棋谱。 : 2、对局时参考棋谱,找出统计意义最有可能获胜的下一手或几手。
|
n*****t 发帖数: 22014 | 13 但是这个左右互搏所得到的结果,其实很不可靠,所以阿狗赛前说缺乏高手对局的棋谱
【在 b***u 的大作中提到】 : 我的帖子没人理,跟在你这里。 : 先将所有职业棋手的对局输入电脑训练。训练后的电脑就相当于有一个智囊团在后面。 : 智囊团中有低段棋手,有高段棋手。由于高段棋手人少,对局少。这时的电脑水平倾向 : 于低段。之后电脑左右互搏。互搏时可能要有一个随机开关。相当于有时听低段的建议 : ,有时听高段的建议。将互搏的对局输入电脑训练。就会加大电脑智囊团中高段棋手的 : 比率。不断重复这个过程,智囊团中高段棋手的比率就会接近百分之百。由于互搏中会 : 出现新的棋局。智囊团是可以超越最初智囊团的水平的。
|
m**m 发帖数: 5500 | 14 你这个完全不对。
【在 b***u 的大作中提到】 : 我的帖子没人理,跟在你这里。 : 先将所有职业棋手的对局输入电脑训练。训练后的电脑就相当于有一个智囊团在后面。 : 智囊团中有低段棋手,有高段棋手。由于高段棋手人少,对局少。这时的电脑水平倾向 : 于低段。之后电脑左右互搏。互搏时可能要有一个随机开关。相当于有时听低段的建议 : ,有时听高段的建议。将互搏的对局输入电脑训练。就会加大电脑智囊团中高段棋手的 : 比率。不断重复这个过程,智囊团中高段棋手的比率就会接近百分之百。由于互搏中会 : 出现新的棋局。智囊团是可以超越最初智囊团的水平的。
|
t******l 发帖数: 10908 | 15 大规模 iterative 计算结果,我看工程师其实也不知道是不是靠谱。工程师最多只能
知道 iterative 是不是 converge,是不是 stable。因为那些还算是纯计算问题。
所以要找些真实客户当小白鼠,不能光看内部测试组漂亮的报告就完事了。
【在 n*****t 的大作中提到】 : 但是这个左右互搏所得到的结果,其实很不可靠,所以阿狗赛前说缺乏高手对局的棋谱
|
n*****t 发帖数: 22014 | 16 所以一只小白鼠远远不能证明什么,尤其是被另一只小白鼠随便虐的
【在 t******l 的大作中提到】 : 大规模 iterative 计算结果,我看工程师其实也不知道是不是靠谱。工程师最多只能 : 知道 iterative 是不是 converge,是不是 stable。因为那些还算是纯计算问题。 : 所以要找些真实客户当小白鼠,不能光看内部测试组漂亮的报告就完事了。
|
I******n 发帖数: 5952 | 17 3、设计者无法教会阿狗抽象的好和坏,唯一能做的就是不断点目。
不是不断点目,而是从每一个可能的点都模拟到终局再点目,所以阿狗的每一步棋其实
都是基于全局最终胜负的判断。
【在 n*****t 的大作中提到】 : 先列一下已知条件: : 1、阿发狗的棋力大大强于设计者。 : 2、设计者对棋的理解显然大大不如李思思这样的一流棋手。 : 3、设计者无法教会阿狗抽象的好和坏,唯一能做的就是不断点目。 : 4、穷尽计算所有变化是绝不可能的。 : 5、阿发狗的棋长得飞快,这是通过大量左右互搏达到的。 : 6、显然不是设计者教的,而是真正在对局中学习的。 : 基于以上这些,我更关心阿发狗的决策是怎样进行的,猜测其原理如下 : 1、积累大量的棋谱。 : 2、对局时参考棋谱,找出统计意义最有可能获胜的下一手或几手。
|
n*****t 发帖数: 22014 | 18 每个可能点模拟到终局是不可能的,起码全世界所有电脑加一起也做不到
【在 I******n 的大作中提到】 : 3、设计者无法教会阿狗抽象的好和坏,唯一能做的就是不断点目。 : 不是不断点目,而是从每一个可能的点都模拟到终局再点目,所以阿狗的每一步棋其实 : 都是基于全局最终胜负的判断。
|
I******n 发帖数: 5952 | 19 他会通过价值网络先选取一些他认为可能性最高的点,然后快速走子
【在 n*****t 的大作中提到】 : 每个可能点模拟到终局是不可能的,起码全世界所有电脑加一起也做不到
|
n*****t 发帖数: 22014 | 20 对,但即使如此也无法模拟到终局,顶多几十手
【在 I******n 的大作中提到】 : 他会通过价值网络先选取一些他认为可能性最高的点,然后快速走子
|
w****e 发帖数: 586 | 21 http://zhuanlan.zhihu.com/yuandong/20607684
"围棋盘面的估计得要通过模拟走子来进行,从当前盘面一路走到底,不考虑岔路地算
出胜负,然后把胜负值作为当前盘面价值的一个估计。"
【在 n*****t 的大作中提到】 : 每个可能点模拟到终局是不可能的,起码全世界所有电脑加一起也做不到
|