由买买提看人间百态

topics

全部话题 - 话题: dcnn
1 (共1页)
O**l
发帖数: 12923
1

well
这个我当然知道 我们在讨论heuristic MCT是不是MCT的问题 和DCNN有什么关系, 我是
在强调MCT远远比heuristic重要 没MCT之前不管什么heuristic你1D都上不了 有了MCT
你能
上5D
pure
这是常识 DCNN拟合最多做做planning 你不search 简直开玩笑 你完全不理解DCNN MCT
的本质是啥 会不会下围棋也存疑
这是FB最新的paper里的话 你自己仔细读读再来说
http://arxiv.org/pdf/1511.06410v2.pdf
From the experiments, we clearly show that DCNN is tactically weak due to
the lack of search.
Search is a way to explore the solution space conditioned on the current
board situation, and build
a non-parametric local model for the game. The l... 阅读全帖
h*h
发帖数: 27852
2
【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】
第四局李世石的78手L11挖被大家誉为“神之一手”,在DarkForest的策略网络输出里
排第31位,而J11靠排第10位。因此我觉得可能是AlphaGo没有算到这一步。如果对方下
了一手机器没算到的棋,则蒙特卡罗搜索树会清空,然后重新开始搜索,不应该会太快
做出结论。李喆六段告诉我K10这一手是秒下,那有可能是时间管理子系统在搜索树清
空时有程序上的漏洞,因此过早地将搜索结果返回了。这个比较容易修正。
另一种可能是,AlphaGo的估值网络出了问题。因为估值网络的权重是0.5,而不管快速
走子花了多少步,它的权值也是0.5。对于一个局面,估值网络只得到一个数,而从这
个局面往下走子,走多后会得到很多个数,统计上应该更为重要,但是AlphaGo不是这
样想的,直接对半加权了。所以如果估值网络对某个局面得到的结果不对,则会极大地
影响对该局面的胜率估计。注意这里得到很多个数的原因是按照文章,叶结点在积累了
一定盘数后(40)才展开,而不是第一次访问就展开,以提高DCNN的效率。DarkForest
没有用到估值网络,在L1... 阅读全帖
m*****n
发帖数: 2152
3
来自主题: Stock版 - 我对AlphaGo的理解
AlphaGo的算法等技术分析
2016-03-10 田渊栋 算法与数据结构
来源:知乎专栏-远东轶事
作者:田渊栋(微博@远东轶事)
链接:http://zhuanlan.zhihu.com/yuandong/20607684
作者简介:田渊栋是卡耐基梅隆大学机器人系博士。曾就职于 Google X 部门,目前是
Facebook 的智能围棋 darkforest 的负责人和第一作者。
最近我仔细看了下AlphaGo在《自然》杂志上发表的文章,写一些分析给大家分享。
AlphaGo这个系统主要由几个部分组成:
1、走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。/2
2、快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度
要比1快1000倍。
3、估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。
4、蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上这三个部分连起来,
形成一个完整的系统。
我们的DarkForest和AlphaGo同样是用4搭建的系统。Dar... 阅读全帖
O**l
发帖数: 12923
4
这是FB论文里自己说的
From the experiments, we clearly show that DCNN is tactically weak due to
the lack of search.
Search is a way to explore the solution space conditioned on the current
board situation, and build
a non-parametric local model for the game. The local model is more flexible
than the global model
learned from massive training data and more adapted to the current situation
. The state-of-the-art
approach in computer Go is Monte-Carlo Tree Search (MCTS). Fig. 4 shows its
basic principle.
Com... 阅读全帖
M*****s
发帖数: 3436
5
来自主题: Go版 - AlphaGo的算法等技术分析
AlphaGo的算法等技术分析
2016-03-10 田渊栋 算法与数据结构
来源:知乎专栏-远东轶事
作者:田渊栋(微博@远东轶事)
链接:http://zhuanlan.zhihu.com/yuandong/20607684
作者简介:田渊栋是卡耐基梅隆大学机器人系博士。曾就职于 Google X 部门,目前是
Facebook 的智能围棋 darkforest 的负责人和第一作者。
最近我仔细看了下AlphaGo在《自然》杂志上发表的文章,写一些分析给大家分享。
AlphaGo这个系统主要由几个部分组成:
1、走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。/2
2、快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度
要比1快1000倍。
3、估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。
4、蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上这三个部分连起来,
形成一个完整的系统。
我们的DarkForest和AlphaGo同样是用4搭建的系统。Dar... 阅读全帖
O**l
发帖数: 12923
6
我靠 太牛逼了 拿个1988年的老掉牙的书来否定MCT???!!!!
MCT 2007年才提出
你不会不知道 Google的整套算法里有两个policy function 两个value fuction
一组是DCNN训练出来的
一组是MCT自带
只有在branching factor太大的时候用DCNN的policy function
只有在MCT不能达到terminal node的时候用DCNN的 value function
最终是以MCT的policy value fuction为准
所以你的逻辑DCNN是RL MCT不是?? lol
MCT这种 每个状态节点都有一个policy fuction根据这个fuction层层递进 在terminal
node根据value function算出reward 在层层回推update policy function 最终
converge
是标准的RL!!!
整个RL玩了这么多年全是toy model唯一像样的成果可能就是MCT 还被你丫否定了lol
训练两张dcnn就是RL 整个CV+RL界都笑死了
d*****t
发帖数: 7903
7
来自主题: Military版 - google围棋胜了欧洲冠军范辉二段
引用一段,给那些还以为就是简单穷举的ID看看什么是深度学习。
“作者:田渊栋
链接:https://www.zhihu.com/question/27169866/answer/80810836
来源:知乎
如知友所说,我们用了DCNN(深度卷积神经网络)进行模式匹配再加MCTS(蒙特卡罗树
)搜索的办法。DCNN其实要比简单的开局库或者搜索引擎要厉害得多,在看过十几万局
棋之后,它会有比较强的泛化能力,或者通俗地说是举一反三的能力。围棋虽说是“千
古无同局”,但在局部及开局还是有很多相似或者相同的模式会反复出现,DCNN能够抓
住这些模式并且在实战中灵活运用。完全不用搜索的DCNN挂在KGS上就有3d的水平,这
是非常让人吃惊的,甚至比我们通过搜索能达到5d更让人吃惊,我们只在这个项目上花
了五个月的时间,若是用传统方法来做这个模式识别,估计耗时几年1k都不一定上得了
(要是这样我也不会开这个项目了)。
。。。
围棋难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆,同时状态
空间大,也没有全局的结构。这两点加起来,迫使目前计算机只能用穷举法并且因此进
展缓慢。但人能下得... 阅读全帖
O**l
发帖数: 12923
8
1 customized heuristics MCT任然是MCT
2 DCNN heuristics提高到9D还不确定
3 有论文关于专门DCNN的介绍吗 纯DCNN不计算能到3D开什么玩笑 DCNN和MCT根本不是
一个层面上的东西 没法代替
o*****p
发帖数: 2977
9
http://zhuanlan.zhihu.com/yuandong/20607684
原链接有Nature文章中的数据图,我就不转贴了。
最近我仔细看了下AlphaGo在《自然》杂志上发表的文章,写一些分析给大家分享。
AlphaGo这个系统主要由几个部分组成:
1. 走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。
2. 快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度
要比1快1000倍。
3. 估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。
4. 蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上这三个部分连起来,
形成一个完整的系统。
我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言,在训
练时加强了1,而少了2和3,然后以开源软件Pachi的缺省策略 (default policy)部分
替代了2的功能。以下介绍下各部分。
1. 走棋网络:
走棋网络把当前局面作为输入,预测/采样下一步的走棋... 阅读全帖
O**l
发帖数: 12923
10
其实这就是dcnn做的事情
dcnn据说不用MCT就能达到kgs 3d
但是dcnn只能predict不能否决MCT
因为MCT毕竟是算出来的
其实只要那一步的MCT时间够长 dcnn就算出盲点 MCT也能补救回来
狗的时间分配算法太糟
O**l
发帖数: 12923
11
搞笑 MCT以前基于各种knowledge的heuristic search多了去了 谁能达到1d水平
没有UCB你加再多knowledge都没有 所以重要MCT不是heuristic
DCNN下得快当然了 就是过一遍NN DCNN其实就是UCT展开时候prune branch
不用MCT
你这玩意想也能想出来 应该勺子莫名其妙的棋一大把
而且局部对杀 你不计算用DCNN softmax一个最大值??? 开玩笑吧
有paper拿来看看嘛

AlphaGo
w****i
发帖数: 964
12

我是
MCT
NO, DCNN heuristics alone can reach KGS 3d, READ THE PAPER.
MCT
You are talking about darkmcts (DCNN+MCT), but darkfores* is pure DCNN and
reaches kgs 3D, without MCT, READ THE PAPER!
O**l
发帖数: 12923
13
好吧 DCNN比我想象的要强
softmax出来结果比我想象的精确
不过我还是不太相信 今晚去kgs找darkforest下几盘看看
纯dcnn太不可思议 局部对杀也靠dcnn...
w****i
发帖数: 964
14
You apparently didn't look at the paper carefully. I can imagine that when
you just heard of this paper maybe 10 minutes ago. darkforest/darkfores1/
darkfores2 is pure DCNN bot, and darkfores2 reaches stable kgs 3d, DCNN+MCT
is darkfmcts3
Their Abstract:
"""
Darkforest substantially improves the win rate for patternmatching
approaches against MCTS-based approaches, even with looser search
budgets. Against human players, the newest versions, darkfores2, achieve a
stable
3d level on KGS Go Serve... 阅读全帖
w****i
发帖数: 964
15

Apparently you have no idea about the difference. previous heuristics are
hand-crafted heuristics. It's the DCNN learned heuristics that offers a well
balanced policy in searching. The difference is how to construct the
heuristics, by hand or by machine.
So obviously you do not know the paper and are blind to the fact that a pure
DCNN bot have reached ~KGS 3d level, when you are arguing with bunch of
people with your limited (and outdated) knowledge of computer Go, you are
the one looks really ... 阅读全帖
O**l
发帖数: 12923
16
四楼说啥了
用职业高手的棋谱就那十几万张 dcnn里面要训练的参数可能都是几十万个有个鸟用
而且bias巨大 绝对over fitting到一个非常糟的一个local optima上了
dcnn的价值就是给出几十可能的走法 根本不需要达到多高的段位
真正走哪个要靠MCT一步上亿次的模拟
O**l
发帖数: 12923
17
其实还是dcnn有缺陷被MCT放大了
任何DCNN claim突破的领域都没100%准确的
t******l
发帖数: 10908
18
所以这个问题在 MCT 而不是 DCNN?
也就是 DCNN 看到了但是不能否决 MCT,但 MCT 算得太少。
或者说,大哥没管住二哥?
O**l
发帖数: 12923
19
恩时间长
或者GOOG改进用时算法 现在这个太糙
不过从MCT自认70%的胜率来看估计是被DCNN晃点了 沿着DCNN的分部算 没做任何修正
MCT第二项的平衡置信度权重不够高
O**l
发帖数: 12923
20
来自主题: Go版 - 哈萨比斯又给出新消息
就是DCNN的问题
那个局部MCT直接暴力计算就行了
程序还要调
DCNN的先验经验权值太高
或者在这种情况下重新分配时间 时间分配算法太弱智了
应该不是大问题
O**l
发帖数: 12923
21
来自主题: Go版 - unreproducible bug!!!
总的来说DCNN bias太大
DCNN和MCT权值非配不合理
时间分配算法太差
O**l
发帖数: 12923
22
来自主题: Go版 - 现在回头再看第4局
多种因素巧合正好撞上了那个
算法overlap之间的盲点
本来应该是DCNN MCT互相验证 结果DCNN出错MCT放大 再加上时间分配算法傻逼
导致了一个非常机缘巧合的崩溃
其实不能算bug parameter要调
c*****w
发帖数: 50
23
来自主题: Go版 - AlphaGo通俗的解释
看了眼DeepMind那篇nature。 深度卷积网(DCNN) + 增强学习 (RL) + Monte Carlo 搜
索树(MCST)。DeepMind靠前两个起家(学打Atari游戏),积淀很深,再加上黄MCST的研
究和domain knowledge,成就了AlphaGo。
AlphaGo有三个策略网(policy network),一个比一个强:
一号很快但是棋力很弱,用于MCST局面评估,对一个局面左右互搏走到底看胜败。
二号棋力稍强,有业余高手的棋感(注意只是棋感,DCNN直接由棋形得到),用于MCST初
步选点。
三号棋力最强,由二号通过增强学习得来,相当于二号左右互搏自我进化。也用于MCST
局面评估(原文是通过价值网络实现,但价值网络实际相当于三号的近似)。用二号而不
是三号做选点是因为二号有更好的选点“多样性”。
一号计算量最小,二号和三号的计算量差不多。所以人肉AlphaGo大体应该是这样的:
由业余高段(二号)选点,往下算几步,没步局面算个分,这个分有两部分组成,一部分
由两个KGS路人(一号)下到底给个分,一部份由职业初段(三号)凭感觉给个分。
c*****t
发帖数: 10738
24
哪里需要这么多。主要部分DCNN, RL, MCTS都不是需要那么多代码的。
m*****e
发帖数: 10963
25
来自主题: Military版 - 从科学到科幻。。。好书好书!
好书好书,一口气读完! 作者很给力,知识丰富,素养扎实!
哪位菌斑读完的请本帖留名,有空本版切磋!
没读的就请别过了。
必须说明的是这是一本新书刚刚成书,是alfago战胜李世石后出的书!不是一本老掉牙
的老生常谈,十分值得菌斑有思辨爱好的将军一读!
谢谢
------------
从科学到科幻 —— 给《不存在》的讲稿
180 塔塔酱 作者
2016.05.10 02:18 打开App
目录
开场白
科学家的工作方式
理论物理与实验物理
理论物理与数学
物理与哲学
物理与科幻
现代物理中所用的数学工具
微分几何
纤维丛
群论
其它数学
更多的物理话题
大尺度额外维
全息原理
标度相对论与二元相对论
Finsler宇宙
作为统计的宇宙
宇宙的诞生与演化
关于黑洞
量子理论与自由意志
大数据与心灵史学
结尾
开场白
科幻与奇幻、魔幻的根本区别在哪里?
这种区别的主要体现,就在于整个世界环境的背景构建上,也在于人物对世界的观点与
看法上。
也及,科幻作品的整个世界背景的设定,以及人物对其所处环境的整个看法,必须要让
读者相信自己真的深处一个科技的世界。同样的魔幻... 阅读全帖
O**l
发帖数: 12923
26
我草 真是google啊 直接从google抄了一段下来 这段话有任何credit吗
你他妈不知道
周俊勋拿过LG冠军 你傻不傻啊
和周俊勋输半目的人 你他妈跟我说是个职业棋手能赢5:0
猪头一样的智力啊
对了 你还得去搜搜LG杯是什么性质的比赛
这货真搞笑对围棋一窍不通还装B来个 "我话放这里了"
笑死人 我都不好意思说它对DCNN MCT肯定一窍不通
靠个google来装B结果没装成成傻逼
O**l
发帖数: 12923
27
搞笑 不是你说周13年只赢了一个职业段位
是个正常人都觉得 这个太滑稽搞笑了
尼玛 你怎么得出这个结论的 难道不是应该你举证吗 笑死啊
这基本逻辑 你都搞不清 怪不得loser啊
都要靠 “古板干货” 来撑门面
笑得我肚子都疼了
这么大loser 从来没见过
最关键 屁围棋都不懂 还在装 这下成傻逼了
什么AI DCNN MCT我都懒得问 你这智力肯定不懂
既不懂围棋又不懂AI 还在装B 现在脸给抽成猪头了
w****i
发帖数: 964
28
MCT is basically a sampling method, MCT with random policy performs very
poorly. The existing MCT approaches before AlphaGO heavily rely on hand
crafted heuristics in their policies. This is exactly the reason why MCT
approaches basically stop going forward after reaching KGS 5-6d, for almost
5 years, because hand crafted heuristic hits the limit. The key component of
the new program is the policy/value network to automatically construct
heuristics through machine learning. The major player here... 阅读全帖
w****i
发帖数: 964
29

darkfores1 by facebook is kgs 2d, its rating chart is very close to 3d, ~2.
8d. it only started playing on kgs from late Nov 2015.
non-MCT GNUGO is ~ kgs 5~6K, UCB-MCT improved bots level from 5k to ~1-2d,
from 2d to 5~6d mainly rely on customized heuristics. DCNN heuristics
improved bots level from kgs 5~6d to 9d+
standard Go is a 19*19 game.
O**l
发帖数: 12923
30
来自主题: Go版 - 开头那几步
估计用dcnn
softmax一个最大的
其实开头不难
O**l
发帖数: 12923
31
如果纯dcnn能达到kgs 3d
那意味着MCT之前branching factor肯定小于20
CNN+MCT的最终上限一定高于人类顶级高手
O**l
发帖数: 12923
32
来自主题: Go版 - 从第四盘棋看狗狗的弱点
实际问题是DCNN 影响了MCT分布
那个局部计算其实不复杂 光用MCT其实就能算清
O**l
发帖数: 12923
33
新闻到处狂吹神之一手啊
这也体现了DCNN的局限 bias太大严重干扰了了MCT的simulation分布
正常单用MCT应该不会有这问题
大多数情况下可能有用 但是有很多corner case会失误
崩溃以后乱下那就是在胜率极低的情况下 MCTd的正常表现了
所以这玩意还非常不好fix
t******l
发帖数: 10908
34
除非有能根据高手的棋谱生成几百万 variation 的 variation 狗。
不过 dcnn 靠 fitting 不靠逻辑,没有 induction 的能力,估计生成
variation 不容易。当然 AI 能做到这样已经不错了。
但问题还是傻子堆里靠数量堆出来的天才,一般都不太稳定,后期成为疯子
的概率比较大。其实人类社会也差不多。
O**l
发帖数: 12923
35
所谓induction 靠的是MCT
dcnn做的是prediction 给先验分布
O**l
发帖数: 12923
36
靠 policy and value network是RL?
你逗死我 DCNN成RL了
c*****t
发帖数: 10738
37
你们说的都对,AlphaGO里面先用DCNN train了个policy network, 这部分不算RL. 然
后用真正的RL方法enhance了policy network, 这部分就是deep Q-leaning。最后再加
上了MCT做search。
O**l
发帖数: 12923
38
理论上讲 只要时间够 MCT是可以修正DCNN的先验分布的
goog的时间分配的算法上做得很糙
O**l
发帖数: 12923
39
是DCNN出错
导致MCT算的时候方向性错误 但是没给MCT时间太多
如果MCT时间充裕还是能修正回来
不过这种出错几率实在太低
t******l
发帖数: 10908
40
那主攻方向还是 DCNN 做的更好些。毕竟低级模块 MCT 受时间限制是天赋缺陷。
O**l
发帖数: 12923
41
问题DCNN这玩意根本没啥数学模型 完全是个黑箱子
不过他们现在从0开始训练 不用人类棋谱 应该是个思路
其实最简单方法应该就是时间分配算法再好一点 或者UCB1第二项的权值再大一点
D*******r
发帖数: 2323
42
dcnn选点漏算 AND MCT计算量不够没能修正 AND 快速摆棋胜率评估极大偏差,这三个
条件要同时满足,才能重现昨天的bug。
人类能以多大的概率重现上面的条件?
s***y
发帖数: 357
43
小李只要等漏招就可以了。DCNN 根本没戏 因为没有好的sample fit,MCTS 乱算, 而
且几乎每一步都换漏算,纯粹耽误时间。等到后面时间用的差不多了,小李一停止模仿
马上就挂。模仿棋可以最大化人类逻辑的优势,怎样最好的利用天元一子。
我认为这是系统性击败alpha go的最简单方法。
s***y
发帖数: 357
44
模仿棋那是那么容易破的
你和高手下根本没有通用的破解方法。
请看俞斌和王雷的一局,
俞斌花了2个小时制造征子破模仿棋,结果模仿结束后王雷仍然优势,虽然后来的因计
算失误而落败。
http://sports.sina.com.cn/go/2005-06-20/21411624579.shtml
http://www.hoetom.com/matchviewer_html.jsp?id=1382
很多人跟本就没有研究过模仿棋。
让计算机破高手的模仿棋难于登天。特别是这种MCTS和DCNN 对于这种要求强逻辑的东
西根本无能为力。
s***y
发帖数: 357
45
来自主题: Go版 - 模仿棋是MCTS的梦魇
另外,小李还可以走变形模仿棋,就是把对方一个角的小目变成星位(或反过来),另
外两个角不变,然后利用两个角的差异性布局。人类对星位和小目的认识确立布局优势
, DCNN/MCTS 没有机会。
O**l
发帖数: 12923
46
来自主题: Go版 - 哈萨比斯又给出新消息
主要是突然降低 暴力算来不及了 每支都要重新算 每支都没法收敛
逐渐的往下降 有大量支已经算好了
其实这种情况太少
不过原因还是太依赖dcnn 没有用任何domain knowledge优化
O**l
发帖数: 12923
47
来自主题: Go版 - 哈萨比斯又给出新消息
所以太依赖DCNN了 79估计根本没有用MCT狠劲算
O**l
发帖数: 12923
48
来自主题: Go版 - 4:1其实结果挺合理
alphago什么不学
只要把时间分配算法refine一下 DCNN MCT的权重调一下
就妥妥碾压一切
O**l
发帖数: 12923
49
算错也不是没可能
后来仔细看了一下 他家的MCTS用的DCNN 引导simulation 不是纯随机
这样收敛会很快 但是bias太大很容易算漏 stuck到一个local optima上
解释了为什么第四盘到后面十几步才反应过来
O**l
发帖数: 12923
50
来自主题: Go版 - 阿狗的局部计算力问题
说了多少遍 Mct不是蒙特卡洛 Mct是迭代收敛 听了几个文科报道 在这天天吼错误概念
逗比吗 看不懂Paper难道连wiki都看不懂吗 还随机投票真是搞笑
第四盘怎么回事 我已经解释的很清楚了 Dcnn bias 太大导致78漏算(很怀疑第四盘开
始Mct的计算资源减了) 这个时候搜索树前面积累的计算全部清空 但是Alphago仍然按
照笨拙的一分多钟一步执行 导致子节点没有一个能Converge 导致随机下, 这个时候
只要时间分配算法智能一点 在当前节点算他个20分钟重建个Mct tree 就完全没问题
懂了不
1 (共1页)