katago中 maxvisits , playouts 的疑问。。。

flygo1900 · 发表于 2021-5-26 12:58

问：
katago中，maxvisits=1    playouts=1 ,    哪个棋力高？
            maxvisits=3600  playouts=3600  哪个棋力高？
      maxvisits=10000 时，大约相当于 playouts=?

512song · 发表于 2021-5-26 15:19

本帖最后由 512song 于 2021-5-26 15:43 编辑

最后那段是反了。设定maxvisits后，才会秒下。而设定playouts，则会重新计算。
katago的配置文件中，关于maxvisit与maxplayout就有说明。
# If provided, limit maximum number of root visits per search to this much. (With tree reuse, visits do count earlier search)
maxVisits = 6000
# If provided, limit maximum number of new playouts per search to this much. (With tree reuse, playouts do not count earlier search)
# maxPlayouts = 300

flygo1900 · 发表于 2021-5-26 14:13

playouts简称po
一般可以简单翻译为计算量（次数），或模拟量（次数）。
1po即软件不经过推演验证的第一选点，或者说第一感觉。1po是计算量的最小单位。如果你给软件的计算时间小于计算1po的时间，软件就不能完成对局
1v=1po，visits=playout+搜索树剩余次数

在引入深度学习之前的mcts方法中，如早期的Zen，一个playout指从当前盘面开始，经过一次快速模拟走子直到终局，获得一个胜负结果的过程。
在引入深度学习方法后的早期阶段，如AlphaGo Fan和AlphaGo Lee架构，一个playout指从当前盘面开始，经过一次对神经网络中的价值网络访问获得一个局面评估值，及从该盘面进行1000次快速模拟走子（称为rollout）获取统计结果，并将上两项加权相加，得出该盘面最终评估的过程。
在后续的深度学习方法，如AlphaGo Zero和Alpha Zero架构，一个playout指从当前盘面，获得一个神经网络的value端（价值网络）评估输出值的过程。
一般可以简单翻译为计算量（次数），或模拟量（次数）。

1v等同于1po，但10v不一定等同于10po.关键是要理解软件计算存在这样一个特点，如果对手下出软件预计之内的棋，软件就会把上一步的计算数据继承到下一步，如果对手下出意料之外的棋，软件就会重新从零开始计算

假设固定10po下棋，当对手下出意料之内的棋的时候，软件下一步就可能不进行计算而秒拍。但如果固定10v下棋，软件就会每一步都思考10v，也就是无论对手的应法是否在意料之内，软件都会匀速的走下一步棋。

zjh889 · 发表于 2021-6-10 22:07

听说这东西，对显卡要求很高！

帐号		自动登录	找回密码
密码			注册