sai开始训练19路了

lu01 · 发表于 2019-10-28 14:18

http://sai.unich.it/
参加训练需要先注册

lu01 · 发表于 2019-11-16 05:58

作者修改了学习率，sai棋力突然提高了

nan · 发表于 2019-10-30 13:16

lu01 发表于 2019-10-28 20:33
23w盘训练出leelaz 110w盘的强度

楼主有个笔误，sai的训练量在13w盘时击败了110w盘强度的lz。
我注册的名字是GeorgeShangHai，参加了最近4个权重v33-v36四个权重的跑谱。

sai的棋力成长非常快，观察sai在分析模式下的表现，去掉nrsymm参数
1. sai036在棋力超过lz024的情况下，开局变化更多，棋局中死活棋更强。
2. 100k计算量下，lz024只有星位开局一种；sai032有点22、54、边星5路飞等。
3. 100k计算量下，sai032的热图比lz024更均匀，lz024热图的中腹和边有明显空缺。
4. 1k计算量下的热图，sai032是侧箭头形态，lz024是四宽边形态，而lz030则是以角星位为主的点状热图了。

我在2060上跑了一次1秒1步的对战，每步计算量sai大概是2k左右，lz大概是5k左右。
在做活各自几个棋块中，lz的一块假眼棋在争斗中死掉了，sai很早就知道抓lz这块棋。

个人感觉sai目前重视中腹模样，凭借死活能力，不怕对方角块出棋。不知道这种状态持续多久。

lu01 · 发表于 2019-10-28 14:18

9路非常强了

lu01 · 发表于 2019-10-28 14:21

进展

Vandertic于2019年10月18日编辑本页，共2次修订

草案

SAI学习管道不同于Leela Zero。

LeelaZero是基于AlphaGoZero的论文，而SAI遵循AlphaZero论文中描述的修改。

主要的区别在于，在alphago zero文件和leela zero项目中，存在门控，这意味着一个新训练的网络被提升为最佳网络，从而进行自我游戏，前提是有一些统计证据表明它比前一个网络有所改进。更准确地说，比赛进行了400场，如果获胜率至少为55%（与投币公平的2σ偏差），那么网立即被提升。

在alphazero文件中没有门控：训练是连续的，在250000个游戏的移动缓冲区上，每1000个训练步骤产生一个新的网络，立即升级，并投入25000个游戏。

在我们使用7x7和9x9sai的实验运行中，我们看到第二种方法确实非常健壮，即使没有门控，也可以观察到一些强度振荡。最后，我们达成了一个介于两者之间的协议：我们遵循alphazero方法，但在每一步，我们都会训练少量的网络，并推广一个在之前的网络中表现最好的网络，即使胜率低于50%。这些晋级比赛由少量的比赛组成，远远少于400场；事实上，比赛的目的并不是为了选出最佳的候选人，而是为了避免非常糟糕的比赛，以确保比赛的稳健性。

sai管道周期比alphazero快，因为我们没有巨大的资源，我们希望在检查进度的同时，通过执行较小的中间步骤，尽可能地提高效率。

循环如下。

gen=0，current_net=random，n=1；

current_u net玩2560个完整的自玩游戏，带有变量komi，根据current_u net的评价进行分配；

当前网络从以前游戏的随机位置开始玩自玩游戏的分支；

当游戏数达到3072个自玩游戏时，在前n代自玩游戏的基础上开始训练；

在训练过程中，产生了数量不等的候选网络（目前，在2000个训练步骤中，一个接一个地产生了10个网络）；

一旦有候选人，新的候选人网络和当前的候选人网络之间就会添加晋升匹配。这些比赛可以被识别，因为它们有50场比赛长；

当促销匹配结束时，确定最佳候选网络；用所选网络表示；

本网通过玩自玩游戏分支，直至计数达到3840；

在几个最近的网络（在gen-k世代提升的网络，k在{1，2，5，8，11}）和select_net之间添加参考匹配，以获得对select_net elo更精确的评估。这些比赛可以被识别，因为它们有40场比赛长；

如果gen是4的倍数，则在面板中的16个网络和selected_net之间添加面板匹配，再次获得selected_net elo的更精确评估。这些比赛有30场比赛长，所以可以确定；

gen++，current_net=选择的_net，如果合理，则n++；

进入步骤2；

leexch · 发表于 2019-10-28 15:33

虽然机器翻译得乱七八糟，但基本上能看得懂，好像和katago区别不大

lu01 · 发表于 2019-10-28 20:33

23w盘训练出leelaz 110w盘的强度

hred9D · 发表于 2019-10-28 20:39

lu01 发表于 2019-10-28 20:33
23w盘训练出leelaz 110w盘的强度

训练提升的速度非常快

小财神 · 发表于 2019-10-29 09:27

怎么训练和注册

lu01 · 发表于 2019-10-29 11:23

在http://sai.unich.it/user-request
注册会收到1个电子邮件，选择邮件中的url激活
训练
在 https://github.com/sai-dev/sai/releases/ 下载最新版，运行解压缩到一个文件夹
然后运行里面的sa.hta文件，填写刚才注册的用户名密码

lu01 · 发表于 2019-10-29 11:24

hred9D 发表于 2019-10-28 20:39
训练提升的速度非常快

他跳过了5x64
直接6x128

hred9D · 发表于 2019-10-29 20:06

SAI 0.17.4用sabaki加载里拉权重也是可以运行的

lu01 · 发表于 2019-10-30 07:13

参加训练的人多起来了

lu01 · 发表于 2019-10-30 08:11

sai36比lz24强 ,还不如lz30

nan · 发表于 2019-10-30 13:22

补充一下
lz030走星位，但不知道点三三，不会托退定式
lz057走星位，点三三接扳托长，少走连扳定式，会走托退定式

lu01 · 发表于 2019-10-31 18:12

平均7小时一个新权重

帐号		自动登录	找回密码
密码			注册