一篇引起职业棋手愤慨，花整月时间连发四文反驳怒怼的中古奇文

三国大军师 · 发表于 2021-5-27 14:12

这里似乎是AI看走眼了。这可是40bAI呀!但是看一下胜率，黑胜率竟然达到80.3!打劫竟然胜率更高，这是什么情况，笔者也不太明白，希望有志者破解这个问题。总之如果真的是周小松下错了，也是匪夷所思的错误!

三国大军师 · 发表于 2021-5-27 14:13

对于267，周和陈的解说有出入，笔者分析得到一个变化图，确认周解说正确。

三国大军师 · 发表于 2021-5-27 14:14

陈解说认为281粘找劫黑如消劫，如图，白2黑必须用涨牯牛做活，如此黑紧一气。这样会导致黑差一气被吃，AI指出黑7可以在另一边打吃继续打劫。此处也许双方和陈祖德一样的思路，陷入思维误区。

三国大军师 · 发表于 2021-5-27 14:14

对于296，陈解说认为白消劫负1子半，经过分析白如果消劫胜负非常细微，也许是和棋。所以此处白可以消劫。其实AI认为，296找劫本身是可以成立的，只是时机晚了，如果不下278，296是第一候选点。(大家可以对照前面详细列表，278时AI认为296是第一候选)也就是这微小的目数差别，决定了是否吻合。

三国大军师 · 发表于 2021-5-27 14:15

最后给出第302手定格图。

三国大军师 · 发表于 2021-5-27 14:16

结束语：此局218至302共85手棋，双方都发挥出了极高的水准。非常罕见的是权重Katago40C384给出的吻合度竟然超过了Katago20b1.32，这说明在其中短暂的时候，双方对局水平已经超出了Katago20b1.32，这个结论通过变化图分析得到初步的验证。而Katago40C384指出的不足之处，有的匪夷所思，有的是人类的盲点。应该说即使Katago40C384能指摘之处也不过寥寥几手而已，毕竟双方的第一选点吻合度已经达到了骇人的黑76.2，白67.4。双方不吻合之处有好几个是在劫材的应接之中。以笔者低微的棋力，认为有些劫材属于这也可那也可，这时还能保持和AI第一选点高度一致，那只能说对局者的棋力到了一个无法形容的境界，或者AI也有心有灵犀之说，也未可知也。结合陈祖德九段的解说，发现陈老的解说部分有更进一步探讨的空间。笔者无意贬低陈祖德九段，相反对陈德九段高山仰止，但是棋艺方面最好就事论事。而纵观本局，不愧是周小松生平得意之作，局部棋力甚至已经超过Katago20b1.32。当然，“血肉之躯”难免发挥不稳定，但却足当得起“有远神”的自评。 “有远神”，有多神?答曰：神乎其神。

chairongyu · 发表于 2021-5-27 22:29

感谢分享！

不可理喻 · 发表于 2021-5-27 23:05

感谢分享！

肥仔胡 · 发表于 2021-5-28 07:17

作者：崔灿CGF55258 2021-02-09

近日，一位名为“时年”的作者，在弈客上发表了一篇《惊：一度爆表AI的晚清一局棋，“有远神”有多神？》，以下简称《有远神》）的文章。该文使用开源围棋AI“KataGo”的古棋规则，分析了两位晚清围棋国手——周小松与陈子仙的一盘棋，并从中截取了与AI分析“吻合度极高”的中后盘片段，将其认定为“期间双方都发挥出了极高的水准”。另外，作者还发现这期间“复杂度一直居高不下，绵延80余手，其中最高达到50.9”，进一步说明了“在这么复杂的局面下，双方能取得这么高的第一选点吻合度，十分惊世骇俗”。并通过两个不同权重的“复杂度”对比，得出了“20B（256）的KataGo已经看不懂了，要40B-large（384，俗称40B胖权）才能看懂，两人的棋已经超越了AI”的结论。

像《有远神》一文这样，利用围棋AI分析数据评价棋手水平高低的尝试，如今时有出现。那么，这些研究的规范性如何？是否遵循统计学的相关标准？另外，还有一些更为根本的问题：围棋AI分析数据能否公正的鉴定棋手水平？棋谱数据与分析指标的选择，如何做到不偏不倚，令人信服？从去年十月开始，笔者已经积累了一些古谱以及当代大赛棋谱AI分析结果。下面结合这些数据，探讨一下围棋AI分析的研究方法。

（一）吻合度

AI吻合度，即棋局着法与AI推荐选择的吻合程度。如今被广泛用于棋局质量的评价，以及判定对局者是否“遛狗”的依据。本文中的“吻合度”数据，全部来自KataGo各种常用权重，版本1.50（KataGo分布式训练前最后一个版本）。为避免“先画靶再射箭”等数据操作的行为，软件及吻合度相关设置全部为默认值。

KataGo是当前最强大，功能最友好的开源围棋AI，支持各种路数的棋盘，以及现有的所有围棋规则。可以随时调节贴目，并在一定程度优势下，不会出现像AlphaGo那样无谓的目数退让行为。去年世界AI围棋大赛中，几乎所有“民间AI”都是KataGo的各种魔改版本。目前KataGo是除了绝艺与星阵之外，棋手训练提高必备的AI软件。

笔者使用分析平台程序Lizzle加载KataGo权重。可能一些棋友对围棋AI软件并不熟悉，下面以2014年第二届“百灵杯”世界围棋公开赛决赛第三局为例，介绍一下软件吻合度的判定方法。

柯洁VS邱峻（棋局片段）

棋谱数据为KataGo v1.50 20B权重，每步棋一百万（1000K）总计算量。本文所有的图谱分析数据，如无特别说明，均为这一标准。

之所以选择1000K的总计算量，是因为计算量不够高时，AI的计算结果以及胜率尚不稳定，可能与最终结果相去甚远。以《有远神》一文列出的周小松与陈子仙这盘棋，黑218时的局面为例：

不同计算量下的胜率与目差

随着计算量的增加，KataGo的胜率与目差不断波动，在1000K之后才逐渐稳定下来。根据表中数据可以看出，在计算量100K至200K这一阶段，KataGo觉得之前的判断过于乐观，胜率不断下调。但计算量到达300K至500K时，AI显然是发现了新的分支变化，胜率节节攀升，然而算到750K时，这一分支的结果又遭到了否定。

另外，上面还是个“下一手几乎必然”的案例。在更加开放的局面中，AI计算初期选点相对分散，《有远神》一文采用的每步棋20K计算量，就像是AI的“第一感”，仅能大致估计着法好坏。在布局与官子阶段尚能用来参考，差别不至于太大；对中盘复杂局面的评价，以及鉴定棋手水平，这点计算量的可靠性显然不足。

可能有人会质疑20B权重的水准，认为这是计算过程中胜率起伏不定的原因。实际上，笔者最初选用的是40B官权，但在分析当湖十局的过程中，发现该权重存在某些BUG，一些日常定式的研究也印证了这一点（下篇中会有详细讨论）。20B权重+1000K计算量，是综合考虑严谨性与效率后的结果。理想情况是每步10000K的计算量，对标AlphaGo教学工具（AlphaGo的每步棋一千万计算量，应该也是出于胜率稳定性的考虑吧），只是那样的话，这篇文章就不知何时才能动笔了。

1000K的计算量可以保证一局棋中，超过95%的时候计算（胜率）到达稳定状态。至于权重，刚才那个局面黑218的时候，就算是40B胖权，也是800K的计算量后才达到了稳定（胜率波动范围前后不超过1%），期间同样经历了与20B权重类似的胜率过山车。我们后面会看到，在吻合度这一指标上，权重不同所带来的差别，并没有那么重要。

柯洁VS邱峻 KataGo全局“鹰眼”数据

回到柯洁的那盘棋。KataGo吻合度的默认标准，是“AI推荐的前三选点，且计算量不低于最高值20%”。对计算量的要求，是为了避免出现偏离“唯一正解”太远却被纳入吻合；前三选点则是考虑到几个选点极度接近，或完全等价的局面，例如上图黑棋在哪里收气。

这种标准当然无法涵盖所有情况，比如黑棋第一步能不能踏入吻合，完全看AI的心情——最高计算量是否在棋盘的右上角。“AI评分”在一定程度上弥补了这一不足。

KataGo“AI评分”计算公式

AI评分公式的思路，是将所有计算过的选点，按照计算量的比例赋予相应的评价。与只看前三的吻合度相比，AI评分进一步降低了偶然性，应该说更为合理。但根据两百多盘已完成分析的古今棋谱数据观察，该指标与吻合度密切相关，两者的数值差在+1至-8之间浮动，平均-2左右。这种差异笔者目测在统计学意义上不显著。固然“AI评分”稍微科学一点，但继续使用知名度更高的“吻合度”也未尝不可。

那么，吻合度究竟能不能作为判定棋手水平的依据呢？

相信部分棋友原本就对刚才那盘棋有些印象。第一次登上世界大赛舞台的柯洁，第三局一上来就在大雪崩外拐定式中刀，局部下完已经可以“起立”了。从胜率曲线与目差来看，黑方后面确实没什么机会。然而这盘棋柯洁全局吻合度达到了67.4%（这个数值在1000K的计算量，并且棋局没有漫长官子阶段的情况下相当高，详见后文），比白棋还要高！这还是围棋进入AI时代之前的棋谱，没有如今的“布局红利”，一场完败的吻合度如此之高，甚至还高于对手，这是怎么回事呢？

在笔者使用AI分析棋谱的过程中，多次出现“棋输了但吻合度高于对手”的现象。不过在这种情况下，负者的平均胜率波动一定高于胜者，也就是说虽然“命中率”更高，但“脱靶”造成的后果更严重。由此可见，平均胜率波动可以成为棋力判定的“否决性”参考指标——低波动不一定下的好，有可能是一场完败，胜率没有什么下跌的空间；但胜率波动过高，则一定是水平有限，在棋局关键阶段的洞察能力不足。常见于业余低水平棋手的“胜率心电图”就是如此。

左：AI分段评分右：柯洁中刀过程（16=▲）

至于为什么上来就大势已定的一盘棋，最终竟收获了如此之高的吻合度？通过与吻合度近似的“AI评分”不同阶段数据，可以看出一些端倪——尽管开局第一个定式就中刀，AI对黑棋布局的评价一点也不低。让我们重温一下柯洁的中刀过程：

在大雪崩外拐定式的这一型中，黑1本应在7位压（顺便一提，这个人类定式，黑1之前白棋胜率已经80%多了），实战“不识定式”的柯洁遭到了白6以下的组合拳，白棋先弃三子，最终将黑左边五子吃回，形成通天厚势，可以说棋局已然结束。

然而，图中黑方这十步棋除了黑1扳之外，其余九手全部踏入了AI吻合度区间！由于黑方中刀之后的变化“一本道”，反而让黑棋的吻合度大幅提升。另外，虽然AI对人类的大雪崩定式颇有微词，但整个定式过程存在大量必然的下法，同样提升了双方布局阶段吻合度。显然，这种吻合度对判定棋手水平毫无意义。

在“AI评古”相关的研究中，最常见的质疑就是上面这个现象——接触战中的“必然”下法会增加。像古棋那样普遍的全盘战斗风格，大量的必然下法会使吻合度偏高。不过笔者认为，“风格”是不能量化的。我们可以就棋盘上某个具体的局部，主观认定其吻合度并不体现水平，但某种棋风影响吻合度这一假说，无法用统计学的方法找到有效证据。

按照上面的逻辑，古棋支持者同样可以说由于局面复杂，吻合的难度会增加。况且古棋的战斗风格与当代大型定式相比，到底哪一边吻合度更“沾光”也难以定论；平稳风格的局面，中盘也不可能没有棋子接触，“必然性”就一定不高？这种无法用数据来证实的事情，根本不可能探讨出结果。作为一个用数据说话，追求严谨性与可靠性的研究，存而不论是最好的办法。

刚刚从火箭转投篮网的NBA球星哈登，是过去三个赛季常规赛的“得分王”。然而大量球迷对此并不感冒，认为他的场均高分与其“碰瓷”打法（投篮时主动寻找手臂接触，造犯规获得罚球）密不可分，这是在钻篮球规则的空子，不能体现真正的得分能力。很显然，我们不可能客观的判定每一次造犯规是否属于“碰瓷”，从而计算出哈登“真正”的得分能力。“吻合度受到对局风格影响”的说法，与上面这件事情有相似之处。从学术角度探讨问题，“观感”的说服力必然有限。

吻合度的另一个问题，是目前这一代围棋AI在复杂局面或多手数的直线计算中，有时会出现盲点或误算。此时的“吻合”自然失去了作用。

上个月春兰杯八强赛的一盘棋中，就出现了这样的案例。正如胡耀宇文中所说，无论是KataGo各种权重，还是绝艺和星阵的精解分析，都没能发现黑棋一路点的正确时机。倘若实战黑149真的下出了这一妙手，反而会导致“吻合”减1。在前面柯洁中刀的那一图中，AI同样没算出白12退（左边第48手）的好手。尽管这步棋之后，白棋的胜率与目差双双上升，也无法改变“不吻合”的结果。

好在如今围棋AI的综合水平远超人类，这样的局面极其有限。在一盘棋上百手的“大样本”中，一两个错误的AI判断，基本不影响全局的吻合数值。如果统计的棋局总数足够多，这个问题更是可以忽略不计。

对吻合度的怀疑，还有“AI认为的最佳选点，对人类棋手来说不一定是最好的，我们更应该选择自己能够理解、掌控的下法”。这种观点固然有一定道理，但在逻辑上直接否定了“AI分析能够判定棋手水平”这一前提，继续讨论下去也是鸡同鸭讲。至少在今天，绝大多数棋手还是认可“吻合度”与招法好坏的相关性。然而，该指标在如今的应用中，普遍存在标准不一的问题。

当湖十局不同计算量下的吻合度

暂且不论不同围棋AI的吻合度能否直接对比，哪怕是在同一AI且权重相同的情况下，不同计算量下的吻合度也存在明显区别。通过上表可以看出，吻合度与计算量的高低，总体呈反比关系。可能的原因是在高计算量下，不同选点之间的计算差值被放大，在一些局面中，与一选存在“真正差异”的第二、三选点，难以实现“计算量不低于最高值20%”。简而言之就是计算量的增加，减少了一些“不当”选点蒙混过关的机会。低计算量下一盘70%吻合度的棋，在高计算量下可能只有50%多，这两个数字给人的感觉天壤之别！

当湖十局不同权重的吻合度

与计算量相比，权重是否一致反而没有那么重要。几个常用的官方权重在相同的计算量下，虽然每盘棋的吻合度都略有差别，但总体数值一看就没有显著差异。谨慎起见，笔者还是做了个检验，结果也没有丝毫意外。

不同权重数据的方差分析

综上所述，将“吻合度”作为判定棋手水平的指标，尽管有着这样那样的缺点，在样本选择合理的情况下还是可以接受的。前提是每步棋的计算量不能过低，对吻合度进行比较时，应保证权重与计算量的一致性。至于数据是使用哪一个权重得出的，并没有那么重要。哪怕真的“没看懂”个别招法，在大样本中也会被掩盖。作为一项严谨的研究而言，抛开计算量空谈吻合度就是耍流氓。在使用吻合度进行对比与论证观点时更是如此。

（本文共分三篇。中篇将详细解析《有远神》一文中的观点与变化图，下篇会谈谈“复杂度”以及围棋AI分析的样本选择问题）

肥仔胡 · 发表于 2021-5-28 07:18

崔灿五段对三国大军师兄的帖子进行了反驳。

肥仔胡 · 发表于 2021-5-28 07:38

本帖最后由肥仔胡于 2021-5-28 07:39 编辑

现代水平肯定略高于古代和上世纪的水平。我不是说清代三圣，坂田先生，吴先生的才能比柯洁，申真胥差，是因为现代训练手段的多样性，对局的便利性远远超过古代，从棋谱质量和对抗性肯定是现代强。（当然我极端反感将古代大家描述成业5，这些大师如果生在现代一样会出人头地的）。陈周的才华和黄范施差了个等级，甚至知名度和后世评价比周东侯，程兰如，梁魏今都要低点，即便他们有惊世之作，那也是昙花一现，说明不了什么问题，更何况是为了服务于美化包装目的，在技术上刻意引导出的结果。

zjh889 · 发表于 2021-5-28 22:55

古人的围棋水平，的确还是蛮高滴！

三国大军师 · 发表于 2021-5-29 00:13

肥仔胡发表于 2021-5-28 07:18
崔灿五段对三国大军师兄的帖子进行了反驳。

我当然知道了，崔老师年都没过好，整整一个月绞尽脑汁，费尽心思，洋洋洒洒写了四篇雄文驳斥这篇文章：）
可把崔老师辛苦坏了。
不过本文催生了崔老师的学术论文面世，呵呵…

三国大军师 · 发表于 2021-5-29 00:14

我们跟崔灿老师交手多次，对他可谓知己知彼，知根知底。

三国大军师 · 发表于 2021-5-29 00:23

崔老师学术论文用卡塔狗强机，1000k每步计算量（这点鄙人相当佩服）工作量之浩大，可谓前无古人！
这就是崔老师的结论：本人看到，实在忍不住哈哈大笑
因为我看到的结果竟然是：范西屏吻合度强于1988-2000年的任何一位世界冠军，包括横扫棋坛的无敌霸主李昌镐的最高数据！
这点崔老师当然不方便明说，只好含糊其词了事，以体现研究学者的严谨…

帐号		自动登录	找回密码
密码			注册

一篇引起职业棋手愤慨，花整月时间连发四文反驳怒怼的中古奇文

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

点评

评分

评分

本帖子中包含更多资源