对崔灿老师新作的几点不成熟意见供参阅

flyingsee · 发表于 2021-8-17 09:48

本帖最后由 flyingsee 于 2021-8-17 09:58 编辑

昨天，中国棋院杭州分院公众号发布崔灿五段论文《“名人”还是“业5”？从“围棋AI分析”看中国清代围棋水平》。内容很长，很详细。全文链接如下

https://mp.weixin.qq.com/s/03YjCodvYpw8yRJywrXl1g

仔细看过，提几点不成熟意见，供参阅。

一、关于“‘必然着法’对吻合度的影响”问题

以下为论文原文，摘录于此

图2中，执黑的柯洁上来就在“大雪崩”定式中刀，对于职业棋手来说，这个局部下完基本就可以认输了。从图中左侧KataGo的胜率曲线与目差[14]来看，黑方后面确实没什么机会。然而本局柯洁全局吻合度达到了67.4%，在1000k的计算量下，是个相当高的数字！这盘棋还是围棋AI时代之前的棋谱，没有如今棋手们学习围棋AI获得的“布局红利”。一场完败的棋谱，吻合度却如此之高，这个指标还能不能用来判定棋手水平呢？

（图片略——引者注）

为什么上来就大势已定的一盘棋，最终黑棋竟收获了如此之高的吻合度？通过图中与吻合度近似的指标“AI评分[15]”不同阶段数据，可以看出一些端倪——尽管开局第一个定式就崩盘，KataGo对黑棋布局的评价一点也不低。

简单介绍一下柯洁的中刀过程：在“大雪崩”定式这一型中，黑1本应在7位压，实战“不识定式”的柯洁遭到了白6以下的组合拳，白棋先弃三子，最终将黑左边五子吃回，形成通天厚势。至此白棋已获压倒性的优势。然而在图5中，黑方的十步棋除了黑1扳之外，其余九手全部踏入了围棋AI“吻合度”区间！由于中刀之后的变化是“一本道”，反而让黑棋的吻合度大幅提升。另外，尽管围棋AI对人类的大雪崩定式下法颇有微词，但整个定式过程存在大量的必然下法，同样提升了双方布局阶段的吻合度。这种“吻合”对于判定棋手水平来说，显然毫无意义。

网络上“围棋AI评古”相关文章的评论区，最常见的质疑就是上面这一现象，即接触战中的“必然”着法会增加。像中国古棋那样普遍的全盘战斗风格，大量的必然下法会使吻合度偏高。然而，棋盘上的“风格”是无法量化的。我们可以就棋盘上某个具体的局部，主观认定其吻合度并不体现水平，但某种棋风影响吻合度这一假说，无法用科学的方法找到有效证明。况且中国古棋的战斗风格与当代大型定式相比，到底哪一边吻合度更“沾光”也难以定论；即便是平稳风格的局面，中盘也不可能没有棋子接触，难以判断其“必然性”是否一定不高。另外，在不同水平棋手那里，什么样的着法属于“必然”，本身标准就不一致。总而言之，“战斗风格影响吻合度”这种既无法证实也无法证伪的推测，作为一项追求严谨与可靠性的研究而言，存而不论是最好的办法。

——崔老师值得称赞的地方，就是他的论文直面问题，直接揭示“在存在大量的必然下法”的情况下，吻合度这个指标“对于判定棋手水平来说，显然毫无意义”。这一点，原文说的很清楚。

   网友们也正是看到了这一点，考虑到古代棋手“战斗风格”（这是说法一），存在着大量的接触战（这是事实一），也必然“存在大量的必然下法”（这是事实二），所以，用吻合度判定古代棋手水平，实际上也是毫无意义的。

   网友们的这种观点完全是符合逻辑的，也经得起考验。大家要注意，网友们是从“接触战”+“必然下法”这两个事实出发，加上上面崔老师论文中所述的原理，得出了用吻合度判定古代棋手水平毫无意义这一正确结论。
实际上，崔老师的论文本身也重复印证了这一点——“棋输了但吻合度高于对手”的概率差不多有三分之一。”

   【这一事实实际上能够从根本上否定任何用吻合度去衡量棋手下棋水平的努力。因为这就是基本的逻辑问题。】

   崔老师出问题的地方在于，他把“接触战”+“必然下法”这种事实层面的、具体的、实际上是可量化的情形，转换为一个“战斗风格”这种无法量化的情形。而问题在于，“战斗风格”是在对古代棋手大量的“接触战”这个“事实”基础上，总结出来的一种“说法”。这种说法固然有其虚无缥缈之处、无法量化之处，但是这种说法背后的事实却是不容否认的。在这里，崔老师出现了一个逻辑上常见的“转换概念”的问题。

崔老师出问题的第二个地方，在于他忽略了“反例”的重要性。论文中柯洁“中刀”但是吻合度高这是一个重要的反例。这个反例，足以证明用吻合度判定古代棋手水平，实际上是毫无意义的。因为只要一个命题，存在一个反例，这个命题就根本不成立。不需要什么统计学。你说世界上不存在黑色的绵羊，我们找出来一只黑色的绵羊，前面这个说法就根本不成立，也根本不需要第二、第三个黑色的绵羊，去进行什么统计学分析。

二、关于古代棋手前30手布局问题

崔老师考虑古棋很早就进入拼杀阶段，所以选择前30手作为布局阶段，然后比较AI评分。

   但是论文中提到了、但是却没有剔除古代座子制的4颗子（对应其他时代棋手的前4手）的影响。原文如下：

   如果说在中日古棋布局的对比中，清代国手们有什么“不当得利”之处，那就是日本古棋废除了“座子”，导致布局的难度有所增加——以围棋AI标准衡量的话。从中国古棋授二子谱的占角方式和时机来看，要是去掉座子让古代国手们自由发挥，中国古棋的AI评价可能也会有所下跌。也就是说，开局双方摆在角上星位的四颗子，让中国古棋布局失去了许多“犯错”的机会。然而这无碍于清代围棋布局在围棋AI眼中“错误”更小，水平高于日本江户前期布局水平的结论。

   请教崔老师，您选择的中国古代棋谱，如果选择前30手，棋盘上有多少颗棋子？是一共30颗？还是一共34颗？

   如果是34颗，那就和其他时间段的棋谱选择的棋子数不一样。如果都是30颗，那第二个问题来了：

   座子制4个星位在AI那里基本上是评分最高的4个选点，这4个点占了前30手的约七分之一，会提高多少平均的评分？

   这个因素能否扣除？如何扣除？这些因素不扣除，能否就得出清代围棋布局在围棋AI眼中“错误”更小，水平高于日本江户前期布局水平的结论？

   恐怕这个结论也不是那么好下。

   以上是一些不成熟的想法。

   敬颂
安康！

flyingsee · 发表于 2021-8-17 10:06

崔老师论文中，特别提到

数据显示，胜方吻合度高于对手的棋局，占样本总体将近三分之二。无论是数量还是平均数值上，获胜一方吻合度都有一定的优势，且这种领先在统计学上存在极其显著的差异（P<0.001< span="">），效应量也接近中等程度，即结论在统计与实际上都存在意义。因此，可以认为吻合度与棋局胜负存在正相关。有力支持了“大样本下吻合度能够判断棋力水平”的说法。

说实话，以我浅薄的知识来看，如果统计结果表明，有三分之一的棋局，胜利的一方的吻合度低于对手（输棋的一方），那“大样本下吻合度能够判断棋力水平”的说法就本根不成立。

扔硬币，正反面的概率是50对50，你以为66对33，就是什么统计学上的“极其显著的差异”？

yanglei7010 · 发表于 2021-8-17 10:12

再加一点。这段推论逻辑完全不通，两个理由完全无法推翻上述说法：
一定会有人将清代顶尖国手的高吻合度，归结于中国古棋的风格。不过以下两点研究数据有力的反驳了这种说法：一是风格相近的清代围棋国手，内部数据也有明显的层级之分；二是在中盘（61-180）的数据评价中，公认为“铺地板”风格，“力量不足”的日本古棋反到是扳回一城。秀策14局“御城棋”的中盘平均吻合度为55.17%，与“黄范施”代表的清代顶尖国手相比毫不逊色。这是对“风格影响吻合度”观点的有力回击。

yanglei7010 · 发表于 2021-8-17 10:15

补充一点：本人的水平与研究能力完全不能与崔灿老师相比。本人同意楼主的说法，用吻合度评价棋力实在太难了。

SmileFox · 发表于 2021-8-17 10:24

flyingsee 发表于 2021-8-17 10:06
崔老师论文中，特别提到

数据显示，胜方吻合度高于对手的棋局，占样本总体将近三分之二。无论是数量还 ...

统计学意义上的有显著差异是说这两者的差异只有很小的概率是由于偶然性因素导致的。

flyingsee · 发表于 2021-8-17 10:29

SmileFox 发表于 2021-8-17 10:24
统计学意义上的有显著差异是说这两者的差异只有很小的概率是由于偶然性因素导致的。

如果是这样

那崔老师就不应该用统计学上不存在的显著差异这种专业术语来混淆事实层面的问题。

有三分之一的案例说明，输棋的一方吻合度高于赢棋的一方。而胜负输赢是判断下棋水平的最根本最直接标准。那你就不能用吻合度去衡量下棋水平。

SmileFox · 发表于 2021-8-17 10:40

flyingsee 发表于 2021-8-17 10:29
如果是这样

那崔老师就不应该用统计学上不存在的显著差异这种专业术语来混淆事实层面的问题。

崔的文章从统计分析的角度上来讲没问题啊
排除了偶然因素，那么立论自然就是必然因素。

当然立论是不是正确那是另外一个话题了，统计学一个经典笑话就是冰淇淋吃多了会导致溺水死亡。

以目前的AI和人类围棋水平差距据来说，吻合度高等于水平高是没问题的，但吻合度高不代表胜率就一定高，人类输棋不就是一个勺子的事情吗

碧空晴 · 发表于 2021-8-17 12:51

作者结论1.道策虚高了，不及秀策和丈和。
2.范和黄一个档次，施下调了一点点，和上调了一点点的周东侯吻合度相当。
3.被贬低甚多的中国古棋布局比道策的江户前时期的布局要高。

碧空晴 · 发表于 2021-8-17 15:10

。。。。。。与陈祖德同时代的另外两位古谱研究大家——程晓流和赵之云，对中国古棋的看法更为“悲观”。程晓流认为，梁程范施“四大家”时期，中国的棋艺发展到一个顶峰，但与当时（十八世纪）日本棋理研究的进步相比，还是有相当大的差距[4]。赵之云在被问及“古今之争”的问题时说的更直接：“与现代棋手相代棋手处于较低的水平”。理由包括时代进步的因素，以及相比古谱旁边的评语，当代棋评的内容更加丰富与深刻。他甚至还推测，明代以后，日本的围棋水平已不在中国之下[4]。

由于程、赵二人在棋手群体中有着相当高的文化素养，上述观点颇具影响力，时常被“贬古派”棋友拿来作为论据。。。。。。。

崔老师论文开头还引用了王汝南、罗建文、聂卫平、俞斌、刘世振、包括陈祖德的部分贬古论点，当然也指出了胡昱清、陈祖源文章的部分不足。

肥仔胡 · 发表于 2021-8-17 19:33

崔灿老师的结论和蔡依蝶老师不谋而合。早在年初，蔡老师就高屋建瓴地指出，“日本人在江户时代前期，是没有布局的”。她还说：“中国古棋规则蕴藏着奇门遁甲”。大家看蔡老师讲话我反对过吗？修养和学识摆在这了。好久不见蔡老师了，一日不见，如隔三秋。

肥仔胡 · 发表于 2021-8-17 19:46

道策的水平高，似乎打谱的人都有这个感觉。崔老师得出的数据，道策成了“业5”，比中国晚报杯棋手都有所不如。感觉有点怪，因为不但聂先生说他强于黄龙士，小林光一，大平修三，酒井猛对他的评价都极高，迷你中国流其实就是道策的创案。（迷你中国流没有用原创者的名字，而冠以中国，我不知道有些人一肚子的日本文化侵略论从哪里来的），道策由于同时代没有和他匹敌的对手，高太多了，他的老师和他对局都被让先，其他都是被他让子的棋手。他的分先棋都是在学徒时代，巅峰棋的道策是没有平起平坐对手的。

ajiejiejie · 发表于 2021-8-17 20:00

这种讨论我觉得很不错，就是要找出如何才能客观评价一局棋的关键变量，尽量把各方面的因素都考虑得周全一点，逻辑上要更严密一些，一旦这个问题破解了很多东西才能得出正确结论

welland · 发表于 2021-8-17 20:28

吻合度比例毫无意义。
不如看平均胜率变动率。
一手勺子，胜率掉50点，然后步步AI照样扳不回来有什么用。

肥仔胡 · 发表于 2021-8-18 06:59

我以前看《林彪秘书回忆录》，林总要秘书读文件，最多只给几分钟，这对秘书总结概括能力要求很高。碧空晴兄就具备这种概括能力，言简意赅。我记得吴总清源，两句话也把围棋概括了，“围棋有价值的两样，实地和外势。外势运用得好，转换实地多，赢。反之则输”。以前胡适先生和学生谈写辞职信也有这个特点，他说只消五个字“干不了，再见”。

碧空晴 · 发表于 2021-8-19 08:25

肥仔胡发表于 2021-8-17 19:46
道策的水平高，似乎打谱的人都有这个感觉。崔老师得出的数据，道策成了“业5”，比中国晚报杯棋手都有所不 ...

估计至今还有不少晚报棋手觉得自己的棋赢面比黄施范大不少。

帐号		自动登录	找回密码
密码			注册

对崔灿老师新作的几点不成熟意见供参阅

评分

点评

评分

评分