再谈棋力、胜负与AI吻合度的基本逻辑问题

flyingsee · 发表于 2021-9-6 18:17

本帖最后由 flyingsee 于 2021-9-7 09:23 编辑

本人上一篇在本论坛发表的帖子，有幸被弈客围棋APP转载，在两边都引起了一些评论。

有些评论者不认同本人的基本逻辑，没关系，我也没追求所有人都认同。但是道理还是要讲清楚。

说两句题外话。

以我混BBS 20多年的经验来看，有些人，不管你说的多清楚、明白，让直接阅读的第三方观众很容易就能理解，

但是，他们非要在自己的帖子里，混淆是非、颠倒黑白，采用篡改原意、信息污染、指鹿为马等等一系列手法，把别人的观点进行处理以后二次传播。

而且他们的二次传播要更集中、更猛烈、更密集。

为什么这么做呢？

因为这就是一种忽悠读者的手法，让错误的言论淹没读者的视野，让读者没有时间、没有精力去查看最初原作者的帖子，被动的、不自觉的去接受这种经过污染以后的二次传播的产品，以为原作者的意思，就是他们篡改以后所表示的那样。这种人是论坛之公敌，是“网络蝗虫”，过去很多网络大V（例如污蔑某青年作家代笔的方某子）都是这种人。

言归正传。

论点一：衡量棋力高低的唯一标准，就是一定数量的直接对局基础上的胜负结果。

解读：每个棋手的棋力各有不同，衡量他们棋力高低的标准，不是101 死活题谁解的更快，也不是A胜了B，B胜了C，然后A棋力就高于C。

你说A棋力比B高？那就要给他们一定的时间，让他们在同等规则下对局，然后看对局的胜负结果。

你说A这个人，棋力很高，就是每次遇到B，都运气不好，不是飞机上没睡好，就是酒店旁边有施工，就是早上早餐拉肚子……等等总之各种理由，反正结果就是10盘棋里A输给B8次。那么，你再说A 棋力很高，B没有A棋力高，那也没用。你那叫说话昧良心。

论点二：在一定数量对局的基础上，AI吻合度与胜负结果之间，不存在明显的必然关系。

解读：根据崔老师论文（知名不具），经过他统计的现代棋手对局里，有三分之一的棋局，AI吻合度高的一方是负方；反而是AI吻合度低的一方取得了胜利。

原文：【数据显示，胜方吻合度高于对手的棋局，占样本总体将近三分之二。无论是数量还是平均数值上，获胜一方吻合度都有一定的优势，且这种领先在统计学上存在极其显著的差异（P<0.001< span="">），效应量也接近中等程度，即结论在统计与实际上都存在意义。因此，可以认为吻合度与棋局胜负存在正相关。有力支持了“大样本下吻合度能够判断棋力水平”的说法。】

大家注意，这个异常的比例太高了，不是5%以下，也不是10%以下，而是33%。

很多人想当然的以为，毕竟还有三分之二的棋局，AI吻合度高的一方是胜方，似乎在“多数”情况下，AI吻合度能够反映胜负，那崔老师说的没错啊。

这个思路本身就不对。

为什么“胜方吻合度低于对手的棋局”能占到三分之一？

是因为必然存在一种甚至多种内在因素（以下简称变数）在“AI吻合度”这个因素之外产生了作用，然后影响了胜负结果。

但是可惜的是，崔老师根本没有继续深入分析是什么变数影响了胜负结果。这种变数难道只有单方面的效果？只影响棋力高的人、不影响棋力低的人？只影响黑棋、不影响白棋？都不可能。

这就留下了这篇论文最大的逻辑缺陷，这是这篇论文难以自圆其说的地方。

也是它的核心逻辑漏洞。

解决这个问题，就是要承认，在很大程度上，AI吻合度与胜负没有明显的必然关系。

我在这里做一个思维实验，提出一个假说（先提出来，待证实），说说我的论证：

假设：

一）这种变数必然存在（这是肯定的）。

二）这种变数的作用是对胜负产生影响（这是肯定的）。

三）这种变数的作用效果，对于AI吻合度对胜负的效果来说，存在正面增益和负面减损两种类型（假设，待证实），正负两种效果相等。

四）这种变数的作用效果，是正面还是负面，具有随机性（假设，待证实），即出现的概率相等。

解读：三）这句话的意思是，这个变数，对于AI吻合度和胜负结果的关系来说，就是既有正面增益的效果，也有负面减损的效果。

其中，负面的效果的表现就是，让AI吻合度高的一方棋局为负。那么顺理成章的，正面的效果就是让吻合度高的一方的棋局结果为胜。

四）这句话的意思是，这个变数有可能效果为正面、也有可能效果为负面，而且它出现正面、和出现负面的概率是相等的。

在以上四个前提下，

我们先来分析，三分之一的棋局是高AI吻合度的一方结果为负。

那么，这部分棋局，AI吻合度高的一方与低的一方吻合度之间的差值平均值是可以统计计算的（没有计算，记为d%）

说明这三分之一的棋局受到了该变数“负面”的影，影响的能力，暂且以d%的吻合度计算。

根据假设四）的概率相等假设，这个变数会对另外的棋局产生“正面”的影响，是这种正面影响决定了棋局为胜。影响的数量为多少呢？

两种计算方式：

一是直接从出现概率上判断，约三分之一（因为跟负面的三分之一对应）；

二是从影响效果上判断，要把AI吻合度高、而且取得了胜利但，胜负双方吻合度相差不超过d%的棋局统计出来——判定这部分棋局取得胜利的原因是因为变数的存在（不是AI吻合度高），看看占全部棋局的多少。

无论是选择哪种计算方式，我相信最后的结果就是证明了：

一）超过一半以上的大多数棋局胜负，是由客观上必然存在、但是崔老师论文里并没有深入分析的这种“变数”，而不是AI吻合度决定的。

二）只有在AI吻合度的统计结果上，保持明显优势的棋局（例如，大于或者显著大于d%），才有可能是AI吻合度高导致的胜利，否则的话，由“变数”决定。

也许你会说，这种“变数”根本不存在。

面对三分之一的棋局胜方吻合度低这个事实，你说那种变数不存在也得论证啊，拿出理由、数据和分析，去排除掉啊。

如果崔老师不能排除在对局出现这种“变数”，下面分析AI吻合度还有什么意义呢？

既然大多数情况下，是由“AI吻合度之外的因素”（变数）决定棋局胜负，而对局的胜负是衡量对局的棋手棋力的唯一现实的、可靠的标准。

那么，很遗憾，用AI吻合度衡量棋力，就成为一种无稽之谈。

肥仔胡 · 发表于 2021-9-6 18:39

本帖最后由肥仔胡于 2021-9-6 18:50 编辑

我个人觉得吻合度是有意义的，否则职业棋手学习ai就是无意义的了。我是这么认为的，对于人类来说，吻合度差在5%甚至在9%以下是不可控的，如果双方吻合度差是个位数的percent，那么用这个判定实力就无意义了。也就是说在这个范围内，您说的变量会发生作用，这种变量或许可以称为碳基生物的局限性，或者看谁运气好点。但职业不能不学ai，我们看到卡塔狗按座子规则调整了参数，但当湖十局在布局和官子上和柯洁有两位数per之差，如果职业不学习ai，或者否认吻合度，那么中盘纵有翻江倒海之力也很难挽回。我们看到范圣的吻合度在中盘仅比柯高不到1%。这就是我认为黄范施的中盘有当今中国等级分十强水平，但绝对下不过当今棋手的原因。

闲云野鹤123 · 发表于 2021-9-6 18:41

本帖最后由闲云野鹤123 于 2021-9-6 18:44 编辑

在允许的范畴內，ai的吻合度有其叁考价值，

不知道你全盘否定意欲何为，难道你能面对面干翻顶级人工智能？

flyingsee · 发表于 2021-9-6 18:45

闲云野鹤123 发表于 2021-9-6 18:41
在允许的范畴內，ai的吻合度有其叁考价值，

不知道你全盘否定意欲何为，难道你能面对面干翻顶级人 ...

参考价值和衡量标准完全不是一个概念。

我当然没有否认AI吻合度自身存在的价值，但是你不能拿来当衡量标准。

不知道你混淆概念是意欲何为？

闲云野鹤123 · 发表于 2021-9-6 19:10

本帖最后由闲云野鹤123 于 2021-9-6 19:22 编辑

flyingsee 发表于 2021-9-6 18:45
参考价值和衡量标准完全不是一个概念。

我当然没有否认AI吻合度自身存在的价值，但是你不能拿来当衡量 ...

吻合度高想当然是強的体现了，你还妄想著范大国手夺得职涯千胜不成

肥仔胡 · 发表于 2021-9-6 19:19

本帖最后由肥仔胡于 2021-9-6 19:22 编辑

另外出现大昏着的棋似乎不能列入，以前中央台青歌赛，还有扣掉一个最高分，扣掉一个最低分，例如柯洁对朴廷桓在贺岁杯，从99%到1%的那种断崖棋，这个看吻合度没有意义了。

秋止符. · 发表于 2021-9-6 19:26

方丹子？青年作家是谁呀

闲云野鹤123 · 发表于 2021-9-6 19:30

本帖最后由闲云野鹤123 于 2021-9-6 19:35 编辑

肥仔胡发表于 2021-9-6 19:19
另外出现大昏着的棋似乎不能列入，以前中央台青歌赛，还有扣掉一个最高分，扣掉一个最低分，例如柯洁对朴廷 ...

不出现死活问题之类的昏着，严重性依次递減，此外，依双方子力分布疏密，角图与中盘恰巧是吻合度最佳战场

ILoveBt2 · 发表于 2021-9-6 22:19

处于相同时代的棋手，棋力只能靠胜负成绩，冠军数量来衡量。不同时代的棋手，由于没条件对局，规则也不尽相同（座子，贴目，比赛用时限制等等），无法通过胜负进行客观理性的比较，还是不要比较为好，结果一定是打嘴仗。AI吻合度，那个指标好像也不是Katago作者搞出来的，应该是LizzieYzy整合包的作者搞出来的，初衷是帮助复盘，顺便看看对手有没有遛狗，拿它来衡量棋手的水平客观性和权威性让人质疑。

阿扬 · 发表于 2021-9-6 22:29

上次看一盘解说，说赵晨宇下棋经常和绝艺不一样，但是不掉胜率。

ILoveBt2 · 发表于 2021-9-6 22:33

ILoveBt2 发表于 2021-9-6 22:19
处于相同时代的棋手，棋力只能靠胜负成绩，冠军数量来衡量。不同时代的棋手，由于没条件对局，规则也不尽相 ...

围棋是如此复杂的一个智力运动，用所谓的AI吻合度来衡量棋手水平实在太简单了点，AI还有种类、版本、权重、算法等问题。在我看来最起码还要衡量一下下面几个指标，但很多指标很难用科学方法来衡量：

1. 计算的快慢
2. 计算的广度和深度
3. 判断的精准度
4. 心跳呼吸血压变化
5. 运用心理战的能力
等等

所以，用胜负来衡量是最有说服力的方法。

杏林葳蕤 · 发表于 2021-9-6 22:57

以AI来评价棋力，这是个新生事物，以现有的指标来看还是不完善。我打过一些职业棋手的谱，AI评分从50-80的都有，自己下棋复盘也一样，总不能说我80分的棋比世界冠军50分的棋要好吧。所以我感觉AI评分和棋的内容也有关，局面简明，可选点多（比如前10选胜率差距不超过3%），AI评分就高。局面越复杂，可选点越少（比如前5选胜率差距已超过10%），AI评分就会低。
个人猜测AI评分低胜评分高的原因是这个评分可能只是把每手棋的分数平均一下，而崩盘可能就一手棋，后面怎么都扳不回来了，所以每手棋应当有权重，实行加权平均应该会好些。当然，我也知道，怎么给每手棋赋权重是个大课题，这还是留给大佬们去解决，我等普通群众吃瓜就好。

帐号		自动登录	找回密码
密码			注册

再谈棋力、胜负与AI吻合度的基本逻辑问题

评分

点评