Katago CUDA 11.1 配置方法（适合新手）

刀点心 · 发表于 2020-11-25 14:25

本帖最后由刀点心于 2020-11-25 14:42 编辑

Katogo下载地址：
https://github.com/lightvector/KataGo/releases/tag/v1.7.0

Sabaki下载地址：
https://sabaki.yichuanshen.de/

使用方法：
1、下载Katago（cuda 11.1版），然后解压至任意位置；
2、把本文件夹内的五个文件（ cublas64_11.dll 、cublasLt64_11.dll 、cudnn_cnn_infer64_8.dll 、cudnn_ops_infer64_8.dll 、cudnn64_8.dll ）复制到上述解压后的文件夹内。
3、用Sabaki等软件加载Katago即可。 Sabiki的配置方法可参考下图——

注：Katago的权重文件需另外下载，下载地址：
https://github.com/lightvector/KataGo/releases/tag/v1.4.5

-----------------------------------------------------------------------------------

上述所有文件可到网盘下载：
链接：https://pan.baidu.com/s/1pvpWn2jHV9yrholriP3oLw
提取码：lz2r

keexisun · 发表于 2020-11-25 23:28

爱情隔夜茶发表于 2020-11-25 17:00
关于cuda版本有些事情请教一下？
1、 1070之类有cuda的使用opencl版本还是cuda版本？
2、 20系有了张量 ...

1、10系显卡建议用opencl版本，速度要比cuda版高10-20%左右
2、20系主要因为TensorCore张量单元是半精度计算，速度是cuda单精度计算的3-4倍左右
3、AMD6000系列虽然没有TensorCore张量单元，但是也支持半精度计算，而且还是opencl2.0版本，所以计算效率也不错
   目前从官方数据来看，以rx6800XT为例，AI性能大致相当于2080ti水平
   30系显卡目前的AI性能相对于20系大致如下：（katago1.7-cuda）
3070=2080=1.5*2060

3080=2080ti=2*2060
3090=1.2*3080

4、由于30系主要支持的是cuda11版本，其强项在于混合精度及稀疏阵列的计算，katago引擎目前对30系的优化还不太好
   再加上30系显卡价格虚高，目前还是20系显卡比较有性价比，AMD由于opencl驱动有些问题，所以暂时不建议用A卡

爱情隔夜茶 · 发表于 2020-11-25 17:00

关于cuda版本有些事情请教一下？
1、 1070之类有cuda的使用opencl版本还是cuda版本？
2、 20系有了张量中心后cuda执行效率是不是翻倍？
3、 amd 6000系对标30系的没有张量中心是不是效率也是差一半或者差很多？
4、使用katago是不是只能买30系？同样价格买6000系一定是差很多？

弋舟 · 发表于 2020-11-25 17:45

非常好的教程，感谢楼主！

zlyn · 发表于 2020-11-25 18:02

cuda版和opencl版步时在5秒以下基本棋力相当，甚至步时越短cuda版比opencl版棋力还弱一点。设置为步时10秒cuda比opencl版胜率大约为65%。时间再长没测试，估计设置更长时间cuda版棋力会再强一点，即使再强应该胜率不会超过70%。测试显卡为单卡2080ti。

zhiming · 发表于 2020-11-25 18:12

感谢楼主！

发扬论学qi · 发表于 2020-11-26 17:38

楼主第二条的五个文件从何来？不明来源。4楼提供的数据为准备安装cuda版的提供了参考价值。

刀点心 · 发表于 2020-11-26 18:19

发扬论学qi 发表于 2020-11-26 17:38
楼主第二条的五个文件从何来？不明来源。4楼提供的数据为准备安装cuda版的提供了参考价值。

这些文件都是从官网安装包里提取的，下载地址：https://developer.nvidia.com/cuda-downloads

爱情隔夜茶 · 发表于 2020-11-27 09:05

keexisun 发表于 2020-11-25 23:28
1、10系显卡建议用opencl版本，速度要比cuda版高10-20%左右
2、20系主要因为TensorCore张量单元是半精 ...

最近几个版本据说更新了opencl 和cuda比怎样？

chaojinaiba · 发表于 2020-11-27 12:23

在一些案例中，我们可以体验到 Tensor Core 的强大，它是如此之快，以至于总是在等内存传来的数据——在 BERT Large 的训练中，Tensor Core 的 TFLOPS 利用率约为 30％，也就是说，70％的时间里 Tensor Core 处于空闲状态。这意味着在比较两个具有 Tensor Core 的 GPU 时，最重要的单一指标就是它们的内存带宽。A100 的内存带宽为 1555 GB/s，而 V100 的内存带宽为 900 GB/s，因此 A100 与 V100 的加速比粗略估算为 1555/900 = 1.73x。

chaojinaiba · 发表于 2020-11-27 12:23

本帖最后由 chaojinaiba 于 2020-11-27 23:11 编辑

显存带宽 2060       336GB/s
2060s-2080s, Quadro RTX 5000, 3070    448GB/s
6800，6800xt,6900xt    512GB/s
2080ti    616GB/s
Titan V    653GB/s
RTX Titan, Quadro RTX 8000 672GB/s
3080       760GB/s
V100       900GB/s
3090       936GB/s
A100       1555GB/s

chaojinaiba · 发表于 2020-11-27 12:28

6800xt实测相当于0.8个2080ti，符合显存带宽比例

keexisun · 发表于 2020-11-27 12:51

爱情隔夜茶发表于 2020-11-27 09:05
最近几个版本据说更新了opencl 和cuda比怎样？

目前都统一用 opencl版本了，速度和cuda版差不多，省去许多程序链接库的麻烦
最新的subtreevb-opencl版棋力还有提升，中后盘算路更精准

cuda11版本是30系专用，其它显卡用的话可能会降速

512song · 发表于 2020-11-27 13:07

在linux下，使用Tesla v100，katago的1.6.1版本cuda与opencl差距还是很大的、

弋舟 · 发表于 2020-11-27 17:15

Tesla v100买不起啊！

帐号		自动登录	找回密码
密码			注册

Katago CUDA 11.1 配置方法（适合新手）

本帖子中包含更多资源

点评

点评

本帖子中包含更多资源

Katago CUDA 11.1 配置方法 （适合新手）

本帖子中包含更多资源

点评

点评

本帖子中包含更多资源

Katago CUDA 11.1 配置方法（适合新手）