自动化学报
ACTA AUTOMATICA SINICA
1997年　第23卷　第4期　Vol.23　No.4　1997



在计算机围棋中形象思维的研究1)
王鲁明　戴汝为
　　关键词　人工智能，计算机围棋，形象思维，神经网络
RESEARCH ON THINKING WITH IMAGERY TO COMPUTER “WEI QI”
WANG LUMING　　DAI RUWEI
(AI Lab., Institute of Automation, CAS, Beijing 100080)
Key words　Artificial intelligence,computer “WEI QI”, thinking with imagery,neural network.
1　引言
　　目前，对于计算机围棋，无论是基于博弈论的方法，还是基于传统人工智能的方法都没有能够给出令人满意的解决方法，当今计算机围棋还在入门的阶段徘徊.计算机在国际象棋领域的成功很大程度上要归功于计算机硬件的发展，使得基于博弈论的搜索成为可能，从而“以与人类思维方式不同的方法达到人类思维所能达到的高度”.不幸的是，这种异曲同工的效果不再能够在计算机围棋中重现.围棋的复杂性使得任何主要依赖于搜索的方法归于无效，这迫使我们回到研究和模拟人类思维的机制上来.本文在这里就人工神经网络在计算机围棋领域的应用，模拟人的形象思维［1］作一初步的探讨.
2　围棋的特点
　　我们研究计算机围棋，首先要抓住围棋的本质特点.围棋具有以下几个基本性质：
　　1)重视全局，
　　2)重视不同棋子间空间位置的相互关系，
　　3)重视地域和势力的平衡.
3　运用形象思维的特点
　　现在让我们分析一下人在下围棋时是如何运用形象思维的，以及它的特点.
　　1)感受野宽广基于感受的并行性
　　当一位围棋高手走近一盘棋时，全局在霎那间落入他的眼中，而不是类似于博弈论中的搜索算法那样地注视每一个棋子［2］.当他具体计算某一个局部的死活时，他的目光(感受野)缩小到这一局部，但这一局部的整体是同一时刻被其思考的.换句话说，即他对棋局的感受窗口大小是可变的，其感受是并行的.
　　2)善于把握全局，忽略不重要的细节
　　我们假设这样一种情形：一个人在一间黑暗的屋中观看一盘棋，此时他只能使用一束手电筒光进行照明.假定光束半径受限，每次仅能笼罩一个子.这种情况下，当人观察棋局的时候，被迫以一个固定的、极小的感受野去感知.当人随着光束一个子一个子看过去时，其脑海中逐渐将重要的细节串了起来，而忽略了不重要的细节，最后他得到了对整个棋局的评价.
　　3)人的感受是分层次的
　　人在感受一盘棋时，总是首先综观全局，对全局有了大致印象
　　4)人善于利用对称性等空间特殊性
　　对于一个围棋中的定式，人只需要记住一遍.在实战中，在棋盘的四个角，黑白子互换八种情形下，人都可以主动地将记住的定式作相应的变换，然后去应用它.人善于利用问题的对称性来简化问题，减少记忆存储量.而对于神经网络来说，如果想要利用对称性，那么或者大大加大空间存储量，即一个定式分为八个网络进行存储；或者加大学习时间，将一个定式学习八次.
4　针对形象思维的特点应用神经网络［3―5］
　　我们对 bp 网的网络结构和算法改进，用以模拟宽广感受野.
4.1　网络构造(如图1所示)


图1　网络构造
　　该网络为三层网络：第一层是输入层，由 19×19 个节点构成，每个节点与其空间相邻的节点(至少2个，至多4个)相连.第二层为隐含层，19×19个节点.第三层为输出层，输出下一步棋在棋盘的哪一个位置或哪一个区域.第一层中每个节点及第一层内与其相邻的节点与第二层相应位置的节点有权值的连接；第二层节点与第三层节点间二二相连.
　　网络输入为一个多值矩阵，矩阵中的值由对应棋盘上的点的状态决定.其中计算机所下的棋子所代表的值为正，对手所下的棋子所代表的值为负，空白处所代表的值为0.矩阵中每个非零值的绝对值为对应棋盘上棋子的强度.棋子的强度由以下因素决定：
　　1)棋子的强度的初始值为与该棋子相连的同种棋子构成的一块棋的气数；
　　2)这块棋如果有两个或两个以上的真眼，则置其强度为 MAX；
　　3)这块棋如果有一个真眼，则其强度 S′=S+1(S 不等于1).
4.2　权值描述
　　第一层与第二层，第二层与第三层间权值赋予-0.1―0.1 之间的随机数.
　　第一层两个节点间权值按以下规则赋予：
　　1)两个节点值均不等于0，则权值为0；
　　2)两个节点值等于0，则权值为0.25；
　　3)两个节点值一个为0，另一不为0，则权值为0.25；
4.3　算法描述
　　分为两部分：
　　1)自组织
　　①对第一层每个节点赋初始输入Ii(0);
　　②计算第一层两个节点间的权值若所有的 Wji均为0，则结束；
　　③计算第一层每个节点的值
Ii(n+1)=∑Ii(n)+WjiIj；
　　④转 ②.
　　2)监督学习
　　采用 bp 网的误差反传算法训练一、二层、二、三层间权值.
5　结论
　　为了检验本文提出的理论模型，作者在 SUN 工作站 X 环境下实现了一个计算机围棋平台，对不同的理论模型进行了验证.实践证明，本文提出的方法是具有实用价值的.
1)　自然科学基金资助项目.
作者单位：中科院自动化所人工智能实验室　北京　100080
参考文献
［1］　钱学森.关于思维科学.上海：上海人民出版社，1986.
［2］　David N L.Levy(eds).Computer games.Vol.Ⅰ,Ⅱ New York Spring-Verlag 1988.
［3］　Lippmann R.An Introduction to computing with nerual nets.IEEE ASSP Mag.,1987,4:4―22.
［4］　尹红风，戴汝为.一种联想记忆模型及附加节点方法.计算机学报，1990，13(5)：331―339.
［5］　戴汝为.语义、名法模式识别及其应用.模式识别与人工智能，1995，8(2)：89―93.
收稿日期　1995-06-01
