admin管理员组

文章数量:1122852

alpha,beta剪枝详解

α,β剪枝详解\alpha,\beta剪枝详解α,β剪枝详解

示例图

步骤详解

基础原理

这里我们先要理解什么是α,β\alpha,\betaα,β剪枝:α\alphaα是下界,β\betaβ是上界。

此外,作为博弈的双方,最大值方(用方块表示)总是试图做出决策使值最大,最小值方(用圆表示)总是试图做出决策使值最小,这里我们带入最大值方,站在A的角度,判断究竟是选择B还是C能满足我们的目标。

步骤详解

1. 从A开始深度优先搜索,一直搜索到I,得到值为1,因此下界alpha为1,也就是说D的决策最差为1。
2. 再次搜索,从D->J,得到J的值为3,因为D是最大值方,所以此时alpha为3(因为最大值方总是会选择最大的那个)
3. 由于D的所有的值已经确定,所以D的值为3。
4. 由于D的值确定,所以可以回到B(这里的原则是如果子节点中有个值确定,就可以返回上下界给父节点),B是最小值方,知道D的值为3,所以他要尽可能使值小,他把上界beta更新为3。
5. 从D开始搜索E,E搜索到K为4,E的下界更新为4,这个时候其实不用去搜索E的其他子节点了,因为4已经大于B的上界beta3,也就是说在E这个结点,可能选到一个值大于从D中得到的值,B不会傻乎乎的给E这个机会,这也是剪枝的地方
由此,我们大致可以归纳出求最大值的方法:
1. 如果是叶子节点直接返回
2. 搜索子节点,如果某个子节点大于beta,则返回;否则一直寻找子结点中的最大值,并且试图更新alpha值
具体实现在“代码实现”部分(max_value(node,alpha,beta))
6. 所以B的值为3,由此可以确定A的下界为3,从A开始搜索,一直到O,得到值为2
7. F的alpha更新为2,再次搜索P,得到值为1,1<alpha,所以不产生影响
8. F的值确定为2,C的上界确定为2,C的上界小于A的下界,所以现在剪枝。
由此,我们可以大致归纳出求最小值的方法:
1. 如果使叶子节点直接返回
2. 搜索子节点,如果某个子节点小于等于alpha,则返回;(针对父节点)否则一直寻找子节点中的最小值,并试图更新beta(针对子节点)
具体实现在“代码实现”部分(min_value(node,alpha,beta))

代码实现

def max_value(self,node,alpha,beta):if(self.isTerminal(node)){	#如果使叶子节点return node.get_value();}clf = float('-inf') #初始值设置为-inffor chld in node.children:	#遍历子节点clf = max(clf,min_value(chld,alpha,beta))if clf >= beta:return clfalpha = max(alpha,clf)node.val = clfreturn clf
def min_value(self,node,alpha,beta):if(self.isTerminal(node)){return node.get_value();}clf = float('inf')for chld in node.children:chld = min(clf,max_value(chld,alpha,beta))if clf <= alpha:return clfbeta = min(beta,clf)node.val = clfreturn clf

难点分析

个人觉得这个剪枝方法的难点在于不明白到底是在哪里剪枝?

其实这里的剪枝是在父节点与子节点间的,假如我们站在C的角度上,它的父节点A因为B(B=2),设定了下界为2,此时C进行探索,如果F的值为1,那么C就不用再探索了,因为A不会给C这个机会去得到F;我们再站在G的角度上,G的父节点由于探索了F,因此设定上界为(F=2),而此时G探索到Q(3),那么G也可以不用探索了,因为C不会给G这个机会去选择Q。

所以剪枝是在父节点和子节点间的:最大值方给出下界的压力,最小值方给出上界的压力(所以代码中最小值方一直更新下界,就是为了找到一个更好的下界)。

本文标签: alphabeta剪枝详解