博弈最优策略优选九篇

时间：2023-08-25 16:39:18

博弈最优策略

博弈最优策略第1篇

论文摘要：信贷市场中，企业获得贷款后基于自身利益的驱动会产生道德风险，从而加大了银行信贷风险。本文建立了银企博弈模型，得出银行可以将审核概率控制在一定阀值上，从而降低企业的道德风险。在此基础上，设计了银行对借款企业的激励契约，得出抵押物价值和贷款利率的最优线性关系。

随着我国金融业的不断开放，我国商业银行面临着日益激烈的竞争，借款企业的道德风险已经成为银行较高不良资产率的主要原因之一发放贷款后，由于信息不对称，银行往往无法对企业进行有效监控，企业可能做出损害银行利益的行为，这就是企业道德风险。

银企博弈模型

交易双方为银行和借款企业，假设两者均风险中立。博弈顺序如下：借贷双方针对某一项目签订借贷合同，贷款额度为B。合同规定抵押价值Q以及贷款利率i等，显然Q>B。企业可选择“不改变资金用途”或“改变资金用途”两种纯策略，对应的项目失败概率t1和t2，显然，t10，高风险意味着高收益)。银行收益始终为r，有r=iB。项目失败后，银行由于存在审核成本，故其策略有“审核”与“不审核”，对应概率分别为α和1-α，审核成本为C。如果审查出企业“改变资金用途”，则银行没收抵押后并给予企业惩罚π，其中可以是信用等级的降低等。

双方收益函数：企业不改变资金用途，如果项目成功，企业和银行收益分别为R-r 和r；如果项目失败并且银行选择审核，双方收益分别为B-Q和Q-B-C，如果银行选择不审，双方收益分别为B-Q和Q-B。企业改变资金用途，如果项目成功，企业和银行收益分别为R+Δ-r和r；如果项目失败并且银行选择审核，双方收益分别为B-Q-π和π+Q-B-C，如果银行选择不审，双方收益分别为B-Q和Q-B。

博弈的均衡分析

如果一个混合策略是企业的最优选择，那么意味着企业是否改变资金用途的期望收益无差异，即：(1-t1)(R-r)+t1[α(B-Q)+(1-α)(B-Q)]=(1-t2)(R-r+Δ)+t2[α(B-Q-π)+(1-α)(B-Q)]，得出：

同理，如果一个混合策略是银行的最优选择，那么意味着银行审核与不审核之间的期望收益是无差异的。引入一个条件概率λ(c/f)，表示项目失败后银行认为企业改变资金用途的概率，由贝叶斯法则得：这种情况下银行审核与不审核的期望收益相同，即：λ(c/f)(π+Q-B-C)+[1-λ(c/f )](Q-B-C)=Q-B，得出：

因此，所求的α和p即为所求纳什均衡点。这表明当银行审核概率低于α时，企业最优策略是改变资金用途；当银行认为企业改变资金用途的概率小于p时，考虑到审核成本，银行选择不去审核。所以，银行可以将审核概率控制在一定阀值之上，就能够有效控制道德风险。

激励契约设计

银行在设计契约时，应理性预期到双方的博弈策略选择及其各种局势的支付，进而设计激励契约。设计契约如下：

{(1-p)(1-t1)r+(1-p)t1[α(B-Q-C)+(1-α)(Q-B )]+p (1-t2)r+pt2[α(π+Q-B )+(1-α)(Q-B )]} (1)

s.t(1-t1)(R-r)+t1(B-Q)≥0(2)

(1-t1)(R-r)+t1(B-Q)≥(1-t2)(R-r+Δ)+t2[α(B-Q-π)+(1-α)(B-Q)] (3)

r=iB (4)

银行的最优策略是使自身期望收益即(公式1)达到最大；同时应满足不改变资金用途的企业的参与约束(公式2)；为激励企业不改变资金用途，还应满足激励约束(公式3)，即不改变资金用途的企业获得的收益应大于改变资金用途的企业。(公式4)为r与B的关系。

添加参与约束因子β和激励约束因子γ构造拉格朗日函数，得出β=1，γ=1-p。

当γ≠0，即p≠1时，因此约束条件(2)和(3)取等号，解之得：;当γ=0，即p =1时，即银行认为企业一定会改变资金用途，则银行一定会审核，即α=1。

由结果可知，在最优博弈策略的基础上，银行利润最大时其最优抵押物价值和贷款利率存在以上线性关系。一般，当贷款额度和贷款利率一定时，抵押物价值与项目失败率成反比，因此，银行可以通过设计不同的抵押物价值要求的契约来对企业进行激励。

参考文献

博弈最优策略第2篇

关键词：机械化；重复博弈；最优反应动态

中图分类号：S－1文献标识码：C文章编号：0439－8114（2011）12－2575-03

Game Analysis of the Best Response Dynamics in Agro－technical Popularization

WU Zhe，LI Jing

（School of Economics， Yangtze University， Jingzhou 434025， Hubei， China）

Abstract： Promoting the development of agricultural technology in china was contributed to improve the standard of living of peasantry， to increase their incomes and to push the development of agriculture in our country． The popularization of agricultural technology through the bounded rationality repeated game approach and the best-response dynamics theory was analyzed． And at last some suggestions for the policy were given．

Key words： mechanization； repeated game approach； best-response dynamics

改革开放以来，我国农业和农村经济取得了较快的发展，正是由于农业经济的发展，使我们对如何发展农业，发展怎样的农业等发面有了新的认知，同时也提出了发展现代农业的要求，本文主要从农业技术推广的辐射效应论述我国现代农业的发展。

1农业发展现状

1．1机械化程度低

我国主要的粮食生产区分布在东北，黄淮海地区以及长江中下游地区。这些地区土地面积占全国总土地面积的22％，2003年耕地面积和总人口分别占全国的约53％、51．8％，粮食播种面积占全国的59％，粮食总产占全国的约61％。其他地区由于经济发展和地形等制约因素，粮食种植面积相对较小［1］。据统计测算，到2007年底我国耕、种、收的综合机械化水平已达到41％，农业劳动力占全社会从业人员比重已降至38％左右。当前我国农业机械化整体水平，只相当于韩国20世纪70年代水平。尽管我国机耕水平接近60％，小麦生产80％实现了机械化，水稻机械收割水平接近34％（2005年数据），但大宗农产品生产总体机械化水平较低，玉米机械收获水平仅有8％，水稻机械插秧水平只有11％，花生、马铃薯机械收获发展刚刚起步，油菜、甘蔗、园艺作物等优势农产品机械化基本空白［2］。

1．2农村劳动力素质偏低

在我国农村转移劳动力中大多数是受教育年限相对较长的中、青年劳动力。据统计，2000年，21～25岁的农村劳动力中有67．2％从事非农业活动，年龄段在26～30岁、31～35岁、36～40岁、41～50岁的农村劳动力从事非农业活动的比例依次为52．5％、47．6％、43．3％、37％。根据《中国农民工问题研究总报告》提供的资料显示，2004年，全国农民工中16～30岁的占61％，31～40岁的占23％，41岁以上的占16％；农民工的平均年龄为28．6岁；初中文化程度的占66％，接受过各种技能培训的占近24％［3］。可以看出，外出农民工平均年龄比较年轻，同时也是农村劳动力中受教育程度比较高的群体。虽然我国农村有大量的剩余劳动力，由于受教育程度较高的中、青年劳动力外出务工，农村只剩下老幼妇孺，必将会对农村经济的发展造成影响。由于留守农民的文化水平不高，致使他们习惯于其所掌握的落后生产方式，对外界的新事物缺乏兴趣，对信息、新技术的认识能力、消化能力都不高。这就使得许多新知识、新成果、新技术难以在农民的生产活动中得到应用和推广，导致农业科技成果转化率低。同时，农民不太了解市场经济运作的规律，不能及时捕捉经济信息从而做出合理的经济决策，造成很多农产品不能通畅销售，达不到提高农民收入的目的。农村留守农民文化素质偏低是农业科学技术推广难的主要因素。

农业技术近年来在我国农业发展过程中发展较快，但相对于日益增长的工业化进程，农村技术推广仍然存在障碍。农业技术能否快速有效的扩展直接关系到我国农业的发展和农民的生活水平。

2博弈分析

最优反应动态（Best－response dynamics）是进化博弈理论中典型的动态机制之一．该机制适用于少数有快速学习能力的有限理性博弈方之间的重复博弈和策略进化［4］。在此机制下，认为博弈方虽然缺乏在复杂局面下准确判断和全面预见的能力，但是具有较快的学习能力。在一次博弈结束之后，博弈方会对本期结果进行分析、总结，对不同策略的结果做出比较正确的事后评估并相应调整策略［5］。

2．1基本模型

首先，假设我国各地村庄作为行为主体，他们具有相当快的学习和一定的分析能力，同时又是有限理性的，这样的假设与实际情况是比较吻合的。所以，采用具有快速学习能力的有限理性博弈方之间的重复博弈模型。假设图l中得的矩阵为各村庄之间的博弈。每个博弈方都有两种策略选择：采用新技术（设为A策略）；不采用新技术（设为B策略）。当博弈双方都采用A策略时，双方的得益都为α；当博弈双方都采用B策略时，双方的得益都为β；当双方采用的策略互不相同时，采用A策略的一方由于采用新技术将付出一定的代价（如资源共享、要素流动等）γ，其得益为β－γ；采用B策略一方由于搭便车等行为则从对方获得了额外好处）γ，其得益为β＋γ。其中，α－β＞＞γ。

从得益矩阵可以看出，得益矩阵表示的双方博弈，又称为“协调博弈”，有两个纯策略纳什均衡（A，A）、（B，B），其中（A，A）是帕累托上策均衡。但是，如果考虑了博弈方相互对对方理性的信任问题，或者对风险的敏感性等因素，那么均衡（B，B）则更可能出现。

2．2最优反应动态

下面开始分析，随着时间的推移，各地村庄采用新技术与否的博弈策略给我国农业带来的不同影响。假设各村庄两两之间进行上述博弈。由于各方都是有限理性的，但又具有快速的学习能力，他们能对上一期的博弈结果进行总结，并立刻做出相应的策略调整，以使当期能够实现收益最大化。同时假设各村庄之间的交往具有重叠交互作用的特征，即同一村庄可以同时与不同的村庄进行博弈。

假设我国各村庄都处于一个圆周之上，每个村庄都与各自的左右邻居进行重复博弈。我们下面将按照从特殊到一般的思路，来讨论圆周博弈中的最优反应动态。

2．2．1考察5个村庄分布处于圆周上5个不同位置的情况我们假设有5个村庄分别处于圆周上的5个不同位置（图2），每个位置的博弈方可能采取A策略，也可能采取B策略。所以，初次博弈共有32种可能的情况，其中包括一种全部采用A策略，一种全部采用B策略的情况，其他都是两种策略均有人使用。

本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文

我们假设xi（t）为在t时期，博弈方i的邻居中采用A策略邻居的数量，该数量有0、l、2可能值。相应地，采用B策略邻居的数量为2－xi（t），也有0、1、2可能值。针对第t期的xi（t），博弈方采用A策略的得益为α×xi（t）＋（β－γ）×［2－xi（t）］，采用B策略的得益为（β＋γ）xi（t）＋β×［2－xi（t）］。根据最优反应动态机制，当

α×xi（t）＋（β－γ）×［2－xi（t）］＞（β＋γ）xi（t）＋β×［2－xi（t）］

即xi（t）＞2γ／（α－β）时，博弈方i在t＋1时期会采用B策略。

已知α－β＞＞γ，则2γ／（α－β）＜1由于xi（t）只能取0、l、2整数，在实际上，如果在t时期博弈方i的两个邻居中只要有1个采用A策略，那么博弈方i在t＋1时期就会采用A策略；如果两个邻居都没有采用A策略，那么博弈方i在t＋1时期就会采用B策略。由此可以得出，当5个博弈方初次全部采用A策略（B策略）时，最终的稳定状态为所有博弈方都采用A策略（B策略）；如果在初次博弈中有1个博弈方采用了A策略，而其他博弈方都采用B策略的时候，那么这5个博弈方经过4个时期的反复策略调整，最终收敛到了所有博弈方都采用A策略的稳定状态。图2给出了初次博弈只有一方采用A策略的最优反应动态过程。

2．2．2考察有6个村庄分布处于圆周上6个不同位置的情况如果在初始博弈中，有1个博弈方采用了A策略，而其他博弈方都采用B策略。按照同样的推理，可以得出，最优反应动态并没有使6个博弈方最终收敛于全部使用A策略的稳定状态，而是在（B，A，B，A，B，A）和（A，B，A，B，A，B）之间周期变动。也就是说明，每个博弈方都会在A策略和B策略中徘徊不定。如果在初次博弈中，有相邻的两个博弈方都使用了A策略，其他博弈方仍然使用B策略。那么，最优反应动态可以使得所有博弈方最终都收敛于全部使用A策略的稳定状态。如果在初始博弈中，有不相邻的两个博弈方采用了A策略（此两方之间存在另一个采用B策略的博弈方），而其他博弈方采用B策略，最优反应动态也不能使所有博弈方都收敛到全部使用A策略的稳定状态，而是又陷入了（B，A，B，A，B，A）和（A，B，A，B，A，B）之间的周期变动，与第一种情形（只有1个博弈方采用了A策略）的结果相同。如果在初始博弈中，有不相邻的两个博弈方采用了A策略（此两方之间存在另外两个采用B策略的博弈方），而其他博弈方采用B策略，各个博弈方通过反复调整策略，其间会出现相邻的两个博弈方同时采用A策略的情形，这种情形与上文的第二种情形本质上是相同的。所以，最优反应动态最终使所有的博弈方收敛于全部采用A策略的稳定状态。

通过以上对特定奇偶数量的博弈方的分析，我们不难推广到一般的情况，即存在n个村庄处于圆周上的n个不同位置，可以得出下列命题。

命题1：当所有n个博弈方在初次博弈中都采用A策略（B策略）时，最终的稳定状态则为所有的博弈方都采用A策略（B策略）。

命题2：当n为奇数时．在初次博弈中，如果有一个博弈方采用了A策略，其他博弈方采用B策略，那么各个博弈方经过多个时期的反复调整政策，最终能够收敛于所有博弈方全部采用A策略的稳定状态。

命题3：当n为偶数时．如果在初次博弈中，有一个博弈方采用了A策略，其他博弈方采用B策略，那么，最优反应动态无法使所有博弈方收敛于稳定状态，各博弈方对策略的调整只能陷入周期变动。

命题4：当存在n个博弈方时，如果我们通过安排博弈方在初次博弈中的策略，使得在重复博弈到达某一期时，出现相邻的两个博弈方同时采用了A策略。那么，经过之后的有限多次博弈，最优反应动态将最终使得所有博弈方收敛于全部采用A策略的稳定状态。

2．3结果分析

通过以上的分析可知，最优反应动态是否能够使得所有博弈方都收敛于采用A策略的稳定状态，主要取决于各个博弈方在初次博弈中的策略分布，此外，还与博弈方在得益矩阵中得益大小有关。

2．3．1关于各个博弈方在初次博弈中的策略分布根据命题4可知，如果某种策略的初始分布使得重复博弈在将来某一期中出现相邻的两个博弈方同时采用A策略，则最优反应动态最终会使所有博弈方达到全部采取A策略稳定状态。因此，要求各村庄在采用新技术的同时提升自身的素质和文化修养。

2．3．2关于各个博弈方在得益矩阵中的得益大小根据博弈模型可知，当xi（t）＞2γ／（α－β）时，博弈方i在t＋1时期会采用B策略。由于我们假设（α－β）＞＞γ，故2γ／（α－β）＜1，即只要在时期博弈方i的两个邻居中只要有1个采用A策略，那么他在t＋1时期就会采用A策略。若要保证（α－β）＞＞γ，必须使得我国农村中各村庄采用新技术的得益远大于不采用新技术的得益。同时，还须使得各村庄采用新技术的成本γ尽可能小［6］。

3结论

通过以上的博弈分析可知，我国农民是否采用新技术取决于不同的因素，由不同的演化路径，可以产生不同的结果。首先各地政府要根据各自地域的差异，采用不同的技术及推广机制，做到因地制宜。其次，政府应加大在农村的资金投入及农业科技人才的引进。最后，各地方政府应加大对农民的农业技术培训，使其掌握先进的农业技术，增加农民的收入。同时，还应加强各村庄之间技术信息的交流，加强合作。

参考文献：

［1］杨进华．安徽省基层农业技术推广体系改革的思考与建议［J］．安徽农学通报，2007，13（12）：10－11．

［2］高启杰，谢建华．关于基层农业技术推广体系发展与改革的思考［J］．调研世界，2005，16（12）：13－14．

［3］孙中才．农业与经济增长［M］．北京：气象出版社，1995．

［4］罗伯特・D・史蒂文斯．农业发展原理――经济理论和实证［M］．南京：东南大学出版社，1992．

［5］吕健，余政．文化生产力发展：一个进化博弈的视角［J］．世界经济情况，2008，10（10）：8－9．

［6］陆谨．基于演化博弈论的知识联盟动态复杂性分析［J］．财经科学，2006，10（3）：6－8．

博弈最优策略第3篇

关键字：投资行为引资行为博弈分析博弈均衡

博弈论是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。博弈思想起源于20世纪50年代，最先出现在冯•诺依曼和摩根斯坦恩1944年合著的《经济行为和博弈论》。1950～1954年，纳什发表了一系列论文提出了著名的“纳什均衡”概念，为非合作的一般理论和合作的讨价还价理论奠定了坚实基础。随后，泽尔腾对纳什均衡做出了发展，引入了动态分析方法。海萨尼在博弈论的研究中引入不完全信息下的分析方法。克莱普斯和威尔逊等分析了动态不完全信息条件下的博弈问题。博弈论已被应用于经济学、军事战略、计算机科学等当中，从90年代开始，被广泛应用于商业中。而涉及到投资和引资行为中的博弈研究尚处于初步阶段。用博弈论研究方法来分析投资和引资行为中的策略抉择，在当前具有十分重要的意义。

一、投资和引资行为策略的博弈论基础

招商引资行为中的“不求所有，但求所在”充分体现了引资策略的博弈特征，投资利益分配中的“非你既我”则充分体现了投资策略的博弈特征，从根本上决定了其可博弈性。各投资方和引资方不同的目标和利益追求必然导致对弈者出现利益冲突和行为不一致现象。但各对弈者理性地采取或选择自己的策略行为，使得在这种互相制约又互相影响的依存关系中，尽可能地提高自己的利益所得。

投资和引资行为中的博弈包括五个要素：(1)对弈者(player)：指博弈中独立决策、独立承担结果的个人或组织，这里可分三种情况：投资方之间，引资方之间，投资方与引资方之间。(2)策略集合(strategy set)：指对弈者在给定信息集的“相机行动方案”。在招商引资过程中，引资方竞相采取不同政策(如税收优惠、融资支持)进行抗衡。投资方通过各种策略排挤和压制竞争对手，争夺利益范围。而投资者与引资者存在既依存又斗争的利益共享与利益争夺关系，共同组成一个利益博弈互动系统。(3)规则(rule)：博弈规则本身是由演进力量决定的社会构造之物。为了进行博弈，对于有关的博弈规则人们必须具有共同的预期。博弈分析的目的是使博弈规则预期均衡。就投资和引资行为中的博弈而言，国家和当地的法律、法规、制度结构和博弈方制定的契约是博弈正常进行的保障。(4)报酬(payoff)：指对弈者从博弈中所得到的“收益”(确定“收益”或期望“收益”)，它是各博弈方追求的根本目标，也是他们行为和判断的根本依据。(5)均衡(equilibrium)：指所有参与人的最优策略的组合,博弈论中的均衡注重均衡本身的产生。在投资与引资行为博弈中由于多主体的参与可能存在多个均衡。

二、投资和引资行为博弈方法的解析

（一）目标函数的确定

确定各类行为主体的目标函数，必须把各类行为主体作为对立的利益主体，以局中人的角色互相博弈[5]。引资方所选择的策略目标函数是以壮大自己的经济实力、竞争力和可持续发展能力(因主体而异)为中心，力图增加资本存量，提高引资效率和增加就业机会，促使技术进步和经济的快速增长。资本是以追求剩余价值为目的，投资方要求把资本放在安全可靠、利润丰厚的地方和产业之上，以获得长期利益为目的，追求预期利益最大化为目标来确定自己的目标函数。在博弈当中，个人效用函数不仅依赖与自己的选择，而且也依赖于他人的选择，可以说，个人的最优选择是其他人选择的函数。在进行目标函数的选择时，不确定性和风险必然导致行为主体的收益与预期之间的偏差，但可通过目标的互相协调进行平衡。

（二）目标的协调

从发展变化的观点观察，投资和引资行为是存在时间动态变化的。在局中人无法限制对方通过自身努力争取目标的实现时，各局中人相对位置的变化不可避免。对弈中的投资方相对位置的变化可能源于投资何地、何时投资、投资量多少等等；而引资方相对位置的变化可能源于何种方式引资、何项目上引资、引资量的多少等等。他们追求的目标实际上是自己在社会决策过程中角色的改变(如主动权和获益权的控制)。在了解各自可能的获益、对手的习惯以及获益的期望等等(当然得充分考虑信息的可获得量和度)后作出自己的最佳决策。当局中人的目标之间发生冲突或矛盾时，能够通过协调相互之间的关系，保持目标上的协调，达到博弈的均衡状态。

（三）工具的选择

一般情况下，引资方采取的引资工具包括直接引资措施和间接引资措施。直接引资措施是通过直接与投资方接洽、商谈等既定的活动来实现目标，如由政府部门领导前头的引资团的直接招商引资活动。间接引资措施指通过影响、引导投资主体决策的变量来达到目标，如优惠政策的出台、投资程序的简化、办事效率的提高等。投资主体拥有的投资资金是他投资活动赖以进行和实现的前提条件。投资方采取的投资方式与工具包括项目投资方式(固定资产投资、流动资产投资和无形资产投资)和金融投资方式(固定收益投资工具、浮动收益投资工具等)。鉴于目前政府和企业以及其他投资者的投资目标仍是以项目投资为主体，本文的分析是以项目投资中的投资者为博弈中的一个对象。

三、投资方和引资方行为博弈分析

投资方和引资方作为不同的利益主体，以博弈局中人身份存在于这个利益博弈互动系统当中。引资方与引资方(投资方与投资方)的相互对弈有一个时间顺序，一方做出某项决策时必然会对另一方的决策有一个预期，并受他之前别人决策的影响；同时反过来又会影响他之后别人的行为，他们的相互博弈就构成一个完全信息博弈。投资方与引资方之间的博弈更为复杂，在目前情况下，招商引资中引资方常常处于被动或劣势地位，在实现自身目标驱动下对本身的具体战略、目标和政策倾向有明确的呈现，这样，投资方通过观察引资方行为可获得大量信息，并进而选择自身的策略，两者相互对弈就构成了一个不完全信息博弈。投资和引资行为中的对弈过程如图1所示。

为了分析的方便，假设存在两个投资者和两个引资者，投资者已决定把资金投入某地，引资者决定吸引资金。他们在每一时期都相互遇到，并且他们的策略只有投资于何地或吸引那方投资问题。在给定其他人策略的条件下，每个对弈者选择自己的最优策略，所有参与人选择的策略一起构成一个策略组合。考虑到互动系统的复杂性，本文可分情况进行分析。

（一）混合策略博弈

在图2所显示的元博弈中，设投资参与人集合N，标记为i＝1，2；引资参与人集合M，标记为j=1，2。每个投资参与人的策略集合为A=(a1，a2)，每个引资参与人的策略集合为B=(b1，b2)，收益函数Ui=(qk)由得益矩阵确定，其中qk=(ai，bj)，k=1，2。纳什均衡最优解为

Max∑∑Ui(ai ，bj)si 式中si∈Si ，ai∈A ， bj∈B si表示混合策略。

如果只进行一次博弈，博弈双方没有一个确定性的具体的策略，最优策略纳什均衡并不存在，一方的策略选择依赖另一方行动偏离的概率。

根据投资方和引资方的行为分析(最优达不到寻找次优甚至次次优)，可求得进行重复博弈的解(成为动态博弈问题)。假设投资方1首先采取触发策略，在重复博弈的开始选择投资到引资方1所在地，引资方1也只吸引有利益获取的投资方1的投资，投资方2只能选择投资于引资方2所在地。在这个阶段博弈中各自选择了合作伙伴，当期的总收益为U1(a1，b1)+U2(a2，b2)。同理，当投资方2首先发生偏离时，投资方与引资方都会将资金投入引资方2所在地，引资方没有吸引资金的优势，这时当期的总收益为U2(a2，b1)+U2(a2，b2)。这样就证明了在重复博弈条件下，投资方和引资方在“序贯理性”下存在许多策略抉择。由于受随机扰动冲击，演化动态总是处于变动之中，在存在博弈协调情况下，投资和引资行为会自发产生。

（二）竞争策略博弈

在最简单的情况下，改变上面元博弈的得益函数，会导致博弈结果的改变(如图3)。

在竞争策略博弈中的纳什均衡为(a1，b1)和(a2，b1),投资方1与引资方1合作，投资方2与引资方2合作，从而找到了目标利益的结合点。从中可分析出，引资方之间必然会发生竞相吸引、鼓励外商投资现象，这解释了为何发生招商引资过程中盲目竞争现象，也解释了投资方为了利益范围的争夺时有发生的原因。在竞争压力驱使下，引资方通过改善投资环境，投资方通过高效的管理手段和先进的技术投入等来不断加强自己的竞争优势，竞争不断升级有其必然性。

（三）子博弈精炼纳什均衡的复合

在图4中，各博弈方不存在改变自己策略的动力，这种均衡策略组合存在而且是唯一的，博弈存在“一致性”预测下的确定解。投资方1与引资方1合作的策略组合(a1，b1)，投资方2与引资方2的策略组合(a2，b2)构成占优策略均衡(dominant-strategy equilibrium)。在重复博弈中，纯策略组合µ1[a1/b1]，µ2[b1/a1]，µ3[a2/b2]，µ4[b2/a2]构成子博弈精炼纳什均衡。这样就证明引资方与投资方之间是相互依存、互惠互利的利益共同体，形成了博弈双赢系统。当然，在整体利益既定的情况下，引资方与投资方为了各自利益的最大化，又具有相互矛盾的利益争夺关系(如图1)。可以说，双方在对利益的争夺过程中实现利益的共享(双赢)。

四、长江三角洲引资大战的博弈分析

长江三角洲是我国城市发展水平比较高的地区，城市间合作水平和协调机制建设不断提高和进步，城市间合作程度也在不断加深。但是，本地区在吸引外资上存在着激烈的竞争，城市之间为外资获取权的博弈此起彼伏，其中，由于引资动机过度膨胀而出现的非理性竞争导致了非帕累托最优的时时出现，这带来的一个明显的后果是阻滞了本区域发展战略目标的实现。如上海为了降低商务运营成本，吸引外资的流入并阻滞内部资金向周边城市的外流，并想通过各种手段创造与周边城市更加有利的竞争条件，2003年4月以“嘉青松”地区为试点，划出了嘉定57平方公里、青浦56.2平方公里、松江59.89平方公里为“降低商务成本试点区”，因其总面积为173平方公里，被人们称为“173计划”。针对上海的“173计划”，江苏就出台来了“八市沿江开放战略”，同一期间，浙江也出台了“环杭州湾开放”方案，可以认为这个新的“经济特区”的划定是上海、江苏和浙江三地在引资上全新竞争形式的开始，这也是引资方与引资方之间为吸引外资而进行博弈的进行和结果。对此我们可以从以下四个方面进行分析：

（一）由目前长三角地区发展的情况可知，上海的“173计划”带来的一个明显效应是长三角地区各城市为招商引资而形成了“蜗角争利”的态势。由此可见，“173计划”已经失去了通过降低商务成本达到吸引外资的目的，使本来处于焦灼状态的长三角城市之间的竞争更加白热化，同时为未来的协作关系的深入发展埋下了许多隐患。如果上海市财政局、市外资委、市工商局等六部门在做出 “173计划”这个决定时，充分考虑到周边其它城市的强烈反应，他们之间的博弈进行就不会是现在“既不利己也不利人” 的结果。

（二）投资方（一般是外商）与引资方（长三角地区各城市）之间的博弈由于引资方强烈吸引外资的决心而处于被动和劣势地位。鉴于此，投资方可以在各个引资方提供的优惠政策程度上掌握博弈的主动权，他们完全有机会在引资方之间做出有利于自己的策略选择。因此，他们是这场博弈的最终得益者和最大收获者。从这个结果来分析，长三角各城市应该端正态度，具备博弈分析的一般知识和心态。

（三）投资方之间的博弈的进行则主要取决于他们所投资项目在优惠政策基础上的获利能力与地租成本的权衡，他们会为自己的投资项目找到一个最佳的投资地，通过对不同的策略选择的最优抉择来攫取大量的超额利润。

（四）在这个博弈的进行过程中，外商是拥有完全信息的一方，他们可以利用引资方的非理性竞争而选择最有利于自身的博弈策略。由此可知，从这个博弈的进行过程来分析，这场引资大战是一个典型的不完全信息博弈。

五、结论

从投资与引资行为的博弈分析中可得以下结论：

（一）投资方和引资方鉴于自己利益得失的考虑，相互利用对方优势条件和互相竞争最大化利益是交融在这个系统中，系统内利益的冲突并不必然只导致竞争，利益的重合也并不必然只导致合作。

（二）各主体对博弈行为的把握程度的深浅(取决于决策需要的信息和分析信息能力)、目标的差异、采取的路径手段的不同(归功于竞争力和决策权、对弈者的习惯等)，博弈的运行过程和结果存在多种可能性。双方力量的动态发展必使非均衡状态走向新的均衡状态。投资与引资行为博弈的复杂性决定了其主体决策不像平常简单的静态事物那样仅仅存在一个均衡点，多主体博弈往往存在多个均衡点。

（三）理性预期下主体做出的投资决策(引资决策)以及他们的经济活动在实际生活中并非一定遵从最有效原则，而是在“边做边学”中把握整个博弈局势。各博弈主体如果增强了彼此进行博弈分析的能力，充分认识到预期效果与未来实际效果、预期利益与未来实际利益之间存在偏差。在利益发生矛盾或冲突下通过信息反馈过程可达到协调的结果，虽然没有达到帕累托最优，但经济活动效果比对着干(悖理的)好一些。

（四）公平、公正和利益互惠原则是维系这个博弈互动系统的保障，也是争取利益最大化的基本准则。

[参考文献]

[1]张维迎．博弈论与信息经济学[M]．上海三联书店、上海人民出版社，1996．

[2]李雪松．博弈论与经济转型[M]．社会科学出版社，1998．

[3]付晓东，胡铁成．区域融资与投资环境评价[M]．商务印书馆，2004．

[4][美] H・培顿・扬．个人策略与社会结构[M]．上海三联书店、上海人民出版社，2004．

[5]母爱英．论博弈论在区域政策中的运用[J]．经济地理，2003．

博弈最优策略第4篇

关键词：商家选址策略组合最优反应

1.引言

美国诺贝尔经济学奖第一人萨缪尔森说过，“要在现代社会做一个有文化的人，你必须对博弈论有大致的了解。”博弈于我们的生活中无处不在，凡是两个及以上的行为人进行决策的过程，都会涉及到博弈，因利益而发生冲突或对抗是人类社会的一个普遍现象。大到国家政治、生死之地、存亡之道，小到人生棋局、日常生活、赌博游戏，谋略型对抗都是最为常见的局势。本文将用博弈论的观点解释商家选址问题，为什么卖同类商品的商家会紧挨着布局。

2.什么是博弈

所谓博弈，就是策略性的互动决策。任何一个博弈，至少包括三个要素：

2.1一组局中人（一个局中人集合）；

2.2局中人可以采取的行动（出招）；

2.3局中人可能得到的赢利。

标准的博弈论，假设人们不会有道德、良心和情感上的考虑，所有的一切都唯一以是否符合自身的利益作为行动选择的标准。任何一个博弈中，每个人的赢利不仅取决于自己如何“出招”，也取决于别人如何“出招”。正是这种战术上的互动，使得博弈充满了趣味、新奇，甚至惊险、刺激。而所谓博弈论，就是一套研究互动决策行为的理论，它实际上也可以看做是一种思维方式，即谋略型思考问题的方式。

3.最优反应与纳什均衡

最优反应是指，给定对手选定一个策略，则我选择某个策略比选择其他策略都要好，那么选择这“某个策略”就是我对于对手选定策略的最优反应。

纳什均衡是这样一种状态，在该状态下每个参与人所采取的策略都是对于其他参与人的策略的最优反应。以二人博弈为例，纳什均衡就是一个策略组合（甲的策略，乙的策略），甲的策略是对于乙的策略的最优反应，而乙的策略也是对于甲的策略的最优反应。

4.商家选址问题

不管我们出门旅游，还是城市购物，您会发现，卖同类商品的卖家经常会紧邻在一起。最大的快餐连锁店肯德基和麦当劳，也经常会集中在一个地点，甚至相连。好多人都会想，这不是增大了自身的竞争吗？用博弈论的观点，我们很容易解释这个问题。

4.1商家选址模型

设两地A、B的距离为1000米，两个商家甲、乙要在此选址开店。设两地间均匀分布着1000名顾客，每个顾客都将在距离自己最近的店铺消费。那么这两个商家将如何布局他们的店铺？

设商家甲将在距离A处x米开店，乙将在距离甲y米出开店，如图1所示：

将该模型中，商家的支付系数越大，则吸引的顾客越多，设计支付矩阵，如表1所示：

由表1支付矩阵，我们可以得出，当x

同理，当x=500米，甲选在中点时，乙的最优策略也是选在中点；

当x>500米，甲选在距离B地较近处时，乙的最优策略是距离甲左侧y米处，所得支付系数为：x-0.5y，当然，y=0时最大，即紧挨着甲的左侧开店；

在上述模型中，两个商家会发现，如果自己摆在中点以左（或右）的位置都是不好的，因为对方可以通过摆在紧邻自己的右（或左）边，即可获得超过1/2的顾客消费者，而自己只能获得少于1/2的顾客消费者。只有自己安置在中点位置，这才是最好的，因为无论对方紧邻自己左边还是右边，自己始终可以得到1/2的顾客，其他位置不可能得到这么多顾客，于是，两个商家就紧挨着将店铺都开在了中点上。

5.现实问题解释

上述的商家选址模型的博弈，还可以用于政治选举中拉票活动的分析，也可以用于解释为什么卖同类物品的商家都紧挨着布局，为什么有麦当劳的地方大多数都会有肯德基。在上述博弈模型中，（中点，中点）是一个纳什均衡，两个商家都已选取了他们的最优反应，甲选择中点是对已选择中点的最优反应，而乙选择中点是对甲选择中点的最优反应。只有在这样的策略组合下，博弈的双方才能得到一个稳定的结果，即达到了纳什均衡。

参考文献：

[1]拜尔、格特纳、皮克.法律的博弈分析[M].北京：法律出版社，2004．

博弈最优策略第5篇

关键词:融资难;银企关系;博弈分析

中图分类号:F83 文献标识码:A

一、融资难现状及原因

(一)融资渠道狭窄,融资方式单一。民营中小企业发展主要依靠内源融资渠道。据调查,中国民营企业的融资,无论是初创时期还是发展时期,都严重依赖自我融资渠道,即主要依靠创业者的熟人关系的民间融资,通过银行等正规金融机构的融资比例很小。调查还显示,80%左右的民营企业认为融资困难已严重阻碍了他们的发展,民营经济初创时的启动资金有90%以上主要来自资金持有者、当初的合伙人以及他们的家庭来解决。即使在企业成长期,至少60%的资金依靠业主资金或保留盈余来解决。当资金紧张需要外源融资时,90%以上的企业选择了金融机构贷款这一间接融资渠道,直接融资所占比重较小。此外,民营中小企业获得国际贷款的可能性也微乎其微。融资方式的单一化,使民营中小企业融资回旋余地极小。

(二)自有资金缺乏。中小企业一般自有资本和自有积累比较少,一般情况不足30%。企业内源融资匮乏,扩大再生产和简单再生产所需资金主要都依靠外源融资,特别是负债融资。这不仅使企业融资成本过高,债务负担过重,而且使企业自我积累的融资机制难以形成,企业抵御风险的能力极为乏弱。

(三)银行贷款难上加难。中小企业的贷款,目前主要依赖于国有商业银行,因为现有的民间小银行提供的贷款无论从数额上,还是从期限上,都难以满足中小企业的要求。然而,从其性质来讲,国有商业银行是国家的大型金融机构,主要服务于国有大型企业。首先,他们希望能够包揽数量比较大的业务,因而对小额贷款不屑一顾;其次,银行经营的原则之一是尽量减少呆账、坏账,而中小企业市场风险大,企业倒闭率高,财务制度不健全,资信状况堪忧,缺乏足额的财产抵押,又无人担保,银行考虑到安全性因素,必然对中小企业惜贷、惧贷。

二、融资过程中银行和企业之间的博弈分析

(一)完全信息下的银企静态博弈。银行与企业作为两个不同的利益主体,在借贷行为中的决策和利益相互影响、相互作用的关系正是博弈关系的具体体现,而且目前我国商业银行与企业之间的关系是纯粹的借贷关系模式,因此决定了我国借贷行为中银行与企业的利益关系实际上是一种博弈关系。在研究银企关系的过程中,可以应用完全信息静态博弈。假设银行和企业在双方博弈的过程中,博弈方对每个参与人可能选择的策略及其相应得益都完全了解。在银企博弈的对局中,假设企业的策略为还贷和不还贷;银行的策略为放贷和不放贷。k为贷款额,r为银行贷款利率,R为企业贷款后的经营利润率。如果企业还贷,银行放贷,则双方都获益,假设银行获利rk,企业获利Rk;如果企业还贷,银行不放贷,企业利益受损,设为-Rk,银行无利,设为0;如果企业不还贷,银行放贷,则企业获利,设为R1k,由于企业除了正常的获利,还因为拖欠银行的贷款而另外获利,因此可认为R1>R,银行利益受损设为-rk;企业不还贷,银行不放贷,则企业和银行都无利,均为0。这样,我们可以得到银行和企业的支付矩阵。如在表1这个支付矩阵中,我们可以利用划线法得到唯一的一个纳什均衡,即(0,0)。也就是说,企业不还贷,银行不放贷是企业和银行的最优策略。在这个博弈关系中我们看到,不管银行采取什么策略,企业的最优策略都是不还贷。由于在完全信息静态博弈的条件下,银行对企业的策略组合及损益得失的函数都有完全的了解,而且银企博弈是同时选择行动且只选择一次,因此银行最优策略是不放贷。(表1)

这样形成的纳什均衡,在特定条件下形成的一种没有经济效率的利益均衡,对内对外都存在不经济。而且银行和企业在此均衡中都无任何利益而言。所以,这是一种不稳定的均衡,有效的制度创新能打破这种均衡,从而可以增进银行、企业的效率以及社会的效率。

(二)完全信息下银企动态博弈。完全信息条件下的银企动态博弈过程可以用博弈树来表示,如图1所示。(图1)最上方的空心圆圈表示银行的选择节点,银行在此处可以选择的策略是放贷或者不贷。如果银行选择不放贷,则博弈结束;如果银行选择贷款,则博弈进行下去。第二个空心圆圈表示企业选择的信息集,企业在此处可以选择还贷或者不还贷,企业选择还贷,银企双方则皆大欢喜;企业选择不还贷,银行则血本无归。第三个空心圆圈表示银行选择的信息集,在此处银行的选择策略是回收或者不回收。回收是银行的法律手段,通过打官司来收回贷款,在有法律保障的情况下,银行可以收回贷款;在法律保障不足的情况下,银行不能收回贷款。不回收是对企业的不还贷行为不进行法律诉讼、不打官司。

又如,图2中的四个终端处黑点的数组,表示由博弈方各阶段行为依次构成的,到达这些终端的“路径”所实现的各博弈方支付,其中第一个数字是银行的支付,第二个数字是企业的支付。假设银行提供的贷款额为z,贷款利率为i。如果不贷款给企业,则将资金z用于低风险投资(如国债),并获得利润rz,并假设rc2为简化模型,假定c1=2,c2=1。企业还贷时,他的支付是θ-iz,银行的支付是iz。为简化分析,假设存在如下数量关系:θ=2,iz=1,rz=0.8。根据子博弈精练纳什均衡的定义,通过运用逆推归纳法,可以求解上述银企动态博弈中的子博弈精练纳什均衡。在上述三阶段银企博弈过程中,银企双方的策略组合:银行第一阶段选择‘放贷’,第三阶段选择‘回收’;企业第二阶段选择‘还贷’,虽然是整个博弈的一个纳什均衡,但是这个策略组合中银行的策略要求银行在第三阶段的子博弈中选择的‘回收’,不是这个子博弈的一个纳什均衡。因此,根据子博弈精练纳什均衡的定义判断,这个策略组合确实不是一个子博弈精练纳什均衡。这正是上述纳什均衡策略组合不稳定的根源。而策略组合银行在第一阶段选择‘不放贷’,如果有第三阶段选择则选‘不回收’;如果有第二阶段选择‘不还贷”,则是上述博弈中的子博弈精练纳什均衡。因为该策略组合的双方策略不仅在整个博弈中构成纳什均衡,而且在两极子博弈中也都构成纳什均衡,从而不存在任何不可信的威胁或承诺。根据子博弈精练纳什均衡的定义,该策略组合构成这个动态博弈的一个子博弈精练纳什均衡。事实上,这也是该动态博弈唯一的一个子博弈精练纳什均衡,因此也是这个博弈真正稳定的结果。银企双方按照这样的策略行为的结果,实现的博弈路径是银行第一阶段选择‘不放贷’,从而结束博弈,双方支付分别为0.8和0,也就是合作不能实现。

(三)不完全信息银企静态博弈。在完全信息博弈中,各博弈方对其他的收益都比较了解。但是在现实经济生活中,银行与企业在信息上往往是不对称的。我们假设好企业还贷能力强,差企业还贷能力弱。银行对于申请贷款的企业存在信息不完全了解,一时不能判定企业的好和差,也就是不能区分好企业和差企业。假定企业中有好企业和差企业两种类型,申请贷款额为k,银行贷款利率为r,好企业的收益率为rg,差企业的收益率为br;对应好企业和差企业的不同策略组合的收益矩阵如表2。(表2)

从表2中可以看出,如果企业是好企业,在好企业申贷的情况下,银行的最优策略是放贷;如果企业是差企业,在差企业申贷的情况下,银行的最优策略是不放贷。因此,在完全信息条件下,如果企业是好企业,银行的最优策略是放贷;如果是差企业,银行的最优策略是不放贷。但是,因为银行并不知道企业是好企业还是差企业,银行的最优策略的选择依赖于其在多大程度上认为企业是好企业或差企业。

假设银行认为企业是好企业的概率是p,差企业的概率是1-p。我们可以通过海萨尼转换将上述的不完全信息静态博弈转换为完全但不完美信息静态博弈。银行似乎是在与两种类型的企业进行博弈,一种是好企业,一种是差企业。不完全信息银企静态博弈通过海萨尼转换就转换为完全但不完美银企动态博弈,如图2所示。(图2)在图2中,N为自然,自然首先行动,将企业分为两种类型:一种是概率为p的好企业;一种是概率为1-p的差企业。根据自然的行动,银行也认为企业是好企业的概率是p,企业是差企业的概率是1-p。那么,银行选择放贷的期望收益是pkr+(1-p)(-k),选择不放贷的期望收益是0。因此,银行的最优选择是:若p≥1/1+r,则选择放贷;若p

博弈论是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题的理论。如果按博弈方行动的先后顺序划分,博弈可以分为静态博弈和动态博弈;如果按博弈方对有关其他参与人的特征、战略空间及支付函数知识的角度划分,博弈可以分为完全信息博弈和不完全信息博弈。这样得到四种不同类型的博弈,与之相应有四个均衡概念,即完全信息静态博弈――纳什均衡,完全信息动态博弈――子博弈精炼纳什均衡,不完全信息静态博弈――贝叶斯纳什均衡,不完全信息动态博弈─―精炼贝叶斯纳什均衡。纳什均衡是指,在其他局中人的策略选择既定的前提下,每个局中人都会选择自己的最优策略,所有局中人的最优策略组合就是纳什均衡。将博弈论的基本博弈模型应用到银企关系的研究当中,得到了三种银企博弈模型。在各自的假设条件下,每个银企博弈模型都求出了纳什均衡解。各种银企博弈纳什均衡都说明了银行和企业在博弈过程中,都采取了维护自身利益、寻求收益最大化的行为,虽然这些纳什均衡并不都是有效率的,但是博弈论思想为研究银企信贷行为提供了有力的分析工具。因此,我们可以再引入其他假设,比如我们假定相信好企业都会按期还款,而面对劣企业到期不还款,银行将清算抵押品,银行具有硬的约束机制,从而将还贷阶段与融资阶段结合在一起建立不完全信息动态博弈模型,从而找到解决中小企业融资难问题中银企信息不畅通的矛盾,更好地促进中小企业的发展。

(作者单位:安徽大学工商管理学院)

主要参考文献:

博弈最优策略第6篇

关键词：博弈论；围标串标；治理

中图分类号：F22 文献标志码：A 文章编号：1673—291X（2012）28—0210—03

一、博弈论概述

博弈论是专门研究博弈如何出现均衡的规律的学科[1]。博弈论的思想最早出现于18世纪，20世纪20年代，由科学家冯·诺依曼和经济学家奥斯卡·摩根斯坦恩合著的《博弈与经济行为的理论》一书中将博弈论真正作为了一种理论研究。他们提出了策略型和广义型等基本博弈模型、解的概念和分析方法，构建了博弈论的理论框架。1951年纳什对静态博弈模型提出了纳什均衡的概念，明示了博弈论与经济均衡的内在联系。

博弈论又称对策论，是研究决策主体在决策主体各方相互作用情况下如何进行决策及有关决策均衡问题的理论。博弈论强调决策主体各方策略的相互依存性，即任何一个决策主体必须在考虑其他局中人可能的策略选择基础上来确定自己的最优行动策略。博弈论的精髓在于博弈中的理性决策者必须考虑在其他局中人反应的前提下来选择自己最理想的行动方案。所谓均衡即所有局中参与人的最优策略组合，各方博弈产生的结果是一个均衡结果，它可能不是局中各方及整体的利益最大化，但它是在已给信息与知识条件下的一种必然结果，因为任何一方改变策略而导致均衡的变化都有可能使自己得到一个更差的结果。

博弈论假设人是理性的，即人人都会在给定的条件下想办法使自身利益最大化。另外，人们在合作交往中有冲突，行为决策会受到相互的影响，且信息通常不对称。在现实中，博弈的最终结果往往是博弈的各参与人的策略组合达到一个均衡的结果，我们称之为纳什均衡。一旦达到这种均衡，博弈的任何一方都不会有积极性偏离这种均衡。

在一个存在n个参与者的博弈中，假设所有参与者都是理性的，如果策略组合s*是一个均衡的话，那么给定n—1个参与者的策略，某个特定参与者所选择的策略一定是最优的

（否则与理性人的假设相矛盾）；因为某特定参与者是任意选取的，因而上述特性对每个参与者都成立。换言之，对于一个策略组合s*，如果保持其他参与者的策略不变，而任意一个参与者的策略都是最优的，那么策略组合s*就是纳什均衡。归纳为一句话即为：“最优对任一参与者的任一策略成立。”简而言之，纳什均衡就是在给定其他参与人策略的条件下，每个人选择自己的最优策略。

用数学公式可这样表示：如果一个策略组合s*=（s*1，…，s*n）是博弈G={S，U}的一个纳什均衡，那么对任一参与者i=1，2，…，n，对其任意一个策略si∈Si，不等式ui（s*i，s—i）≥ui（si，s—i）成立。

纳什均衡的运用非常广泛，最为有名的一个例子就是由塔克给出的“囚徒困境”博弈模型。囚徒1和囚徒2共同作案，被抓住，警方将两名囚徒分开在两间审讯室同时审问，他们都只有两个选择，招供和沉默。警方提出这样的条件：若两人都招供，则证据确凿，两人均被判六年；若一人招供，一人沉默，则招供的囚徒可立即释放，而沉默的人则加刑二年；若两名囚徒均不招供，则因证据不足只能判他们一年。由此分析如下：

1.参与者集合：N={1，2}。

2.策略空间：囚徒1的策略空间S1={沉默，招供}，囚徒 2的策略空间S2={沉默，招供}。

3.偏好和收益函数：囚徒1的偏好为，（招供，沉默），（沉默，沉默），（招供，招供），（沉默，招供）。前一项为囚徒1的策略，后一项为囚徒2的策略。囚徒2的偏好类似。定义u1（s1j，s2k）和u2（s1j，s2k）分别为囚徒1和囚徒2的收益函数。所有收益如下：

u1（s11，s21）=—1 u1（s11，s22）=—8

u1（s12，s21）=0 u1（s12，s22）=—6

u2（s11，s21）=—1 u2（s11，s22）=0

u2（s12，s21）=—8 u2（s12，s22）=—6

显然有：

u1（s12，s21）=0>u1（s11，s21）=—1>u1（s12，s22）=—6>u1（s11，s22）=—8

u2（s11，s22）=0>u2（s11，s21）=—1>u2（s12，s22）=—6>u2（s12，s21）=—8

囚徒困境博弈模型（见下页图1）。

图1 囚徒博弈矩阵

由图1可清楚的看出，在完全不清楚对方如何决策的条件下，对于囚徒1，不论囚徒2选定的是招供还是沉默，他都应该选择招供，因为招供是他的严格占优策略；同样的，对于囚徒2，不论囚徒1如何选择，招供是他的严格占优策略。于是（招供，招供）是该博弈模型的严格优策略。同时，（招供，招供）是该模型的一个纳什均衡。如果给定囚徒2选择招供，则囚徒1的最优策略只可为招供；反之，给定囚徒1选择招供，囚徒2的最优策略也只能是招供。

二、围标串标的危害

所谓“围标”，是指某个投标人通过一定的途径，秘密伙同其他投标人共同商量投标策略，串通投标报价，排斥其他投标人的公平竞争，以非法手段赢取中标的一种违法行为。围标行为的发起者称为围标人，参与围标行为的投标人称为陪标人。所谓“串标”，是指在工程招投标过程中，几家投标单位通过事先商定，联合对招标项目的一个或几个招标标段用一致性报价、压价或抬价等手段串通报价，以达到排斥其他投标人，控制中标价格和中标结果，让他们其中的投标者中标的目的。

博弈最优策略第7篇

[关键词]合作困境　博弈分析　现实对策

中图分类号：D125・4　文献标识码：A　文章编号：1007-1369(2007)2-0046-05

石油是现代经济的血液，对于经济快速发展的中国和资源匮乏的日本具有重大的战略意义。从“安大线”、“安纳线”较量到东海海洋权益争端，再到现在日趋浮现的在非洲石油输出国的竞争，石油因素在两国关系及其政治话语中已具有重要地位。鉴于中日两国政治关系的脆弱性，以及国际能源环境变化的不确定性和全球化、区域化下的双边、多边能源合作的快速发展，加强中日海外石油合作，对于发展面向21世纪的稳定的中日关系具有重大的现实意义。

本文采用博弈论的分析方法，通过对中日之间在海外石油市场上竞争态势的分析，探讨中日在海外石油上采取合作策略的制约困境与现实对策。

制约困境的博弈分析

1.博弈理论的一般说明博弈是假定为理者的个人、团体或组织，面对一定的环境，在一定的约束条件下，依靠所掌握的信息，同时或先后，一次或多次，从各自可能的行为或策略中进行选择并实施，各自从中取得相应结果或收益的过程。由于它强调理者之间相互影响的制衡关系，因此在全球化不断发展，国家间联系不断增多的情况下，博弈及其研究理论日益被用来描述、研究国家间日趋复杂的相互依存关系。鉴于国际社会天然的无政府状态与国家不懈的自助努力，因此在博弈理论中，非合作博弈又成为现代博弈论研究的重点。

按照博弈理论的一般分类，根据行为者所占有的信息集的完全程度和行为的行动顺序，非合作博弈可分为：

其中，完全信息静态博弈是其他博弈分析的起点，有着较为严格的条件假设--它要求追求利益最大化的理者掌握完全的信息集(即对博弈策略与利益有清楚的了解)，并且在决策时不存在相互间的信息交换，而且一旦决策后就只能等待结果。因此，对于行为者来说，尽管此类博弈中占有完全的信息集，但是由于决策时信息交流的阻断，导致行为者无法确定对方是否会采取“背德”行为使自己利益受损，以致为了实现自身利益的最大化而不得不采取自己的“最优策略”，所以由此看来，在完全信息静态博弈中，主导行为者最优决策思维的并非是帕累托最优，而是风险上策均衡。其结果便是，行为者从自身利益最大化出发，不约而同地采取了“坦白”策略，却最终得到了“集体利益”最小化的“囚徒困境”。而在目前中日两国的海外石油竞争中，此种情况却大量存在。

比如在中日在俄输油管线的较量中，本来中俄议定的“安大线”全长只有2400公里，造价只有20～25美元(其中俄方17亿，可从中方获得50％的贷款)，且所经地区自然环境优越，便与施工养护。假如日本在此问题上合作，共担建设费用和管理成本，共享由此获得的石油收益，那么两国各自在投资上必然小于20～25美元。但是，由于日本担心中国在俄的输油管建设威胁其“太平洋石油管线”“战略计划”，所以在“安大线”即将开工之际，日本便提出了从西伯利亚地区安加尔斯克至海参崴地区纳霍德卡的“安纳线”计划。该线不仅全长3 765公里，造价50亿美元(全部由日本承担，而且日本还需再追加10亿美元助俄管道建设)，而且所经地区有1100公里的地震区，施工养护条件恶劣。此后，中日两国展开了激烈的竞争，其结果便是俄罗斯改建“泰纳线”(从泰舍特至纳霍德卡)，日本不仅要为此方案提供50亿美元贷款，中国亦愿意向该工程陆续投放120亿美元的贷款，而且还让俄罗斯给中日两国附加上了“安全保障”。所以与先前的“安大线”相比，可见其代价之巨大。

但是，值得注意的是，完全信息静态博弈的理论假设之一是行为者在决策时不发生任何的信息交换。可从现实来看，中日之间在多边与双边层次上存在着不同程度、不同形式的对话交流，比如在多边层次上，中日两国可通过联合国、亚太经合组织、东盟论坛、东亚峰会等场合进行对话交流；在双边层次上，中日之间可借助中日战略对话和东海问题磋商等会议进行信息交换和对话磋商，所以可以认为，当中日两国的决策者在进行策略选择时，可以从多种渠道了解对方的策略意图--从目前来看，实现石油供应源的多样化，稳定石油来源等已成为中日两国各自对对方能源战略的基本认知，而世界石油的储量、价格、交易、运输等信息更是两国都能掌握的公共信息。所以这不得不令人发问：中日两国为何在具备信息交流的情况下，还不能突破困扰两国的“囚徒困境”?

要回答这问题，完全信息静态博弈由于其严格的条件限定，已不能担此重任，而需借助于条件限定较为放宽的完全信息动态博弈。在完全信息动态博弈中，行为者追求利益最大化的本性与掌握完全信息集的要求并未改变，但是允许行为者在做出策略选择时有先后顺序，后行动者可以根据先行动者的行为信息做出自己的策略选择，从而实现一定程度的信息交流，因此比较适合用于分析中日两国在海外石油博弈中所遇到的“囚徒困境”。

实际上，假如采用“大历史观”的审视问题视角，从技术角度看待事物之间的相互联系与历史脉络，将中日两国在海外石油上的博弈放人中日两国“双重崛起”(即中国的和平发展与日本谋求政治大国的诉求)的背景下，将中日“双重崛起”下的国家战略性博弈与其他次国家层面或超国家层面的各类博弈总计为G，将中日在海外石油市场上的博弈记为g，那么在g与G之间便因石油本身在现代社会政治话语中所具有的战略性意义，不仅自然联系起来，形成一个简化的次数为2的“有限次重复博弈”，而且使石油在g中得益在G中的作用直接体现出来，使构建得益函数UG=UG(ug)成为可能。

在有限次重复博弈中，在每次重复博弈之前，以前博弈的结果各行为者都能观察到，成为下次博弈中行为者行动的参考依据，所以在有限次重复博弈中，行为者不能只考虑某个阶段的得益，而需顾及前次博弈的得益对后次博弈的影响以及最后的总得益。因此对于中日两国间由g与G构成的有限次重复博弈，中日双方不仅要考虑g的得益，还要考虑g的得益对G的影响以及最后的总得益。由于是有限次数重复，所以可以借助“逆向归纳法”对此作具体的博弈分析。

2.具体的博弈分析

首先，进行条件假设。由于石油作为一次性能源的不可再生性，其探明储量与产量在特定时期，技术发展既定的情况下是有限的，所以石油资

源人类活动约束已呈现出“存量约束”的形式。所以可假定在只有中日两国的封闭系统中，海外石油资源存量为X，中国对外石油的依赖度为d，那么中国就需要从外进口石油量为dX，假如中国能实现这一进口量，那么日本获取海外石油量为(1-d)X。由此根据基数效用理论假定出中国在g中的得益为ugl=AdX-BP，日本在g中的得益为ug2=C(1-d)X-DP(其中A、B，C、D分别为中日在g中的得益系数，在一定的技术条件下A、B，C、D恒定，但是，从现实来看，在一定技术条件下，日本的技术水平在常态分布上高于中国，所以A

其次，用逆向归纳法对上述假设进行具体分析。由于中日之间政治互信度比较低，在中日之间双重崛起的背景下，一方面中国政府由于日本对历史问题的虚无主义态度，对华关系的定位(目前日本将中日关系定性为“协调与共存”、“竞争与摩擦”混在的关系)以及近来日本对周边的一些举动等，担心日本走向政治大国后的政策走向；另一方面，日本政府面对中国快速的和平发展和自己过去所经历的“丧失的十年”，心理上难以调适并担心发展起来的中国危及自身的战略利益，特别是日本作为目前国际体系的既得利益者，其固有的保守心态是它尤其担心作为后发国家的中国缩小与它的差距，从而改变现有利益布局，所以在中日两国的博弈中，日本政府的最优策略便是使U1'

求解导数R∞=U1’，可得U1’=Ad{1+[E(b1)/(1+r1)]}①，同理可得U2'=C(-d){l+[E(b2)/(1+r2)]}②(这里“一”表示中日两国间的负相关关系，比较时取其绝对值)，比较①与②，可以发现，由于从2003-2006年间，中国经济的r1一直保持高位运行，分别是10.O％、10.1％、10.4％、10.7％，日本经济的r2则为1.4％、2.6％、0.8％、2.8％，所以1，(1+r1)必然小于1/(1+b)。而在E(h)函数上，由于日本在2001年的能耗强度为0.91，而同期中国的能耗强度却为8.45，换句话讲，就是同等能耗，日本将有更多的产出，因而也就对生更大的影响，即E(h1)

究其原因，症结就在于未能将纳什均衡贯彻于动态博弈的各个阶段，实现子博弈精炼纳什均衡。按照子博弈精炼纳什均衡的条件要求，行为者的最优策略必须贯彻于博弈的各个阶段，以便在博弈的各个阶段实现纳什均衡。而在上述分析中，δ与E等系数借助影响单位X增益而作用于G博弈在日本政府的最优策略中得到了体现，尽管借此可实现策略选择在G博弈中的纳什均衡，但是却忽视了最优策略在g博弈中的贯彻，因而也就未能在g博弈中实现纳什均衡。所以对于日本政府来说，将最优策略进一步贯彻于g博弈中以便在g博弈也实现纳什均衡，就成为其必然的策略选择。从上述表达式来看，U1

实际上，日本政府选择阻扰或干扰中国海外油源拓展的对抗策略，就是这一策略考量的直接体现。因为在贴现系数存在的情况下，尽管阻扰或干扰中国海外油源的拓展的举动并不能必然带给日本单位x的增益，但是由于r1>r2，带来δ1

自己在既得利益分布中的地位。而对中国来说，情况亦是如此，只能采取“针锋相对”的策略，不断拓展自己稳定的海外油源(这在客观上起到了阻扰或干扰日本海外油源拓展的作用)，才能保证自己的损失总小于日方。由此可以看出，双方的对抗策略借助对d的影响将纳什均衡贯彻到了博弈中，从而实现了在整个次数为2的有限性重复博弈中的子博弈精炼纳什均衡。由此也就可以理解为何在海外石油市场上，中日之间不断出现拓展、干扰、再拓展、再干扰……局面的原因。

最后，经过上述分析，基本可以得出如下结论：

(1)双方缺乏政治互信，才使得双方不断追求相对得益，奉行自我利益占优的纳什均衡策略。

(2)减弱d的影响，缓解相互制约的负相关关系，既是双方贯彻最优策略，在博弈的两个阶段实现纳什均衡的着力点，也是双方实现子博弈精炼纳什均衡后的客观结果。

(3)油价因素在上述条件下的博弈中并不发挥主要作用。换言之，高油价并不必然导致合作产生，有时高油价还会导致对稳定油源的进一步争夺。

现实对策：订立基于互信的政治契约

1.订立基于互信的政治契约的必要性

基于上述分析，可以看出，中日两国缺乏政治互信是导致两国不断追求相对利益，奉行自我利益占优的纳什均衡策略的主要原因。按照新现实主义的看法，感到不安全的国家总关心收益如何分配，它们并不注重参与者两方是否都收益，而只关心谁多得益。如果收益分配不均，得益的国家总想要削弱对方以改变自己在利益分配中处于不利地位，即使利益分配的双方有获得绝对收益这种愿望，但都害怕对方的实力增强对自己有威胁，所以合作起来就不成功。

因此，要实现中日在海外石油上的合作，就必须首先在双方之间订立基于互信的政治契约，消除因对对方不信任而产生的不安全感以及由此引发的对相对收益的追求。而一旦这种政治契约得以订立，那么按照新制度经济学的判断，将促进双方实现“记忆编码”，使其参与的博弈转变成“制度支持的完美记忆”(institution-assisted perfectrecall)博弈，从而大大提高信息交换的效率，稳定双方在博弈中的行动策略与心理预期，进而缓解双方因对方政策可能出现的突变性而产生的不安全感，降低谈判中的“讨价还价”成本，推动合作进程的快速发展。

在这一点上，法德和解给与了历史的佐证。在1963年，法德两国签署了《法德友好条约》。其意义不仅在于标志着法德双方和解的开始，更在于它还是法德之间基于互信订立的一种政治契约，使得双方从此可以秉信释疑，开诚布公地探讨地区合作事宜，携手推动欧洲一体化的发展。

2.订立基于互信的政治契约的着力点

任何政治契约的订立，都是缘于对利益的关注，也都以利益为订立契约的着力点，所以中日之间订立基于互信的政治契约，也必须以两国利益为着力点。

根据上述困境分析，减弱d的影响，缓解相互制约的负相关关系是双方在整个有限性博弈中贯彻最优策略，实现各自利益占优的着力点：日本政府借此缓解中日之间相互制约的负相关关系的策略是对抗，即阻挠或干扰中国海外油源的拓展，导致中国也不得不采取针锋相对的策略，最终形成了双方追求各自利益占优的子博弈精炼纳什均衡。

实际上，在当今世界，保证稳定的油源，缓解相互制约的负相关关系一直有两条思路：一是直接拓展油源，保证有稳定的石油供给，上述中日博弈也就是在这方面展开；二是寻找替代能源，发展节能技术。如果说前者在中日博弈中证明其占优策略为对抗的话，那么第二种则要在合作中实现自我利益最优。所以只要中日双方转换思维，加强双方在替代能源、节能技术上的合作，那么就可以规避在前者中面临的纳什均衡，在合作中实现各自利益的最优。因此，中日双方订立基于互信的政治契约，其着力点就可以放在寻找替代能源，发展节能技术上。首先在“节流”上培养双方的信任度，随后在一定程度时将此信任度“外溢”至“开源”领域，从而实现双方“记忆的编码”，缓解双方在此领域的担心与焦虑，进而达到订立互信政治契约的目的，最后消除双方的不安全感，使双方摒弃对相对收益的追求，在“开源”领域实现合作的最优收益。

而且从现实来看，此种着力点也有其存在的客观现实性：

第一，中国有寻找替代能源，发展节能技术的积极愿望。“节能优先”已成为中国可持续能源战略的重要组成部分。

第二，日本有着较为发达的开发替代能源、发展节能技术的科技水平。比如2005年9月，日本与印度签署的两国在能源领域进行综合性合作的共同声明，已堪称能源合作的典范。

博弈最优策略第8篇

关键词：广药加多宝王老吉博弈

一、背景介绍

中国行业企业信息中心《2012年前三季度中国饮料行业运行状况分析报告》显示，中国饮料行业整体正稳步增长，其中凉茶市场增幅超过30%，远高于行业平均水平。

此为宏观大背景，微观层面聚焦到广药和加多宝。从1997年广药集团与加多宝母公司香港鸿道集团签订“王老吉”商标租赁合同，到鸿道集团停用“王老吉”商标，开始自营加多宝凉茶品牌，再到广州中院裁定加多宝立即停用“王老吉改名为加多宝”等宣传广告。这场凉茶之战，是商业利益追逐的竞赛，更是双方进行策略博弈的精彩演绎。

二、博弈基本理论

运用博弈论思想分析广药与加多宝凉茶之战，首先需理解博弈论的基本理论。

（一）何为博弈论

博弈论是一门研究策略的科学，即将自己置于对手的位置来考虑问题，并尽可能提前对竞争对手可能的所有反应做出反应对策。广药与加多宝的商战中诸多环节运用了博弈论的知识，下面将进行阐述。

（二）博弈论四要素

广药与加多宝的博弈包含四要素：参与者、策略、次序和得益。

（1）参与者，即博弈中的博弈方。广药集团与加多宝即是博弈的参与者。

（2）策略，即各博弈方可选择的方法、量值等。在博弈中，决策主体根据自身判断及所获信息，制定一个行动方案。例如加多宝拥有策略集{重塑品牌与广药竞争，退出竞争。

（3）次序，即博弈进行的顺序。例如广药集团要求收回“王老吉”商标在先，加多宝在失去“王老吉”品牌之后塑造加多宝凉茶新品牌在后。

（4）得益，又称支付，即对于各博弈方来说，作出策略选择后所对应的收益。对于广药来说，鉴于王老吉品牌效益可观，收回迫在眉睫，而加多宝从长远利益出发，利用自身营销和渠道优势移植“怕上火”这一宝贵心智资源于新品牌加多宝上并精心培育。

（三）纳什均衡

在博弈中，每个人会根据他人策略制定自己的最优策略，在这些策略组成的策略组合中，由于考虑自身收益，没有人有动力去改变自己的策略，这时所有参与者的策略达到平衡，即为“纳什均衡”。广药集团与加多宝争锋相对的竞争，皆出于各自收益的考虑，采取的策略最终达到纳什均衡，下文中进行具体阐述。

三、广药集团PK加多宝的博弈策略思考

综观广药与加多宝多年来的商战，可以看作是同时行动与序贯行动并存的混合博弈。笔者为了清晰便捷地描述博弈理论在其中的运用，采用假设收益数值对博弈双方进行分析，得出博弈树及策略支付表如下：

为便于描述博弈过程，此处假设加多宝为先行动方，广药为后行动方。

若加多宝选择不进入中国内地市场，博弈双方收益为（0，0）。当加多宝采用进入内地市场策略时，广药若不租予其王老吉商标使用权，双方收益仍为（0，0），但当广药将“王老吉”商标使用权租给加多宝，此时，加多宝有策略集{经营王老吉品牌，经营自己品牌}。对于加多宝来说，王老吉是蕴含着中国传统文化基因的百年品牌，前景是广阔的，而冒然经营自己品牌，在没有历史文化背景的情况下，凉茶难以推广而出现一定地亏损，假设品牌使用租金为1个单位支付，则双方的收益为（-2，1）。当加多宝把王老吉做到红遍中国大江南北之时，广药若选择如增加租金的方式而不收回商标使用权，双方支付为（10，2）。而如果广药集团收回王老吉商标，加多宝面临着重塑品牌与广药竞争和退出竞争两种策略，若退出竞争，则意味着市场拱手相让，则收益为（0，10），若重塑品牌与广药竞争，则此处为同时行动博弈。加多宝与广药集团面对彼此间竞争，皆拥有策略集{积极战略，保守战略}，策略两两组合后收益如策略支付表所示。积极战略可带来市场效益的扩大，通过划线法得出（6，6）为纳什均衡。最后，博弈树采用逆推归纳法进行路径选择，加多宝和广药描绘出子博弈完美纳什均衡路径，即上图的棕色线条路径。

四、结束语

在现代经济生活中，博弈论的思维已经延伸至各种领域，大到经济、社会、政治、军事，小到父母与子女之间、夫妻之间，许多问题皆可用博弈理论进行解释与演绎。此文中广药集团与加多宝商战的主线即是双方为了自身利益最大化而进行博弈的过程。长远来看，运用博弈论的思维进行商业分析，能够较客观地描绘行动策略集以及收益，相信博弈论未来将会在多领域得到更深层地运用。

参考文献：

[1]中国行业企业信息中心. 2012年前三季度中国饮料行业运行状况分析报告[R].2012

[2]张志军.基于博弈论的企业绿色营销研究[D].哈尔滨工程大学，2004

博弈最优策略第9篇

关键词均值方差准则；随机微分博弈；线性二次控制；负债

中图分类号 F830 ， O225 文献标识码 A

1 引言

均值方差投资组合选择的目标是，在终值财富的均值给定时使其方差最小.文献[1]第一次用计量数学方法研究了该问题，并给出了求解投资组合策略的理论框架.近年来，由于人们对经济问题的持续关注，均值方差投资组合选择问题已成为数理金融研究的最热点问题.文献[2]研究了动态多个时代的均值方差组合问题.文献[3]在随机LQ的框架下研究了连续时间均值方差组合问题，通过随机LQ得到了最优策略和有效边界.文献[4]研究了马尔柯夫调制市场上具有资产负债的均值方差组合问题，获得了最优策略和有效边界.

在研究中，发现已有文献对均值方差问题的研究，大多只从投资者的角度出发，获得最优投资组合，而没有考虑市场不确定性对投资者的影响.在实际中，投资者肯定会受到市场不确定性因素的影响，因此从投资者和市场2个角度同时考虑才更符合实际.这就是随机微分博弈问题.随机微分博弈属于博弈论的范畴.博弈论虽然古已有之，但文献[5]的发表才标志着随机微分博弈时代的真正到来.随机微分博弈，假设市场是博弈的“虚拟”对手，通过投资者和市场之间的双重博弈得到最优的投资组合.它如今已成为数理金融学、管理学科的研究热点.文献[6]在跳-扩散金融市场中，利用随机微分博弈论研究了风险最小化的投资组合策略问题.文献[7]利用随机微分博弈论研究了Markov调制模型下的期权估值问题.文献[8]研究了两个具有相关但不同投资机会的投资者之间基于随机微分博弈的最优投资问题.文献[9]在幂效用和指数效用下研究了具有负债的随机微分博弈.文献[10]在幂效用和指数效用下研究了基于再保险和投资的随机微分博弈.

已往文献对随机微分博弈的研究大多数都是基于效用的，很少研究基于均值方差准则的随机微分博弈.基于已往文献对均值方差问题和随机微分博弈的研究，本文尝试把这2个问题结合起来研究.另外，目前资产负债管理已经受到理论界和许多金融机构的重视，有越来越多的学者对其进行研究，这里不再一一列举.因此本文在文献[9]基础上研究了基于均值方差随机微分博弈的资产负债管理.目标是当终值财富的均值一定时，在市场最坏的情况下，投资者选择一个最优的投资策略最小化终值财富的方差.应用线性二次控制理论求得了最优投资策略、最优市场策略和有效边界，并分析了负债对它们的影响.本文的创新点是：在资产负债管理中引入了均值方差随机微分博弈.通过本文的研究在实践上可以指导投资者在具有负债和市场出现最坏情况下，选择恰当的投资策略使自身获得一定的财富而面临的风险最小；同时在理论上丰富和发展了资产负债管理和随机微分博弈.

2 模型设定

2.1 金融市场

参考文献

[1] H M MARKOWITZ. Portfolio section [J]. Journal of Finance， 1952， 7（1）：77-91.

[2] D LI， W L NG. Optimal dynamic portfolio selection： multiperiod meanvariance formulation [J]. Mathematical Finance ， 2000， 10（3）：387-406.

[3] X ZHOU， G YIN. Markowitz’s meanvariance portfolio selection with regime switching：a continuoustime model [J]. SIAM Journal on control and optimal， 2003， 42（4）：1466-1482.

[4] S X XIE. Continuoustime portfolio selection with liability and regime switching [J]. Insurance： Mathematical and Economics， 2009， 45（1）：148-155.

[5] R ISAACS. Differential Games [M]. New York：Wiley，1965.

[6] S MATARAMVURA， B OKSENDAL. Risk minimizing portfolios and HJBI equations for stochastic differential games [J]. Stochastics An International Journal of Probability and Stochastic Processes， 2008， 4（3）： 317-337.

[7] T K SIU. A game theoretic approach to option valuation under Markovian regimeswitching models [J]. Insurance： Mathematics and Economics， 2008， 42（3）：1146-1158.

[8] S BROWNE. Stochastic differential portfolio games [J]. Journal of Applied Probability， 2000， 37 （1）：126-147.

[9] 杨鹏，林祥.随机微分博弈下的资产负债管理[J].中山大学学报：自然科学版，2013，52（6）： 30-33.