演化博弈的分析范式与占优的跟风策略——河北经贸大学学报
作者:陈博来源:原创日期:2013-09-14人气:1063
演化博弈理论是研究群体进化的一种动态方法,其研究对象是频率制约选择下的进化动态。其中,个体的适应度并非常数,而是依赖于不同表现型在群体中所占的比例。演化博弈理论源于博弈论与生物学之间的互动:首先,生物学家尝试运用博弈论建构各种生物竞争演化模型,比如生存竞争、性别比例等;[23]然后,生物学家将种群思想引入博弈论之中,比如适应度概念、进化稳定策略、复制方程等;[24]最后,经济学家借鉴生物学家提出的理论,继续发展了演化博弈,从演化稳定均衡扩展到随机稳定均衡。不论演化博弈理论如何发展,独特的分析范式是其核心特征。
(一)演化博弈的分析范式
2. 演化稳定策略。演化稳定策略(ESS,Evolutionarily Stable Strategy)是演化博弈中一个非常关键的概念。[25]其核心思想是,如果一个现存策略是演化稳定策略,那么,必须存在一个正的进入障碍,使得当变异策略的频率低于这个障碍时,现存的策略能够比变异策略获得更高的收益[26]。假设现存策略为x,变异策略为y,而变异者进入后占总体的比例为?着(0<?着<1)。在这个双态总体中,现存策略进入后的支付为u(x,?棕),变异策略进入后的支付为u(y,?棕)。若u[x,?着y+(1-?着)x]>u[y,?着y+(1-?着)x],则现存策略x被称为演化稳定策略。[27]因此,演化方法关注的是单个大总体中的对称配对博弈,即侧重两个策略之间互动关系,而不涉及两个以上的多态个体间的博弈。此外,演化稳定性并未解释策略的来源,只是检验策略一旦出现,在演化压力下是不是稳定。所以,从本质上来看,演化稳定性是每次只针对一个变异的稳定性检验,强调的是变异的作用。
3. 复制动态方程。演化过程是两个基本要素的组合:一个是产生多样性的变异机制;一个是倾向一些种类的选择机制。演化稳定性强调变异的作用,即个体策略的随机变动,而复制动态强调的则是选择的作用。(二)占优的跟风策略
一种人类行为如果经历了漫长的演化过程,即经过变异的入侵检验和选择的动态复制,能够生存下来。那么,就可以说这种人类行为是演化稳定的。通过前面的分析可知,要想揭示强互惠行为的内生性和生物理性本质,必须从演化的视角进行解读。那么,在演化博弈中应该如何来解释强互惠行为呢?对这一问题的回答可以从演化博弈中的关键性概念“跟风策略”开始。
跟风策略(TFF,Tit for Tat)又称“一报还一报”策略,即开始时选择合作,然后不断重复对方上一步的选择。[29]它是由多伦多大学博弈论专家阿纳托尔·拉帕波特(Anatol Rapoport)在罗伯特·阿克塞尔罗德(Robert Axelrod)重复囚徒困境计算机竞赛中提出的一个博弈策略。阿克塞尔罗德在20世纪末进行了三次计算机模拟实验,目的在于探讨人类合作能否从有着自己利益最大化推理逻辑的行动者的行为互动中自发产生。在第一次实验中,共有15种策略参赛、225场比赛,模拟结果显示,跟风策略平均得分504.5,即基准分600的84%,排名第一;在第二次实验中,阿克塞尔罗德将参赛策略增加到63个,并将第一次实验的结果告知参赛者,模拟结果显示,跟风策略平均得分为基准分的96%,在此排名第一;在第三次实验中,阿克塞尔罗德并未增加新的策略,而是从演化博弈的角度出发,试图发现史密斯的“演化稳定策略”(ESS),模拟结果表明,跟风策略在演化迭代中依旧表现出色,而“诡诈型”策略在200代以后完全消失。通过三次重复囚徒困境博弈实验,阿克塞尔罗德发现:跟风策略稳定成功的原因在于它综合了善良性、报复性和宽容性。[30]善良性,即从不首先背叛;报复性,也称可激怒性,即对方若背叛,则自己将在下轮对其惩罚;宽容性,即一旦“改过”,自己以合作对待。正是这三种特性保证了跟风策略在与各种策略的博弈过程中能够获得较高的平均支付,具有较强的适应性,即跟风策略具有演化稳定性。正如生物学家道金斯所说,即使有自私的基因掌权控制,好人仍能得好报。[31]
(一)演化博弈的分析范式
2. 演化稳定策略。演化稳定策略(ESS,Evolutionarily Stable Strategy)是演化博弈中一个非常关键的概念。[25]其核心思想是,如果一个现存策略是演化稳定策略,那么,必须存在一个正的进入障碍,使得当变异策略的频率低于这个障碍时,现存的策略能够比变异策略获得更高的收益[26]。假设现存策略为x,变异策略为y,而变异者进入后占总体的比例为?着(0<?着<1)。在这个双态总体中,现存策略进入后的支付为u(x,?棕),变异策略进入后的支付为u(y,?棕)。若u[x,?着y+(1-?着)x]>u[y,?着y+(1-?着)x],则现存策略x被称为演化稳定策略。[27]因此,演化方法关注的是单个大总体中的对称配对博弈,即侧重两个策略之间互动关系,而不涉及两个以上的多态个体间的博弈。此外,演化稳定性并未解释策略的来源,只是检验策略一旦出现,在演化压力下是不是稳定。所以,从本质上来看,演化稳定性是每次只针对一个变异的稳定性检验,强调的是变异的作用。
3. 复制动态方程。演化过程是两个基本要素的组合:一个是产生多样性的变异机制;一个是倾向一些种类的选择机制。演化稳定性强调变异的作用,即个体策略的随机变动,而复制动态强调的则是选择的作用。(二)占优的跟风策略
一种人类行为如果经历了漫长的演化过程,即经过变异的入侵检验和选择的动态复制,能够生存下来。那么,就可以说这种人类行为是演化稳定的。通过前面的分析可知,要想揭示强互惠行为的内生性和生物理性本质,必须从演化的视角进行解读。那么,在演化博弈中应该如何来解释强互惠行为呢?对这一问题的回答可以从演化博弈中的关键性概念“跟风策略”开始。
跟风策略(TFF,Tit for Tat)又称“一报还一报”策略,即开始时选择合作,然后不断重复对方上一步的选择。[29]它是由多伦多大学博弈论专家阿纳托尔·拉帕波特(Anatol Rapoport)在罗伯特·阿克塞尔罗德(Robert Axelrod)重复囚徒困境计算机竞赛中提出的一个博弈策略。阿克塞尔罗德在20世纪末进行了三次计算机模拟实验,目的在于探讨人类合作能否从有着自己利益最大化推理逻辑的行动者的行为互动中自发产生。在第一次实验中,共有15种策略参赛、225场比赛,模拟结果显示,跟风策略平均得分504.5,即基准分600的84%,排名第一;在第二次实验中,阿克塞尔罗德将参赛策略增加到63个,并将第一次实验的结果告知参赛者,模拟结果显示,跟风策略平均得分为基准分的96%,在此排名第一;在第三次实验中,阿克塞尔罗德并未增加新的策略,而是从演化博弈的角度出发,试图发现史密斯的“演化稳定策略”(ESS),模拟结果表明,跟风策略在演化迭代中依旧表现出色,而“诡诈型”策略在200代以后完全消失。通过三次重复囚徒困境博弈实验,阿克塞尔罗德发现:跟风策略稳定成功的原因在于它综合了善良性、报复性和宽容性。[30]善良性,即从不首先背叛;报复性,也称可激怒性,即对方若背叛,则自己将在下轮对其惩罚;宽容性,即一旦“改过”,自己以合作对待。正是这三种特性保证了跟风策略在与各种策略的博弈过程中能够获得较高的平均支付,具有较强的适应性,即跟风策略具有演化稳定性。正如生物学家道金斯所说,即使有自私的基因掌权控制,好人仍能得好报。[31]
热门排行
推荐信息
期刊知识
- 别被这个老掉牙的报纸理论版投稿邮箱误导了!最新核实91个报纸理论版投稿邮箱通道,一次集齐
- 喜报!《中国博物馆》入选CSSCI扩展版来源期刊(最新CSSCI南大核心期刊目录2025-2026版)!新入选!
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了

0373-5939925
2851259250@qq.com

