十大博弈论经典案例 博弈论速成指南:那些融入深度学习的经典想法和新思路

栏目:科技 2021-09-20 19:53:55
分享到:

选自《走向科学》

机器心脏编译

参与:魔鬼,杜威

随着人工智能的发展,博弈论迎来了复兴。关于博弈论,数据科学家需要了解哪些经典思想和新思想?本文作者对这些问题逐一进行了分析。通过这篇文章,相信读者会对博弈论的概念和分类有更清晰的认识。

博弈论是最引人入胜的数学领域之一,它影响了许多不同的领域,如经济学、社会科学、生物学,当然还有计算机科学。博弈论的定义有很多,但我觉得下面这个定义很有帮助,虽然太简洁了:

博弈论是具有激励机制的概率。

游戏在人工智能的发展中起着关键作用。对于初学者来说,游戏环境逐渐成为强化学习或模仿学习领域的一种流行训练机制。理论上,任何多智能体AI系统都要经历玩家之间的游戏互动。博弈论是构建博弈原理的数学分支。在人工智能和深度学习系统的背景下,博弈论对于使多智能体环境具备一些必要和重要的能力是必要的。在多智能体环境中,不同的AI程序需要交互或竞争才能实现目标。

博弈论的历史离不开计算机科学。目前,博弈论领域的许多研究可以追溯到计算机科学先驱艾伦·图灵和冯·诺依曼的工作。纳什均衡因电影《美丽心灵》而闻名,它是现代系统中许多人工智能交互的基础。然而,多次使用博弈论原理对AI宇宙建模,已经超出了纳什均衡的范围。要了解如何用博弈论来构建AI系统,最好了解一下我们在社交或经济互动中经常遇到的游戏类型。

我们每天参与数百个基于游戏动态的互动。然而,游戏环境的结构完全不同,其动机和参与者的目的也不同。如何将这些原理应用到AI agent建模中?这个问题推动了人工智能在多智能体强化学习等领域的研究发展。

显然,博弈是博弈论中最可见的实体,但它远不是博弈论概念的唯一空应用。也就是说,还有很多其他领域受到博弈论和AI的影响。大多数需要多个“参与者”合作或竞争来完成任务的场景都可以通过人工智能技术进行游戏化和改进。虽然前面的说法是一种概括,但我认为它传达了一个信息:博弈论和AI是一种思维方式和软件系统建模,而不仅仅是一种技术。

使用博弈论的人工智能场景应该包括不止一个参与者。比如Salesforce Einstein这样的销售预测优化AI系统,并不是应用博弈论原理的完美场景。然而,在多主体环境下,博弈论明显不同。

在人工智能系统中构建游戏动力学需要两个步骤:

参与者设计:可以利用博弈论优化参与者的决策,以获得最大效用;

机制设计:逆博弈论主要为一群智能参与者设计游戏。拍卖是机制设计的经典案例。

那么AI时代数据科学家需要知道哪些游戏呢?这些游戏是相互关联的吗?本文作者,英伟达实验室首席科学家兼管理合伙人Jesus Rodriguez对此发表了自己的看法。

作者是耶稣·罗德里格斯。

数据科学家应该知道的五个游戏

假设我们正在构建一个AI系统,它需要多个智能体相互协作和竞争来实现特定的目标,也就是博弈论的一个经典场景。自20世纪40年代诞生以来,博弈论一直专注于建模最常见的交互模式,这是我们在多智能体AI系统中每天都会看到的。了解环境中不同类型的游戏动态是设计高效游戏AI系统的关键要素。从更高的层面来看,五行标准有助于理解AI环境下的博弈动态,即对称vs非对称、完美vs不完美信息、合作vs非合作、同时vs顺序以及零和vs非零和。下面将逐一介绍。

作者提出的五行标准。

对称与不对称

对游戏进行分类最简单的方法就是根据对称性进行分类。在对称的游戏环境中,每个玩家都有相同的目标,结果只取决于策略。象棋是一种经典的对称游戏。我们在现实世界中遇到的许多场景缺乏对称的数学优雅,因为参与者通常有不同的目标甚至冲突。商务谈判是一个不对称的游戏,参与者有不同的目标,从不同的角度评价结果。

完美信息与不完美信息

另一个重要的游戏分类方法是基于可用信息的类型。完美的信息游戏意味着每个玩家都能看到其他玩家的动作,比如国际象棋。在许多现代交互环境中,每个玩家的行为都是对其他人隐藏的。博弈论将这些场景归类为不完美的信息游戏。从扑克等纸牌游戏到自动驾驶汽车,不完美的游戏就在我们身边。

合作与不合作

在合作博弈环境中,不同的参与者可以结盟,使最终结果最大化。合同谈判通常被认为是合作博弈。在非合作博弈环境下,禁止参与者结成联盟。战争是非合作博弈的终极案例。

同时vs序列

在顺序游戏环境中,每个玩家都知道对手之前的动作。从本质上来说,棋盘游戏具有最连续的游戏属性。在同时博弈的场景中,双方可以同时行动,比如证券交易。

零和与非零和

零和游戏是指一方赢,另一方输,比如棋盘游戏。在非零和游戏中,多个玩家可以从其他玩家的行为中受益。在经济互动中,多个参与者合作扩大市场规模是一个非零和博弈。

纳什均衡

对称游戏主宰着AI世界,大多数都是基于20世纪最著名的数学理论之一:纳什均衡。纳什均衡以美国数学家约翰·福布斯·纳什的名字命名。本质上,纳什均衡描述了一个场景,其中每个玩家选择一个策略,当一个玩家不改变策略时,没有玩家可以从改变策略中受益。

约翰·纳西,已故美国数学家和经济学家。

纳什均衡是一个美丽而强大的数学模型,可以解决许多博弈论问题,但在一些对称的博弈环境中被拉长了。对于初学者来说,纳什方法假设玩家拥有无限的计算能力,这在现实环境中几乎不存在。

此外,许多纳什均衡模型不能解释风险的概念。因此,很多非对称博弈场景很难用纳什均衡来实现。这在多智能体AI系统中尤为重要,它需要在解决方案的数学优雅和实现的可行性之间找到适当的平衡。

博弈论中影响机器学习的新思想

多智能体人工智能系统是人工智能生态系统中最引人注目的领域之一。多智能体系统和其他领域的最新发展扩展了博弈论的边界,博弈论依赖于该领域最复杂的思想。在下文中,作者还列举了现代机器学习中出现的一些博弈论子领域的例子。

平均场博弈

平均场博弈是博弈论中一个比较新的领域。MFG理论诞生于2006年,是黄敏仪、罗兰·马尔哈梅、彼得·凯恩、让-米歇尔·拉斯里和菲尔兹奖获得者皮埃尔-路易·狮子发表的一系列独立论文之一。

从概念上讲,MFG中包含的方法和技术被用来研究由“理性玩家”组成的大群体中的微分对策。这些代理不仅对自己的状态有偏好,而且对组中其他代理的分布也有偏好。MFG理论研究这些系统的广义纳什均衡。

经典案例是如何让几个鱼群协同向同一个方向游。理论上,这种现象很难解释,但它是基于鱼对最近的鱼群的行为做出反应的事实。具体来说,每条鱼都不关心其他鱼,而是关心附近鱼群的整体移动。如果我们用数学术语,鱼对浅滩的反应是哈密顿-雅可比-贝尔曼方程。整个鱼群的动作是所有鱼的动作集合,对应福克-普朗克方程。平均场博弈论就是这两个公式的结合。

平均场游戏中鱼类统一游泳的经典案例。

随机对策

随机博弈可以追溯到20世纪50年代,由诺贝尔经济学奖获得者劳埃德·沙普利提出。从概念上讲,随机游戏是由有限数量的玩家在有限状态空下执行的,在每个状态下,每个玩家从有限数量的动作中选择一个;最终的动作组合决定了每个玩家的奖励和下一个状态的概率分布。

已故数学家劳埃德·沙普利和随机对策的概念。

随机博弈的经典形式是哲学家吃饭问题:有n+1个哲学家坐在圆桌旁,圆桌中间有一碗米饭,任意两个相邻的哲学家之间有一根筷子,筷子在两个人伸手可及的范围内。由于桌子是圆的,筷子的数量和哲学家的一样。为了吃碗里的饭,每个哲学家都需要拿两根触手可及的筷子。如果一个科学家吃了它,他的两个邻居就不能同时吃了。哲学家的生活很简单,只有思考和吃饭。为了生存,哲学家必须反复思考和吃饭。任务是为所有哲学家设计一种生存机制。

随机游戏中哲学家晚餐的经典案例。

进化博弈

进化博弈论从达尔文的进化论中得到启发。EGT的起源可以追溯到1973年的约翰·梅纳德·史密斯和乔治·普莱斯。EGT也可以作为一种策略来分析。这个数学标准可以用来预测竞争战略的结果。

在概念上,EGT是博弈论概念在以下场景中的应用:通过选择和复制的进化过程,随着时间的变化,代理组使用不同的策略来创建稳定的解决方案。EGT的主要思想是,许多行为涉及一个群体中多个主体的相互作用,任何主体的成就都离不开其策略与其他主体策略的相互作用。经典博弈论关注静态策略,而进化博弈论关注策略随时间的变化以及进化过程中最成功的动态策略。

EGT的经典案例是鹰鸽博弈,这意味着鹰和鸽子围绕共享资源展开竞争。在这个游戏中,每个玩家严格遵循以下一个或所有策略:

老鹰:进攻,在受伤或对手撤退前绝不停止。

鸽子:如果对手进攻,直接撤退。

如果我们假设有以下几种情况:1)当两个人都发起攻击时,战斗最终会结束,两个人的伤害概率相同;2)战斗成本降低个人健康一定常数C;3)老鹰和鸽子相遇,鸽子直接逃跑,老鹰获得资源;4)当两只鸽子遇到资源并平等分享时,鹰鸽游戏的健康状况如下:

逆博弈论

很多案例不需要优化参与者的策略,而是围绕理性参与者的行为设计游戏,这就是所谓的逆博弈论。拍卖被认为是逆博弈论的主要案例。

总之,随着人工智能的发展,博弈论正在复兴。艾伦·图灵或冯·诺依曼等一些计算机科学传奇人物提出的博弈论原理,如今已成为世界上一些最智能系统的核心,人工智能的最新进展也有助于推动博弈论研究的发展。随着AI的不断发展,我们将在博弈论中看到更多的新思想,并找到融入主流深度学习系统的方法。

这篇文章是为机器的心脏编写的。请联系本微信官方账号进行授权。

-