ucl计算机教授汪军,UCL多智能体机器学习课程上线，计算机系教授汪军主讲

来源：机器之心本文约1500字，建议阅读5分钟本课程基于伦敦大学学院计算机系2020-2021学年度课程Multi-agent Artificial Intelligence (20/21)，主要介绍多智能体机器学习。人工智能已经在围棋、图像识别和语音识别等领域达到甚至超越了人类专家水平，但智能化的机器离我们仍然很远。要想实现通用智能，AI智能体必须学习如何在共享环境中与他人进行互动，由此便产生了

weixin_39740737

399人浏览 · 2021-07-25 11:49:17

weixin_39740737 · 2021-07-25 11:49:17 发布

来源：机器之心

本文约1500字，建议阅读5分钟

本课程基于伦敦大学学院计算机系2020-2021学年度课程Multi-agent Artificial Intelligence (20/21)，主要介绍多智能体机器学习。

人工智能已经在围棋、图像识别和语音识别等领域达到甚至超越了人类专家水平，但智能化的机器离我们仍然很远。要想实现通用智能，AI智能体必须学习如何在共享环境中与他人进行互动，由此便产生了人工智能的一个前沿研究领域：多智能体学习。

多智能体学习的问题存在于多个领域。在这些问题中，多个智能体不仅与环境相互作用，而且彼此互动，由此造成的复杂和多变性为研究带来了诸多挑战。此外，多智能体学习在现实生活中有着广泛的应用，比如无人机群的控制、仓库机器人的合作、分布式传感器网络/交通的优化、机器竞标等。

如何了解这一前沿领域？

最近，UCL课程《多智能体机器学习(2021)》上线，主讲人为伦敦大学学院(UCL)计算机系教授汪军，适合计算机科学以及机械和航空工程等专业的本科生、研究生，从事机器学习、多智能体协同控制等领域的工程技术人员。

课程观看地址：

https://app6ca5octe2206.pc.xiaoe-tech.com/detail/p_603db816e4b0a77c389892d3/6

本课程基于伦敦大学学院计算机系2020-2021学年度课程Multi-agent Artificial Intelligence (20/21)，主要介绍多智能体机器学习。课程将机器学习的研究与博弈论和经济学研究相结合，包括博弈论、拍卖理论、算法机制设计、多智能体(深度)强化学习等主题，同时还将讨论相关的实际应用，包括在线广告、在线拍卖、生成模型的对抗训练、机器人规划，以及玩在线游戏的智能体。

课程为英文授课，与UCL授课进度同步，每周五更新，如有变化以课程交流群中通知为准。

讲师简介

汪军，伦敦大学学院计算机系教授，阿兰·图灵研究所 Turing Fellow，华为诺亚方舟实验室决策推理首席顾问。主要研究智能信息系统，包括机器学习、强化学习、多智能体、数据挖掘、计算广告学、推荐系统等。汪军教授目前已发表 120 多篇学术论文，出版两本学术专著，并多次获得最佳论文奖。

课程目录

一、博弈论基础介绍

1.1 博弈论的基本概念

1.2 纯策略纳什均衡

1.3 混合策略纳什均衡

1.4 纳什均衡的存在性证明

1.5 古诺双寡头模型

二、更多博弈形式

2.1 位势博弈(Potential Game)

2.2 扩展形式的博弈(Extensive-form game)

2.3 重复博弈(Repeated Games)

三、纳什均衡

3.1 零和博弈及纳什均衡计算

3.2 极大极小博弈(Minmax Game)介绍

3.3 纳什均衡的线性规划解法

3.4 线性互补问题

3.5 Lemke–Howson 算法求解线性互补问题

四、贝叶斯博弈与拍卖理论

4.1 贝叶斯博弈(Bayesian Game)

4.2 在线拍卖的设置与步骤

4.3 拍卖模式：一口价拍卖与密封式拍卖

4.4 竞价策略与纳什均衡

五、神经网络与深度学习

5.1 深度学习基础

5.2 词嵌入

5.3 深度神经网络层

5.4 卷积神经网络

5.5 循环神经网络

5.6 网络信息检索

5.7 表征学习

5.8 深度强化学习

六、基于值函数的单智能体强化学习

6.1 强化学习基础

6.2 Model-based 方法：马尔科夫决策过程，动态规划求解

6.3 Model-free方法：蒙特卡洛，时序差分，Q-learning

6.4 深度强化学习实例：Atari，Alpha Go

七、多智能体强化学习(一)

7.1 多智能体强化学习介绍及基本概念

7.2 值迭代与策略迭代

7.3 均衡学习：纳什-Q，Minmax-Q，Friend-Foe-Q

7.4 最佳对策：JAL与对手建模，梯度提升，Wolf-IGA

八、基于策略的单智能体强化学习

8.1 策略梯度

8.2 策略梯度理论证明

8.3 函数近似

九、多智能体强化学习(二)

9.1 策略预测的IGA

9.2 动态系统的梯度提升优化

9.3 虚拟博弈

9.4 理性学习

9.5 演化博弈论

9.6 复制动态方程

十、多智能体强化学习(三)

10.1 Emergent behaviours

10.2 智能体建模

10.3 多智能体通信

10.4 多智能体合作

10.5 Many-agent 学习

编辑：王菁

校对：汪雨晴

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生