自然界中有许多种生物是通过群居繁衍的,它们中的单个个体通常不能独立地进行生命活动,需要聚集在一起,形成一定的种群来完成某种复杂的任务或活动。例如,鸟类以人字形在空中迁徙;蚂蚁构成蚁群来捕杀猎物;鱼类聚集成鱼群来应对天敌的捕食等等。这些生物种群并不是受它们中的领袖来进行指挥活动,而是仅仅靠和周围的同伴进行信息交流,从而使得整个种群完成一系列复杂的生命活动。学者们通过对这些生物行为进行观察,分析,仿真实验,试图寻找生物集群现象的特征。研究方法主要是将生物种群中的单个个体视作一个智能体,把整个群体视作一个多智能体系统,从而抽象地将种群的群体行为描述为多智能体系统的演化过程。
多智能体系统是指由多个独立的智能体构成的控制系统。与传统控制系统相比,多智能体系统具有并行控制、冗余性好、效率高等很多优点。多智能体系统协同控制理论包括多智能体一致性、多智能体编队控制和多智能体包含控制等多个研究领域。一致性是智能体系统研究的核心问题,也是智能体系统协调控制问题的研究基础。所谓一致性就是指随着时间的演变,系统中所有智能体通过网络共享信息,并在某些关键信息上能够达成一致。解决一致性问题的关键是设计合适的一致性控制协议,使得所有智能体的状态趋于一致。多智能体系统编队控制是指根据时间变化,各个智能体在编队控制算法作用下可以完成指定期望队形编队的任务。近年来,由于多智能体编队控制有着十分重要的实际价值,因此越来越多的学者开始对多智能体编队控制进行深入研究。 由于智能体之间的相互作用,多智能体系统的状态会随时发生变化,各个智能体面对的都是动态决策问题,同时还存在信息获取不完全、内容模糊等问题。采用深度强化学习的方法,智能体可以通过与环境之间的不断交互,积累经验,学习到最佳的策略;同时也能与其他智能体互相协调与合作,具有在动态、随机的复杂环境下完成复杂编队任务的潜力。
本项目使用深度强化学习的方法,实现多智能体的编队问题。对具体的编队、避障问题进行建模,并在仿真环境中建立对应的实验场景;使用强化学习算法进行训练,让智能体能够在复杂环境中互相协调,完成多种复杂编队任务,同时避免与障碍物或其他智能体碰撞,保证自身的安全。