近期,苏州空天信息研究院二十三室云平台技术团队研究开发基于强化学习的多目标任务调度框架AC-CCTS(Actor-Critic Convergent Task Scheduling)和优先级感知的容器化工作负载调度框架PA-CCWS(Priority-Aware Containerized Workload Scheduling)取得进展,通过引入强化学习技术,优化了容器云平台中的任务调度效率与资源管理。
随着云计算和容器技术的快速发展,基于容器的云平台已成为现代计算基础设施的重要组成部分。容器技术的灵活性、高效性和跨平台兼容性,推动了“容器即服务”(CaaS)模式的广泛应用。与传统的虚拟机技术相比,容器能够以更小的资源开销、更快的启动速度支持复杂应用的弹性部署与多副本运行。在云计算环境中,越来越多的企业和研究机构将工作负载迁移至容器云平台,以便应对业务需求的快速变化和系统访问的峰值负载。
尽管容器技术的应用提升了计算资源的灵活性,但其高动态性和多样化的工作负载特性也带来了新的调度复杂性。传统的虚拟机调度方法难以完全适用于容器云平台,这主要体现在以下几个方面:
一是弹性扩缩容和多副本操作增加调度复杂度:容器化应用能够根据业务需求迅速调整资源配置和部署多个副本,使得资源管理变得更加复杂。
二是应用负载波动频繁:在访问高峰期,容器任务的资源需求急剧变化,对系统的响应速度提出更高的要求。
三是现有调度算法的局限性:传统的元启发式调度算法(如粒子群优化算法)虽可解决部分动态任务调度问题,但通常仅优化单一目标,容易陷入局部最优。基于数学模型的调度方法由于缺乏动态适应性,在复杂多变的云环境中表现不佳。此外,一些强化学习算法(如DeepRM-Plus和RLSched)虽然具备一定的环境适应能力,但其收敛速度慢、学习成本高,限制了实际应用中的调度效率。
该研究团队开发的AC-CCTS框架采用基于Actor-Critic的深度强化学习方法,针对传统调度方法单一目标和局部收敛的缺陷进行优化。该框架定义了容器云环境中的调度代理、动作及评估方法,建立动态调度模型,并利用启发式规则和优先经验回放机制,加速调度策略的收敛过程。为增强框架的鲁棒性,AC-CCTS框架还设计动态任务补偿机制,在应对高并发和复杂任务组合时表现出卓越的稳定性。在对比实验中,该框架在资源利用率和服务稳定性方面超越了元启发式算法和现有的强化学习算法。
AC-CCTS框架
该研究团队开发的PA-CCWS框架专注于异构工作负载的优先级调度。该框架首先通过TOPSIS方法对工作负载进行量化分析,生成优先级并构建调度缓冲队列。然后,利用双深度Q网络(DDQN)从实际调度反馈中更新历史经验优先级,并通过经验回放机制加速模型学习过程。在调度决策中,该框架结合基于规则的优先级机制和深度强化学习算法,实现更加精准的资源分配。与元启发式算法和数学模型算法相比,PA-CCWS框架在容器化应用调度中的资源利用效率、服务质量遵从率(SLA)及资源均衡性方面取得了显著提升。
PA-CCWS框架
上述任务调度框架可应用于多个领域。例如,研究团队在地理空间分析领域,最新研究提出一种基于服务的容器化集成框架GeoCSIF(Geospatial Computing Service Integration Framework)。该集成框架专注于异构地理空间模型的高效组合,通过设计模型服务化结构,基于优先级的编排方法和启发式调度方法,实现跨领域数据融合与信息共享,以更好应对复杂的地理问题。GeoCSIF在洪水灾害管理等实际应用中,实现了复杂模型的动态调度和高效运行。该框架在资源利用率、任务调度效率和服务质量等方面全面优于传统调度算法和强化学习算法。
GeoCSIF框架
在未来,可以将这些任务调度框架进一步推广至智慧城市、环境监测、应急管理等多个领域应用,实现资源的动态分配与优化,助力城市管理者更好地应对复杂的管理任务。同时,需要持续优化任务调度算法,以适应更多样化的工作负载和复杂的云环境需求,推动容器云技术在各领域的全面应用。
动态新闻