Симулятор системы управления суперкомпьютерными заданиями с внешним интерфейсом управления
Аннотация
Одним из востребованных инструментов исследования поведения систем управления суперкомпьютерными заданиями (СУЗ), как сложных систем коллективного пользования, является имитационное моделирование при помощи симуляторов. В статье сформулированы требования к симулятору высокопроизводительной вычислительной системы, включающей в свой состав территориально распределенные суперкомпьютеры. Соответствие выдвинутым требованиям может быть обеспечено за счет реализации внешнего интерфейса управления симулятором. В статье представлен анализ характеристик современных симуляторов СУЗ с точки зрения выдвинутых требований, предложена архитектура симулятора СУЗ с внешним симулятором управления. Рассмотрены первые результаты применения симулятора Elytra, реализующего предложенную архитектуру.
Ключевые слова
Об авторах
Д. С. ЛяховецРоссия
Москва
А. В. Баранов
Россия
Москва
А. Ю. Кудрин
Россия
Москва
Список литературы
1. А.В. Баранов, А.И. Тихомиров. Методы и средства организации глобальной очереди заданий в территориально распределенной вычислительной системе. «Вестник ЮУрГУ. Серия: Вычислительная математика и информатика», Т. 6 (2017), № 4, 28-42.
2. А.Г. Феоктистов, А.С. Корсуков, Ю.А. Дядькин. Инструментальные средства имитационного моделирования предметно-ориентированных распределенных вычислительных систем. «Системы управления, связи и безопасности», № 4 (2016), 30–60.
3. D. Cameron, R. Carvajal-Schiano, A. Millar, C. Nicholson, K. Stockinger, F. Zini. OptorSim: A simulation tool for scheduling and replica optimisation in data grids. “Computing in High Energy and Nuclear Physics”, 2010, 707-711.
4. S. Bąk, M. Krystek, K. Kurowski, A. Oleksiak, W. Piatek, J. Waglarz. GSSIM - A tool for distributed computing experiments. “Scientific Programming”, V. 19 (2017), 231-251.
5. W. Chen, E. Deelman. WorkflowSim: A toolkit for simulating scientific workflows in distributed environments. “2012 IEEE 8th International Conference on E-Science, e-Science 2012”, 2012, 1-8.
6. S. Ostermann, K. Plankensteiner, R. Prodan, T. Fahringer. GroudSim: An Event-Based Simulation Framework for Computational Grids and Clouds. “Euro-Par 2010 Parallel Processing Workshops. Euro-Par 2010. Lecture Notes in Computer Science”, V. 6586 (2011), 305–313.
7. P.-F. Dutot, M. Mercier, M. Poquet, O. Richard. Batsim: A Realistic Language-Independent Resources and Jobs Management Systems Simulator. “Job Scheduling Strategies for Parallel Processing. Lecture Notes in Computer Science”, V. 10353 (2017), 178-197.
8. M. Obaida, J. Liu. Simulation of HPC job scheduling and large-scale parallel workloads. “2017 Winter Simulation Conference (WSC)”, 2017, 920-931.
9. D. Klusáček, M. Soysal, F. Suter. Alea – Complex Job Scheduling Simulator. “Parallel Processing and Applied Mathematics. PPAM 2019. Lecture Notes in Computer Science”, V. 12044 (2020), 217-229.
10. N. Capit, G. Da Costa, Y. Georgiou, G. Huard, C. Martin, G. Mounié, P. Neyron, O. Richard. A batch scheduler with high level components. “CCGrid 2005. IEEE International Symposium on Cluster Computing and the Grid”, V. 2 (2005), 776-783.
11. D. Klusáček, M. Soysal. Walltime Prediction and Its Impact on Job Scheduling Performance and Predictability. “Job Scheduling Strategies for Parallel Processing. JSSPP 2020. Lecture Notes in Computer Science”, V. 12326 (2020), 127-144.
12. V. Chlumský, D. Klusáček. Improving Accuracy of Walltime Estimates in PBS Professional Using Soft Walltimes. “Job Scheduling Strategies for Parallel Processing. JSSPP 2022. Lecture Notes in Computer Science”, V. 13592 (2023), 192-210.
13. D. Lyakhovets, A. Baranov. Efficiency Thresholds of Group Based Job Scheduling in HPC Systems. “Lobachevskii Journal of Mathematics”, V. 43 (2023), 2863-2876.
14. M. Jaros, D. Klusáček, J. Jaros. Optimizing Biomedical Ultrasound Workflow Scheduling Using Cluster Simulations. “Job Scheduling Strategies for Parallel Processing. JSSPP 2020. Lecture Notes in Computer Science”, V. 12326 (2020), 68-84.
15. A. Baranov, D. Lyakhovets. Accuracy Comparison of Various Supercomputer Job Management System Models. “Accuracy Comparison of Various Supercomputer Job Management System Models”, V. 42 (2021), 2510–2519.
16. G. I. Savin, B. M. Shabanov, P. N. Telegin, and A. V. Baranov, “Joint Supercomputer center of the Russian Academy of Sciences: Present and future,” Lobachevskii J. Math. 40 (2019). 1853–1862.
17. А.В. Баранов, Д.С. Ляховец. Имитационная модель системы пакетирования суперкомпьютерных заданий на базе симулятора Alea. «Программные продукты и системы», №4 (2022), 631-643.
18. W. Cirne and F. Berman, “A model for moldable supercomputer jobs,” in Proceedings of the 15th International Parallel and Distributed Processing Symposium IPDPS 2001 (2001), p. 8.
19. D. Lyakhovets, A. Baranov, P. Telegin. Scale Ratio Tuning of Group Based Job Scheduling in HPC Systems. “Lobachevskii Journal of Mathematics”, V. 44 (2024), 5012-5026.
Рецензия
Для цитирования:
Ляховец Д.С., Баранов А.В., Кудрин А.Ю. Симулятор системы управления суперкомпьютерными заданиями с внешним интерфейсом управления. Труды НИИСИ. 2024;14(4):75-83.
For citation:
Lyakhovets D., Baranov A., Kudrin A. Supercomputer Job Management System Simulator with External Control Interface. SRISA Proceedings. 2024;14(4):75-83. (In Russ.)