HPC systems are complex in architecture and contain millions of components. To ensure reliable operation and efficient output, functioning of most subsystems should be supervised. This is done on the basis of collected data from various logging and monitoring systems. This means that different data sources are used, and accordingly, data analysis can face multiple issues processing this data.
Some of the data subsets can be incorrect due to the malfunctioning of used sensors, monitoring system data aggregation errors, etc. This is why it is crucial to preprocess such monitoring data before analyzing it, taking into the consideration the analysis goals. The aim of this paper is, being based on the MSU HPC Center monitoring data, to propose an approach to data preprocessing of HPC monitoring systems, giving some real life examples of issues that may be faced, and recommendations for further analysis of similar datasets.
Высокопроизводительные вычислительные системы сложны по архитектуре и содержат миллионы компонент. Чтобы обеспечить надежную работу и эффективную отдачу, необходимо контролировать работу всех их подсистем. Это делается на основе данных, собранных различными системами журналирования и мониторинга. Это означает, что используются разные источники данных, и, соответственно, анализ данных может столкнуться с множеством проблем, связанных с обработкой этих данных.
Некоторые из подмножеств данных могут быть неверными из-за неисправности используемых датчиков, ошибок агрегирования данных системы мониторинга и т.д. Вот почему крайне важно проводить предварительную обработку таких данных мониторинга перед их анализом, принимая во внимание цели анализа. Цель этой работы, описать подход к предварительной обработке данных суперкомпьютерных систем мониторинга на основе опыта работы СКЦ МГУ, привести некоторые реальные примеры проблем, с которыми можно при этом столкнуться, а также рекомендации по дальнейшему анализу подобных наборов данных.