19 ноября 2025: Ремонтные работы на системе охлаждения ЦОД и проверка работы системы и оборудования ВЦ после ремонта завершены.
Уважаемые пользователи!
Ремонтные работы на системе охлаждения ЦОД и проверка работы системы и оборудования ВЦ после ремонта завершены.
Ресурсы ВЦ доступны для использования.
Во время проведения ремонтных работ на системе охлаждения в ЦОД, были произведены плановые изменения в конфигурации РЦ «Вычислительный Центр СПбГУ», связанные с окончанием срока действия лицензии на управляющее ПО кластера Huawei. После возобновления работы ВЦ, оборудование, ранее составлявшее кластер Huawei, полностью интегрировано в Единый вычислительный комплекс и переведено под управление SLURM. Всем пользователям, имевшим на момент остановки ЦОД доступ к кластеру Huawei, заведены аккаунты в SLURM и настроен доступ к соответствующим разделам Единого комплекса. Ресурсы, ранее доступные пользователям путем постановки задач в очередях long short, составили раздел Единого комплекса basic.
Этот же раздел теперь является разделом по умолчанию, то есть используется при запуске задач без указания выбранного пользователем раздела Единого комплекса.
Ресурсы, ранее доступные пользователям путем постановки задач в очереди gpu, составили раздел Единого комплекса К40.
Обращаем внимание пользователей бывшего кластера Huawei, что:
- в отличие от кластера, в Едином комплексе ограничения по времени непрерывного счета являются не фиксированными, а настраиваемыми. То есть, с одной стороны, пользователь теперь имеет возможность запустить непрерывный расчет на более длительный срок, указав необходимое значение в соответствующем параметре при запуске, а, с другой стороны, запуск задачи без указания планируемого времени расчета активирует длительность расчета «по умолчанию», которая составляет не две недели (как было для очереди long кластера Huawei) а 48 часов (стандартное значение «по умолчанию» для всех разделов Единого комплекса). При этом, чем меньше заданное при запуске время счета, тем выше будет приоритет у задачи в очереди.
- На кластере Huawei лимит на количество одновременно запускаемых задач был привязан к имени пользователя. В едином комплексе аккаунт привязан к исследованию, в рамках которого предоставлен доступ к ресурсам. Из этого следует, что если в рамках одной заявки на исследование создано несколько машин, либо выдан ресурс, на котором работает несколько пользователей, то лимит на количество одновременно запускаемых задач теперь будет общим для всех пользователей и ресурсов в рамках конкретной заявки.
- У пользователей, которые ранее использовали и кластер Huawei и Единый комплекс были отдельные лимиты на количество задач на Huawei и на Едином комплексе. После интеграции бывшего кластера Huawei в Единый комплекс, возможности запускать дополнительные задачи сверх лимитов Единого комплекса, за счет отдельного лимита кластера Huawei, для таких пользователей больше нет.
Cluster Scripts Documentation
Памятка пользователя ВЦ
С Уважением,
Коллектив РЦ «Вычислительный центр СПбГУ»
Ресурсы ВЦ доступны для использования.
Во время проведения ремонтных работ на системе охлаждения в ЦОД, были произведены плановые изменения в конфигурации РЦ «Вычислительный Центр СПбГУ», связанные с окончанием срока действия лицензии на управляющее ПО кластера Huawei. После возобновления работы ВЦ, оборудование, ранее составлявшее кластер Huawei, полностью интегрировано в Единый вычислительный комплекс и переведено под управление SLURM. Всем пользователям, имевшим на момент остановки ЦОД доступ к кластеру Huawei, заведены аккаунты в SLURM и настроен доступ к соответствующим разделам Единого комплекса. Ресурсы, ранее доступные пользователям путем постановки задач в очередях long short, составили раздел Единого комплекса basic.
Этот же раздел теперь является разделом по умолчанию, то есть используется при запуске задач без указания выбранного пользователем раздела Единого комплекса.
Ресурсы, ранее доступные пользователям путем постановки задач в очереди gpu, составили раздел Единого комплекса К40.
Обращаем внимание пользователей бывшего кластера Huawei, что:
- в отличие от кластера, в Едином комплексе ограничения по времени непрерывного счета являются не фиксированными, а настраиваемыми. То есть, с одной стороны, пользователь теперь имеет возможность запустить непрерывный расчет на более длительный срок, указав необходимое значение в соответствующем параметре при запуске, а, с другой стороны, запуск задачи без указания планируемого времени расчета активирует длительность расчета «по умолчанию», которая составляет не две недели (как было для очереди long кластера Huawei) а 48 часов (стандартное значение «по умолчанию» для всех разделов Единого комплекса). При этом, чем меньше заданное при запуске время счета, тем выше будет приоритет у задачи в очереди.
- На кластере Huawei лимит на количество одновременно запускаемых задач был привязан к имени пользователя. В едином комплексе аккаунт привязан к исследованию, в рамках которого предоставлен доступ к ресурсам. Из этого следует, что если в рамках одной заявки на исследование создано несколько машин, либо выдан ресурс, на котором работает несколько пользователей, то лимит на количество одновременно запускаемых задач теперь будет общим для всех пользователей и ресурсов в рамках конкретной заявки.
- У пользователей, которые ранее использовали и кластер Huawei и Единый комплекс были отдельные лимиты на количество задач на Huawei и на Едином комплексе. После интеграции бывшего кластера Huawei в Единый комплекс, возможности запускать дополнительные задачи сверх лимитов Единого комплекса, за счет отдельного лимита кластера Huawei, для таких пользователей больше нет.
Cluster Scripts Documentation
Памятка пользователя ВЦ
С Уважением,
Коллектив РЦ «Вычислительный центр СПбГУ»

