- Системы управления Windows-кластерами
- Обзор Microsoft Compute Cluster Server 2003
- Что такое Microsoft Compute Cluster Server 2003
- Требования к аппаратному и программному обеспечению
- Основные возможности Microsoft Compute Cluster Server 2003
- Использование Microsoft Compute Cluster Server 2003 в проектах университета ННГУ
- Параметры запуска службы кластера
- Аннотация
- Описание коммутаторов
- Debug
- FixQuorum
- ResetQuorumLog
- DebugResMon
- NoRepEvtLogging
- NoQuorumLogging
- ForceQuorum
Системы управления Windows-кластерами
Обзор Microsoft Compute Cluster Server 2003
Для эффективной эксплуатации высокопроизводительных кластерных установок необходимо использовать сложный комплекс программных систем. Долгое время пользователям Windows кластеров приходилось одновременно использовать программное обеспечение нескольких производителей, что могло быть причиной проблем с совместимостью различных программ друг с другом. C выходом Compute Cluster Server 2003 (CCS) можно говорить о том, что Microsoft предоставляет полный спектр программного обеспечения, необходимый для эффективной эксплуатации кластера и написания программ, в полной мере использующих имеющиеся вычислительные мощности. В данном докладе дается обзор современных подходов Microsoft к высокопроизводительным кластерным вычислениям.
Что такое Microsoft Compute Cluster Server 2003
Microsoft Compute Cluster Server 2003 представляет собой интегрированную платформу для поддержки высокопроизводительных вычислений на кластерных системах. CCS состоит из операционной системы Windows Server 2003 и Microsoft Compute Cluster Pack (CCP) – набора интерфейсов, утилит и инфраструктуры управления. Вместе с CCP поставляется SDK, содержащий необходимые инструменты разработки программ для CCS, включая собственную реализацию MPI (MS MPI). Кроме того, к Microsoft Compute Cluster Server 2003 логически примыкает Microsoft Visual Studio 2005, являющийся IDE разработки параллельных программ, содержащий компилятор и отладчик MPI и OpenMP программ.
Требования к аппаратному и программному обеспечению
В качестве вычислительных узлов кластера могут быть использованы 64-битные процессоры семейства x86 с, как минимум, 512 Мб оперативной памяти и 4 Гб свободного дискового пространства.
На вычислительных узлах кластера должна быть установлена операционная система Microsoft Windows Server 2003 (Standard, Enterprise или Compute Cluster Edition).
Основные возможности Microsoft Compute Cluster Server 2003
В состав CCP входит MS MPI – версия реализации стандарта MPI2. MS MPI совместима с MPICH2 и поддерживает полнофункциональный API с более чем 160 функциями. MS MPI в Windows Compute Cluster Server 2003 использует WinSock Direct протокол для наилучшей производительности и эффективного использования центрального процессора. MS MPI может использовать любое Ethernet соединение, поддерживаемое Windows Server 2003, а также такие соединения как InfiniBand или Myrinet с использованием WinSock Direct драйверов, поставляемых производителями аппаратного обеспечения. MS MPI поддерживает языки программирования C, Fortran77 и Fortran90, а Microsoft Visual Studio 2005 включает в себя параллельный отладчик, работающий с MS MPI. Разработчики могут запустить свое MPI приложение на нескольких вычислительных узлах, и Visual Studio автоматически соединится с процессами на каждом узле, позволяя разработчику приостанавливать приложение и просматривать значение переменных в каждом процессе отдельно.
Кроме реализации MPI в состав CCP входит удобная система планирования заданий, позволяющая просматривать состояния всех запущенных задач, собирать статистику, назначать запуски на определенное время, завершать зависшие задачи и пр. Работа с системой возможна через следующие интерфейсы: графический, командный, COM и др.
Windows Compute Cluster Server 2003 поддерживает 5 различных сетевых топологий, при этом каждый узел может иметь от 1 до 3 сетевых карточек. Правильный выбор используемой топологии необходим для оптимального функционирования вычислительного кластера.
Использование Microsoft Compute Cluster Server 2003 в проектах университета ННГУ
Microsoft Compute Cluster Server 2003 используется широким кругом исследователей для проведения вычислительных экспериментов на базе кластера ННГУ. В качестве примеров можно привести проект Дмитрия Лабутина по интеграции системы ParaLab c CCS, Анны Лабутиной по изучению производительности MS MPI по сравнению c другими реализациями MPI и проект «Система управления кластером», одной из задач которого является создание единой вычислительной инфраструктуры, объединяющей все имеющиеся вычислительные мощности университета под управлением единой системы.
Параметры запуска службы кластера
В этой статье перечислены все доступные параметры, которые можно использовать в качестве параметров запуска для запуска службы кластера.
Исходная версия продукта: Windows Server 2012 R2
Исходный номер КБ: 258078
Аннотация
Это список всех доступных коммутаторов, которые можно использовать в качестве параметров запуска для запуска службы кластера.
Для этого перейдите к свойствам службы, поместите соответствующий переключатель в поле «Параметры запуска» и нажмите кнопку «Начните».
Эти коммутаторы также можно использовать при запуске службы кластера из командной строки. Например:
Включаем тире (-) перед переключение для Microsoft Windows 2000 Server и более ранних версий.
Переключатель отлаки имеет специальные параметры запуска. Для правильного использования см. раздел «Отлагивание» далее в этой статье.
Windows Server 2003 включает сокращения для каждого коммутатора. Это упрощает использование коммутаторов запуска службы кластеров. Например, можно запустить службу с помощью /FixQuorum коммутатора или /FQ коммутатора.
Допустимые параметры включают следующие параметры:
Параметр | Функция | Аббревиатура Windows 2003 |
---|---|---|
FixQuorum | Не устанавливайте устройство кворума, и ведение журнала кворума отключено. | FQ |
NoQuorumLogging | Ведение журнала кворума отключено. | NQ |
Debug | Отображает события во время запуска службы кластера. Специальный синтаксис см. в разделе «Отлагивание» далее в этой статье. | |
LogLevel N | Задает уровень журнала для режима отлаживания. | |
DebugResMon | Служба кластера ждет, пока отладка будет подключена к всем процессам монитора ресурсов в начале их работы. | DR |
В Windows 2000 и более поздних версиях включаются только следующие коммутаторы.
Параметр | Функция | Аббревиатура Windows 2003 |
---|---|---|
ResetQuorumLog | Динамически повторно создает файлы журнала кворума и контрольных точек (эта функция автоматически в Microsoft Windows NT 4.0). | RQ |
NoRepEvtLogging | Репликация записей журнала событий не проводится. |
В Windows Server 2003 и более поздних версиях включаются только следующие коммутаторы.
Параметр | Функция | Аббревиатура Windows 2003 |
---|---|---|
ForceQuorum или | При принудительном наборе узлов большинства со списком узлов N1, N2 и т. д. (Применимо только для кворума набора узлов большинства.) | FO |
NoGroupInfoEvtLogging | Не занося события в журнал событий, связанный с группой в сети и автономном режиме. | NG |
Описание коммутаторов
Ниже приводится описание некоторых коммутаторов:
Debug
Функция: ведение журнала кластера может не содержать полезных сведений при диагностике службы кластеров для запуска сбоев. Это возможно из-за сбой службы кластера до запуска Cluster.log. Запуск службы кластера с помощью этого переключателя отображает инициализацию службы кластера и помогает определить эти ранние проблемы.
Требования: используйте этот переключатель только для временных целей диагностики. Если не удается запустить службу кластера из-за ошибки при запуске учетной записи службы или другой ошибки, связанной с системой, у службы может не быть возможности запуститься. В результате может не быть создан файл cluster.log. Этот метод запускает службу вне обычной среды, заданной диспетчером управления службами. Чтобы использовать этот переключатель, необходимо войти локально с правами администратора и запустить команду из командной подсказки. Не используйте переключатель отлаки для обычного использования или в течение какого-либо времени. Служба работает не так эффективно с набором вариантов.
Сценарии использования: этот переключатель должен использоваться только в том случае, если не удается запустить службу кластера. Этот переключатель отобразит на экране работу службы кластера при ее запуске. Этот переключатель можно использовать только при запуске службы из командной подсказки, и вы должны быть в папке, в которой установлена служба кластера. По умолчанию это %SystemRoot%\Cluster. Это также единственный переключатель, который не используется с командой net start для запуска службы.
Операция: откройте командную подсказку, переведите в папку %SystemRoot%\cluster и введите следующую clussvc /debug [loglevel#] » команду.
где loglevel# — один из следующих.
# | Описание |
---|---|
0 | Ведение журнала не происходит. |
1 | Регистрируются только ошибки. |
2 | Ошибки и предупреждения регистрируются в журнале. |
3 | Все события, включая события, которые не записаны в журнал событий, регистрируются в журнале. |
Кроме того, можно использовать команду set для управления уровнем журнала кластера при использовании коммутатора отлаки. В командной подсказке введите следующий set clusterloglevel= x, где x — одно из значений, показанных в предыдущей таблице.
Служба кластера отправляет выходные данные в окно, аналогичное тому, что вы видите в cluster.log. Кроме того, вы также можете зафиксировать эти сведения в файле с помощью следующего синтаксиса команды:
clussvc /debug > c:\debug.log
Если служба кластера работает правильно, нажмите CTRL+C, чтобы остановить службу.
Вы можете использовать переменную среды ClusterLogLevel для управления уровнем выходных данных при использовании параметра отлаки.
FixQuorum
Функция: позволяет службе кластера запуститься несмотря на проблемы с устройством кворума. После начала работы службы к сети будут активируются только IP-адрес кластера и имя кластера. Администратор кластера можно открыть и вручную открыть другие ресурсы.
Требования: этот переключатель ДОЛЖЕН использоваться только в режиме диагностики на временной основе, а не во время обычной работы. С помощью этого коммутатора должен быть запущен только один узел, и не следует пытаться присоединить второй узел к узлу, запущенного с помощью этого переключателя. Как правило, этот коммутатор используется отдельно.
Сценарии использования: Если служба кластера не может запуститься обычным образом из-за сбоя ресурса кворума, пользователи могут запустить службу кластера в этом режиме и попытаться диагностировать сбой.
Операция: После того как служба кластера запущена, все ресурсы, включая ресурс кворума, остаются в автономном режиме. Затем пользователи могут вручную попытаться привести ресурс кворума в сеть и отслеживать записи журнала кластера, а также новые записи журнала событий и пытаться диагностировать любые проблемы с ресурсом кворума. Синтаксис: net start clussvc /fixquorum .
ResetQuorumLog
Функция: если журнал кворума и файл контрольной точки не найдены или повреждены, его можно использовать для создания файлов на основе сведений в окне реестра %SystemRoot%\Cluster\CLUSDB локального узла. Если файл журнала кворума находится в правильном порядке, этот переключатель не действует.
Требования: как правило, с помощью этого коммутатора запущен только один узел, который используется отдельно. Его должны использовать только опытные пользователи, которые понимают последствия использования информации, которая может быть устарела, для создания нового файла журнала кворума.
Сценарии использования: этот переключатель должен использоваться только в том случае, если службе кластера не удается запуститься на компьютере с Windows 2000 или более поздней версии из-за отсутствующих или поврежденных файлов кворума (Quolog.log) и Chkxxx.tmp. Windows NT 4.0 автоматически повторно создаст эти файлы, если они не существуют. Эта функция была добавлена в Windows 2000 для более подробного управления запуском службы кластера.
Если на кластере работает Windows 2000 Пакет обновления 4 (SP4) и ранее установлено обновление 872970, больше не /resetquorumlog требуется. По умолчанию при запуске создается новый файл журнала, если старый файл отсутствует или поврежден.
Операция: служба кластера автоматически сбрасывает файл журнала кворума, если он обнаружен как отсутствующий или поврежденный с помощью сведений в загруженном в данный момент улье кластера с помощью файла %systemroot%\Cluster\CLUSDB. Используется следующий синтаксис:
DebugResMon
Функция: помогает отлажению процесса отслеживания ресурсов и, следовательно, библиотек динамической ссылки ресурсов ,которые загружаются монитором ресурсов. Вы можете использовать любой стандартный отладник на основе Windows.
Требования: можно использовать, только если служба кластера запущена из командной подсказки и при использовании коммутатора отлаки. Эквивалентный параметр реестра, который можно использовать при запуске службы кластера в качестве службы, не существует. Отладка должна быть доступна для подключений к монитору ресурсов при его запускается. Как правило, этот коммутатор используется отдельно.
Сценарии использования: разработчики могут использовать этот переключатель для отлаки процесса мониторинга ресурсов и настраиваемого DLL ресурсов. Этот параметр крайне полезен, если ошибка в DLL ресурса приводит к неожиданному выходу из процесса мониторинга ресурсов вскоре после того, как служба кластера запустила его, и пользователи не могли вручную прикрепить отладок к процессу мониторинга ресурсов.
Операция: сразу перед началом процесса мониторинга ресурсов процесс службы кластера ожидает сообщения (ожидает подключения отладильщика к процессу повторной обработки X), где X — это ИД процесса (PID) процесса монитора ресурсов. Служба кластеров делает это в ожидании всех процессов мониторинга ресурсов, созданных этой службой. После того как пользователь прикрепит отладок к процессу отслеживания ресурсов и начнет процесс мониторинга ресурсов, служба кластера продолжит инициализацию.
NoRepEvtLogging
Function: The norepevtlogging switch prevents replication of those events recorded in the event log. Этот переключатель полезен для уменьшения объема информации, отображаемой в командном окне, путем фильтрации событий, уже записанных в журнал событий. Репликация журнала событий — это функция, добавленная в Windows 2000.
Сценарии использования: этот переключатель используется для предотвращения репликации журналов событий. Если в журнале событий имеется большое количество записей, служба кластеров реплицирует их и записи в журнал cluster.log. Это может привести к быстрому переносу в cluster.log. Этот переключатель также можно использовать для запуска службы кластера и записи событий, не записанных в журнал событий, в локальный файл Debugnorep.log. Используется следующий синтаксис:
Операция: команду norepevtlogging можно установить в качестве начального параметра при запуске службы кластера из консоли управления компьютером.
Синтаксис командной строки:
Эта команда не позволяет узлу, который был запущен с этого переключателя, реплицировать свою информацию на другие узлы, но она по-прежнему будет получать сведения от других узлов, которые были запущены в обычном режиме.
NoQuorumLogging
Функция: отключается ведение журнала всех изменений реестра кластера на диске кворума. Проверка реестра не влияет на другие ресурсы.
Требования: этот переключатель должен использоваться только в режиме диагностики для диагностики проблем с файлом журнала кворума (Quolog.log) или файлом контрольной точки для улья кластера (Chkxxx.tmp) в каталоге \MSCS на диске кворума. Если с помощью этого коммутатора запущен один узел, с помощью этого переключателя также должен быть запущен любой другой узел. Обычно этот переключатель используется только на одном узле.
Сценарии использования: используйте этот переключатель, когда файл журнала кворума или файлы контрольных точек повреждены и необходимо вручную заменить эти файлы на резервные копии.
Операция: служба кластера полностью пропускает функции ведения журнала в данном случае. При запуске в этом режиме могут возникать сценарии «секционно-во времени». В этом случае записи реестра узлов кластера могут не синхронизироваться, а новые изменения могут быть потеряны. Синтаксис: net start clussvc /noquorumlogging .
ForceQuorum
Function: When you use a Majority Node Set (MNS) quorum model on a Windows Server 2003 cluster, in some cases a cluster must be allowed to continue to run even if it doesn’t have quorum (majority). Рассмотрим случай географически распределенного кластера с четырьмя узлами на основном сайте и тремя узлами на дополнительном сайте. Несмотря на отсутствие сбоев, кластер — это кластер из семи узлов, в котором ресурсы могут быть организованы на любом узле, на любом сайте. Если между сайтами имеется сбой связи или дополнительный сайт находится в автономном режиме (или не работает), основной сайт может продолжить работу, так как у него по-прежнему будет кворум. Все ресурсы будут повторно доставлены на основной сайт.
Однако в случае аварийного сбоя основного сайта дополнительный сайт потеряет кворум и, следовательно, все ресурсы будут прекращены на этом сайте. Одна из основных целей для создания кластера с несколькими сайтами — выдержать аварию на основном сайте; Однако само программное обеспечение кластера не может определить состояние основного сайта. Программное обеспечение кластера не может различать сбой связи между сайтами и аварию на основном сайте. Это необходимо сделать вручную. Другими словами, дополнительный сайт можно принудительно продолжить, даже если служба кластеров считает, что у него нет кворума. Это называется принудительным кворумом.
Поскольку этот механизм фактически разрывает семантику, связанную с набором реплики кворума, его необходимо делать только в контролируемых условиях. В примере выше, если дополнительный сайт и основной сайт теряют связь и администратор привнося кворум на дополнительном сайте, ресурсы будут перенаправлены в сеть на обоих сайтах, что позволит обеспечить несогласованность данных или повреждения данных в кластере.
Требования: принудительным кворумом является ручной процесс, который требует остановки службы кластера на всех остальных узлах. Служба кластеров должна знать, какие узлы следует рассматривать как имеющие кворум.
Сценарии использования: необходимо особое внимание, если основной сайт возвращается и когда он возвращается, так как узлы настроены как часть кластера. Кластер работает в состоянии принудительного кворума, но он полностью функционален. Например, узлы можно добавлять или удалять из кластера; можно определить новые ресурсы, группы и так далее.
Служба кластера на всех узлах, НЕ в том числе в списке узлов кворума принудительного применения, должна оставаться остановленной до удаления сведений о принудительном кворуме. Невыполнение этого действия может привести к несоответствиям данных или повреждениям данных.
Операция: настройка параметров запуска службы кластера на всех оставшихся узлах кластера. Для этого запустите панель управления «Службы», выберите службу кластера и введите в параметре «Начните» следующее:
Например, если дополнительный сайт содержит Node5, Node6 и Node7, и вы хотите запустить службу кластера и сделать их единственными узлами в кластере, используйте следующую команду:
В ключе не должно быть пробелов (кроме пробелов в именах узлов).