
КЛАСТЕРНЫЕ РЕШЕНИЯ ЯДРО КОРПОРАТИВНОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ
Ни для кого не секрет, что успешная работа банка, и особенно крупного банка, в первую очередь зависит от надежности работы информационной системы, таких ее компонентов, как серверы, операционные системы, базы данных и прикладные банковские приложения. Стоимость потерь информации, связанных с ошибками в работе или с выходом из строя перечисленных компонентов системы могут измеряться весьма крупными суммами и может привести к катастрофическим последствиям. Конечно, и другие элементы информационной системы, такие как локальная сеть и рабочие места пользователей также подвержены возможности появления сбоев. Однако современные технологии построения структурированных кабельных систем, применение интеллектуального активного сетевого оборудования, грамотное использование возможностей этих устройств при построении локальной сети позволяют быстро локализовать неисправное устройство, организовать резервную схему работы (во многих случаях это происходит автоматически) и заменить неисправное устройство в кратчайшие сроки. Стоимость персональных компьютеров, маршрутизаторов, коммутаторов и другого подобного оборудования не велика в сравнении со стоимостью серверов, а отказ клиентской части прикладного программного обеспечения не ведет к краху сервера.
Сложнее дело обстоит с обеспечением бесперебойной работы серверов. Ведущие производители компьютерного оборудования предлагают решения, которые позволяют полностью исключить возможность остановки в работе информационной системы при выходе из строя любого из компонентов сервера или программного обеспечения. Одно из таких решений, основанное на использовании кластеров из серверов НР9000, в настоящее время реализуется компанией Стерлинг Груп в ГУ ЦБ по Санкт Петербургу.
В рамках данной статьи мы не будем рассматривать особенности внутренней архитектуры серверов, что, несомненно, так же может быть интересно читателям, а рассмотрим архитектуру отказоустойчивого кластера.
Основой архитектуры, предлагаемой к рассмотрению, является сервер СУБД Oracle, работающий под управлением операционной системы (ОС) UNIX. На данный момент это является наиболее оптимальным решением при реализации высоконадежного, масштабируемого сервера базы данных, подходящей средой для работы сложного современного ПО СУБД. В ближайшей перспективе такого рода вычислительные комплексы будут доминировать при реализации сложных систем баз данных. В настоящее время для обеспечения бесперебойной работы серверов баз данных всеми ведущими производителями UNIX-систем предлагаются стандартные решения на основе слабосвязанных вычислительных комплексов - кластеров.
В целом, все предлагаемые в этом секторе рынка продукты разделяются на две группы - кластеры или системы высокой готовности (high availability) и кластеры параллельных баз данных. В данном предложении рассматривается решение второго типа - отказоустойчивый вычислительный комплекс для работы ПО параллельного сервера базы данных компании Oracle - Oracle Parallel Server (OPS) и ряда дополнительных вспомогательных приложений.
Работа OPS-сервера предполагает запуск независимых экземпляров СУБД Oracle на различных узлах кластера. При этом они работают с одним общим набором дисков, содержащим базу данных. Таким образом, достигается высокий уровень масштабируемости и отказоустойчивости центрального сервера базы данных за счёт распределения загрузки между узлами кластера и резервирования компонентов системы.
Основная рабочая подсистема информационного комплекса реализуется на кластере из двух серверов НР9000 Т-, К- или D- класса. Выбор класса серверов зависит от необходимой производительности. Для крупных банков это могут быть серверы Т- класса, которые до последнего времени являлись самой мощной моделью RISC серверов, предлагаемых компанией Hewlett-Packard. Серверы этой модели обеспечивают достаточную производительность по обработке транзакций, количеству пользователей и надёжности работы.
Для хранения информации базы данных используются:
Системное ПО ОС располагается на внутренних дисках стойки HP 6000, имеющих зеркальные копии. Зеркальные копии расположены на дисках устройства HA SS. Они создаются при помощи специализированного системного программного обеспечения - MirrorDisk/UX. При этом диски, содержащие зеркальные копии данных, подключены на различные SCSI-шины с использованием разных SCSI-контроллеров, что обеспечивает бесперебойное функционирование системного ПО при любых сбоях подсистемы ввода/вывода.
Прикладное ПО, используемое совместно обоими серверами, также размещается на внешнем дисковом накопителе, имеющим зеркальную копию. Для этого используется внешняя дисковая стойка HA SS, оборудованная двумя SCSI-шинами. Доступ к диску приложения и его резервной копии, как и в предыдущем случае, осуществляется с серверов по разным шинам ввода/вывода и с использованием разных SCSI-контроллеров.
Для хранения совместно используемых больших массивов информации, файлов базы данных и некоторого прикладного ПО используется дисковый массив. Дисковый массив конфигурируется как RAID уровня 5, обеспечивая бесперебойное функционирование и автоматическое восстановление информации при выходе из строя одиночного накопителя. При выходе из строя любого из дисков происходит автоматическая перестройка данных на дополнительный резервный диск. Дисковый массив имеет дополнительный резервный контроллер RAID, находящийся в режиме горячего резерва. Доступ к данным осуществляется с серверов по разным шинам ввода/вывода, через различные контроллеры ввода/вывода и на отличные контроллеры RAID. При выходе из строя любого из элементов подсистемы ввода вывода (SCSI-контроллер, соединительный кабель, RAID-контроллер, диск - элемент массива) обеспечивается автоматическая переконфигурация системы с переходом в некоторое работоспособное состояние без остановки работы. Дисковый массив оборудован резервным блоком питания.
Каждый сервер расположен в отдельной энергонезависимой стойке, оборудованной источником бесперебойного электропитания, и имеет две внешние шины ввода/вывода - основную и резервную. Через эти шины организуется доступ к совместно используемым данным и резервным копиям внутренних дисков на дисковой стойке и дисковом массиве. Дополнительный третий контроллер FWD SCSI-2 зарезервирован для подключения стоек HP 6000 и других внешних устройств, изолируя их от рабочей среды данных, кластера.
Серверы подключены к локальной сети с использованием двух интерфейсов 10Base-T/100Base-T и одного FDDI. Два из них являются основными - FDDI и один из портов 10/100Base-T. В этой конфигурации обеспечивается перераспределение сетевой нагрузки между контроллерами. При этом по интерфейсу FDDI будет осуществляться доступ пользователей к системе, а Ethernet используется для передачи сообщений кластерного ПО, включая трафик Менеджера Блокировок (Distributed Lock Manager - DLM). Ещё один контроллер 10/100Base-T находится в горячем резерве. При потере соединения по основному интерфейсу или при выходе из строя соответствующей сетевой платы происходит автоматическая переконфигурация сетевой подсистемы для работы с резервным интерфейсом.
Рис. Схема коммутации кластера
Запуск в эксплуатацию кластера основной подсистемы осуществлен специалистами Стерлинг Груп в июне этого года. Первого сентября поставлены два сервера для кластера резервной подсистемы, работы по монтажу и запуску которой ведутся и в настоящее время.
С целью повышения живучести информационной системы основная и резервные подсистемы разнесены территориально и расположены в разных районах города. Данная мера позволяет исключить останов системы в случае возникновения долгосрочных аварий электропитания, пожара, стихийного бедствия, террористического акта или других подобных причин.
Безусловно, немаловажное значение в обеспечении бесперебойной работы системы имеют грамотные действия системных администраторов и персонала, обслуживающего технику. Компания Стерлинг Груп провела обучение специалистов банка работе с операционной системы HP-UX, а также работе с СУБД ORACLE.
Комплекс предусмотренных в проекте мер позволяет обеспечить гарантированную, бесперебойную работу информационной системы банка круглый год по двадцать четыре часа в сутки. Кластерные решения, принятые для реализации в Главном управлении Центрального банка России по Санкт-Петербургу, могут служить хорошим примером построения отказоустойчивых информационных систем для государственных и коммерческих банков, финансовых учреждений и крупных промышленных предприятий.
Алексей Скородумов
тел.(812)219-9237, 278-8415
факс(812)219-9274
Е-mail: info@ sterling.spb.su