ЦОД: премудрости эксплуатации (журнал 'ИнформКурьерСвязь', август-сентябрь 2014)

07.09.2014

Редакция журнала 'Информкурьерсвязь' ('ИКС') вот уже в седьмой раз выбирает дата-центры главной темой номера. Но подобно тому, как в одну реку нельзя войти дважды, 'река' дата-центров постоянно меняется. 'Все анекдоты о казусах проектирования и строительства ЦОДов давно остались в прошлом, - читаем в редакционной статье. - За это время набрались знаний и опыта и проектировщики, и строители, и владельцы дата-центров, и их клиенты. Российские ЦОДы научились быть всепогодными: и зимние морозы, и летняя жара не становятся для них сюрпризами, хотя осечки еще случаются. Национальные особенности российской отрасли дата-центров, конечно, видны невооруженным глазом, но желание перенимать лучший международный опыт – тоже налицо... Ведь и специалисты, и заказчики уже давно понимают, что спроектировать и построить можно только потенциально надежный дата-центр. Реально надежным его делает служба эксплуатации – те, кто занимается, на первый взгляд, скучной каждодневной работой: мониторингом оборудования, обходами, проверками, регламентными работами, техническим обслуживанием, инструкциями и т.д., и т.п. И тут хотелось бы вспомнить слова бургомистра из знаменитого фильма «Тот самый Мюнхгаузен»: «Каждый день к девяти утра я должен идти в мой магистрат. Я не скажу, что это подвиг, но вообще что-то героическое в этом есть». 

Редакция 'ИКС' собрала ответы руководителей служб эксплуатации ведущих ЦОД России. Публикуем полную версию ответов Геннадия Дунаева, руководителя службы эксплуатации ЦОД 'ТрастИнфо', находящегося под управлением компании 'Сервионика' (ГК 'Ай-Теко') и являющегося 2-м в России по величине и уникальным - по надежности и техническому оснащению. 

dunaev

1. Каковы особенности российской эксплуатации ЦОДов? Собственная служба эксплуатации или аутсорсинг, что реальнее и надежнее в российских условиях? К какой модели склоняется ваш дата-центр? Возможен ли сейчас в России нормальный аутсорсинг обслуживания оборудования ЦОДа? Как организована служба эксплуатации дата-центров в других странах мира? Чему могут поучиться у своих иностранных коллег российские эксплуататоры ЦОДов?

Аутсорсинг службы эксплуатации ЦОД оправдан только в том случае, если компания не располагает собственными возможностями по созданию инфраструктуры сопровождения. Причем следует понимать, что качественные комплексные услуги в этой области доступны пока только в отдельных крупных городах – это создает сложности для компаний с территориально-распределенной структурой, которым важны оперативность, безопасность и высокая доступность корпоративных сервисов и приложений. Например, это критически важно для ритейла, банков, телекоммуникационных и страховых компаний.

Компания «Сервионика» предоставляет ресурсы ЦОД «ТрастИнфо» организациям любого масштаба – от госструктур до стартапов, нам доверяют сложнейшее оборудование и бизнес-критичные сервисы. Соответственно, мы должны обеспечить высокую эксплуатационную готовность нашей инфраструктуры и, как поставщик услуг, гарантировать ее надежность. Поддержка собственной инфраструктуры и ресурсов клиентов, размещенных в дата-центре «ТрастИнфо», ведется собственными силами, у наших специалистов более 1400 сертификатов мировых вендоров, подтверждающих высокую квалификацию и уникальные для России специализации наших сотрудников.

Важной составляющей частью предоставляемого пакета услуг является  техническая поддержка в режиме 24х7 для клиентов ЦОД «ТрастИнфо». Мы попросту не смогли бы ее наладить без помощи квалифицированных специалистов в штате по поддержке и обслуживанию ИТ-инфраструктуры. Техническое обслуживание, аудит систем дата-центра и другие мероприятия, жизненно важные для его стабильной работы, мы доверяем только специалистам, сертифицированным вендорами, и аудиторам с соответствующими аккредитациями. И такой же подход советуем нашим клиентам: не стоит рисковать потерей дорогостоящего оборудования или важнейших данных ради кажущейся сиюминутной экономии на несертифицированном оборудовании, нелицензионном ПО или поставщике, который не может подтвердить свою компетенцию официально.

2. Каковы особенности эксплуатации вашего ЦОДа? Какое оборудование инженерных и ИТ-систем дата-центра требует особого внимания при эксплуатации? Обслуживание каких систем обязательно требует привлечения производителей и/или специальной сервисной организации? С чем можно справиться самостоятельно? Какие проблемы эксплуатации позволяют решить системы мониторинга в ЦОДе? Как их наличие влияет на организацию эксплуатации, состав обслуживающей команды ЦОДа, уровень и, соответственно, стоимость сервисных контрактов?

Последние несколько лет мы работаем в условиях постоянно растущего спроса на мощности ЦОД «ТрастИнфо», и стратегия компании «Сервионики» ориентирована на то, чтобы поддерживать соотношение между занятыми и свободными стойками на уровне 80/20. Оно нам представляется оптимальным, поскольку позволяет в сжатые сроки удовлетворять потребности заказчиков в масштабировании бизнеса и увеличении объемов потребляемых мощностей.

Особого внимания требуют все системы жизнеобеспечения дата-центра – все они состоят из сложнейшего оборудования, а нарушение режима эксплуатации может привести не только к его выходу из строя, но и к неблагоприятному внешнему влиянию. Это системы холодоснабжения и кондиционирования, пожаротушения, электроснабжения, телекоммуникации и структурированные кабельные сети. В «ТрастИнфо» обслуживание или ремонт любого элемента инфраструктуры можно вести без остановки работы ЦОД и без снижения рабочей мощности в соответствии с требованиями стандарта Tier III: всё оборудование зарезервировано по системе N+1, что позволяет нам говорить о доступности объекта на уровне 99,982%.

Система мониторинга ЦОД помогает повышать эффективность эксплуатации, обеспечивая информационную поддержку для ИТ-службы. Задача современной системы мониторинга – не просто в фиксации нештатной ситуации и оперативном оповещении о ней, а в возможности проактивного наблюдения, аналитики, позволяющей предотвращать инциденты. Например, если произошел сбой диска, такая система сразу автоматически инициирует процесс его замены, вплоть до заявки на приобретение нового, если это необходимо.

3. Сформировался ли в России рынок аутсорсинга услуг по эксплуатации инфраструктуры ЦОДов? Насколько адекватен запросам владельцев дата-центров уровень предлагаемых ими услуг? Каковы основные претензии владельцев ЦОДов к сервисным компаниям? Устраивает ли вас предлагаемый ими SLA? Как вы хотели бы его изменить?

Говорить о формировании полноценного зрелого рынка таких в России, очевидно, еще рано, однако на рынке немало компаний, готовых заключать договора на комплексное обслуживание и проведение работ по эксплуатации инженерных систем согласно утвержденному регламенту. Все чаще эти функции готовы на себя брать крупные системные интеграторы, так как это позволяет расширить рамки комплесных проектов и предложить заказчикам удобные индивидуальные пакеты услуг «под ключ».

Со стороны заказчиков мы видим все больше уверенности в эффективности передачи обслуживания инженерной инфраструктуры ЦОД на аутсорсинг. Однако здесь важно обращать внимание на два момента.

Во-первых – какие работы передаются. Например, есть системы, чье сервисное обслуживание нужно проводить, скажем, раз в квартал, а работы подобного рода требуют отдельного лицензирования. Очевидно, что держать в штате компании уникальных и, одновременно, редко востребованных специалистов экономически нецелесообразно.

Второй момент - сугубо экономический. Несмотря на всю привлекательность идеи аутсорсинга услуг по эксплуатации инфраструктуры, операторы крупных ЦОД относятся к ней прохладно. Все дело в том, что с ростом количества стоек удельная стоимость обслуживания снижается, и получить заметную финансовую выгоду не получается. В то же время, риски растут, возникает необходимость следить за добросовестным выполнением договорных обязательств.  

4. Ваш опыт формирования команды эксплуатации ЦОДа. Когда и как должна создаваться эта команда? Как вы определяете необходимую численность персонала службы эксплуатации и как формируете требования к квалификации ее специалистов?

Прежде всего, хочу отметить, что персонал, отвечающий за безотказную эксплуатацию ЦОД, должен обладать исключительно высокой квалификацией и обязательно опытом работы на аналогичных объектах. Собственно, этими двумя критериями в первую очередь руководствуется компания «Сервионика» при подборе кадров из числа технических специалистов.

Еще на этапе проектирования ЦОД нужно разработать четкий регламент поддержки всех систем, содержащий положения о распределении сфер ответственности между администраторами. Правильно организованная работа обслуживающего персонала и службы поддержки является главной предпосылкой слаженного взаимодействия между ИТ-инфраструктурой и бизнес-задачами наших клиентов.

Процедуры эксплуатации важно формализовать и сформировать полный комплект документов, регламентирующие все возможные действия и события в ЦОД. В частности, это журналы регламентных работ, нештатных ситуаций, оперативный журнал, техническая документация на обслуживание и проч. Можно нанять на работу сколь угодно квалифицированного специалиста, но если он не сумеет правильно действовать во внештатной ситуации, таким компаниям, как наша, это может стоить бизнеса. Не меньше, чем знания, важна лояльность персонала. И это является мощным «противоядием»: ведь преступный умысел, если он есть, невозможно обнаружить с помощью сертификата или ключа. Нужна постоянная работа сотрудников HR и специалистов по ИБ с сотрудниками, имеющими доступ для работ в ДЦ: например, 'профилактические беседы' на предмет выявления потенциальных нарушителей. Поэтому наиболее эффективный метод - сочетание контроля доступа и физической защиты стоек, включая системы видеонаблюдения. Проактивный подход важен: предотвратить несанкционированное проникновение проще и результативнее, чем потом определять, на каком уровне оно произошло и с какими целями. Причем нарушителя-то можно установить очень быстро (благодаря двойному паспортному контролю, СКУД, видеофиксации), а вот что дальше делать, как определять преступность намерения и ответственность за такие нарушения - это уже вопрос законодательный.

5. Какова ситуация с кадрами для служб эксплуатации дата-центров? Что, по вашему опыту, эффективнее - стараться выращивать собственных специалистов или заманивать профессионалов со стороны? Насколько перспективен вахтовый метод эксплуатации ЦОДов в российских условиях? Какая форма поддержания квалификации персонала службы эксплуатации ЦОД, по вашему мнению, наиболее эффективна? Интересуются ли ваши клиенты тем, проводятся ли в ЦОДе учебные тревоги?

Массовое переманивание специалистов не может быть эффективным по определению – это взаимно исключающие понятия. Но проблема нехватки квалифицированных кадров для такого динамичного рынка, как услуги ЦОД и облачные сервисы, ощутима всеми игроками рынка. В контексте темы ЦОД принято говорить про резервирование инфраструктуры, но редко звучат слова о необходимости формирования кадровых резервов. К сожалению, это одна из самых распространенных ошибок при формировании служб эксплуатации ЦОД. К тому же негативный человеческий фактор сведен к минимуму там, где между профессионалами есть прочное сотрудничество, взаимовыручка, верность ценностям компании, а это формируется годами работы и корпоративной культурой.

Коль скоро, «Сервионика» - ИТ-компания, мы стремимся повышать эффективность нашего бизнеса за счет технологий. Применительно к эксплуатации ЦОД повышение эффективности достигается, в частности, за счет формирования автоматизированной диспетчерской службы, интегрированной с системой мониторинга ИТ-инфраструктуры). Это позволяет организовать круглосуточный прием заявок от клиентов в интерактивном режиме по телефону и электронной почте и затем автоматически их адресовать специалистам службы поддержки. В итоге мы можем оперативно реагировать на все потребности клиентов и тем самым повышать качество предоставляемого сервиса, степень удовлетворенности и лояльности, и при этом держать под постоянным контролем все системы и получать важнейшие данные для анализа их работы в реальном времени.

6. С чем связано большинство проблем при эксплуатации - с ошибками проектировщиков, ошибками строителей, ошибками собственного персонала службы эксплуатации, ошибками специалистов сервисных компаний? Каковы на ваш взгляд типичные ошибки при проектировании и строительстве дата-центра, влияющие на его последующую эксплуатацию? Какие основные проблемы (технические и организационные) возникают сразу же на первых этапах  эксплуатации ЦОДа, а что вылезает после окончания срока гарантийного обслуживания оборудования? Насколько они серьезны? Как их минимизировать?

Трудно ждать успеха, если нарушены «прописные истины» проектирования помещения с учетом перераспределения потоков холодного и горячего воздуха или выбора поставщика качественной СКС. Если не соблюдены базовые требования к построению ЦОД, о какой беспроблемной эксплуатации можно говорить в дальнейшем?

Если этих ошибок удалось избежать на этапе строительства (кстати, это достаточно редкая ситуация), для дальнейшей безотказной и эффективной работы ЦОД предстоит разработать комплекс мероприятий по технической эксплуатации. Это и техобслуживание оборудования, и мониторинг, нормы и правила ввода нового оборудования в эксплуатацию, сбор и анализ информации о надежности, обязательный гарантийный надзор. Все работы должны производиться в соответствии с утвержденным план-графиком, их объем и периодичность указываются в технологических картах.

7. Какие способы снижения затрат на эксплуатацию дата-центра вы считаете наиболее адекватными? На чем экономить нельзя?

В первую очередь, нельзя экономить на людях. Про инженерную инфраструктуру не говорю – ее и так стараются максимально зарезервировать еще на этапе строительства. И вообще, с большими капитальными затратами при создании ЦОД компании уже смирились, воспринимают это как данность. Другое дело, операционные затраты: их  некоторые менеджеры стремятся сократить любой ценой. Забывая при этом, что цена ошибки в нашем бизнесе порой соответствует стоимости самого бизнеса.

В компаниях, где при формировании и развитии персонала учитывают специфику работы такого сложного объекта, как современный ЦОД, вряд ли возникнет ситуация «из советского прошлого»: когда главный инженер совмещает все возможные функции и заменяет собой одновременно главного энергетика, инженера по оборудованию для кондиционирования и, например, связиста. Увольнение или внештатная ситуация во время отпуска такого «незаменимого специалиста» обходятся себе дороже.

8. Регламенты и инструкции в дата-центре. Насколько эффективно они сейчас работают в ЦОДах? Кто их должен составлять, чтобы получить реально работающие документы?

Дата-центр – сложный технический объект, требующий особого контроля. Сбой в работе дата-центра чреват миллионными убытками его клиентов и, что еще серьезнее, ущербом для окружающей среды. Вот почему инструкции в ЦОД – реальное руководство к действию. Они позволяют всем ответственным сотрудникам говорить на одном языке и четко знать, что делать в случае возникновения опасной ситуации.

Для того, чтобы инструкции были реальным подспорьем, нужно соблюсти два условия. Во-первых, формированием инструкций и регламентов (как и подбором персонала) следует заниматься еще на этапе строительства ЦОД. Важно использовать проектный подход – это помогает участникам четко усвоить роли, а на выходе наряду с проектной документацией (технический и рабочий проекты, исполнительная документация) получить регламенты обслуживания и восстановления после сбоев. И, конечно, инструкции необходимо периодически актуализировать, ведь дата-центр развивается: появляется новое оборудование, услуги, отраслевые требования.

9. Нужна ли сертификация служб эксплуатации российских ЦОДов в Uptime Institute (Operation Sustainability) или проведение аудита службы эксплуатации в том же Uptime Institute? Это реальная потребность или дань моде? Как это может повлиять на общий уровень эксплуатации дата-центров? Интересуют ли клиентов подобные документы?

В отличие от предшественника Tier Standard: Topology, который регламентировал необходимые технические параметры ЦОД для достижения определенного уровня надежности, Operation Sustainability учитывает человеческий фактор, и это хорошо. С ним напрямую связана устойчивая работа ЦОД, ведь на персонал приходится до 70% возникающих ошибок, из них почти половина – в сфере служб эксплуатации.

Вопрос целесообразности сертификации служб эксплуатации в настоящий момент остается открытым. Очевидно, со временем придет понимание необходимости формализации процедур и полного документирования всех систем ЦОД, так как проекты становятся все более сложными, и риски провайдера значительно возрастают. В свете этих трендов инициатива Uptime Institute представляется целесообразной.

Крупные поставщики, и «Сервионика» в их числе, заинтересованы в том, чтобы предоставлять заказчикам гарантии устойчивости своих дата-центров и зрелости внутренних процессов. Ведь, в отличие от товаров и услуг, работа ЦОД не требует обязательной сертификации, она является добровольной, и мотивы ее проведения разные. Например, для увеличения доверия клиентов (конкурентное преимущество), аудит деятельности подрядчиков со стороны инвестора проекта. Если говорить про конкретные услуги, типа размещения эквайринговых, систем приема платежей – для них необходимо иметь сертификацию PCI DSS. Требование соответствия стандарту распространяются на все компании, работающие с международными платёжными системами Visa и MasterCard.

Наиболее актуальными видами сертификации сегодня являются:

  • Uptime Institute (различается по уровням Tier и типам сертификата: на проект, на объект, на эксплуатацию)
  • ISO/IEC 27001
  • ISAE3402
  • Payment Card Industry Data Security Standard (PCI DSS)
  • Certified Energy Efficiency Data Center Award (CEEDA)
  • Обеспечение соответствия требованиям ФЗ 152 («Закону о персональных данных»)
  • Сертификаты конкретных производителей (в настоящей статье не рассматриваются)
  • Uptime Institute

Компания Uptime Institute Professional Services одной из первых начала стандартизировать отказоустойчивость ЦОД по уровням. При соответствии 1 и 2 уровням профилактические и ремонтные работы проводятся с отключением инженерных систем, что влияет на бесперебойность предоставления услуг клиентам. 3 и 4 уровни предполагают проведения работ в «горячем режиме» без воздействия на предоставляемые услуги — время бесперебойной работы 99,982 % и 99,995% соответственно. Следовательно, коммерческий дата-центр необходимо проектировать минимум по 3-му или 4-му уровню отказоустойчивости.

Мы стремимся гарантировать устойчивость нашего ЦОД и свести до минимума риски нарушения его работы, строго придерживаясь принятых службой безопасности компании правил. Например, в случае проведения технического обслуживания инженерных систем в ЦОД «ТрастИнфо» допускаются только официальные авторизированные представители вендоров, для их допуска на территорию ведется двойной паспортный контроль по заранее согласованным спискам. Надо понимать: ни один сертификат не поможет вскрыть преступный замысел, если он есть.

10. Нужен ли в России стандарт по обслуживанию ЦОДов? На что он может повлиять? Каковы перспективы его принятия?

Как известно, недавно создана Ассоциация участников отрасли ЦОД, задача которой – объединить игроков рынка для разработки российских стандартов строительства и эксплуатации дата-центров. Несомненно, принятие такого стандарта может важно для развития рынка ЦОД в России, и он должен вобрать в себя как лучший мировой опыт, так и успешную российскую практику.

Надо признать, удачные проекты строительства ЦОД в нашей стране единичны, а системного подхода к тиражированию «лучших практик» до сих пор не выработано. В немалой степени это касается и проектных практик, но сфера эксплуатации вовсе практически не регламентирована. На начальном этапе принятые стандарты должны стать чем-то сродни маяков, на которые на добровольных началах станут ориентироваться компании. Следует понимать, что в создании этих стандартов еще предстоит пройти длинный путь, прежде чем они «дорастут» до ГОСТа. Но дорогу осилит идущий.

11. Как вы собираетесь развивать свою службу эксплуатации - в сторону полного аутсорсинга, частичного аутсорсинга (тогда каких систем?) или опоры на собственные силы?

Очевидно, штатные технические специалисты лучше других знают все нюансы функционирования ЦОД. В то же время, мы не отказываемся от услуг вендоров или специализированных сервисных организаций, все определяется здравым смыслом, компетенцией поставщиков и, конечно, экономической целесообразностью.

ЦОД «ТрастИнфо» насчитывает 1200 стоек – это очень много. Эффект масштаба позволяет снижать затраты на эксплуатацию, и увеличение количества персонала не особенно сильно влияет на общую стоимость обслуживания отдельно взятой стойки.

Наши собственные инженеры постоянно находятся на рабочем месте рядом с оборудованием и в случае возникновения нештатной ситуации готовы немедленно на нее отреагировать. Мы сознательно несем дополнительные расходы на содержание специалистов, повышение квалификации, сертификацию и проч. Таким образом, мы можем обеспечить высокое качество услуг и надежность ЦОД «ТрастИнфо» - то, за чем наши клиенты и обращаются в «Сервионику».

Обзор 'ЦОД: премудрости эксплуатации' на сайте журнала 'Информкурьерсвязь' и в №8-9 за 2014 год.

Назад к разделу "Публикации"