Обеспечение непрерывности бизнес-процессов и управление кризисными ситуациями
В XXI веке информационные технологии играют огромную роль в бизнесе. Они стали мощным двигателем экономики, но в то же время и источником рисков. Для обеспечения непрерывности бизнес-процессов крайне важна бесперебойная работа ИТ-сервисов. Отказ этих сервисов может привести к простоям и финансовым потерям, а в худшем случае - катастрофическим последствиям. Наш материал расскажет о средствах, которые обеспечивают информационную безопасность и непрерывность бизнеса.
Современный бизнес, основанный на использовании информационных технологий, нуждается в надежной системе кризис-менеджмента, которая бы обеспечивала бесперебойность процессов. Это становится особенно актуально для кредитно-финансовых, телекоммуникационных и высокотехнологичных компаний, а также предприятий непрерывного производственного цикла, включая атомные электростанции. Однако, готовность к возможным кризисным ситуациям не менее важна и для ритейл-сетей, электронной коммерции и государственных учреждений.
В некоторых отраслях существуют специальные регуляторные акты, которые имеют отношение к обеспечению непрерывности бизнеса и должны соблюдаться для получения соответствующей лицензии. Высокая степень риска, связанная с сбоем в работе ИТ-сервисов, может привести к большим материальным потерям для банков, которые не могут позволить себе непродолжительный перерыв в работе. Авария на предприятии ТЭК или авиакомпании может повлечь за собой не только финансовые потери, но и потерю человеческих жизней.
Причины возникновения бизнес-рисков могут быть различными, например, природные бедствия, аварии в энергосистемах или киберпреступления. В связи с этим, важность обеспечения информационной безопасности общеизвестна.
Компания DEAC провела опрос в 2019 году, который продемонстрировал, что наиболее восприимчивыми к рискам непрерывности бизнеса являются финансовая и информационная сферы. Значительная часть опрошенных не может продолжать работу более одного часа в случае недоступности ИТ-систем, что подчеркивает важность обеспечения непрерывности бизнес-процессов.
Существуют инструменты кризис-менеджмента, которые обеспечивают безопасность бизнеса в целом. Это BCM (Business Continuity Management), BCP (Business Continuity Planning) и DRP (Disaster Recovery Planning). Они наследуют методологию ИБ и имеют основные принципы: анализ рисков, контроль и управление инцидентами, стратегическое и тактическое планирование непрерывности информационно-коммуникационных технологий.
BCM (BCP & DRP) являются неотъемлемой частью системы ИБ и обеспечивают не только непрерывность бизнеса, но и безопасность в целом. Управление ИБ является основой BCM, и их требования учитываются при выборе дата-центра для хранения информации, а также при внедрении стандартов, включая ISO/IEC 27001 и ISO 22301:2012.
Важно отметить, что BCM постепенно охватила практически все аспекты деловой активности и превратилась в целостную структуру взглядов на методы обеспечения непрерывности бизнеса. Она стала устойчивостью организации к всевозможным сбоям, разрушениям и потерям, в первую очередь финансовым.
Управление непрерывностью бизнеса (BCM) является важным аспектом для любой организации. Приоритетные цели и задачи BCM зависят от масштаба и сферы деятельности, и во главу угла ставится управление определенным типом или классом взаимосвязанных инцидентов.
Один из основных комплексов происшествий, рассмотриваемых в рамках BCM, это управление инцидентами или Incident management (IM). Данный уровень охватывает целый комплекс происшествий высокой и средней вероятности возникновения. Задачи и цели IM — обеспечить сохранность, доступность и целостность информации, а также отказоустойчивость оборудования.
Другим важным комплексом в рамках BCM является управление непрерывностью бизнеса и аварийным восстановлением, или Business continuity & disaster recovery management. Он направлен на предотвращение инцидентов, которые могут привести к приостановке работы всей организации или ее важнейших бизнес-процессов. По исследованию, проведенному компанией Veeam Software в 2019 году, ежегодные мировые потери от простоев приложений превышают 20 млн долларов, а по России эта цифра немного ниже — 19,8 млн долларов.
Еще одним комплексом BCM является управление чрезвычайными (кризисными) ситуациями, или Crisis & emergency management. Он ставит своей задачей предупреждение крайне редких, но катастрофических по последствиям инцидентов, таких как экологические и гуманитарные катаклизмы или инфраструктурные разрушения в границах целого региона. В подобных случаях, высокий уровень обеспечения непрерывности деятельности предприятий необходим.
Ключевым понятием в управлении непрерывностью бизнеса (BCM) выступает «инцидент», под которым понимается любое незапланированное, внезапное происшествие, событие, ведущее к остановке ключевых и критичных процессов и функций, полной потере контроля над оборудованием. Недооценка влияния инцидентов на непрерывность бизнеса может привести к драматическим последствиям.
Примером тому служит компьютерная атака на мировом уровне, случившаяся 12 мая 2017 года, когда компьютеры по всему миру были атакованы вирусом-вымогателем WannaCry. Он шифровал файлы на устройствах, а для восстановления доступа к ним требовал выкуп. Параллельно с тем, WannaCry атаковал более 200 стран, сильнее всего пострадали Россия, Украина, Индия и Тайвань, и привел к остановке работы больниц, аэропортов, заводов и банков. Экономические потери, нанесенные данной кибератакой, составили около 4 млрд долларов.
Полтора месяца спустя, инцидент повторился, но уже с другой вредоносной программой – вирусом Petya. Российские и украинские компании понесли самые масштабные потери от него, исходя из данных исследований. Внедрение и применение программ BCM позволило бы значительно сократить размеры потерь, а возможно, и вовсе избежать катастрофических происшествий.
The Impact of Catastrophes on Shareholder Value (Rory J. Knight и Deborah J. Pretty) показывает, что кумулятивный доход сверх нормы компаний, успешно восстановивших деятельность после крупномасштабной аварии, через год составляет в среднем 10%. Корпорации, не внедрившие BCM, получают те же 10% и даже 15%, но уже со знаком минус. Управление непрерывностью бизнеса является залогом сохранности вложенных владельцами и акционерами средств, а также возможности и продолжительности работы предприятия.
Внедрение BCM: этапы и сложности
Ведение бизнеса без прерываний требует стратегического планирования и использования инструментов риск-менеджмента (RM). В свою очередь, эффективное внедрение системы управления непрерывностью бизнеса (BCM) в организации крайне сложно и многоэтапно. Включает в себя изучение технических и программных аспектов, установление регламента действий, а также обучение персонала и распределение ответственности.
Однако, даже при наличии необходимых знаний и ресурсов у компании, реализация всего этого может стать серьезной проблемой. Таким образом, компаниям рекомендуется обращаться за помощью к профессионалам в области ИТ, которые не только помогут разработать оптимальный план действий, но и предложат наиболее эффективные решения для конкретной организации.
Проведение этапов внедрения BCM является ключевым фактором для успешного функционирования компании в меняющихся условиях рынка. Проектный подход, применяемый опытными ИТ-экспертами, поможет быстро и качественно выполнить все задачи, связанные с внедрением BCM.
Анализ бизнес-процессов (Business Environment Analysis, BEA) позволяет определить риски, которые могут возникнуть в зависимости от характера деятельности компании. Например, отказ в работе системы учета пациентов медицинского учреждения является менее критичным по сравнению со сбоем в работе высокотехнологичного реанимационного оборудования. При этом в телекоммуникационной компании отказ приложения для автоматизации совместной деятельности рабочих групп вероятно не остановит бизнес-процессы, однако сбой в системе биллинга приведет к затратам на финансовые потери. Таким образом, точки критичности могут быть различны для каждого типа бизнеса, и анализ бизнес-процессов позволяет выявить эти точки и определить степень их влияния на деловую активность компании.
Анализ рисков (Risk Analysis, RA) позволяет выделить зависимые и независимые от информационных технологий (ИТ) риски. После выделения и градации бизнес-процессов по важности для компании следует определить группу ИТ-зависимых бизнес-процессов. Затем необходимо проверить технические и организационные механизмы по предотвращению перебоев в работе бизнес-процессов, выделить уязвимые точки и оценить угрозы. В результате можно выделить группы рисков, которые влияют на ИТ, и классифицировать их по мере важности.
Оценка влияния на бизнес (Business Impact Analysis, BIA) основана на карте ключевых бизнес-процессов с указанием нарушений, которые могут привести к убыткам. После этого строится модель, отображающая связь между нарушениями и категориями возможных потерь, которые могут быть оценены как количественно, так и качественно. К группам потерь могут относиться: деловая репутация, рыночная стоимость, уровень операционных издержек, возврат на инвестиции, штрафные санкции из-за нарушения контрактных обязательств и др. Такой подход позволяет провести детальную оценку влияния на бизнес и определить возможные потери.
Важной задачей аналитиков является получение достоверной информации о бизнесе организации, особенно в финансовой сфере, чтобы определить текущее состояние ИТ-комплекса и его планы на будущее.
Анализ информационных сервисов, связанных с бизнес-процессами и информационными потоками, также немаловажен. Оценка допотопного риска поможет составить полную картину бизнеса, показывая уровень критичности всех бизнес-процессов в целом, а также выявляя нарушения их функционирования и соотношение величины потерь.
Для решения всех описанных задач производится аудит, который проводятся аналитиками перед началом сотрудничества. В процессе такой всесторонней оценки выявляются слабые места в системе информационной безопасности клиента, а также становятся понятны способы укрепления уязвимых точек.
Расчет экономического эффекта, то есть стоимости простоя бизнес-процессов, предполагает наличие справедливых допущений о вероятности наступления различных инцидентов в рассматриваемый период. Это позволяет выбрать наиболее приемлемую стратегию для организации.
Совладельцы компании и ее руководство, совместно с аналитиками, должны определить установку так называемых тайм-аутов и производительной мощности для отдельных бизнес-процессов на случай чрезвычайных ситуаций. Эти тайм-ауты включают в себя:
- Допустимое время восстановления (Recovery Time Objective, RTO) - время простоя, которое технически может быть сведен к секундам, но из-за дороговизны не всегда оправдан экономически.
- Целевая точка восстановления (Recovery Point Objective, RPO) - это временной диапазон перед наступлением чрезвычайной ситуации, за который все данные могут быть утрачены. Сегодня он может быть сведен к нулю, так как все зависит от частоты и технологии резервного копирования информации.
- Уровень непрерывности бизнеса (Level of Business Continuity, LBC) - это допустимый уровень производительности в чрезвычайных ситуациях в процентах от режима штатной работы.
Планирование – это процесс, который должен быть постоянным и динамическим, а не отдельной процедурой, и важно поддерживать его в актуальном и "синхронизированном" состоянии. Для этого необходимо регулярно проверять планы и дополнять их свежими данными по мере необходимости.
Определение стратегии непрерывности бизнеса является ключевым этапом планирования. Эта стратегия должна включать меры по обеспечению безопасности сотрудников, обеспечению рабочих помещений, технических средств и необходимых материалов, доступ к критической информации, а также обеспечивать беспрепятственные коммуникации с партнерами, клиентами, поставщиками и другими заинтересованными сторонами. Каждое направление должно иметь отдельную подстратегию, которая поможет "навигировать" к скорейшему восстановлению в соответствии с параметрами, определенными на этапах анализа рисков. Обеспечение непрерывности ссылается на три стадии: реагирование на ЧС, продолжение выполнения критически важных процессов для бизнеса в условиях ЧС и восстановление штатной работы.
Выбор организационных и технических решений зависит от стратегии BCM (Business Continuity Management). Необходимо разработать политики, которые определят приоритетные цели и задачи поддержания непрерывности бизнеса, процедуры реагирования и области распространения системы BCM, а также установить кадровые потребности и степень вовлеченности персонала в реализацию программы внедрения BCM (проекта).
Создание технической и организационной системы BCM очень важно для непрерывности бизнеса. В настоящее время все большую популярность приобретают "облачные" услуги. Одним из решений для защиты информации при помощи облака является DRaaS (Disaster-Recovery-as-a-Service). Суть этого решения заключается в том, чтобы предоставить услугу аварийного восстановления данных в облачных средах корпоративного уровня. Это позволяет снизить расходы на обеспечение безопасности и одновременно поддерживать ее на уровне принятых в индустрии стандартов. Существуют разные варианты, но все они основаны на резервном копировании ИТ-инфраструктуры или ее наиболее критичных элементов.
Согласно первому варианту резервные копии ИТ-инфраструктуры создаются по расписанию, который задается в соответствии с требуемым временем восстановления (RTO) и точкой восстановления (RPO), а затем помещаются в хранилище. Восстановление занимает до нескольких часов. Такая схема подходит для малого бизнеса, где непрерывность не является критичной, но важна экономия и надежность сохранения данных. Однако, такое резервное копирование не обеспечивает комплексную защиту.
Второй вариант заключается в том, чтобы копировать все инфраструктуру, а изменения проводить в непрерывном режиме, чтобы они переносились в облако. Информацию можно извлечь и восстановить за несколько минут.
Третий вариант заключается в том, чтобы запустить резервную облачную инфраструктуру, которая будет полностью идентичной основной. Обновления в обоих инфраструктурах происходят синхронно, что позволяет восстанавливать работу за несколько секунд. Такое решение актуально для крупных финансовых и ИТ-компаний, государственных организаций и любых других компаний, где нельзя терять ни минуты на простой.
Построение отказоустойчивых ЦОДов является важным аспектом для различных бизнесов. В случае необходимости, можно провести оптимизацию существующих центров обработки данных или построить новые, более энергоэффективные и отказоустойчивые. Реализация данной задачи включает в себя комплекс мероприятий, таких как: строительство специализированных зданий, организация инженерной, телекоммуникационной и ИТ-инфраструктуры, их автоматизация, сервисное сопровождение подсистем ЦОДов или создание мобильного ЦОДа. Также, есть более простой путь - доверить организацию ИТ-инфраструктуры надежному провайдеру.
При росте бизнеса и усложнении ИТ-систем компании, вычислительные центры могут стать фактором угрозы непрерывности деловой активности. Поэтому необходимо разработать план восстановления системы после инцидента (DRP), который является составной частью более крупного плана обеспечения непрерывности бизнеса (BCP). DRP помогает быстро восстановить работоспособность критичных ИТ-систем и обычных операций, в то время как BCP обеспечивает восстановление бизнес-процессов в целом.
Для обеспечения нормального функционирования системы BCM необходимо формировать программу сопровождения и эксплуатации, определять периодичность проверок и разрабатывать меры реагирования обслуживающего персонала на возникновение инцидентов. Также важным аспектом является интеграция процессов в корпоративную культуру, которая включает разработку мер и осведомление персонала о мерах, предпринимаемых в случае возникновения угроз, а также о мерах по устранению последствий внештатной ситуации. Компетентный персонал является важным фактором для успешного планирования восстановления после происшествия.
Как известно, внедрение системы ВСМ на предприятии может значительно повлиять на его дальнейшую работу. Однако, какие именно параметры могут свидетельствовать об эффективности такого внедрения?
В первую очередь, важно отметить готовность организации к дальнейшей работе в случае возникновения аварий в ИТ-системах. Если в систему была внедрена ВСМ, это достаточно показательный момент, ведь организация приняла меры для сохранения своих данных и возможности продолжения работы в случае сбоев.
Кроме того, стоит оценить вероятность простоя (недоступности) информационных систем в случае возникновения внештатной ситуации и потенциальные убытки, которые могут быть связаны с такой ситуацией.
Также важным показателем является соответствие требованиям регулирующих органов и прохождение аудита.
Однако, само по себе создание и внедрение системы ВСМ может стать непростой задачей для предприятия, требующей значительных финансовых, кадровых и временных ресурсов. Не каждая компания готова на это пойти и поэтому речь идет об эффективности внедрения системы с учетом возможностей организации.
Фото: freepik.com