Соглашение об уровне сервиса (SLA, Service Level Agreement) для поддержки и сопровождения
Ключевые факты (ответ в первом абзаце)
- Это SLA описывает целевые показатели поддержки и сопровождения для инцидентов, дефектов и уязвимостей безопасности.
- Базовое покрытие: рабочие часы по CET/CEST. Поддержка вне рабочих часов / 24×7 дежурство (on-call) — в зависимости от плана поддержки.
- Основной канал приёма обращений — тикет-система. Обращения из чатов могут дублироваться в тикеты для учёта по SLA.
- Для критических инцидентов приоритет — восстановить работоспособность сервиса до углублённого анализа причин.
- Для установления реалистичных целевых показателей для сложных или унаследованных систем требуется онбординг (onboarding).
Метаданные документа и применимость
- Тип документа: Соглашение об уровне сервиса (SLA) — Поддержка и сопровождение
- Базовый часовой пояс: CET/CEST
- Модель покрытия: рабочие часы по умолчанию; расширенное покрытие — по плану поддержки
- Примечание к договору: детальные целевые показатели и значения по планам могут быть зафиксированы в SOW (Statement of Work) / приложении к плану поддержки.
Назначение и аудитория
Эта страница определяет порядок классификации, приёма, эскалации, обработки и отчётности по обращениям в поддержку. Целевая аудитория: закупки (procurement), CTO/руководители разработки, специалисты по безопасности и владельцы процессов поставки, которым требуются предсказуемые операционные процессы.
Область действия SLA: что входит, исключения, границы ответственности
SLA покрывает поддержку и развитие заказного программного обеспечения, как правило размещённого на инфраструктуре заказчика. Мы поддерживаем инциденты продуктивной среды, дефекты критичных бизнес-сценариев (оплаты, заказы, личный кабинет), уязвимости безопасности и координацию с внешними поставщиками. Применяется модель разделённой ответственности: мы отвечаем за код приложения, конфигурацию, процессы развёртывания и диагностику в рамках наших доступов; заказчик отвечает за инфраструктуру, сеть и доступность сторонних сервисов, если иное не включено в SOW. Хостинг на стороне Webdelo возможен в ограниченных случаях для отдельных заказчиков, но не предоставляется как публичная услуга.
Что входит в SLA
Это SLA применяется к:
- Инцидентам в продуктивной среде, влияющим на доступность или ключевые бизнес-сценарии.
- Исправлению дефектов в продуктивной среде (включая ключевые сценарии, такие как оформление заказа, оплаты, доступ в личный кабинет).
- Уязвимостям и инцидентам информационной безопасности (обрабатываются с высоким приоритетом).
- Координации и технической помощи при взаимодействии с внешними поставщиками в рамках плана поддержки.
Что не входит в SLA (исключения)
Это SLA не покрывает проблемы, находящиеся вне операционного контроля, включая:
- Сбои дата-центра / инфраструктуры, не управляемой нашей командой.
- Сбои внешних сервисов или изменения API (примеры: провайдеры оплат, платформы email-маркетинга).
- Отказы микросервисов или подсистем, не разработанных и не эксплуатируемых нашей командой (мы можем помогать в диагностике и координации).
- Ситуации, когда необходимый доступ не предоставлен (действуют ограничения; см. «Требования к доступам» и «Онбординг»).
Что мы делаем, если первопричина вне нашего контроля
Если инцидент вызван внешними сервисами или зависимостями, мы можем:
- Определить и подтвердить характер отказа, связанного с зависимостью.
- Предоставить технический контекст и журналы (логи), если доступны.
- Помочь заказчику как технический посредник при общении с поддержкой поставщика в рамках оплачиваемого объёма поддержки.
- Зафиксировать выводы в тикете и предложить меры снижения влияния или обходные решения, когда это возможно.
Модель разделённой ответственности
Поддержка и сопровождение работают в рамках модели разделённой ответственности:
- Наша ответственность: код приложения и бизнес-логика, процессы развёртывания и релизов, конфигурация компонентов в нашем управлении, диагностика и координация инцидентов, мониторинг в согласованном объёме.
- Ответственность заказчика: инфраструктура и среда хостинга (серверы, сеть, DNS, балансировщики нагрузки), предоставление доступов и управление учётными данными, договоры со сторонними сервисами (платёжные провайдеры, почтовые сервисы, CDN), бизнес-решения по принятию мер восстановления и приоритизации изменений.
- Совместная / координируемая зона: управление CI/CD-пайплайном (в зависимости от доступов), администрирование баз данных (в зависимости от объёма), практики безопасности (прикладной vs. инфраструктурный уровень).
Точная граница определяется для каждого проекта в ходе онбординга и фиксируется в SOW.
Определения: тикет, инцидент, дефект, запрос на обслуживание, запрос на изменение
Тикет — базовая единица учёта SLA. Инцидент — отказ продуктивной среды (недоступность сервиса, HTTP 500, сбой инфраструктуры). Дефект — некорректное поведение существующей функции (корзина, оплата, личный кабинет). Запрос на изменение (Change Request) — плановая доработка, не инцидент. Срочные изменения по внешним дедлайнам (регуляторика, кампании) могут приоритизироваться как срочные вне очереди.
Тикет
Тикет — основной объект для учёта, триажа, эскалации, реакции и отчётности. Учёт SLA ведётся по тикетам.
Инцидент (production incident)
Инцидент — отказ сервиса, влияющий на доступность или ключевую функциональность в продуктивной среде. Примеры:
- Сайт/сервис недоступен (полностью или частично).
- Повторяющиеся серверные ошибки (например, HTTP 500), блокирующие использование.
- Критический сбой развёртывания или инфраструктуры, влияющий на продуктивную среду.
Дефект (bug)
Дефект — некорректное поведение существующей функциональности. Примеры:
- Не добавляется товар в корзину.
- Не проходит оплата или возникают ошибки в платёжном сценарии.
- Не работает личный кабинет/аккаунт.
Запрос на изменение (Change Request)
Запрос на изменение — запрос на изменение или улучшение системы (новый интерфейс, новая функция, новая бизнес-логика). Такая работа ведётся как плановый поток поставки:
- Выполняется оценка.
- Планируется по загрузке и условиям договора.
- Не рассматривается как инцидент, если не блокирует работу в продуктивной среде.
Срочные изменения по внешним дедлайнам
Некоторые изменения срочные из-за внешних дедлайнов (закон/регуляторика, кампания, важное бизнес-событие). Такие задачи могут приоритизироваться как срочные, даже если это не инцидент. Приоритизация зависит от влияния на бизнес и плана поддержки.
Определения: первая реакция, временное восстановление, полное устранение
Первая реакция (first response) — подтверждение тикета и фактическое начало работ с эскалацией при необходимости. Временное восстановление (mitigation) — возврат минимально достаточной работоспособности в кратчайшие сроки, применяется по умолчанию для критических инцидентов. Полное устранение (resolution) — устранение первопричины и восстановление всей функциональности; в сложных случаях выполняется после восстановления сервиса.
Первая реакция (first response) — подтверждение + начало работ
Первая реакция означает:
- Тикет подтверждён.
- Команда подтверждает, что обращение получено и по нему начаты работы.
- При необходимости запускается эскалация (подключаются нужные роли).
Временное восстановление / меры снижения влияния (mitigation) и восстановление работоспособности
Временное восстановление означает как можно быстрее вернуть минимально достаточную работоспособность (даже если полное устранение причины требует дополнительного времени). Это подход по умолчанию для критических инцидентов.
Полное устранение (resolution)
Полное устранение означает полное исправление, устраняющее причину и восстанавливающее всю функциональность. В сложных случаях полное устранение может выполняться после восстановления работоспособности (особенно при инцидентах вне рабочих часов).
Часы поддержки, часовые пояса, праздники
Стандартное покрытие — рабочие часы по CET/CEST; Европа и США — ключевые рынки. Расширенное покрытие включает реакцию вне рабочих часов, дежурного инженера (on-call) с перекрытием часовых поясов заказчика (включая США) и планирование развёртываний в удобные окна. 24×7 on-call доступен для Enterprise. Для заказчиков из США рабочие часы CET/CEST создают структурное преимущество: быстрая реакция на инциденты в ночное время США и планирование релизов в окна с минимальной нагрузкой. Языки поддержки: русский и английский (гарантированно), немецкий (доступен), другие языки по согласованию. Календари праздников согласуются по месту исполнения и фиксируются в SOW.
Стандартное покрытие: рабочие часы (CET/CEST)
Покрытие поддержки по умолчанию предоставляется в рабочие часы по CET/CEST.
Расширенное покрытие: вне рабочих часов и дежурство (on-call) — по плану
Расширенное покрытие может предоставляться для выбранных планов:
- Реакция вне рабочих часов на критические инциденты.
- Назначение дежурного инженера для пересечения по часовым поясам заказчика (включая часовые пояса США, если требуется по плану).
- Планирование критических развёртываний в удобные для заказчика окна (например, ночные/ранние утренние окна для снижения влияния на пользователей).
Праздники и нерабочие дни
Календари праздников могут согласовываться по месту исполнения работ и договорному контексту (примеры, используемые в операционной практике: Молдова, Германия, США). Применимый календарь может быть определён для конкретного плана поддержки / SOW.
Преимущество часовых поясов для заказчиков из США
Работа по CET/CEST создаёт структурное преимущество для заказчиков в часовых поясах США:
- Реакция в ночное время США: критичные инциденты, возникающие ночью по американскому времени, совпадают с нашими стандартными рабочими часами, что обеспечивает немедленное подключение инженера без дополнительной оплаты за дежурство.
- Окна для релизов: развёртывания и критичные обслуживания могут планироваться на ночное/раннее утреннее время по США для минимизации влияния на бизнес-операции.
- Покрытие для часовых поясов СНГ также может быть согласовано.
Поддерживаемые языки
- Русский и английский: полная поддержка для всей коммуникации, документации и отчётности.
- Немецкий: доступен для коммуникации с заказчиком и документации.
- Другие языки: могут быть согласованы.
- Перевод с помощью ИИ доступен как опция для снижения языковых барьеров в операционной коммуникации, с учётом политики заказчика по обработке данных.
Каналы приёма обращений и тикетинг: официальный канал, обязательные данные, требования к доступам
Официальный канал для учёта SLA — тикет-система. Обращение должно содержать описание, время, место проявления, влияние на бизнес и по возможности скриншоты/логи/trace ID. Эффективность поддержки зависит от доступов: без продуктивного доступа поддержка может быть ограничена уровнем репозитория. Требования к доступам фиксируются при онбординге.
Официальный канал поддержки (отсюда ведётся учёт SLA)
Официальный канал для учёта по SLA — тикет-система. Чаты (например, мессенджеры) могут использоваться для оперативной коммуникации, но обращения следует фиксировать в тикетах для единообразного учёта и отчётности.
Обязательная информация в обращении (минимальный состав)
Чтобы сократить время триажа и избежать повторных уточнений, обращение должно содержать:
- Что произошло (краткое описание).
- Когда произошло (временной интервал).
- Где проявилось (страница/маршрут/метод API/функция; среда, если известна).
- Влияние на бизнес (что блокируется; кто затронут).
- Предварительная оценка критичности (если заказчик может указать).
- По возможности: скриншоты, сообщения об ошибках, логи, идентификаторы трассировки (trace ID).
Требования к доступам и операционные ограничения
Эффективность поддержки зависит от доступов. Примеры:
- Без доступа к продуктивной среде поддержка может быть ограничена изменениями на уровне репозитория и консультациями.
- Инфраструктурные сбои (сломанный пайплайн развёртывания, проблемы среды выполнения) нельзя полностью устранить без доступа к соответствующему инфраструктурному слою. Требования к доступам фиксируются в ходе онбординга.
Модель критичности и приоритетов: соответствие, определения, примеры
4-уровневая модель критичности S1–S4, совместимая с enterprise-приоритетами P0–P4. S1/P0 — полная или частичная недоступность сервиса, блокировка ключевого бизнес-сценария, критический инцидент безопасности. S2/P1 — существенная деградация с возможностью обходных путей. S3–S4 — ограниченное влияние, плановая очередь. Срочные изменения по внешним дедлайнам (регуляторика, кампании) могут приоритизироваться вне очереди.
Уровни критичности и соответствие приоритетам
Используется модель критичности, совместимая со стандартной практикой enterprise:
- Уровни критичности S1–S4 (Severity) могут быть сопоставлены с уровнями приоритета P0–P4 (Priority).
Определения критичности (сначала влияние на бизнес)
S1 / P0 — Критический, блокирующий бизнес
- Полная или частичная недоступность сервиса.
- Заблокирован ключевой бизнес-сценарий (оплаты/заказы/доступ в личный кабинет).
- Критический сбой инфраструктуры/развёртывания, влияющий на продуктивную среду.
- Инцидент безопасности с риском утечки данных или значимого репутационного ущерба.
S2 / P1 — Высокое влияние, но не полный блок
- Существенная деградация или отказ важной функции, при этом бизнес может работать с ограничениями или обходными путями.
- Примеры: влияние на SEO/индексацию, поломка важных страниц, деградация вторичных, но бизнес-значимых сценариев.
S3 / P2 — Среднее влияние
- Дефекты с ограниченным влиянием или наличием обходных путей.
- Подходят для плановой очереди исправлений.
S4 / P3–P4 — Низкое влияние / бэклог
- Косметические проблемы, небольшие UX-изменения, несрочные улучшения.
- Планируются по загрузке и условиям договора.
Срочные изменения по внешним дедлайнам
- Могут рассматриваться как повышенный приоритет при наличии явного риска дедлайна для бизнеса (соответствие регуляторике, кампания, требования под событие). Обработка зависит от плана и влияния.
Целевые показатели сервиса: реакция, восстановление, устранение, коммуникация
Целевые показатели зависят от плана поддержки (Basic / Extended / Enterprise) и фиксируются в SOW. Типичный ориентир первой реакции для критических инцидентов в рабочие часы — около 20 минут. Ориентир восстановления работоспособности для S1: до 4 часов (когда причина в нашей зоне ответственности; финальные показатели — в SOW). Частота обновлений статуса для активного S1: каждые 30 минут (Enterprise), каждые 2 часа (Extended), каждые 4 часа (Basic). Обновления по вехам: подтверждение, диагностика, восстановление, исправление, рекомендации.
Целевые показатели зависят от плана поддержки
Целевые показатели сервиса зависят от выбранного плана поддержки (Базовый / Расширенный / Корпоративный). Точные значения могут быть зафиксированы в SOW / приложении к плану поддержки.
Целевые показатели первой реакции (операционная база)
- В рабочие часы для критических инцидентов целевой ориентир — начать работу быстро после получения тикета; типичный ориентир для критических случаев — около 20 минут (быстрее для более высоких планов при доступности ресурсов).
- Реакция вне рабочих часов предоставляется по плану; типичный ориентир вне рабочих часов может составлять в течение нескольких часов, учитывая получение оповещения и подключение дежурного.
Целевые показатели восстановления работоспособности (восстановление vs. полное устранение)
Подход «сначала восстановить» означает возврат минимально критичной функциональности в кратчайшие сроки, даже если полное устранение первопричины требует дополнительного времени. Ориентиры восстановления применяются, когда первопричина находится в нашей зоне ответственности (код приложения, конфигурация, развёртывание под нашим контролем).
| Тип показателя | S1 (Критический) | S2 (Высокий) | Примечания |
|---|---|---|---|
| Восстановление работоспособности (временное) | Ориентир: до 4 часов | Ориентир: до 8 часов | Применяется, когда причина в нашей зоне ответственности |
| Полное устранение (устранение первопричины) | Максимально возможные усилия | Максимально возможные усилия | Зависит от сложности; не гарантируется как фиксированный срок |
Существенные оговорки:
- Финальные целевые показатели восстановления фиксируются в SOW для каждого проекта и зависят от: технологического стека, зрелости системы, уровня доступа, объёма контроля инфраструктуры и количества зависимостей от третьих сторон.
- Если первопричина вне нашего контроля (сбой дата-центра, сетевой отказ, проблема хостинг-провайдера), мы обеспечиваем координацию и техническое содействие, но не можем гарантировать срок восстановления инфраструктуры, которой не управляем.
- Восстановление означает возврат критичных бизнес-сценариев в работоспособное состояние. Это может включать работу в режиме ограниченной функциональности, пока продолжается полное восстановление.
- Анализ первопричин (RCA) выполняется после восстановления сервиса, а не вместо него.
Вехи коммуникации (обновления статуса)
Обновления по тикету предоставляются по вехам прогресса:
- Подтверждено / работа начата.
- Подтверждено направление диагностики.
- Восстановлена работоспособность (применены меры снижения влияния) — при необходимости.
- Развёрнуто исправление (полное устранение) — при необходимости.
- Итоговые комментарии и рекомендации.
Частота обновлений статуса зависит от плана поддержки (см. «Enterprise-условия и договорные приложения» → «Коммуникация во время инцидента: частота обновлений»). Минимальная частота обновлений для активного инцидента S1 — каждые 4 часа (Basic), с более высокой частотой для Extended и Enterprise.
Блокирующие факторы: доступы и данные со стороны заказчика
Если выполнение работ блокируется отсутствием доступа или данных:
- Мы запрашиваем требуемый доступ/информацию в тикете.
- Работа может быть приостановлена до предоставления доступа/информации.
- Прошедшее время включает период ожидания, если не согласовано иное, поскольку без обязательных предпосылок устранение невозможно.
Модель эскалации: роли, уровни, подключение руководства
Эскалация по 3 уровням: дежурный инженер → техлид/руководитель проекта → CTO/архитектор. Эскалация запускается немедленно при отсутствии нужного контекста или доступа. Для Enterprise в SOW фиксируются временные пороги: 4 часа → техлид, 8 часов → CTO, 12 часов → CEO. Подключение руководства — при прямых финансовых потерях, репутационных инцидентах или критических инцидентах безопасности.
Лестница эскалации (кто подключается)
Стандартный путь эскалации:
- Дежурный / назначенный инженер (первый реагирующий)
- Руководитель проекта / техлид
- Старшие роли / роли с расширенными правами (CTO, архитектор) — для сложных или критических случаев
Когда происходит эскалация
Эскалация запускается:
- Немедленно, если у первого реагирующего нет доменного контекста или доступа (например, платежный модуль, инфраструктурный слой).
- После расследования, если инцидент уходит в подсистему без необходимых доступов или компетенций.
Триггеры подключения руководства
Подключение старших ролей может происходить, когда:
- У критичных заказчиков есть прямые финансовые потери (например, банковские/трейдинговые сценарии).
- Репутационный инцидент требует быстрого сдерживания (например, заметная компрометация/подмена содержимого).
- Критический инцидент безопасности требует координированной реакции.
Временные пороги эскалации (Enterprise)
Для корпоративного (Enterprise) плана матрица эскалации с временными порогами фиксируется в SOW (см. «Enterprise-условия и договорные приложения» → «Матрица эскалации с временными порогами»).
Процесс управления инцидентами для S1/S2: восстановление в приоритете, меры снижения влияния, критерии закрытия
Для S1/S2 применяется подход restore-first: восстановление минимально достаточной работоспособности до углублённого анализа. Набор мер: отключение проблемной функции, блокировка маршрута, экстренное снижение нагрузки, hotfix. Коммуникация по вехам: получено → локализовано → восстановлено → полное исправление. Инцидент закрывается при восстановлении критичных бизнес-сценариев.
Операционный приоритет: сначала восстановить сервис
Для инцидентов уровня S1/S2 первоочередная задача — восстановить минимально достаточную работоспособность. Углублённое устранение первопричин выполняется после восстановления.
Набор мер снижения влияния (примеры из практики)
Меры зависят от типа инцидента и могут включать:
- Временное отключение или ограничение проблемной функции.
- Блокировку проблемного маршрута/эндпоинта для прекращения каскадных отказов.
- Экстренные меры для снижения влияния нагрузки при одновременной диагностике инфраструктуры или приложения.
- Выпуск точечного экстренного исправления (hotfix) при необходимости.
Подход к коммуникации во время инцидентов
Коммуникация строится по вехам:
- «Инцидент получен, работа начата».
- «Локализовали область отказа / подтвердили предполагаемую причину».
- «Восстановили критичную функцию / снизили влияние».
- «Работаем над полным исправлением и проверкой». Это обеспечивает информирование заказчика без издержек, которые замедляют восстановление.
Критерии закрытия инцидента
Инцидент считается закрытым, когда:
- Сервис восстановлен и работоспособен для критичных бизнес-сценариев.
- Основной режим отказа устранён/снижен так, чтобы он не блокировал бизнес. Полное восстановление всей функциональности или системные улучшения могут продолжаться как плановые работы после стабилизации.
Анализ первопричин (RCA) / разбор инцидента (postmortem): предварительное объяснение и итоговый разбор
Во время инцидента предоставляется предварительное операционное объяснение. После устранения крупных инцидентов — структурированный RCA-разбор (postmortem) от техлида: что произошло, почему, какие меры приняты, какие рекомендации по предотвращению повторения. Формат ориентирован на практическую пользу, а не на формальные таймлайны.
Предварительное объяснение во время восстановления
В ходе устранения инцидента мы даём краткое операционное объяснение на основе наблюдаемых симптомов и первичной диагностики.
Итоговый RCA-разбор после устранения (для крупных инцидентов)
После стабилизации и устранения может быть подготовлен структурированный RCA-разбор ответственным техлидом/руководителем проекта. RCA-разбор фокусируется на:
- Что произошло (высокоуровнево).
- Почему произошло (вероятная первопричина).
- Какие меры были приняты для устранения/снижения влияния.
- Какие меры рекомендуются для предотвращения повторения (действия и улучшения). Формат RCA ориентирован на практическую пользу и агрегированные выводы; чрезмерно детальные таймлайны по умолчанию не формируются, если это отдельно не требуется заказчику.
Мониторинг и проактивное выявление: покрытие по планам, оповещения, глубина проверок
Мониторинг по планам: базовый — синтетические проверки доступности, контроль сроков сертификатов и доменов; расширенный — проверки содержимого (HTML-маркеры), мониторинг инфраструктуры и нагрузки. Для Enterprise доступен мониторинг 24×7 с оповещениями дежурному. Проактивные уведомления заказчика — по критическим инцидентам с первичным статусом и следующими шагами.
Мониторинг зависит от плана поддержки
Покрытие и глубина мониторинга зависят от плана поддержки. Типовые возможности:
Базовый мониторинг
- Синтетические проверки доступности критичных доменов/страниц с заданным интервалом.
- Оповещения при недоступности эндпоинтов или ошибочных ответах.
Мониторинг сроков и операционных рисков
- Контроль сроков действия сертификатов.
- Контроль сроков доменов и связанные оповещения.
Расширенный мониторинг (по плану)
- Проверки на уровне содержимого (HTML-маркеры / ожидаемые текстовые блоки) для выявления ситуаций «HTTP 200, но страница некорректна».
- Мониторинг инфраструктуры и ресурсов для выявления всплесков нагрузки или нехватки мощности.
Маршрутизация оповещений и реакция
- Оповещения могут направляться в инженерные группы, отвечающие за поддерживаемый сервис.
- Для планов с мониторингом 24×7 оповещения доступны круглосуточно и могут инициировать реакцию дежурного.
Проактивные уведомления заказчика
- По критическим инцидентам заказчик уведомляется с первичным статусом и ожидаемыми следующими шагами.
- По некритичным проблемам, быстро устранённым без влияния на бизнес, уведомление может не отправляться, чтобы избегать лишнего шума. Правила уведомлений могут настраиваться по плану.
Инциденты безопасности и обработка уязвимостей: классификация, принципы реакции, уведомления заказчика
Уязвимости и инциденты безопасности обрабатываются с высоким приоритетом: сдерживание, сокращение окна уязвимости, подключение старших технических ролей. Для Enterprise срок уведомления о подтверждённом инциденте — до 48 часов (до 24 часов по отдельному соглашению). Заказчик уведомляется при высокорисковых уязвимостях даже до подтверждения эксплуатации — для подготовки юридических/операционных действий.
Классификация уязвимостей и маркировка тикетов
Проблемы безопасности оформляются как тикеты с явной классификацией (например, «уязвимость / инцидент безопасности») и высоким приоритетом.
Принципы реакции на проблемы безопасности
Для проблем безопасности операционный приоритет — сдерживание и снижение риска:
- Быстрое применение мер для сокращения окна уязвимости.
- Проверка, что уязвимость закрыта или контролируется.
- Подключение старших технических ролей при необходимости. Публично обработка безопасности определяется как максимально возможные усилия (best effort) с высоким приоритетом и план-зависимыми опциями эскалации и реакции.
Политика уведомления заказчика по безопасности
- Если проблема безопасности проявилась в продуктивной среде или поступила извне, заказчик уведомляется и получает обновления.
- Если потенциальная уязвимость выявлена внутренне, уведомление зависит от уровня риска. Для высокорисковых случаев заказчик может быть уведомлён для подготовки юридических/операционных/коммуникационных действий даже при отсутствии подтверждения эксплуатации.
Обработка данных, контроль доступов, завершение договора
Данные заказчика обрабатываются на инфраструктуре заказчика по умолчанию. Тестовые среды на стороне Webdelo используются только для некритичных проектов или при отсутствии доступа к продуктивным данным — в этом случае используются тестовые данные. Для систем с чувствительными данными (персональные данные, финансовая информация, медицинские записи) заказчик обязан указать требования; контроль доступов и меры защиты ужесточаются соответственно. При завершении договора отключение доступов контролируется и подтверждается. Конкретные требования к обработке данных фиксируются в SOW.
Модель по умолчанию: инфраструктура заказчика
- Данные обрабатываются и хранятся на инфраструктуре заказчика (хостинг, облако, собственные серверы).
- Доступ к системам заказчика осуществляется через согласованные защищённые каналы (VPN, SSH, промежуточные серверы), определённые при онбординге.
Тестовые среды и тестовые данные
- Для некритичных проектов тестовая среда может размещаться на стороне Webdelo для разработки и тестирования.
- При отсутствии доступа к продуктивным данным используются тестовые или анонимизированные наборы данных.
- Использование реальных продуктивных данных в тестовых средах требует явного согласия заказчика и дополнительных мер безопасности.
Обработка чувствительных данных
- Заказчик обязан уведомить нас о системах, обрабатывающих чувствительные данные (персональные данные, финансовая информация, медицинские данные, регулируемые данные).
- Для систем с чувствительными данными применяются дополнительные меры:
- Ограниченный контур доступа и состав сотрудников.
- При необходимости могут быть оформлены отдельные соглашения с участниками команды.
- Предпочтение работы исключительно на инфраструктуре заказчика без локальных копий данных.
- Определение «чувствительных данных», границы доступа и конкретные требования фиксируются в SOW.
Отключение доступов при завершении договора
- По завершении договора все предоставленные доступы отзываются в контролируемом порядке.
- Выполняется проверка отсутствия копий данных на системах Webdelo (если временное копирование допускалось в ходе работ).
- Чек-лист отключения доступов — часть процедуры завершения (см. «Непрерывность услуг и управление знаниями»).
Безопасность разработки и операционные меры: применяемые практики, статус сертификации, опросник по безопасности
Практики безопасной разработки применяются на уровне, соответствующем плану поддержки, типу проекта и бюджету заказчика. Базовые практики включают ревью кода, управление зависимостями, контроль доступов, логирование и управление секретами. Формальная сертификация (SOC 2, ISO 27001) на данный момент отсутствует; движение к сертификации запланировано в горизонте 12–15 месяцев (это заявленное намерение, а не гарантия). Опросник по безопасности и описание применяемых мер доступны по запросу.
Применяемые практики безопасности
Следующие практики являются частью стандартного процесса разработки и поддержки:
- Ревью кода: все изменения продуктивного кода проверяются перед развёртыванием.
- Управление зависимостями: регулярный мониторинг и обновление сторонних библиотек и фреймворков для устранения известных уязвимостей.
- Контроль доступов: ролевой доступ, принцип минимальных привилегий, отзыв доступов при изменениях в составе команды.
- Логирование и мониторинг: логирование на уровне приложения для диагностики и расследования инцидентов; мониторинг в согласованном объёме.
- Управление секретами: учётные данные, API-ключи и токены хранятся защищённо и не помещаются в репозитории.
- Обновления фреймворков и среды выполнения: согласуются с заказчиком; обновления для устранения уязвимостей могут выполняться приоритетно.
Глубина практик безопасности зависит от контекста
Глубина и строгость практик безопасности определяются балансом между требованиями проекта и бюджетом:
- Базовые практики (перечислены выше) применяются ко всем проектам.
- Усиленные меры (тестирование на проникновение, аудит безопасности, моделирование угроз, инструменты статического/динамического анализа) доступны по соглашению и фиксируются в SOW.
- Плановые работы по безопасности (аудиты, усиление защиты, ревью инфраструктуры) ведутся как отдельный поток работ, а не как устранение инцидента.
Статус сертификации
- Формальная сертификация (SOC 2, ISO 27001) на данный момент отсутствует.
- Движение к сертификации запланировано в горизонте 12–15 месяцев. Это заявленное намерение и план; заказчику рекомендуется уточнить актуальный статус перед подписанием договора.
- Опросник по безопасности с описанием применяемых мер контроля, практик обработки данных и организационных мер доступен по запросу.
Стандарты качества кода и тестовое покрытие: целевые показатели, покрытие критичных путей, ответственность заказчика
Мы настоятельно рекомендуем заказчикам выделять бюджет на автоматизированное тестовое покрытие как обязательную часть процесса разработки. Тестовое покрытие напрямую влияет на надёжность, поддерживаемость и скорость внесения будущих изменений. Сокращение или отказ от тестового покрытия ради экономии бюджета увеличивает риск регрессий, удлиняет время устранения инцидентов и повышает долгосрочную стоимость поддержки.
Целевые показатели тестового покрытия (операционный ориентир)
- Стандартный ориентир: не менее 90% автоматизированного тестового покрытия кода приложения (юнит- и интеграционные тесты, в зависимости от технологического стека).
- Критичные бизнес-пути — 100% тестовое покрытие: все участки кода, связанные с платежами, обработкой данных клиентов, ключевой бизнес-логикой и аутентификацией, должны быть покрыты автоматизированными тестами без исключений.
- Типы и глубина тестов (юнит, интеграционные, сквозные) согласуются по проекту и фиксируются в SOW.
Ответственность заказчика за решения по бюджету на тесты
- Если заказчик принимает решение сократить или отказаться от тестового покрытия для оптимизации бюджета, это решение должно быть подтверждено явно в письменной форме (тикет, e-mail или дополнение к SOW).
- Подтверждая сокращение тестового покрытия, заказчик принимает на себя связанные риски: повышенную вероятность регрессий, увеличение времени диагностики и устранения инцидентов, рост стоимости будущих изменений.
- Webdelo фиксирует решение о сокращении покрытия и его потенциальные последствия в реестре рисков проекта.
Статический анализ и стандарты ревью кода
- Все изменения продуктивного кода проходят ревью перед развёртыванием.
- Инструменты статического анализа (линтеры, проверки стиля кода) — часть стандартного CI/CD-пайплайна, где применимо.
- Для проектов с повышенными требованиями к безопасности могут быть интегрированы инструменты SAST/DAST по согласованию (фиксируется в SOW).
Отчётность и метрики: что предоставляется, как формируется, когда выдаётся
Отчётность формируется на основе данных тикетов: время до первой реакции, время до восстановления, количество инцидентов по критичности, исторические сводки. Ежемесячная отчётность — опция для Extended и Enterprise; формат согласуется по проекту (PDF, CSV, дашборд). Инструменты: тикет-портал обязателен для всех планов; для Extended и Enterprise по умолчанию используется Jira; для Enterprise возможна интеграция с системой заказчика (Jira Service Management, ServiceNow, PagerDuty). Данные используются для выявления повторяющихся паттернов, улучшения мониторинга и сокращения времени обнаружения и восстановления.
Доступность отчётности (по запросу / по плану)
Отчётность может формироваться на основе данных тикетов. Режим по умолчанию:
- По запросу, чтобы не создавать избыточную нагрузку для низких планов. Для корпоративных планов может быть согласована периодическая отчётность.
Метрики, которые можно сформировать из истории тикетов
При ведении работ через тикеты можно извлекать метрики за выбранные периоды:
- Время до первой реакции.
- Время до восстановления работоспособности (если применимо).
- Количество инцидентов по критичности и категориям.
- Исторические списки инцидентов и сводки.
Использование отчётности для непрерывных улучшений
- Выявления повторяющихся паттернов инцидентов.
- Улучшения мониторинга и качества оповещений.
- Сокращения времени обнаружения и восстановления за счёт фокусировки на слабых местах сервиса.
Формат и периодичность отчётности
- Basic: отчётность по запросу.
- Extended: ежемесячная отчётность доступна как опция; формат согласуется по проекту.
- Enterprise: периодическая отчётность (ежемесячно по умолчанию); формат согласуется в SOW (PDF-сводка, CSV-экспорт или доступ к дашборду).
Инструменты и интеграции
- Тикет-портал обязателен для всех планов.
- Extended и Enterprise: для управления тикетами по умолчанию используется Jira.
- Enterprise (по согласованию): возможна интеграция с существующей системой заказчика. Примеры систем, с которыми возможна координация: Jira Service Management, ServiceNow, PagerDuty, Zendesk.
- Каналы коммуникации: тикет-система (обязательно), Slack / Microsoft Teams (по согласованию для оперативной коммуникации).
- Смена или интеграция инструментов требует онбординга, корректировки процессов и может повлиять на стоимость — фиксируется в SOW.
Зависимости и обязанности заказчика: доступы, внешние сервисы, задержки
Внешние сервисы (платёжные провайдеры, email-провайдеры, сторонние API) находятся вне нашего операционного контроля; мы предоставляем диагностику, подтверждения и координацию с поставщиком. От заказчика требуются: доступы (продуктивная среда, логи, CI/CD), своевременные ответы на запросы, подтверждение влияния на бизнес. Без необходимых доступов выполнение работ может быть приостановлено.
Зависимости от внешних сервисов
Если влияние на бизнес вызвано внешними сервисами (платёжные провайдеры, email-сервисы, другие API):
- Мы не можем исправить внешний сервис.
- Мы можем диагностировать проблему, предоставить технические подтверждения, предложить меры снижения влияния и помочь в координации с поставщиком в рамках оплачиваемого объёма поддержки.
Обязанности заказчика, влияющие на результат
Для достижения результата заказчик должен предоставить:
- Требуемые доступы (продуктивная среда, логи, при необходимости CI/CD).
- Своевременные ответы на запросы поддержки, когда требуется дополнительная информация.
- Подтверждение влияния на бизнес и согласование мер временного восстановления, если это необходимо.
Техническое обслуживание и плановые обновления: патчи безопасности и обновления платформы
Плановое обслуживание включает обновления зависимостей для устранения уязвимостей и обновления фреймворков/языков (PHP, Go и др.). Обновления согласуются с заказчиком; для задач безопасности могут выполняться приоритетно.
Для поддержания стабильности и безопасности могут потребоваться работы, включая:
- Обновления зависимостей для устранения выявленных уязвимостей.
- Обновления фреймворков и версий языков (например, среды выполнения PHP/Go) при необходимости для сохранения совместимости и безопасности.
По возможности обновления согласуются с заказчиком. Для задач, связанных с безопасностью, обновления могут выполняться приоритетно для снижения рисков.
Управление изменениями: согласование, окна обслуживания, откат, экстренные изменения
Изменения в продуктивных системах проходят через структурированный процесс согласования. Изменение включает развёртывания, исправления, обновления зависимостей, изменения конфигурации и модификации инфраструктуры в нашей зоне ответственности. Для Enterprise возможна интеграция с процессом управления изменениями заказчика; детали фиксируются в SOW. План отката обязателен для критичных изменений. Экстренные изменения при полном отказе могут применяться без предварительного согласования; заказчик уведомляется сразу после.
Что считается изменением
- Развёртывание кода (новые функции, исправления, рефакторинг).
- Обновления зависимостей и фреймворков.
- Изменения конфигурации (переменные окружения, маршрутизация, правила доступа).
- Изменения инфраструктуры в нашей зоне управления (контейнеры, CI/CD-пайплайн и связанные настройки).
Процесс согласования
- Стандартные изменения: запрос через тикет, оценка, планирование и развёртывание после подтверждения заказчика.
- Enterprise / интегрированный процесс: координация через процесс заказчика (спринты, ревью изменений, согласующие этапы). Детали фиксируются в SOW.
- Уполномоченные контакты: заказчик назначает лиц, уполномоченных согласовывать изменения; список фиксируется в SOW или проектной документации.
Окна обслуживания
- Для небольших проектов изменения обычно развёртываются в рабочие часы без формального окна обслуживания.
- Для Enterprise и критичных систем окна обслуживания согласуются заранее и фиксируются в SOW.
- Развёртывания могут планироваться с учётом бизнес-часов заказчика для минимизации влияния на пользователей.
План отката
- План отката обязателен для критичных изменений (ключевые бизнес-сценарии, миграции баз данных, инфраструктурные модификации).
- Подход к откату документируется в тикете до развёртывания.
- Для некритичных изменений готовность к откату поддерживается как стандартная инженерная практика.
Экстренные изменения
- При полном отказе сервиса, связанном с недавним изменением, экстренный откат или hotfix может быть применён без предварительного согласования для восстановления работоспособности.
- Экстренные изменения восстанавливают предыдущее рабочее состояние или применяют точечное исправление и не меняют согласованные бизнес-требования.
- Заказчик уведомляется сразу после применения экстренного изменения с описанием выполненных действий.
Обзор планов поддержки (без цен): Базовый, Расширенный, Корпоративный (Enterprise)
3 плана поддержки: Basic (рабочие часы, базовый мониторинг), Extended (расширенные часы, ускоренная реакция, расширенный мониторинг, обновления статуса каждые 2 часа для S1), Enterprise (24×7 on-call, максимальный приоритет, расширенный мониторинг с настраиваемыми метриками, эскалация до CTO/CEO, обновления статуса каждые 30 минут для S1). Целевая доступность: 99,5% (ориентир 99,8%) для систем с полным доступом к приложению. Для Enterprise в SOW фиксируются: сервис-кредиты (до 30% ежемесячного платежа), матрица эскалации с временными порогами, частота обновлений до 30 минут (S1), RPO/RTO, срок уведомления о безопасности (до 48ч), ежеквартальные сервис-ревью (QBR).
Сравнение планов (возможности)
| План поддержки | Часы покрытия | Подход к первой реакции | Глубина мониторинга | Эскалация / подключение старших ролей |
|---|---|---|---|---|
| Базовый (Basic) | Рабочие часы (CET/CEST) | Максимально возможные усилия; целевые показатели согласуются в плане/SOW | Базовые проверки доступности | Стандартная эскалация по необходимости |
| Расширенный (Extended) | Рабочие часы + опциональные расширения | Более быстрые целевые показатели для критических инцидентов (по плану) | Базовые + выбранные расширенные проверки | Подключение техлида для сложных случаев |
| Корпоративный (Enterprise) | 24×7 дежурство (on-call) для критических инцидентов (по плану) | Максимальный приоритет и самая быстрая операционная реакция | Расширенный мониторинг; настраиваемые метрики | Эскалация до старших ролей при высоком влиянии |
Дополнительные возможности по планам (Enterprise-условия фиксируются в SOW)
| Возможность | Basic | Extended | Enterprise |
|---|---|---|---|
| Сервис-кредиты за нарушение целевого времени первой реакции | — | — | SOW |
| Матрица эскалации с временными порогами | — | — | SOW |
| Регламентированная частота обновлений статуса | По вехам | По плану | SOW |
| RPO/RTO (при включении DR в объём услуг) | — | — | SOW |
| Срок уведомления о подтверждённом инциденте безопасности | — | — | SOW |
| Регулярные сервис-ревью (QBR) | — | — | SOW |
| Целевой показатель доступности (при полном доступе к приложению) | — | По плану | SOW |
Целевые показатели доступности
Для систем, к которым у нас есть полный доступ на уровне приложения и процесса развёртывания, а инфраструктура стабильна и находится под надлежащим контролем, операционный целевой показатель доступности — 99,5%, с ориентиром на 99,8%. Это применимо к системам, разработанным или существенно сопровождаемым нашей командой, с ограниченным числом сложных зависимостей от третьих сторон.
Показатели доступности не публикуются как безусловные гарантии, поскольку аптайм зависит от факторов вне нашего контроля:
- Стабильность инфраструктуры и SLA хостинг-провайдера.
- Надёжность сторонних сервисов (платёжные шлюзы, внешние API, CDN).
- Своевременность предоставления заказчиком доступов и согласований.
- Архитектурная зрелость системы и уровень технического долга.
Проектные показатели доступности фиксируются в SOW после онбординга и оценки системы. Мы берём обязательства за то, что контролируем; доступность на уровне инфраструктуры — ответственность хостинг-провайдера.
Почему цены не публикуются: факторы стоимости планов поддержки
Стоимость поддержки не фиксируется публично, поскольку стоимость выполнения надёжных SLA-обязательств зависит от множества проектных факторов:
- Сложность технологического стека (Go-микросервисы, Laravel, Symfony, унаследованные системы, смешанные среды).
- Количество интеграций и зависимостей от третьих сторон (платёжные системы, внешние API, провайдеры данных).
- Требуемый грейд инженеров (вовлечение senior/lead для критичных систем vs. стандартная поддержка для стабильных приложений).
- Требования к реакции и коммуникации (частота обновлений, доступность 24×7, количество каналов коммуникации).
- Требования к отчётности и инструментам (интеграция с системами заказчика — Jira, ServiceNow; доступ к дашборду; кастомная отчётность).
- Требования к процессам безопасности (глубина практик безопасной разработки, аудиты безопасности, тестирование на проникновение).
- Ограничения по обработке данных (запрет внешних ИИ-инструментов, развёртывание локальных моделей, работа в ограниченных контурах доступа).
Объём услуг и целевые показатели фиксируются в SOW. Состав команды и грейд инженеров зависят от критичности инцидентов и сложности системы. Требования к отчётности, глубине мониторинга и частоте коммуникации напрямую влияют на стоимость. Мы берём обязательства за то, что контролируем; проектные целевые показатели согласуются договорно.
Договорные обязательства, фиксируемые в SOW
Детализированные договорные обязательства (включая сервис-кредиты, временные пороги эскалации, RPO/RTO, сроки уведомлений о безопасности, периодичность сервис-ревью и показатели доступности) фиксируются в SOW / приложении к плану поддержки, а не на этой публичной странице.
Enterprise-условия и договорные приложения (SOW / Appendices)
Enterprise-план включает договорные обязательства по 6 направлениям: сервис-кредиты (от 2% за инцидент, до 30% ежемесячного платежа), матрица эскалации с временными порогами (4/8/12 часов — техлид/CTO/CEO), частота обновлений статуса (до 30 минут для S1), RPO/RTO после аудита (при включении DR в scope), уведомление о подтверждённом инциденте безопасности (до 48 часов, до 24 часов по отдельному соглашению), ежеквартальные сервис-ревью (QBR). Все условия фиксируются в SOW и могут быть кастомизированы с пересчётом стоимости.
Сервис-кредиты (Service Credits)
Для корпоративного (Enterprise) плана могут применяться финансовые компенсации (сервис-кредиты) за нарушение целевых показателей первой реакции/начала работ. Конкретные условия, расчёт и лимиты фиксируются в SOW/приложении к договору.
Принципы, закрепляемые в SOW:
- Основание: сервис-кредит начисляется, если по инциденту S1 Исполнитель не приступил к работам (не подтвердил принятие и фактическое начало работ) в пределах согласованного целевого времени первой реакции.
- Размер: от 2% от ежемесячного платежа за поддержку за каждый инцидент, подлежащий сервис-кредиту.
- Лимит: суммарно не более 30% от ежемесячного платежа за расчётный период (месяц).
- Форма компенсации: сервис-кредит (скидка) на следующий расчётный период.
- Сервис-кредиты применяются к времени первой реакции/начала работ, но не к срокам полного устранения, поскольку время устранения зависит от природы инцидента и не всегда предсказуемо.
- По запросу Заказчика условия (проценты, лимиты, метрики) могут быть изменены; при этом стоимость услуги пересчитывается в зависимости от уровня обязательств.
Матрица эскалации с временными порогами
Для корпоративного (Enterprise) плана матрица эскалации с временными порогами (когда подключаются руководящие роли) фиксируется в SOW/приложении к плану поддержки.
Принципы, закрепляемые в SOW:
- Роли: Дежурный инженер → Техлид проекта → CTO → CEO.
- Триггеры (S1):
- 4 часа без начала работ по S1 → уведомляется Техлид проекта.
- 8 часов без начала работ по S1 → уведомляется CTO.
- 12 часов без начала работ по S1 → уведомляется CEO.
- Каналы уведомления: тикет-система (обязательно) + дополнительные каналы по договору (см. «Каналы коммуникации»).
Коммуникация во время инцидента: частота обновлений
Частота обновлений статуса зависит от плана поддержки. Основной канал во всех планах — тикет-система.
- Enterprise: для S1 — каждые 30 минут; для S2 — каждые 4 часа (в согласованные часы поддержки).
- Extended (Pro): для S1 — каждые 2 часа; для S2 — ежедневно.
- Basic (Start): для S1 — каждые 4 часа; для S2 — по ключевым вехам (принято / устранено) либо по договору.
Дополнительные каналы для Enterprise (по договору): тикет + чат + e-mail и иные согласованные каналы.
Примечание: чем выше требования к частоте обновлений и количеству каналов, тем выше стоимость поддержки — условия фиксируются в договоре.
Disaster Recovery: RPO/RTO и бэкапы
Целевые показатели восстановления после аварий (RPO/RTO) фиксируются в SOW/DR-приложении только если бэкапы и аварийное восстановление входят в согласованный объём услуг. Значения RPO/RTO зависят от объёма данных и архитектуры и определяются после аудита.
Принципы, закрепляемые в SOW:
- RPO (Recovery Point Objective) и RTO (Recovery Time Objective) определяются по каждой системе после аудита и включают:
- состав данных и компонентов (БД, файловые хранилища, кэши, очереди и др.)
- метод бэкапов (полные / инкрементальные / дифференциальные)
- ретеншн (срок хранения)
- требования к консистентности (например, связка MySQL + Redis + MongoDB и пр.)
- порядок и периодичность тестового восстановления
- Если бэкапы выполняются стороной Заказчика:
- Исполнитель может настроить мониторинг/проверки факта выполнения бэкапов (по договору).
- Исполнитель может содействовать восстановлению во время инцидента (по договору).
Тестирование аварийного восстановления (Disaster Recovery Testing)
Мы рекомендуем регулярное тестирование процедур восстановления для подтверждения работоспособности бэкапов и корректности процесса восстановления. Бэкап, который ни разу не тестировался, не является надёжным бэкапом.
- Рекомендуемая частота: не реже 1 раза в месяц для продуктивных систем.
- Объём тестирования: тестирование восстановления должно охватывать как файловую систему, так и все базы данных (реляционные, NoSQL, кэши, очереди — по применимости).
- Стратегия тестовых данных: тестовые маркеры (конкретные записи или снимки данных) готовятся заранее и оставляются в системе на протяжении времени. Это позволяет проверить, что восстановление корректно работает как для старых данных, так и для недавних изменений — подтверждая отсутствие потерь данных в окне бэкапа.
- Среда тестирования: тесты восстановления проводятся на продуктивных бэкапах (восстановление в отдельную среду) для валидации реальных сценариев восстановления.
- Для критичных систем: интервал тестирования может быть сокращён (например, раз в 2 недели или еженедельно), если заказчик требует более высокого уровня уверенности и готов выделить бюджет на это.
- Частота и объём тестирования фиксируются в SOW / DR-приложении.
Уведомление об инцидентах безопасности (Security Breach Notification)
Для Enterprise-плана срок уведомления о подтверждённом инциденте безопасности фиксируется в договоре и по умолчанию составляет до 48 часов с момента подтверждения факта несанкционированного доступа или подтверждённой утечки данных.
Принципы, закрепляемые в SOW:
- Уведомление Заказчика: в течение 48 часов с момента подтверждения факта несанкционированного доступа или подтверждённой утечки данных.
- Более строгие сроки (например, 24 часа) могут быть согласованы отдельно с пересчётом стоимости.
- Канал уведомления: тикет-система + e-mail (и/или согласованный secure-канал).
Регулярные сервис-ревью (Service Review / QBR)
Для Enterprise-плана доступны регулярные сервис-ревью (QBR): анализ инцидентов, трендов, предложений по улучшению мониторинга и стабильности. Периодичность фиксируется в договоре.
Принципы, закрепляемые в SOW:
- Периодичность: ежеквартально (включено в Enterprise), ежемесячно (опционально, оплачивается отдельно).
- Входы: отчёт по тикетам, топ-инциденты, рекомендации и риски стабильности.
- Выходы: план действий, предложения по улучшению мониторинга, рекомендации по стабилизации/рефакторингу (как отдельный поток работ).
Онбординг для готовности поддержки: обязательные шаги, чек-лист, типовые диапазоны сроков
Онбординг обязателен для установления надёжных целевых показателей. Включает: настройку доступов, обзор архитектуры и зависимостей, определение критичных бизнес-сценариев, анализ истории инцидентов, согласование мониторинга. Типовые сроки: стандартные веб-приложения — от 1 недели; сложные DevOps-окружения (Kubernetes, CI/CD) — больше; крупные enterprise-системы — до нескольких месяцев. Полная работоспособность SLA — после выполнения предпосылок онбординга.
Онбординг требуется для надёжных целевых показателей поддержки
Онбординг требуется, потому что сложность сервиса и операционная зрелость различаются. Унаследованные системы (не разработанные нашей командой изначально) требуют обследования до применения надёжных целевых показателей.
Чек-лист онбординга (минимум)
- Настройка доступов (продуктивная среда/логи/репозитории/CI/CD при необходимости).
- Обзор архитектуры и карта зависимостей (включая внешние сервисы).
- Определение критичных бизнес-сценариев и критичных страниц/эндпоинтов.
- Анализ истории инцидентов и известных слабых мест.
- Согласование объёма мониторинга и маршрутизации оповещений.
Глубина и длительность онбординга (диапазоны, не обещания)
- Небольшие типовые проекты (например, стандартные веб-приложения): первичная готовность может быть достигнута в течение первой недели.
- Сложные DevOps-окружения (контейнеры, Kubernetes, нетривиальный CI/CD): требуется больше времени и практическая проверка.
- Крупные корпоративные системы: онбординг и стабилизация могут занимать несколько месяцев. Полная ожидаемая работоспособность целевых показателей SLA достигается после выполнения предпосылок онбординга.
Работа с унаследованными (legacy) системами: подход, риски, условия
Мы готовы принимать унаследованные (legacy) системы на поддержку и дальнейшее развитие. Мы понимаем, что подавляющее большинство реальных программных систем (около 90%) вырастают из унаследованного кода, и это нормальная часть жизненного цикла ПО. При этом мы честно обозначаем различия в том, что можем гарантировать для унаследованных систем по сравнению с системами, которые разработали сами с нуля.
Ключевые принципы работы с legacy-системами
- Не является блокирующим фактором: унаследованный код — не причина отказываться от проекта. У нас есть опыт работы с унаследованными системами на различных технологических стеках и с разным уровнем технического долга.
- Честные ожидания: для унаследованных систем мы не можем обеспечить тот же уровень гарантий (время реакции, точность оценок, сроки восстановления), который обеспечиваем для систем собственной разработки. Разрыв зависит от: качества документации, тестового покрытия, ясности архитектуры, количества недокументированных зависимостей и доступа к знаниям оригинальной команды разработки.
- Онбординг критичен: для legacy-систем фаза онбординга длиннее и глубже. Она включает обследование архитектуры, картирование зависимостей, выявление недокументированного поведения и оценку рисков (см. «Онбординг для готовности поддержки»).
- Постепенное улучшение: мы рекомендуем и можем реализовать поэтапный подход к улучшению legacy-систем: сначала стабилизация (мониторинг, исправление критичных дефектов, тестовое покрытие ключевых сценариев), затем целевой рефакторинг и архитектурные улучшения как плановый поток работ.
Рекомендации заказчикам с legacy-системами
- Выделите бюджет на обследование: начальная фаза оценки необходима и не должна пропускаться. Она определяет реалистичные целевые показатели SLA и выявляет зоны наибольшего риска.
- Ожидайте скорректированных целевых показателей SLA: сроки восстановления и точность оценок для legacy-систем будут шире, чем для систем, которые мы контролируем от начала до конца. Скорректированные показатели фиксируются в SOW после онбординга.
- Инвестируйте в тестовое покрытие и документацию: самый быстрый способ вывести legacy-систему на более высокий уровень сервиса — увеличить автоматизированное тестовое покрытие критичных путей и создать операционную документацию.
- Рассмотрите план рефакторинга: мы предоставляем рекомендации по приоритетам рефакторинга на основе бизнес-влияния, рисков стабильности и стоимости. Рефакторинг ведётся как плановый поток работ, а не как устранение инцидента.
Непрерывность услуг и управление знаниями: документация, распределение компетенций, поддержка с использованием ИИ, завершение сотрудничества
Непрерывность услуг обеспечивается за счёт обязательной документации архитектуры, распределения знаний в команде, регламентов и чек-листов поддержки. Для критичных проектов назначается несколько специалистов для снижения риска зависимости от ключевых лиц. Анализ с помощью ИИ (код, логи, интеграции, история инцидентов) доступен как опция при участии специалиста. Использование внешних ИИ-сервисов согласуется с заказчиком с учётом его политики обработки данных. Процедуры выхода и завершения (передача документации, отключение доступов, отчёт о рисках) доступны по договору.
Документация архитектуры и база знаний
- Документация архитектуры обязательна для всех проектов с активной поддержкой.
- Для унаследованных систем выделяется время на документирование в ходе онбординга.
- Документация включает: обзор архитектуры, карту зависимостей, критичные сценарии, процедуры развёртывания, известные риски и операционные регламенты.
- Чек-листы поддержки и регламенты создаются и поддерживаются для повторяемых операционных задач.
Снижение риска зависимости от ключевых лиц
- Для критичных проектов назначаются минимум два специалиста с пересекающимися областями знаний.
- Вовлечение техлида и/или CTO поддерживается для крупных проектов для обеспечения архитектурной непрерывности.
- Внутренний обмен знаниями — часть стандартного инженерного процесса (ревью кода, документация, совместная работа над сложными инцидентами).
Поддержка с использованием ИИ (опционально)
Инструменты анализа на базе ИИ могут использоваться для поддержки операций:
- Анализ кода, логов, интеграций, истории инцидентов.
- Все действия с использованием ИИ выполняются при участии специалиста (человек в контуре принятия решений).
- Влияние на скорость работы: в зависимости от типа проекта, сложности и критичности, использование ИИ-инструментов может ускорить рутинные инженерные задачи (анализ кода, ревью зависимостей, разбор логов, генерация документации, создание каркаса тестов) ориентировочно в 5–20 раз по сравнению с полностью ручным выполнением. Фактическое ускорение зависит от типа задачи и не является фиксированным гарантированным множителем; приводится как операционный ориентир на основе внутреннего опыта.
Использование ИИ — опционально и согласуется:
- Внешние ИИ-сервисы (облачные) используются только с явного согласия заказчика.
- Варианты: сервисы с размещением в ЕС/США, локальные модели на стороне заказчика или полный запрет использования ИИ.
- Полный запрет ИИ-инструментов возможен; это может повлиять на сроки и стоимость — фиксируется в SOW.
Онбординг нового члена команды (замена или расширение)
Время выхода нового специалиста на самостоятельную продуктивную работу зависит от ряда факторов:
- Сложность проекта: монолит vs. микросервисы, количество интеграций, глубина технологического стека.
- Срок работы с проектом: проекты, которые наша команда ведёт длительное время, имеют более качественную документацию и отлаженные процессы передачи знаний.
- Документация и тестовое покрытие: хорошо задокументированные проекты с высоким покрытием тестами позволяют быстрее вводить нового человека.
- Разрешение на ИИ-инструменты: если для проекта разрешены ИИ-инструменты анализа кода и документации, это ускоряет адаптацию.
- Размер и охват сервисов: количество сервисов, модулей и бизнес-доменов, с которыми инженеру предстоит работать.
Типичные сроки онбординга (операционный ориентир, не гарантия):
- Минимум: от 2 недель для хорошо задокументированных проектов с ограниченным объёмом.
- В среднем: около 3–4 недель для типичных проектов средней сложности.
- Сложные или унаследованные системы: может потребоваться больше времени, в зависимости от перечисленных факторов.
В период онбординга новый специалист работает под руководством техлида или старшего инженера для обеспечения качества и непрерывности.
Процедуры завершения сотрудничества
По завершении договора могут быть предоставлены по соглашению:
- Полная проектная документация и материалы для передачи знаний.
- Чек-листы поддержки, регламенты и операционные процедуры.
- Полный список доступов, интеграций и зависимостей.
- Отчёт о рисках и список известного технического долга и узких мест.
Для базовых планов структурированное завершение может не входить по умолчанию и согласуется отдельно.
FAQ: быстрые ответы для проверки закупками и инженерией
Ответы на ключевые вопросы: официальный канал — тикет-система, покрытие — CET/CEST с опцией 24×7, модель критичности S1–S4 (P0–P4), первая реакция ~20 минут (критические), ориентир восстановления S1 — до 4 часов (в нашей зоне ответственности), целевая доступность 99,5% (SOW), сервис-кредиты для Enterprise (SOW), эскалация с порогами 4/8/12ч, обновления статуса от 30 минут (Enterprise S1) до 2 часов (Extended S1), управление изменениями с планами отката, данные на инфраструктуре заказчика, сертификация не получена (план 12–15 месяцев), ИИ-поддержка опционально, русский/английский/немецкий, цены — в SOW.
Какой официальный канал поддержки?
В каком часовом поясе вы работаете?
Есть ли поддержка 24×7?
Чем отличается первая реакция от восстановления?
Приостанавливаете ли вы SLA-время, если заказчик не предоставляет доступ?
Как вы классифицируете критичность инцидентов?
Предоставляете ли вы RCA / разбор инцидента?
Как вы обрабатываете уязвимости безопасности?
Есть ли у вас проактивный мониторинг?
Помогаете ли вы при сбоях внешних сервисов (оплаты, email-провайдеры)?
Предусмотрены ли сервис-кредиты за нарушение SLA?
Как работает эскалация при длительном инциденте?
Как часто предоставляются обновления статуса во время инцидента?
Предоставляете ли вы RPO/RTO?
Каков срок уведомления об инциденте безопасности?
Проводятся ли регулярные сервис-ревью?
Есть ли у вас гарантия доступности (uptime)?
Каков ориентир восстановления для критических инцидентов?
Как устроен процесс управления изменениями?
Как вы обеспечиваете безопасность данных и доступов?
Есть ли у вас сертификация (SOC 2, ISO 27001)?
Используете ли вы ИИ в поддержке?
Какие языки вы поддерживаете?
Что происходит при завершении договора?
Каковы ваши стандарты качества кода и тестового покрытия?
Работаете ли вы с унаследованными (legacy) системами?
Сколько времени занимает онбординг нового члена команды?
Как часто вы тестируете аварийное восстановление?
Почему на этой странице нет цен?
Правовая оговорка / Отказ от ответственности SLA
Настоящий документ описывает целевые показатели и процессы и не является публичной офертой в соответствии с п. 2 ст. 437 Гражданского кодекса Российской Федерации. Указанные значения носят ориентировочный характер и не порождают одностороннего обязательства по оказанию услуг в соответствии с главой 39 ГК РФ (ст. 779–783). Обязательные обязательства по оказанию услуг, ответственность, гарантийные обязательства и сервисные компенсации возникают исключительно из индивидуально заключённого договора / SOW.
Правовая база: Гражданский кодекс Российской Федерации (ГК РФ) — ст. 437, глава 39 (ст. 779–783).