Deckhouse
Observability Platform

Централизованное решение наблюдаемости для всей инфраструктуры: от физических серверов до Kubernetes

Получить консультацию

Запись в реестре российского ПО

№16426 от 30.01.2023

Сертификат ФСТЭК России

В процессе получения

Связь инфраструктуры с бизнес-слоем в одном решении

Получайте единую точку обзора инфраструктуры, приложений и бизнес-метрик

Deckhouse Observability Platform (DOP) связывает инфраструктуру, Kubernetes, сервисы и бизнес-критичные приложения в едином интерфейсе для сквозного наблюдения без переключения между десятками инструментов

Приоритизируйте инциденты по степени влияния на бизнес

Карты здоровья сервисов и инфраструктуры в DOP показывают, какие инциденты влияют на клиентские сервисы, SLA и ключевые бизнес-процессы. Команды правильно расставляют приоритеты и быстрее восстанавливают критичные системы

Находите и устраняйте причины инцидентов быстрее

DOP cвязывает метрики, логи, трассировки, алерты, зависимости сервисов и помогает быстро локализовать проблему. Команда видит путь запроса через приложение, микросервисы, базы данных и быстрее понимает, где возник сбой

Как DOP решает ваши задачи

Мониторинг сервисов и популярного ПО «из коробки» за 5 минут

Агент находит ПО и собирает метрики по завершении установки, после чего доступны преднастроенные дашборды и алерты, а команды не тратят время на ручную настройку

Система управления инцидентами

Связанные алерты объединяются в один инцидент, направляются в нужную команду и отслеживаются до устранения. Доступны карточка инцидента, передача между командами без потери контекста, эскалация, поиск, отчёты и трекинг времени устранения. Это сокращает MTTR и устраняет ручную координацию между командами

АРМ: мониторинг производительности  приложений

DOP отслеживает производительность и ошибки приложений на уровне сервисов, запросов и зависимостей. За счёт связи трассировок, метрик и логов команда быстрее локализует проблему, находит её первопричину (RCA) и сокращает время разбора инцидентов

Карты доступности сервисов и инфраструктуры

Статус доступности сервисов, хостов, баз данных, сетевых устройств, гипервизоров и ВМ виден в реальном времени — проблемный участок и связанные зависимости видны сразу, что позволяет найти первопричину до отказа сервиса

Мониторинг доступности веб-сайтов и API

Решение позволяет проверять доступность из разных регионов, включая HTTP(S), TCP-порты, сетевую связность, DNS-записи и срок действия SSL-сертификатов. Команда заранее сможет выявлять сбои и реагировать на них до того, как проблема станет заметна пользователям

Долгосрочное хранение данных

Хранение метрик и логов от 1 года и более позволяет использовать исторические данные при расследовании инцидентов и в работе с аудит-логами. Также обеспечивается полное соответствие требованиям регуляторов

Статистика использования ресурсов инфраструктуры

DOP показывает реальную и пиковую нагрузку инфраструктурных компонентов, сервисов и выделенных мощностей. Наглядная статистика помогает точнее планировать ресурсы и оптимизировать инфраструктурные затраты

AIOps-ассистент и анализ коренных причин (RCA)

Ассистент анализирует алерты, телеметрию и связи между компонентами системы: фильтрует шум, выделяет первопричину (RCA) и собирает контекст инцидента. Система показывает причину, предалагает действия, а также может выполнить типовые шаги для устранения инцидента. Так снижается нагрузка на инженеров и сокращается время на диагностику и устранение инцидентов

Прогнозирование и обнаружение  аномалий на базе ML/AI

Система использует ML-модели, графы зависимостей, исторические данные, карты сервисов и инфраструктуры, чтобы выявлять сценарии, предшествующие авариям. Это позволяет обнаруживать риски сбоев и предотвращать их до того, как проблема отразится на доступности сервиса

Как работает DOP

DOP собирает данные из инфраструктуры и приложений

Агенты автоматически собирают телеметрию, а в платформу отправляются трейсы с серверов, Kubernetes и популярных сервисов. Также приложения передают трассировки и данные о производительности

Платформа связывает данные между собой

DOP определяет зависимости между сервисами, компонентами инфраструктуры и инцидентами, формирует полный контекст проблемы

Проблемы видны на карте здоровья

Вместо сотен разрозненных алертов команда видит понятную картину: что и где сломалось, причину сбоя и его влияние на бизнес для правильной расстановки приоритетов

Инженеры быстрее находят и устраняют сбои

Карты связей сервисов, APM, логи и исторические данные помогают быстрее локализовать проблему и сократить время простоя

Для кого

Команды эксплуатации и SRE-инженеры

Специалисты ИБ

Команды платформы

ИТ-руководители

Ускоряет обнаружение (MTTD) и устранение инцидентов

AIOps-ассистент, предиктивная аналитика и система управления инцидентами помогают быстро найти источник сбоя (RCA)

Работает как инструмент раннего реагирования

Карты сервисов и инфраструктуры позволяют заранее увидеть деградацию, локализовать сбой и не допустить нарушения SLA

Ускоряет запуск мониторинга

Готовые дашборды, алерты и установка агента за 5 минут избавляют от необходимости развёртывать всё руками

Обеспечивает выполнение требований регуляторов и не создает новых уязвимостей

Исходный код платформы регулярно проверяется на уязвимости, а продукт находится в процессе получения сертификата ФСТЭК России

Изолирует доступы команд и защищает данные

Снижение рисков утечки информации достигается за счёт разделения прав по ролевой модели тенантов (RBAC) и ведения аудит-логов на любые изменения

Упрощает расследование инцидентов ИБ

Платформа обеспечивает возможность долгосрочного хранения логов и метрик для выполнения требований регуляторов

Заменяет несколько систем мониторинга одной платформой

Даёт единую точку входа для анализа работы всей ИТ-инфраструктуры по общим правилам сбора и хранения телеметрии

Позволяет гибко разграничивать доступы между командами

Решение предоставляет возможность безопасно изолировать друг от друга работу разных продуктовых подразделений

Обеспечивает контроль за потреблением ИТ-ресурсов

Платформенная команда может отслеживать потребление ресурсов и управлять лимитами мощностей (на инфраструктуру и наблюдаемость) для каждой отдельной команды

Даёт единую картину инфраструктуры

Специалисты разного уровня смогут быстро понять масштаб проблемы по картам сервисов и устранить сбой

Снижает операционные риски при масштабировании

Инфраструктура расширяется без слепых зон, новые компоненты ставятся на мониторинг без ручного подключения, а сама платформа масштабируется «из коробки»

Обеспечивает контроль и соблюдение SLA

Доступность сервисов, веб-сайтов и здоровья систем наглядно визуализируются через SLA-дашборды

Сокращает расходы

Встроенная статистика использования ресурсов инфраструктуры позволяет оптимизировать потребление и затраты на мощности

Новости

ТЕСТ-16.06-4

ТЕСТ-16.06-3

Часто задаваемые вопросы

Deckhouse Observability Platform — централизованное решение наблюдаемости для гибридной и Kubernetes-инфраструктуры. Оно автоматически подключает мониторинг серверов и типового ПО, объединяя метрики, логи и трассировки в единой системе. Решение собирает и хранит данные телеметрии в большом объёме, позволяя анализировать работу сервисов, инфраструктуры и приложений в реальном времени. За счёт автообнаружения и преднастроенных дашбордов и алертов мониторинг запускается без ручной настройки и сразу готов к использованию. DOP помогает быстрее находить первопричины инцидентов, снижать время восстановления и управлять нагрузкой и затратами на инфраструктуру

DOP — это готовое решение, а не конструктор из разрозненных компонентов (Prometheus, Grafana и др.), которые нужно собирать и поддерживать самостоятельно. При выборе Оpen source-стека команда тратит ресурсы на настройку экспортеров, дашбордов, алертов, а также на безопасность и обновления всей инфраструктуры. В DOP этот контур уже собран: есть готовый сбор данных, преднастроенные дашборды и алерты, единые правила работы с телеметрией и централизованное управление решением

Агенты DOP уже содержат набор экспортеров для типового ПО и инфраструктуры и работают как единый механизм сбора данных. Их не нужно настраивать под каждую систему отдельно: агент сам обнаруживает установленное ПО, начинает собирать нужные метрики и работает как на хостах, так и в контейнерной среде.

В случае Оpen source-экспортеров каждую систему нужно подключать вручную: выбирать и устанавливать отдельные экспортеры, определять, какие метрики собирать, настраивать конфигурацию и поддерживать при изменениях инфраструктуры.

Как только агент DOP обнаруживает ПО, в системе сразу появляются готовые дашборды и преднастроенные алерты. Это позволяет не только собрать данные, но и сразу начать ими пользоваться — без ручной сборки мониторинга

Zabbix — классическая система мониторинга инфраструктуры. DOP — решение наблюдаемости для современной распределенной и Kubernetes-инфраструктуры.

[table “” not found /]

Да. Решение изначально разворачивается без единой точки отказа и масштабируется горизонтально по мере роста нагрузки и объёма данных. Эти механизмы встроены в архитектуру и работают «из коробки» без дополнительной настройки

Deckhouse Observability Platform

Связь инфраструктуры с бизнес-слоем в одном решении

Получайте единую точку обзора инфраструктуры, приложений и бизнес-метрик

Приоритизируйте инциденты по степени влияния на бизнес

Находите и устраняйте причины инцидентов быстрее

Как DOP решает ваши задачи

Мониторинг сервисов и популярного ПО «из коробки» за 5 минут

Система управления инцидентами

АРМ: мониторинг производительности приложений

Карты доступности сервисов и инфраструктуры

Мониторинг доступности веб-сайтов и API

Долгосрочное хранение данных

Статистика использования ресурсов инфраструктуры

AIOps-ассистент и анализ коренных причин (RCA)

Прогнозирование и обнаружение аномалий на базе ML/AI

Как работает DOP

DOP собирает данные из инфраструктуры и приложений

Платформа связывает данные между собой

Проблемы видны на карте здоровья

Инженеры быстрее находят и устраняют сбои

Для кого

Ускоряет обнаружение (MTTD) и устранение инцидентов

Работает как инструмент раннего реагирования

Ускоряет запуск мониторинга

Обеспечивает выполнение требований регуляторов и не создает новых уязвимостей

Изолирует доступы команд и защищает данные

Упрощает расследование инцидентов ИБ

Заменяет несколько систем мониторинга одной платформой

Позволяет гибко разграничивать доступы между командами

Обеспечивает контроль за потреблением ИТ-ресурсов

Даёт единую картину инфраструктуры

Снижает операционные риски при масштабировании

Обеспечивает контроль и соблюдение SLA

Сокращает расходы

Новости

Часто задаваемые вопросы

Deckhouse
Observability Platform

АРМ: мониторинг производительности  приложений

Прогнозирование и обнаружение  аномалий на базе ML/AI