Мониторинг ошибок системы

В этой статье:

Классификация ошибок

Диагностика и устранение ошибок

Восстановление системы

Ошибки системы можно выявить в технических логах, которые идентифицируют внутренние события системы:

Для централизованного логирования компонентов мобильной платформы используйте файл docker-compose.metrics.yml, а также предустановленные приложения:

Для выявления ошибок системы в технических логах:

  1. Включите логирование компонентов мобильной платформы на кластере, если при установке продукта «Форсайт. Мобильная платформа» создан отказоустойчивый кластер на основе OKD/OCP.

  2. Получите список технических логов одним из способов:

kubectl logs -n <пространство имён сервера мобильной платформы> <наименование пода>

После выполнения действий в списке технических логов могут содержаться ошибки.

Классификация ошибок

Для определения возможной причины возникновения ошибки выделяются следующие признаки классификации ошибок:

Признак Описание Возможная причина
Разрыв соединения После отправки запроса к серверу мобильной платформы возвращается ошибка «504» или «499». Ответ, содержащий запрашиваемые данные, не приходит. Некорректные таймауты или недостаточный объём потребления ресурсов центрального процессора (CPU) и оперативной памяти (RAM)
Зависание соединения После отправки запроса к серверу мобильной платформы соединение остаётся открытым и не закрывается в течение продолжительного времени. Ответ, содержащий запрашиваемые данные, не приходит. Недоступен источник данных
Недоступность сервера мобильной платформы Периодически или постоянно не отправляется запрос к серверу мобильной платформы. Недоступен сервер мобильной платформы

Диагностика и устранение ошибок

Для диагностики и устранения ошибок используйте следующие приложения:

Порядок выполнения действий отсортирован от простого к сложному. При необходимости порядок может быть изменён:

  1. Отфильтруйте журнал с системными логами по статусу «Ошибка» в разделе «Системные логи». При необходимости укажите диапазоны дат и время начала/окончания событий.

  2. Проверьте объём потребления ресурсов центрального процессора (CPU) и оперативной памяти (RAM) контейнерами и узлами кластера. Для этого обратитесь к подразделам:

Совет. Оптимальный объём потребления ресурсов CPU и RAM не должен превышать 70%.

  1. Проверьте работу подов на каждом узле кластера. Для этого обратитесь к подразделу «Проверка работы подов на каждом узле кластера и аудит их логов» в OKD.

  2. Проверьте доступ к источнику данных. Для этого обратитесь к подразделу «Проверка доступа к источнику данных» в OKD.

  3. Проверьте таймауты на прокси-сервере и фреймворке, а также установленные таймауты:

Примечание. Таймауты должны соответствовать реальному времени выполнения запроса.

  1. Проанализируйте события кластера. Для этого обратитесь к подразделу «Проверка событий кластера» в OKD.

  2. Проанализируйте статистическую информацию о системе с помощью визуального представления данных. Для этого обратитесь к подразделу «Просмотр статистической информации о системе» в Kibana.

Восстановление системы

Восстановление системы производится при возникновении следующих аварийных ситуаций:

Для резервного копирования и восстановления системы обратитесь к разделу «Резервное копирование и восстановление системы».

См. также:

Администрирование и контроль доступа