Blog

Como melhorar o gerenciamento de incidentes com um CMDB movido a DDM

Escrito por em fevereiro de 09, 2021

Reduzir o número de incidentes importantes, melhorar o tempo médio de recuperação (MTTR), identificar as causas-raiz dos problemas e melhorar sistematicamente as experiências dos funcionários são as principais prioridades para os líderes operacionais de TI.

Mas tentar resolver incidentes sem esquemas conectando serviços de negócios, aplicativos e infraestrutura é como tentar encontrar o caminho para sair de uma floresta sem um mapa ou bússola. Para operações de TI, este esquema deve incluir um CMDB preciso e atualizado, mostrando sistemas críticos, mapeamentos de aplicativos e definições de serviço.

Os CMDBs são notoriamente imprecisos, mas com um recurso de detecção automática e mapeamento de dependência (DDM), o CMDB é uma fonte de informação crítica e ferramenta para operações de TI. Pode ajudar as operações de TI a reduzir o número de incidentes, resolvê-los com mais rapidez, encontrar as causas raiz e capturar métricas de nível de serviço para justificar a priorização de investimentos.

Melhorar o gerenciamento de incidentes nunca foi fácil

Há pouco debate entre CIOs e líderes de TI que melhorando KPIs e métricas operacionais são desafios para administrar organizações de TI responsáveis ​​e confiáveis. É vital hoje porque as empresas contam com sistemas de TI para fluxos de trabalho de missão crítica, análises e experiências voltadas para o cliente.

Agora, há pouco debate sobre os muitos fatores fora do controle de TI que afetam a confiabilidade e o desempenho de aplicativos e sistemas. Mas com que rapidez, eficiência e precisão a TI resolve incidentes e endereços causa raiz do problema é considerada uma responsabilidade crítica dos líderes de TI capazes.

Embora essas responsabilidades sejam críticas para organizações que investem em transformação digital, gerentes de incidentes, chefes de operações de TI e CIOs confessarão que melhorar os processos de gerenciamento de incidentes e KPIs não é fácil.

Por um lado, as arquiteturas de sistema e aplicativo são mais complexas hoje do que nunca. Os aplicativos modernizados possuem interface com microsserviços, integração com várias plataformas SaaS de terceiros e processamento de dados de muitos serviços de dados. Eles são executados em nuvens públicas, nuvens privadas e infraestruturas de computação de ponta. Quando ocorre um incidente, a identificação de qual sistema está apresentando um problema leva tempo para ser diagnosticada e a busca de muitos falsos positivos pode levar a esforços de recuperação mais longos.

Os sistemas legados, os aplicativos monolíticos e os serviços tagarelas têm seus próprios desafios, especialmente porque costumam ser dependências dos processos de negócios primários.

Resolver incidentes de forma rápida e eficiente requer um diagnóstico rápido e ações prescritivas, uma vez que um problema pode criar uma cascata de problemas que precisam ser corrigidos. Por exemplo, se um banco de dados tiver um sistema de arquivos com falha, ele pode corromper os índices do banco de dados e tornar os aplicativos mais lentos. As operações de TI geralmente se encontram em uma situação em que a restauração de serviços de negócios exige o tratamento de vários problemas.

O desafio é que resolver incidentes com mais rapidez e precisão requer melhor documentação e colaboração com especialistas no assunto, incluindo desenvolvedores de aplicativos, engenheiros de sistema e arquitetos. Agora, quando há um grande incidente, os gerentes de incidentes geralmente obtêm o suporte necessário para resolver problemas e restaurar o serviço.

Mas, em geral, é difícil para os gerentes de incidentes obter colaboração contínua de outras equipes de TI para resolver problemas repetitivos ou revisar processos para melhorar a resolução de incidentes. Além disso, lidar com as causas raiz requer investimento para modernizar aplicativos e arquiteturas, mas é um desafio fazer o caso de negócios para priorizar melhorias orientadas operacionalmente.

O DDM automatiza a captura do estado atual da infraestrutura em nuvem

Um CMDB apoiado por DDM é uma virada de jogo para equipes de gerenciamento de incidentes, porque elimina a lacuna de conhecimento entre as equipes de suporte e especialistas no assunto, ao mesmo tempo que fornece informações atualizadas sobre os serviços de negócios.

Veja como DDM funciona. Um DDM sem agente é executado em uma programação e verifica a rede em busca de informações de configuração nos sistemas, armazenamento, redes, aplicativos, serviços e bancos de dados em execução em nuvens públicas e privadas. Em seguida, ele atualiza o CMDB com o atual e preciso, incluindo alterações impulsionadas por recursos de computação elástica de uma nuvem ou automações DevOps, como CI / CD e IaC. As operações de TI podem então usar ferramentas para definir serviços de negócios e identificar as dependências do sistema subjacentes.

O DDM não é apenas um coletor de dados automatizado nas configurações do aplicativo e do sistema. O DDM descobre os relacionamentos entre servidores da web, serviços de aplicativo, vários serviços de API e transações de banco de dados. Os mapas de topologia ilustram os relacionamentos entre os diferentes componentes do sistema e são ferramentas de diagnóstico que as operações de TI podem usar para entender a causa raiz dos incidentes.

Portanto, na próxima vez que um ou mais sistemas gerarem alertas, os gerentes de incidentes terão muito mais informações na ponta dos dedos.

Um CMDB apoiado pelo DDM ajuda os gerentes de incidentes a encontrar as causas raiz

Vamos considerar um exemplo simples de vários alertas de um aplicativo da web de três camadas em execução com servidores da web Apache, servidores da web Tomcat e um banco de dados Postgres na AWS. O gerente de incidentes vê avisos provenientes do Tomcat e dos bancos de dados Postgres, e vários funcionários abriram tíquetes aumentando o desempenho lento e os erros do aplicativo.

Uma resposta automática a esse problema pode ser reiniciar o Tomcat e limpar as conexões do banco de dados, mas esse pode não ser o curso de ação correto. Com um CMDB habilitado para DDM, o gerenciador de incidentes e as operações de TI agora têm várias novas ferramentas para revisar.

  • Uma visão topológica do DDM mostrando os sistemas enviando alertas
  • Uma visão do CMDB mostrando os serviços de negócios afetados
  • Os registros de mudanças ITSM para ajudar a determinar se uma mudança causou o incidente
  • Conforme a TI tenta remediar o problema, o gerente de incidentes pode validar o desempenho e os fluxos do aplicativo

Nesse incidente, o IT Ops usa os complexos mapas de topologia do DDM para ver se o banco de dados Postgres tem um cliente causando um trabalho de administração de banco de dados de longa duração. Reiniciar o Tomcat ou encerrar os serviços não resolveria o problema. Em vez disso, a ação correta é pausar o trabalho de administração do banco de dados e retomá-lo fora do horário de pico.

A chave aqui é que o gerente de incidentes direcionou a ação correta e rapidamente deduziu o problema usando os mapas de fluxo do DDM. Se as operações de TI seguiram um manual prescritivo e reiniciaram o servidor, eles podem ter interrompido os principais serviços de negócios.

DDM + CMDB + ITSM -> Dados e análises para conduzir mudanças operacionais

Resolver incidentes com mais rapidez e precisão é um benefício operacional. Mas, ainda mais importante, a TI agora tem um sistema de registro que associa incidentes aos sistemas subjacentes. Os líderes de TI podem, então, apresentar as análises em torno das quais os serviços e aplicativos de negócios geram a maioria dos incidentes ou os incidentes com as interrupções mais longas.

Esse relatório é uma parte crítica da chamada à ação que os líderes de operações de TI costumam buscar para influenciar as prioridades e os investimentos na modernização de aplicativos e na atualização da infraestrutura.

A chave é que as operações de TI tenham informações atualizadas e precisas no CMDB e usem a automação de um DDM para capturar dependências. Conectando processos ITIL, especialmente gerenciamento de incidentes, permite que as operações de TI melhorem os KPIs operacionais e as experiências dos funcionários. O contexto adicional relacionado a incidentes com serviços de negócios pode ajudar a impulsionar melhorias e investimentos de longo prazo.

Para organizações que buscam melhorar as experiências dos funcionários, a integração de um CMDB com tecnologia DDM fornece dados contextuais de operações de TI e uma ferramenta versátil para resolver incidentes com mais rapidez e precisão.

Isaac Sacolick, presidente da StarCIO, orienta as empresas por meio de programas de transformação digital mais inteligentes, rápidos, inovadores e seguros que fornecem resultados de negócios. Ele é o autor do best-seller da Amazon, Driving Digital: o guia do líder para a transformação de negócios por meio da tecnologia, indústria alto falantee blogger em Social, Agile e Transformação.

Saiba mais sobre nossas atualizações nos artigos de conhecimento da Cherwell