Este site usa cookies e tecnologias afins que nos ajudam a oferecer uma melhor experiência. Ao clicar no botão "Aceitar" ou continuar sua navegação você concorda com o uso de cookies.

Aceitar

Blog

ABC do ITSM: Como adotar a prática de Gerenciamento de Incidentes?

Renê Chiari
Escrito por Renê Chiari

Entre para nossa lista e receba conteúdos exclusivos e com prioridade

Recebo diariamente muitas dúvidas sobre como iniciar a adoção das práticas de gerenciamento de serviços.

Pensando nisso, decidi iniciar um tópico específico aqui no blog, batizado de “ABC do ITSM”, para descrever como adotar práticas elementares de gerenciamento de serviços.

Neste post começamos nossa série com a prática de Gerenciamento de Incidentes. 

Vamos lá?

Conceitos fundamentais do Gerenciamento de Incidentes

O Gerenciamento de incidentes é a mais popular das práticas de ITSM.

Normalmente encabeça a lista de “primeiros passos no ITSM “, pois é uma das que podem trazer mais resultados a curto prazo.

Mas apesar da maioria dos profissionais de TI já terem tido contato com essa prática em suas experiências profissionais anteriores, é preciso ter cautela, pois a experiência também pode vir com alguns vícios.

Por isso é importante sempre voltar a fonte (a literatura ITIL) para buscar os conceitos fundamentais da prática.

Vamos destacar alguns deles estão abaixo:

O que é um incidente, segundo o ITIL?

Uma interrupção não planejada de um serviço ou redução na qualidade de um serviço

ITIL4 Foundation

E qual é o propósito da prática de gerenciamento de incidentes?

Minimizar o impacto negativo de incidentes, restaurando o estado normal da operação o mais rápido possível.

ITIL4 Foundation

Em resumo, gerenciar incidentes significa responder adequadamente às falhas não previstas dos serviços de TI.

Dentre o escopo do Gerenciamento de Incidentes, destaca-se:

  • Detectar e registrar incidentes;
  • Diagnosticar e investigar incidentes;
  • Restaurar os serviços afetados e seus itens de configuração para a qualidade acordada;
  • Gerenciar registros de incidente;
  • Comunicar com as partes interessadas relevantes de acordo com o ciclo de vida do incidente;
  • Revisar incidentes e iniciar melhorias nos serviços e na prática de gerenciamento de incidentes depois da resolução.

Atividades do Gerenciamento de Incidentes

Agora que os conceitos fundamentais foram colocados e já entendemos o escopo, podemos nos concentrar em conhecer as 6 principais atividades do gerenciamento de incidentes.

Mais adiante, vamos entender que a execução delas pode se tornar mais detalhada (e incluir outros passos) conforme elas se tornam mais maduras (ou mais familiarizadas) para a área de TI.

O workflow abaixo mostra a sequência das atividades após a ocorrência de um erro ou de uma degradação de qualidade de um serviço

Vamos detalhar um pouco mais estas atividades.

Detectar

A detecção de incidentes é a constatação de que algo inesperado ocorreu em um serviço e que, provavelmente, já está causando impacto negativo na organização, com piora na experiência dos usuários e mal funcionamento de algum (ou alguns) componente(s) de serviço. Um incidente pode ser detectado de duas formas: 

  1. Usuários reportam um mau funcionamento de um serviço através dos canais de comunicação disponíveis para a área de TI;
  2. Um evento é detectado por um sistema de monitoramento e identificado como incidente de acordo com as regras de classificação pré-definidas.

Registrar

O registro de incidentes consiste em anotar o relato descrito na atividade de detecção em algum repositório para que possa ser consultado e atualizado de acordo com as ações realizadas para a resolução do incidente.

Classificar

O incidente deve ser classificado para ajudar a determinar o seu impacto e quem será(ão) o(s) responsável(is) pelo diagnóstico e resolução.

Diagnosticar

O diagnóstico consiste nas ações realizadas para a resolução do incidente para que o serviço seja restabelecido ao estado normal o mais rápido possível. Cada ação deve ser registrada no repositório de incidentes para rastreabilidade. A comunicação sobre o andamento do diagnóstico para os usuários pode ser divulgada neste momento, após cada ação ter sido concluída.  

Resolver

Quando uma solução é encontrada, o(s) especialista(s) tenta(m) aplicá-la. Se a solução não funcionar, diagnósticos adicionais podem ser realizados.

Encerrar

Após um incidente ser resolvido com sucesso, os seguintes procedimentos podem ser realizados para o seu encerramento formal:

  • Confirmação do usuário que o serviço foi restaurado;
  • Análise e revisão do registro.

Use os princípios orientadores para uma adoção mais rápida e assertiva do Gerenciamento de Incidentes

É muito comum que as iniciativas de adoção de práticas do ITIL percam o foco e tornem-se extremamente complexas.

Para evitar que isso aconteça, use os princípios orientadores para tomar decisões melhores.

“Focar no Valor” – o gerenciamento de incidentes vai trazer mais controle e eficiência para atender a organização na resolução de eventos que impactem o negócio. Os modelos de incidentes podem ser ferramentas úteis para estruturar respostas para os incidentes mais críticos.

“Começar por onde você está” – é muito improvável que uma organização não tenha ao menos alguma atividade de gerenciamento de incidentes implementada. sempre que possível, aproveite o que estiver disponível e procure não reinventar a roda.

“Progredir iterativamente com feedback” – você não precisa ter um playbook completo de como gerenciar os incidentes. Não há problema em dar pequenos passos, desde que sejam para frente.

“Manter simples e prático” – temos uma impressionante capacidade de trazer complexidade para as nossas ações. As vezes basta seguir o “arroz com feijão” e nada mais.

“Colaborar e promover visibilidade” – alguns mitos precisam ser derrubados para que o gerenciamento de incidentes funcione bem. A transparência nas informações e o compartilhamento de conhecimento entre todas as equipes são alguns deles.

“Pensar e trabalhar holisticamente” – o gerenciamento de incidentes funciona melhor se for pensado como parte de um fluxo de valor. outras práticas podem fazer parte deste mesmo fluxo, como gerenciamento de problemas, habilitação de mudanças, central de serviços, etc. É importante compreender o todo.

“Otimizar e automatizar” – conforme a prática se torna mais madura e familiar à organização (otimizada), oportunidades de automação vão surgir. use a automação sempre que possível.

Use a melhoria contínua para aumentar a maturidade

Ao longo do tempo é possível elevar o nível de maturidade do gerenciamento de incidentes. Veja um exemplo abaixo de como isso poderia funcionar.

Maturidade 0 – É hora de adotar!

Vamos começar a adoção da prática, entendendo os Conceitos Fundamentais, o Escopo e as Atividades, como descrito anteriormente.

O próximo passo é revisar os serviços de TI que são oferecidos, considerando quais deles causam maior risco à organização caso eles sejam afetados por um evento não esperado ou por completa interrupção. Vamos colocar alguns exemplos em uma lista:

  • Correio Eletrônico
  • Usuários, Senhas e Acessos
  • Back Office – ERP
  • E-Commerce (Site e App)
  • Micro Informática (computadores, impressoras, periféricos)
  • Telecomunicações (Links de dados, Telefonia Fixa e Celular)

Uma sessão de brainstorming pode ser realizada com a equipe de TI e alguns consumidores de serviço para mapear possíveis eventos que possam acontecer aos serviços e mapear as prioridades de acordo com o que causar mais impacto. O resultado dessa sessão pode determinar níveis de prioridade. Uma sugestão:

PrioridadeImpactoRiscoTempo Esperado para Retorno à NormalidadeExemplo
1 – CríticaA organização inteira (ou mais de uma área estratégica) foi afetada ou o negócio não pode ser realizadoAlto8 horasO aplicativo e/ou site de e-commerce está com muitos acessos e está impossibilitando que os usuários naveguem no site e realizem compras dos produtos, resultando em muitas vendas canceladas/perdidas
2 – AltaUma área estratégica da organização foi afetada ou parte do negócio não pode ser realizadaAlto24 horasA Folha de Pagamento não está sendo processada por um erro no servidor de banco de dados, e isso pode impactar no pagamento dos colaboradores da empresa
3 – MédiaUm usuário (ou um pequeno grupo de usuários) foi afetado. A organização continua a operar normalmente.Médio72 horasUm link de dados de uma filial ficou fora do ar, impedindo que essa unidade de negócio realize suas atividades, fazendo com que as ações sejam transferidas para outras localidades ou que acessos alternativos à rede sejam fornecidos aos usuários.
4 – BaixaUm usuário foi afetado. A organização não foi afetada.Baixo120 horasO laptop do Analista de Contas a Pagar não liga e o computador precisa ser reparado ou substituído.

Tem mais sugestões de priorização de chamados no artigo “8 maneiras de priorizar chamados de suporte”.

O mapeamento de prioridades também pode ser realizado através da Análise de Riscos, descrita com mais detalhes no artigo “Como fazer análise de riscos no gerenciamento de problemas”

Agora, vamos revisar as atividades do Gerenciamento de Incidentes com a Maturidade 0

  • Detectar – usuários reportam um mau funcionamento em algum serviço ao time de suporte técnico por email, telefone, mensagem instantânea, redes sociais ou qualquer meio de comunicação que seja devidamente autorizado pela organização.
  • Registrar – considerando que não há ferramentas de ITSM neste nível de maturidade, os incidentes devem ser registrados em documentos, planilhas, formulários ou outros meios disponíveis, entretanto, os dados registrados são sensíveis e vale a recomendação de usar recursos que estejam disponíveis apenas dentro da organização (em pastas de rede com restrição de acesso ou formulários na intranet, por exemplo).
  • Classificar – usando os critérios desenvolvidos anteriormente (por prioridade, por exemplo)
  • Diagnosticar – um especialista da equipe de suporte se dedica ao diagnóstico. Cada ação aplicada por ele deve ser registrada no repositório de incidentes para rastreabilidade.
  • Resolver – neste momento, as soluções encontradas pelos especialistas podem ser aplicadas com algum acordo entre as partes interessadas, considerando que práticas como Gerenciamento de Liberação, Gerenciamento de Implantação e Habilitação de Mudanças ainda não estão adotadas. Vale a pena analisar os riscos de se aplicar uma solução para evitar que ela cause outros incidentes futuros, especialmente nos incidentes de maior prioridade.
  • Encerrar – os usuários devem ser consultados para confirmar que o incidente foi resolvido e o serviço voltou ao funcionamento normal. Isso também deve ser registrado no repositório de incidentes.

Maturidade 1 – É hora de melhorar!

Neste momento, já temos alguma maturidade no Gerenciamento de Incidentes e podemos pensar em melhorias para deixar a prática um pouco mais apurada.

A Melhoria da prática pode considerar os Fatores de Sucesso do Gerenciamento de Incidentes:

  • detectar os incidentes mais cedo possível;
  • resolver os incidentes de forma rápida e eficiente;
  • melhorar continuamente as ações de gerenciamento de incidentes.

Os Fatores de Sucesso podem ajudar a estabelecer um norte para medir o desempenho do gerenciamento de incidentes e, assim, fornecer um número inicial que pode ser usado como parâmetro de melhoria.

Fator de SucessoMétricas Chave
Detectar os incidentes mais cedo possíveltempo entre a ocorrência do incidente e a sua detecção

porcentagem dos incidentes detectados através do gerenciamento de eventos e monitoramento
Resolver os incidentes de forma rápida e eficientetempo entre a detecção do incidente e a aceitação para o diagnóstico

tempo de diagnóstico

número de re-atribuições

porcentagem do tempo de espera em todo o processo de gestão do tempo do incidente

taxa de resolução de incidentes no primeiro contato

porcentagem de incidentes resolvidos dentro do tempo acordado para resolução

satisfação do usuário com a gestão e a resolução de incidentes

porcentagem de incidentes resolvidos automaticamente

porcentagem de incidentes resolvidos antes de serem reportados pelos usuários
Melhorar continuamente as ações de gerenciamento de incidentesporcentagem de resoluções de incidentes usando soluções que foram identificadas e registradas anteriormente

porcentagem de incidentes resolvidos usando modelos de incidentes

melhoria dos indicadores chave da prática através do tempo

equilíbrio entre métricas de rapidez e efetividade na resolução de incidentes

O investimento em uma ferramenta de ITSM é necessário para ajudar a atingir os fatores de sucesso. Como a área de TI já está acostumada a executar as atividades do gerenciamento de incidentes, é possível desenhar um Business Case para justificar esse investimento. Aqui, uma sugestão de perguntas que podem ser respondidas para guiar a criação do Business Case:

  • Que problemas estamos buscando resolver?
    • Melhorar a utilização da prática de Gerenciamento de Incidentes;
    • Centralizar a gestão, registro e tratamento de incidentes em um repositório único;
    • Criar canal único para os colaboradores registrarem os incidentes, retirando canais alternativos como e-mail, telefone, redes sociais, etc.
  • Qual será o escopo?
    • Melhoria nas atividades da Prática de Gerenciamento de Incidentes;
  • Quem são os consumidores?
    • Todos os usuários da organização;
  • Quais riscos estamos mitigando ou eliminando?
    • Eliminação do risco de ter um incidente não atendido pela dificuldade de encontrar o registro relacionado;
    • Mitigação do re-trabalho no atendimento de um incidente por mais de um especialista por termos registros de uma mesma ocorrência vindos de origens distintas;
  • Quais opções estão sendo avaliadas e quais os critérios?
    • Construir ou Adquirir;
    • Parceiros e fornecedores avaliados;
    • Características da ferramenta;
    • Custos introduzidos e removidos;
    • Planos e prazos de implementação;
  • Quais ações são esperadas para iniciar a implantação da ferramenta de Gerenciamento de Incidentes?
    • Engajar partes interessadas: consumidores e prestadores de serviço;
    • Realizar ações de Mudança Organizacional para comunicar a mudança na forma de registrar incidentes (de forma centralizada);
    • Criar Escritório de Projetos e reunir recursos especializados;
    • Avaliar o Gerenciamento de Projetos (Agile ou Waterfall);
  • Quais oportunidades, resultados ou valor agregado estamos esperando?
    • Oportunidade de tornar a prática de Gerenciamento de Incidentes mais madura, com maior controle e gestão;
    • Oportunidade de adotar outros tipos de Melhores Práticas de TI, integrando-as através da ferramenta de ITSM, já que ela está pronta para implementá-las em conjunto com o Gerenciamento de Incidentes;
    • Aqui também se podem incluir os Fatores de Sucesso da Prática:
      • oportunidade de detectar os incidentes mais cedo possível;
      • oportunidade de resolver os incidentes de forma rápida e eficiente;
      • oportunidade de melhorar continuamente as ações de gerenciamento de incidentes;
      • oportunidade de medir e melhorar as métricas do gerenciamento de incidentes;

E como podemos melhorar as Atividades?

  • Detectar – usuários reportam um mau funcionamento diretamente na ferramenta de ITSM através de um portal na intranet ou em um app no celular corporativo.
  • Registrar – equipe de suporte faz primeiro contato para confirmar o incidente que foi reportado no sistema de ITSM.
  • Classificar – usando os critérios desenvolvidos anteriormente, devidamente cadastrados na ferramenta.
  • Diagnosticar – estudar a possibilidade de implementar níveis de especialidade (nível 1, 2, etc) ou grupos de atendimento, devidamente registrados. Tudo deve ser anotado no formulário de incidente fornecido pela ferramenta.
  • Resolver – ainda não há integração com outras práticas, mas já é possível ter as ações de solução devidamente registradas na ferramenta.
  • Encerrar – os usuários devem ser consultados para confirmar que o incidente foi resolvido e o serviço voltou ao funcionamento normal. Isso também deve ser registrado na ferramenta.

Maturidade 2 – É hora de expandir e integrar!

Agora que a Prática está mais familiarizada na organização, é hora de expandir a visão do Gerenciamento de Incidentes, pensando em como integrar com outras práticas ITIL:

PráticaAtividade
Gerenciamento de ProblemasInvestigar causas de incidentes
Central de ServiçosComunicação com os usuários
Habilitação de Mudanças
Gerenciamento de Implantação
Gerenciamento de Liberação
Gerenciamento de Infraestrutura e Plataforma
Gerenciamento e Desenvolvimento de Software 
Gerenciamento de Projetos
Implementação de mudanças em produtos e serviços
Gerenciamento de Eventos e MonitoramentoMonitorar o desempenho de tecnologia, equipes e fornecedores
Melhoria ContínuaGerenciamento de iniciativas de melhoria
Gerenciamento de Requisição de ServiçosGerenciamento e atendimento de requisições de serviços
Gerenciamento de Continuidade de ServiçosRestaurar as operações ao normal em caso de desastre

E as Atividades?

  • Detectar – criar parâmetros em ferramentas de monitoramento para que elas reportem eventos que podem ser classificados como incidentes, criando detecção proativa.
  • Registrar – pode ser delegado à Central de Serviços para posterior atribuição aos especialistas conforme o tipo de incidente e seu grupo resolvedor.
  • Classificar – usando os critérios implementados na ferramenta, com possibilidade de atribuir um incidente a um registro de Requisição de Serviços, Habilitação de Mudanças, Gerenciamento de Problemas, etc.
  • Diagnosticar – buscar oportunidades de automação na resolução através da execução de scripts ou RPA.
  • Resolver – aplicar as ações de resolução, integrando-as com outras práticas como Habilitação de Mudança, Gerenciamento de Liberação, Gerenciamento de Implantação, etc.
  • Encerrar – os usuários devem ser consultados para confirmar que o incidente foi resolvido e o serviço voltou ao funcionamento normal. Pesquisas de satisfação podem ser disparadas para os usuários. Registros de Incidentes podem ser usados como entrada para o Gerenciamento de Problemas, Gerenciamento de Conhecimento e Melhoria Contínua.

Conclusão

O mais importante é reconhecer um aspecto fundamental sobre as práticas do ITIL. O fato de serem práticas.

Se você não sair dos livros e começar a praticar, não sairá do lugar. 😉

Opa,

o que você achou deste conteúdo? Conte nos comentários.

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

8 Replies to “ABC do ITSM: Como adotar a prática de Gerenciamento de Incidentes?”

Sandro Araújo

Conteúdo muito bom

Renê Chiari

Valeu Sandro!

Camila Minhano

René, que conteúdo incrível. Por favor, faça um ABC do ITSM como adotar a pratica de habilitação de mudanças.

Renê Chiari

Obrigado Camila! Já anotei aqui sua sugestão =)

Jader

Excelente! A série vai ser ótima. Obrigado por disponibilizar.

Renê Chiari

Valeu Jader! =)

Felipe Rodrigues

Sempre muito bom ler estes artigos, parabens Rene

Renê Chiari

Valeu Felipe!!