Confiabilidade humana - PCS5006

12.11.05

CREAM - Cognitive Reliability and Error Analysis

Estou postando um resumo sobre o CREAM. Tentei exemplificar, da melhor forma que encontrei, um exempo real de aplicação. Dos poucos artigos que achei, nenhum apresentou uma aplicação deste método, apenas comentários e comparações. Quando acreditei ter achado algo, este era o mesmo do livro do Hollnagel.

CREAM
Cognitive Reliability and Error Analysis Method

Método apresentado por Erik Hollnagel, professor da Linkping University, Suécia, em livro de mesmo nome do método, pela editora Elsevier Science Ltd., em 1998.

Como segunda referência para este resumo, foi utilizado um trabalho realizado por pesquisadores do Departamento de Ciência da Computação da Universidade de Paderborn. Este trabalho, no início de da discussão, apresenta o livro de Erik Hollnagel como referência principal.

-> Introdução
Uma das premissas para o desenvolvimento de trabalhos na área da human reliability analysis (HRA) é a tentativa de responder perguntas como: “Why to investigate human reliability?”. Análises realizadas pelo Instituto de Operações em Energia Nuclear, em 180 eventos ocorridos nos anos de 1984 e 1985, mostraram que 51% de todos os incidentes podem ser relacionados a problemas de desempenho humano. Os outros 39% principais eventos também podem ser classificadas como “instâncias” do erro humano, levando à, praticamente, 90% dos incidentes sendo direta ou indiretamente relacionados a este último.

Uma outra análise, agora elaborada pela NASA, em 612 incidentes entre 1990 e 1993, mostrou que 66% deles foram causados por erro humano. Outras categorias que também ocasionaram estes incidentes são: procedimentos falhos (5%), disfunção em equipamentos (8%) e pouco treinamento ou quebras na comunicação (21%). Contudo, estes últimos foram considerados como havendo uma relação com o erro humano, totalizando assim uma faixa de 80-85%, ao invés dos 66%.

O CREAM é apresentado como um método capaz de fazer dois tipos de análises: retrospectiva (onde se quer descobrir quais foram as causas iniciais do erro) e predição de desempenho (a partir de uma ação inicial definir seus efeitos). Dois termos para a aplicação do método são definidos: causa deve ser conhecida como genótipo e efeito como fenótipo, estes definem os pontos iniciais e finais. As causas e efeitos entre estes pontos são definidos como antecedentes e conseqüências, respectivamente.

-> Classificação
Quando uma cadeia de evento precisa ser analisada, é necessário levantar uma seqüência abstrata o suficiente para que não haja muitos detalhes, evitando que a análise se torne complexa, contudo, este é um dos principais problemas apontado por Hollnagel.
São usados quatro grupos, um referindo-se aos fenótipos e os outros três ao genótipo. Cada grupo se separa em categorias mais detalhadas, onde são distinguidas as conseqüências gerais e as específicas.

-> Modos de Erro
Este modo descreve como uma ação incorreta pode se manifestar. Pode ser separados em quatro grupos:
- Ação de tempo errado
- Ação de tipo errado
- Ação de objeto errado
- Ação de lugar errado

-> Genótipos relacionados ao humano
Este categoria é sobre funções específicas da cognição. Hollnagel separa estes entre análises e sínteses. A primeira é responsável por identificar a situação corrente (observação, reconhecimento) e a segunda de determinar o que fazer e como (opções, planejamento, programação). Neste modelo, esta análise é descrita como observação e interpretação e a síntese como planejamento e execução.

-> Genótipos relacionados com tecnologia
Possui sub-grupos ligados ao sistema sob análise e avalia mal funcionamento técnico, operação inadequada e questões ligadas às interfaces:
- Disfunção nos equipamentos
- Procedimentos
- Problemas de interface temporários
- Problemas de interface permanentes

-> Genótipos relacionados á organização
Relacionados aos genótipos não ligados ao tecnológico e/ou humano:
- Comunicação
- Organização
- Treinamento
- Condições ambientais
- Condições de trabalho

-> Relacionamento
Hollnegel comenta que o método não possui característica hierárquica entre os grupos, ou seja, existe um relacionamento livre entre eles que será definido na análise do evento em questão. Para tal, cada conseqüência descrita em um grupo precisa corresponder a um, ou mais, antecedente em outros grupos.

Para cada conseqüência, uma lista de antecedentes prováveis (possíveis explicações) deve existir. Cada um desses antecedentes são, também, conseqüências em outro grupo, ou para a causa raiz. Tal procedimento apresenta a extensão que o método pode obter até se alcançar uma explicação ou enquanto ainda fizer sentido.

-> Um exemplo teórico
Assuma que uma análise começa sobre uma conseqüência de um determinado grupo B. A descrição deste grupo fornece alguns antecedentes para este evento e assuma que, de acordo com as circunstâncias dadas, o antecedente mais provável é o B2, o qual é uma conseqüência do grupo A. Continuando a análise deste ponto, deve-se determinar qual o antecedente mais provável para B2 dentro do grupo A. Aceite a antecedente A3 para este exemplo. Pode ser que este último, seja a conseqüência de um grupo C.

-> Análise retrospectiva
Seu objetivo é achar as respostas para questões do porque algo aconteceu e como. Para tal é necessário seguir os seguintes passos:
- Determinar o contexto
- Descrever os possíveis modos de erro
- Descrever as causas prováveis
- Realizar uma análise mais detalhada dos passos principais (traçar possíveis links conseqüência-antecedente para os modos de erro selecionados)

Como já apontado, determinar o contexto de um evento sem ser muito detalhista e nem deixar de lado importantes informações é complexo e, portanto, não recomendado que se faça. CREAM usa CPC (Common Performance Conditions), que é um grupo de nove condições. Para cada contexto, uma condição geral deve ser descrita como aquela corrente e, com esta informação, ser pontuada a partir de níveis dados pelo método.

Para efeito de elucidação, citarei aqui as nove condições do CPC: adequação à organização; condições de trabalho; adequação da MMI (modelo proposto por Sheridan e Hennessy, 1984. Relacionado com a devida apresentação das informações em interfaces e indicadores) e suporte operacional; procedimentos disponíveis; número de objetivos a serem alcançados simultaneamente; tempo disponível; treinamento e experiência; eficiência na colaboração dos envolvidos.

No próximo passo, devem ser determinados quais modos de erro são prováveis e quais são suas possíveis causas, ou seja, quais genótipos são mais prováveis. Tendo em vista que as causas podem ter ligações entre elas, níveis de relacionamento entre causas (CPC) e os genótipos devem ser definidos, objetivando a orientação do analista para dar seqüência à aplicação do método.

-> Analisado os passos
O primeiro evento deve ser descrito e combinado com um modo de erro predefinido, e.g., ação de tempo errado. Para este modo de erro, um(ns) antecedente(s) deve(m) ser determinado(s), isto é feito usando tabelas de relacionamento fornecidas pelo método. Cada antecedente também é uma conseqüência, e a busca por seus antecedentes deve ser feita. O autor apresenta três formas de o analista descobrir que o processo foi finalizado:
- um antecedente específico é encontrado
- nenhum antecedente foi encontrado para uma conseqüência
- o antecedente não pode ser qualificado como conseqüência

-> Um exemplo real
“Even there are only few examples were CREAM was applied for analysis or prediction (what might be due to the little age of the method and its complexity), it seems that, once understood and with the appropriate amount of detailed information, it is nevertheless a very powerful method.”

Este texto acima fecha a conclusão do trabalho apresentado sobre o CREAM pela University of Paderborn. Atesto que realmente é difícil encontrar um exemplo publicado da aplicação do método em algum evento, somente comentários e pequenas comparações com outros. Nesta parte apresento um resumo do exemplo existente no livro do Hollnagel e, consequentemente, no trabalho da University or Paderborn.

O evento real considerado para apresentação ocorreu em 25 de Janeiro de 1982, na R. E. Ginna Nuclear plant, onde houve a ruptura de um tubo de vapor oriundo do gerador B. Um seqüência de eventos é apresentada pelo autor para definição do cenário, acompanhada do texto:
“As the first three steps are strongly context dependent and the official documentation of the incident is not avaliable, only the results of the original analysis are provided here.”

Primeiramente, cada CPC foi descrita para este evento e verificado em qual nível ela atendia ao requerido. Por exemplo, a CPC condição de trabalho foi nivelada como incompatível, já que havia muitas pessoas na sala de controle, trazendo distúrbios nas tarefas do operador.

Na determinação dos modos de erro possíveis, estes são listados de acordo com a tabela fornecida pelos métodos, cada um é esclarecido e pontuado de acordo com sua pertinência ao evento (impossível, possível e provável).

No terceiro passo, as prováveis causas são determinadas, ou seja, a tabela de CPC vs genótipos é usada. As CPC’s que não trazem problemas para esta análise são marcadas e se algum genótipo não tem ligação com as CPC’s, este grupo não é considerado como uma provável causa. Contudo, este caso não ocorre neste evento, há pelo menos uma ligação e os três grupos são analisados.

Continuando, deve-se agora descrever o evento inicial, considerado aqui como um atraso no fechamento da válvula de isolação do vapor principal (MSIV). O modo de erro mais provável, neste caso, é o tempo. O antecedente específico é o atraso e nenhum outro modo de erro foi aplicado aqui.

Usando tabelas fornecias pelo método, um processo de “linkagem” é iniciado. Da tabela dos modos de erro, o tempo (considerado o mais provável) apresenta seis antecedentes gerais e dois específicos. Dos gerais, dois foram escolhidos: procedimento inadequado e planejamento inadequado. Tomando o primeiro como uma conseqüência agora, deve-se ir até o grupo dos procedimentos para encontrar um antecedente. Neste grupo, problema de projeto e controle inadequado da qualidade parecem relevantes. De acordo com a categoria organizacional, o controle inadequado da qualidade é claramente relevante e tem como antecedente procedimento inadequado. Já o problema de projeto não parece conveniente.

Um antecedente, procedimento inadequado, tornou-se conseqüência e foi encontrado como antecedente novamente, finalizando a análise para ele.

Com o término dessa, dá-se seqüência para planejamento inadequado, repetindo-se todo o processo.

Cada passo desse é realizado para cada modo de erro, até que as prováveis causas possam ser encontradas.

10.11.05

Capítulo 5 – Um projeto para máquina falível - Livro: Human Error - James Reason

Resumo do livro de James Reason, Human Error
Um projeto para uma máquina falível (A design for a fallible machine)

Este capítulo vem esboçar uma resposta para a seguinte pergunta: "Que tipo de dispositivo que trabalha baseado em informações poderia operar corretamente na maioria das vezes, mas também produzir respostas ocasionalmente erradas como no comportamento humano? A idéia é "fazer coisas que são feitas pela mente humana" (Boden, 1987, p. 48). De acordo com Bolden (1987, p. 48), há duas vantagens nesta tentativa:

"First, it enables one to express richly structured psychological theories in a rigorous fashion (for everything in the program has to be precisely specified, an all its operation have to be made explicity); and secondly, it forces one to suggest specific hypotheses about precisely how a psychological change can come about."

-> Componentes estruturais da "máquina"
A máquina possui dois componentes principais: working memory (WM) e knowledge base (KB). A primeira é subdividida também em duas partes: focal (FWM) e periférica (PWM). Se imaginarmos dois círculos, um sendo a FWM e o outro sendo a PWM, o primeiro estaria circunscrito no segundo. Como entrada e saída de informações, são necessários alguns sensores e atuadores, estes são definidos aqui, respectivamente, como input function (IF) e output function (OF). O primeiro alimenta a PWM e a KB, o segundo é uma combinação de efeitos oriundos de KB, havendo uma realimentação destes como IF da máquina.

-> Funções de cada parte da máquina

- FWM
Recebe informações constantemente da KB e do IF.

- PWM
Sua função primária é gerenciar o acesso das informações à FWM. Têm suas informações de entradas vindas diretamente da KB e do IF, segura tais informações brevemente enquanto realiza uma seleção daquela pequena porção que irá alcançar a FWM. Qual informação deve acessar a FWM e qual não deve é realizado de acordo com uma variedade de prioridades.

- Knownledge base (KB)
Repositório de unidade de conhecimento. Ilimitado em capacidade e tempo no qual o conhecimento fica armazenado. Contudo, não é considerado uma biblioteca, mas um conjunto de pistas. Como nossa memória, essas pistas podem aumentar na forma de informações mais elaboradas, à medida que são usadas pela WM.

-> Mecanismos de recuperação
A máquina possui alguns mecanismos para recuperar a informação existente na KB para a FWM. Dois deles: similarity-matching e frequency-gambling, ambos constituem as premissas computacionais do sistema. O terceiro mecanismo chama-se directed serch (ou serial search), oriundo do sofisticado processo da FWM.

- Similarity-matching
Para evitar extensas buscas dentro da KB, este mecanismo tenta encontrar recentes e similares ocorrências (OF) da FWM. Caso nada seja encontrado, buscas mais profundas são realizadas.

- Frequency-gambling
Em algumas situações, encontrar a ocorrência que seja similar ao requisitado não é suficiente, uma grande quantidade de respostas pode ser obtida da KB. Nesses casos, uma grande quantidade de possíveis candidatos pode ser encontrada na PWM, partindo então para a busca através do mecanismo de frequency-gambling. Entre os candidatos, aquele que já foi empregado com maior freqüência será o escolhido.

- Directed search
FWM não tem acesso direto à KB, somente aos resultados de suas buscas. O que a FWM pode fazer é recusar algum resultado de frequency-gambling oferecido pela última. Sendo assim, se um resultado não é satisfatório para a FWM, esta pode reiniciar a busca com algumas alterações em suas informações de filtro.

-> Analisando um processo
Analisando a máquina falível em um processo, a seguinte seqüência de fatos pode ser cogitada:
O problema é encaminhado, através das IF, para a KB e WM. Em um primeiro passo, a KB entrega uma seqüência de resultado através da similarity-matching e frequency-gambling para a WM. Um resultado é avaliado por esta última e considerado inadequado, o problema é analisado novamente e novas pistas são enviadas à KB. Após uma busca mais profunda, um novo grupo de resultados é entregue à WM. Novamente, esta pode considerá-lo inadequado, reformulando novas pistas enviando-as para a KB. Nova busca, desta vez ainda mais profunda, é realizada e novos resultados são novamente entregues. A WM os considera adequados e uma solução é apresentada.

Na tentativa de modelar os fundamentos da cognição humana, duas questões importantes precisam ser abordadas: (a) as propriedades da KB e seus modos de representação e (b) um conjunto de regras, ou heurísticas, para selecionar qual estrutura de conhecimento armazenada será ativada em certa situação. Segundo o autor, esse mecanismo de “response-selecting” descrito acima não somente provê o modelo de gerenciamento de informações do ser humano, como também cria e define formas de reconhecimento do erro humano.

Em um mundo real, cada problema teria uma única solução, contudo, a realidade está muito longe disto: (a) a busca para solucionar problemas pode resultar em várias respostas ou em nenhuma, (b) as estruturas de conhecimento podem estar incompletas, erradas ou perdidas entre elas. Essas premissas são formas de apresentar uma preocupação na tentativa de modelar a cognição humana.

-> Modelando resultados sobre conhecimentos incompletos
Nesta parte o autor apresenta dois exemplos, para efeito de ilustração das idéias até então apresentadas, resumirei apenas um deles: reconhecimento a partir de pistas limitadas.

Foi realizada uma simulação (implementada em Prolog, por Philip Marsden) sobre os meios pelos quais pessoas com conhecimento variado sobre os presidentes dos Estados Unidos respondem à tarefa de identificar, entre 20 nomes, aquele que corresponde a uma (ou até três) determinada pista selecionada de fatos biográficos da vida deste.

Para este modelo, uma KB normativa foi preenchida com um específico número de fatos verdadeiros sobre cada presidente. Após esse passo, uma KB descritiva é criada como uma versão incompleta da KB normativa, com o objetivo de modelar a cognição humana. Como já comentado, após algumas buscas, os dados armazenados na KB vão sendo alimentados com novas informações e tornando-se mais completos, ou seja, após várias execuções a KB descritiva torna-se muito parecida com a KB normativa.

WM não tem acesso direto à KB descritiva (DKB). Suas interações ocorrem através dos processos: similarity-matching e frequency-gambling. A busca é acionada pela WM através da apresentação de uma séria de pistas e termina com a aceitação do produto da busca por parte da mesma WM.

A partir do momento que um candidato veio como resposta para a WM, um processo comparativo é iniciado acumulando, assim, duas informações: (a) evidências de confirmação de similaridades entre o pedido de busca e o resultado, (b) evidência de contradições entre as mesmas entidades.Em uma fase seguinte de decisão, um certo peso é dado para as evidências e é definido a estratégia mais apropriada para este problema em particular.

Através de uma pesquisa realizada com estudantes dos Estados Unidos e da Inglaterra, dois grupos foram divididos de acordo com seu conhecimento dos presidentes dos Estados Unidos. O resultado das simulações e da pesquisa com os jovens resultou em uma relação entre os resultados de 0,85 para um grupo e 0,87 para o outro.

Referências:
REASON, James. Human Error. Cambridge: Cambridge University Press, 1990. 302 p.

8.11.05

Atualizando: Acidente Challenger

Posto aqui o resumo e conclusão sobre o acidente da Challenger. Qualquer nova definição de falha/erro/disfunção é muito bem vinda (questionamento sobre as minhas e aquelas comentadas em sala também são).

Challenger (51-L) (28/01/1985)

Tripulação:
Francis R. Scobbe – Comandante.
Michael J. Smith – Piloto.
Judith A. Resnick – Especialista da Missão 1.
Ellison S. Onizuka – Especialista da Missão 2.
Ronald E. McNair – Especialista da Missão 3.
Gregory B. Jarvis – Especialista do Satélite 1.
Sharon Christa McAuliffe – Especialista do Satélite 2.

-> Objetivos da missão (Missions Highlights)
Os planos para a Challenger, quando em órbita , seriam:
1 - Primeiro dia: após chegar a órbita, a tripulação teria duas tarefas agendadas. Primeiramente eles checariam a disponibilidade do satélite TDRS-B antes de planejar seu lançamento. Após o almoço, eles lançariam o satélite e realizariam uma série de manobras de separação. O primeiro período de sono estava programado para durar 8 horas, começando aproximadamente 18 horas após a equipe ter acordado na manhã do lançamento.
2 - Segundo dia: o experimento chamado Comet Halley Active Monitoring Program (CHAMP) foi iniciado. Também estava programado a apresentação de uma fita de vídeo (TISP – teacher in space) e manobras para colocar a Challenger a 152 milhas de altitude orbital de onde o Spartan seria lançado.
3 - Terceiro dia: a tripulação iniciou a preparação para o pré-lançamento do Spartan. O satélite foi posicionado usando um sistema de manipulação remota (RMS) para um braço robótico. A nave seria lentamente afastada do Spartan até 90 milhas de distância.
4 - Quarto dia: a Challenger se aproximaria do Spartan, enquanto Gregory B. Jarvis continuaria realizando seus experimentos sobre dinâmica dos fluídos iniciados no segundo dia. Transmissões ao vivo também estavam programadas e seriam conduzidas por Christa McAuliffe.
5 - Quinto dia: a tripulação aproximou-se do Spartan e usou o braço robótico para capturar o satélite e colocá-lo no compartimento da Challenger.
6 - Sexto dia: iniciou-se a preparação para re-entrada. Isto inclui checagem no controle de vôo, teste nos jatos de manobra e no compartimento de armazenamento. Uma nova conferência, por parte da tripulação, estava programada para após o almoço.
7 - Sétimo dia: o dia teria sido todo reservado com intuito de preparar a nave para sair de órbita e entrar na atmosfera. A Challenger foi programada para aterrisar no Kennedy Space Center, 144 horas e 34 minutos após seu lançamento.

-> Acidente
Após seu lançamento, o contato visual com a Challenger durou, aproximadamente, 73,137 segundos (1 minuto e 13 segundos). Uma série de eventos ocasionou seu fracasso, quando esta foi envolvida por uma bola de fogo.
Através de sistema de computadores e mecanismos de melhorias nas imagens, as câmeras de vídeo mostraram que fortes jatos de uma fumaça cinza vinham das proximidades da junta do foguete direito e eram oriundos de uma área em frente ao tanque externo. Esta foi a primeira evidência de que a junta não estava completamente vedada.
Após 2,5 segundos, outros 8 jatos de fumaça foram registrados. Um fato interessante: os jatos ocorriam com uma freqüência de 4 por segundo, aproximadamente a mesma da dinâmica estrutural da nave. A cor preta e a densidade da fumaça indicava que o anel de vedação havia sofrido erosão pelos gases quentes propelidos.
A aproximadamente 37 segundos, a Challenger começou a deparar-se com situações extremas devido a alta altitude. Todas elas foram reconhecidas pelo sistema de navegação e ações foram automaticamente tomadas, contudo, tais forças aumentaram os níveis de pressão sobre a nave. O aumento no força de propulsão, necessária para vencer os eventos, foram suficientes para que a primeira pequena chama no foguete direito fosse visualizada (através das câmeras) aos 58,788 segundos do lançamento. No quadro seguinte, da mesma câmera, esta mesma chama já podia ser vista sem nenhum mecanismos de melhoria na imagem. No mesmo momento (aproximadamente 60 segundos) o sistema de telemetria mostrou uma diferença de pressão entre os foguetes direito e esquerdo.
Algumas manobras fizeram com que a chama fosse direto para o tanque externo. A primeira confirmação visual deste evento deu-se aos 64.660 segundos, quando uma mudança abrupta de cor e formato aconteceu na chama. Tal mudança indicou que em sua composição havia hidrogênio, presente apenas no tanque externo.
Aos aproximados 72 segundos, uma série de eventos ocorreu muito rapidamente. Aos 73,124 um vapor branco, que obedecia um padrão, foi observado oriundo do tanque externo. Esta era a indicação de que a estrutura do tanque de hidrogênio começava a falhar. Aos 73.137 segundos, a Challenger e toda sua tripulação foram consumidas pela explosão.

-> Análise de falha, erro e disfunção
Conclusão apresentada pela Comissão responsável pelo caso:

“In view of the findings, the Commission concluded that the cause of the Challenger accident was the failure of the pressure seals in the aft field joint of the right Solid Rocket Motor. The failure was due to a faulty design unacceptably sensitive to a number of factors. These factors were the effects of temperature, physical dimensions, the character of materials, the effects of reusability, processing and the reaction of the joint to dynamic loading.”

Do ponto de vista do sistema, a falha principal pode ser apontada como sendo o uso de uma peça (anel de vedação da junta) irregular ou avariada como é citado na conclusão da Comissão acima. O estado de erro é alcançado com a presença desta peça na estrutura da nave. A disfunção foi gerada quando o anel de vedação avariado não respondeu flexivelmente como era esperado.
Os eventos aconteceram de forma rápida, o contato visual com a disfunção apresentada pela vedação ocorreu poucos segundos antes da explosão e o sistema de telemetria apresentou a primeira irregularidade após 60 segundos do lançamento (frisando que a explosão ocorreu aos 73 segundos). Tais fatos tornam inadequado apontar falha/erro/disfunção do ponto de vista humano nos segundos que antecederão o fracasso da missão.
A relação que deve ser feita é: a falha apresentada pelo sistema caracteriza a disfunção do ponto de vista humano. Deste último pode-se dizer: a falha é fundamentada no uso de procedimentos de testes e ensaios não acordados com os requisitos da peça e o projeto de operação inadequado da mesma. O erro fica aqui definido como a aprovação de uma determinada peça (aqui o foco é o anel de vedação) que pode não atender as necessidades. Através deste estado de erro, peças que não atendam as especificações podem juntar-se àquelas que atendam, podendo levar à disfunção quando a usada é a primeira.

Referência:
Site da NASA acessado em 28 de setembro de 2005: http://www-pao.ksc.nasa.gov/kscpao/shuttle/missions/51-l/mission-51-l.html