segunda-feira, 19 de abril de 2010

Por que achar terroristas é tão difícil?

Vamos ver por que tentar achar (no sentido de distinguir dentro de um grupo) terroristas é tão difícil. Suponha que John trabalhe para um serviço secreto com informações privilegiadas sobre pessoas residentes nos EUA. Ignore problemas legais quanto aos métodos utilizados. Toda a sua missão se resume a examinar um banco de dados imenso (com, por exemplo, movimentação financeira, nome completo, viagens aéreas, endereço e ocupação de cada pessoa) e selecionar com eficiência indivíduos que possam ser terroristas. Um bom "teste" tem duas características:
 
[1] ele não ignora muitos terroristas
[2] ele não aponta como candidatos a terrorista muitas pessoas inocentes


Observe que criar um teste que satisfaz [1] é mole: basta dizer que todo mundo é terrorista. Da mesma forma, satisfazer [2] é muito fácil: diga o contrário, que ninguém é terrorista. O problema, claro, está em satisfazer [1] e [2] ao mesmo tempo.

Outro ponto importante é notar que esse teste não pode ser um procedimento realizado por humanos, como uma entrevista. Afinal, com 300 milhões de americanos, até acharmos um terrorista entrevistando todo mundo, um outro já teria nascido. A tarefa inicial deve ser feita por computador. A intenção, aliás, é justamente refinar o conjunto inicial de pessoas (toda a população dos EUA) para um conjunto pequeno, mas que inclua boa parte dos terroristas. E aí sim entrevistá-los.

Bom, suponha então que, por milagre, John tenha elaborado um teste que satisfaz plenamente as exigências: a cada 100 pessoas inocentes, apenas 2 (ou 2%) são apontadas como terroristas; nenhum terrorista é deixado de fora. Fantástico, não? Isso acabaria com a maior parte dos problemas de segurança nacional dos EUA... Ou não? Definitivamente não.

Quantos terroristas existem nos EUA? Mil? Cinco mil? Bem, após a realização da investigação (com a ajuda de computadores) sobre o conjunto de todas as pessoas dos EUA, dos 300 milhões de inocentes o teste iria selecionar apenas 2% deles, ou 1.5 milhões de indivíduos. Bem, então existem 1.500.000 (inocentes) + 5.000 (terroristas) de pessoas no grupo de potenciais terroristas. Não é muito útil, certo? Mesmo com um teste milagroso, ainda estamos com mais de 1 milhão de suspeitos - e apenas 0,33% deles são o que estamos procurando.

Por que é tão difícil assim?

Bem, devem existir muitos motivos, mas pelo menos um deles é óbvio: porque nós, os "não terroristas", somos muitos e ajudamos os terroristas a se esconderem.

E esse teste, hein? Ele parecia tão bom, com 98% de precisão...

Esse teste parecia tão eficaz, não parecia? A verdade é que a maneira como são apresentadas as qualidades de um teste podem enganar muito o avaliador. O que é, afinal, a precisão de um teste? Ao dizer que a cada 100 pessoas inocentes, apenas 2 (ou 2%) são apontadas como terroristas, estamos deixando implícito que a precisão de um teste está ligada à frequência com que ele erra o "valor" (terrorista ou não) de uma pessoa inocente. Parece óbvio pensar dessa forma, mas não é: podíamos perguntar outras coisas mais relevantes e chamar a resposta disso de precisão.

Por exemplo, podemos indagar: das pessoas que o teste aponta como terroristas, quantas são de fato terroristas? Isso parece uma tradução razoável de precisão - e veja que a "nova" precisão do teste que descrevemos é uma grande porcaria: 500 em 1.5mi ou 0,33%.

Olhe o que aconteceria se o teste atendesse o novo conceito de precisão, ou seja, de cada 100 pessoas classificadas como terroristas, apenas 2 são inocentes. Como o teste acha todos os terroristas, haveriam 5 mil terroristas. Como para cada 98 terroristas são selecionados 2 inocentes, haveria também pouco mais de 100 inocentes no grupo. Agora sim o teste é de fato eficiente - nosso grupo tem  pouco mais de 5.100 suspeitos, dos quais 5000 são terroristas

Enfim...

A discussão sobre quais características de um teste permitem fazer uma boa avaliação dele é  bastante complexa. O fato é que apresentar um teste e suas capacidades de forma "enganosa" é muito fácil. Ao contrário de achar terroristas - achar terroristas é extremamente difícil. Mas isso é problema do John.

Um comentário:

Anônimo disse...

Blog Excelente!
Achei por acaso, mas já está nos meus favoritos.

Continue escrevendo mais

abraços