Pre Loader

Estudo de caso: definindo estratégias para previsão do diagnóstico precoce de síndromes demenciais (2)

Em minha última publicação falei sobre as tarefas de preparação dos dados relacionados aos pacientes com suspeita clínica de demência atendidos pelo Centro de Alzheimer e Parkinson (CDAP) em Campos dos Goytacazes/RJ, passo anterior à criação do modelo visando à previsão do diagnóstico de tipo de demência. Uma vez concluída a preparação dos dados, surge o momento de refletir sobre as estratégias para construção do modelo preditivo.
Uma opção óbvia seria criar um modelo que considerasse as variáveis ligadas ao perfil dos pacientes (resultados dos testes cognitivos, além de dados como existência de diabete, pressão alta, hábitos de fumante, nível de formação educacional, entre outras informações). A partir dessas variáveis, seria criado um modelo computacional visando diagnosticar a demência de cada paciente. Esse caminho se refere à criação de um modelo preditivo baseado em dados estruturados. No caso do CDAP, havia ainda outros dados relevantes, que consistiam em anotações dos médicos (em texto livre) em um campo chamado Histórico Pregresso do Paciente (HPP). Como mencionado, se tratavam de textos preenchidos livremente, sendo considerados dados não estruturados no que tange à aplicação de machine learning.
Considerando essa situação, definiu-se a estratégia de considerar, além dos dados estruturados referentes ao paciente, a inserção dos dados não estruturados referentes ao HPP, uma vez que possuíam uma informação rica, que não deveria ser desprezada. Para isso, a estratégia foi, em um primeiro momento, trabalhar com técnicas de Processamento de Linguagem Natural (PLN) para agrupar os dados de HPP a partir da similaridade entre as informações preenchidas pelos médicos para os diferentes pacientes. Assim, pacientes que tivessem nível alto de similaridade em termos de termos/expressões nos textos dos HPPs, seriam reunidos em grupos idênticos. Essa ação consiste no que chamamos de aprendizagem não supervisionada, uma vez que o modelo computacional agrupa os dados, sem se basear em exemplos prévios para a tomada de decisão.
O agrupamento dos dados de HPP deu origem a um novo atributo, indicando o grupo ao qual aquele registro (paciente) que continha o HPP pertencia. Essa estratégia permitiu que o HPP (dado não estruturado) pudesse ser transformado em um novo atributo estruturado, indicador do grupo ao qual o HPP pertencia. Lembram-se que falei lá atrás que uma opção óbvia seria criar um modelo preditivo que considerasse as variáveis estruturadas relacionadas ao perfil do paciente? Agora, além dessas variáveis, uma nova variável estruturada foi incluída no modelo, resultante do uso de técnicas de PLN e aprendizagem supervisionada sobre um atributo não estruturado (o que pode ser considerada uma ação de mineração de textos).
Uma vez tendo todos esses atributos reunidos, bastou criar um modelo preditivo que elaborava o diagnóstico de demência a partir do aprendizado supervisionado, ou seja, o modelo aprendia a partir dos dados já existentes na base, analisando as variáveis mencionadas e como elas influenciavam o diagnóstico de demência dos pacientes do CDAP. Vale dizer que testamos os resultados de modelos gerados com e sem o uso da nova variável estruturada que agrupava os dados do HPP. E os modelos que consideravam o HPP se mostraram muito mais precisos!! Estes resultados foram publicados na revista Computer Methods and Programs in Biomedicine.
Enfim, utilizou-se uma estratégia que aplicou uma abordagem inovadora, considerando o uso de dados estruturados em conjunto com dados não estruturados para a criação de um modelo preditivo. Esse tipo de abordagem também pode ser usado para integrar dados estruturados a outros tipos de dados não estruturados, como imagens, áudios, entre outros.
Enfim, fundamental é refletir e definir estratégias que possam gerar resultados mais ricos e robustos. No próximo artigo falarei sobre um trabalho inovador realizado para a previsão de eventos extremos de chuvas. Até lá!