Pre Loader

Estudo de caso: definindo estratégias para previsão do diagnóstico precoce de síndromes demenciais (1)

Comentei em publicação recente que definir estratégias na área de ciência de dados, partindo de questões relacionadas à limpeza e tratamento de dados até à definição dos modelos de machine (ou deep) learning, é tarefa essencial para o sucesso de sua iniciativa. Nesse sentido, compartilho aqui, de forma bem resumida, minha experiência na coordenação de um projeto de pesquisa ligado ao diagnóstico de pacientes com suspeita clínica de demência.

Nesse projeto foram utilizados dados de pacientes atendidos pelo Centro de Alzheimer e Parkinson (CDAP) em Campos dos Goytacazes/RJ. Evidentemente, como em qualquer iniciativa em ciência de dados, o estudo e entendimento do domínio do problema foi fundamental. Nesse sentido, trabalhamos diretamente com médicos do CDAP que esclareceram as diferentes questões relacionadas ao diagnóstico de demência. Foi necessário entender os diversos testes cognitivos realizados com os pacientes e suas faixas de pontuação, assim como as diferentes informações coletadas relacionadas à saúde dos envolvidos.

A partir do entendimento da temática, o primeiro passo foi avaliar as tarefas de preparação dos dados, envolvendo seleção, limpeza, integração, transformação, redução e categorização dos dados. É importante ressaltar que grande parte do tempo gasto na criação de modelos preditivos se concentra no tratamento de dados. Alguns acreditam que o mais importante é se concentrar diretamente na construção de um modelo preditivo. Ledo engano! Pela minha experiência, diria que, dependendo do problema, 40 a 50 por cento do esforço envolvido se localiza na preparação dos dados. Afinal, dados mal ajustados gerarão um modelo ruim. E essa linha de pensamento certamente deverá fazer parte de sua estratégia.

Detalhar as tarefas de preparação de dados geraria um artigo enorme, por isso citarei apenas as questões principais que tiveram que ser trabalhadas. Em primeiro lugar, o conjunto de dados sofria de dois grandes problemas: (1) o quantitativo pequeno de registros para determinadas doenças e (2) muitos registros de saúde possuíam campos que não estavam devidamente preenchidos. Assim, uma decisão relevante foi optar por trabalhar apenas com 4 tipos de diagnósticos demências (Doença de Alzheimer – DA, Transtorno cognitivo leve – TCL, Demência vascular – DV e Demência mista – DM) dentre um cenário envolvendo 9 diferentes tipos de demências. Essa escolha se deveu à análise da qualidade e quantidade dos dados para cada uma das demências. Decisões como essa, logo no início do processo, podem poupar decepções futuras relacionadas à não obtenção de resultados relevantes e, claro, trabalho desnecessário.

Além dessa importante decisão ligada à preparação dos dados, diversas outras ações foram realizadas, como a categorização de alguns atributos, aplicada especialmente para a transformação das pontuações, obtidas nos testes cognitivos, em categorias de resultados (ex.: muito ruim, ruim, regular, bom, muito bom), e a complementação de dados faltantes em alguns atributos da base. Nesse último caso, técnicas de machine learning foram utilizadas.

Vale mencionar também que, dada a significativa diferença nos quantitativos de diagnósticos de demências existentes na base de dados do CDAP (situação conhecida como desbalanceamento de classes), essa condição poderia gerar modelos preditivos pouco robustos sob o ponto de vista estatístico. Nesse sentido, para as patologias TCL, DM e DV, que possuíam número reduzido de registros na base de dados, aplicou-se uma técnica, denominada SMOTE (Synthetic Minority Oversampling TEchnique), para adicionar registros (sintéticos) visando tornar os conjuntos de treinamento uniformemente distribuídos. Essa estratégia pode aprimorar bastante a eficácia dos modelos.

Uma vez terminada a fase de preparação dos dados, passou-se a analisar as estratégias relacionadas à criação dos modelos computacionais propriamente ditos, visando à elaboração de diagnósticos a partir da identificação de padrões na base de dados. Aqui, a estratégia foi utilizar uma abordagem híbrida, aplicando processamento de linguagem natural e aprendizagem não supervisionada, em conjunto com métodos de classificação (aprendizagem supervisionada). Mas contarei essa história com mais detalhes em minha próxima publicação. Até lá!