Em minha última publicação falei sobre as tarefas de preparação dos dados relacionados aos pacientes com suspeita clínica de demência atendidos pelo Centro de Alzheimer e Parkinson (CDAP) em Campos dos Goytacazes/RJ, passo anterior à criação do modelo visando à previsão do diagnóstico de tipo de demência. Uma vez concluída a preparação dos dados, surge o momento de refletir sobre as estratégias para construção do modelo preditivo.
Uma opção óbvia seria criar um modelo que considerasse as variáveis ligadas ao perfil dos pacientes (resultados dos testes cognitivos, além de dados como existência de diabete, pressão alta, hábitos de fumante, nível de formação educacional, entre outras informações). A partir dessas variáveis, seria criado um modelo computacional visando diagnosticar a demência de cada paciente. Esse caminho se refere à criação de um modelo preditivo baseado em dados estruturados. No caso do CDAP, havia ainda outros dados relevantes, que consistiam em anotações dos médicos (em texto livre) em um campo chamado Histórico Pregresso do Paciente (HPP). Como mencionado, se tratavam de textos preenchidos livremente, sendo considerados dados não estruturados no que tange à aplicação de machine learning.
Considerando essa situação, definiu-se a estratégia de considerar, além dos dados estruturados referentes ao paciente, a inserção dos dados não estruturados referentes ao HPP, uma vez que possuíam uma informação rica, que não deveria ser desprezada. Para isso, a estratégia foi, em um primeiro momento, trabalhar com técnicas de Processamento de Linguagem Natural (PLN) para agrupar os dados de HPP a partir da similaridade entre as informações preenchidas pelos médicos para os diferentes pacientes. Assim, pacientes que tivessem nível alto de similaridade em termos de termos/expressões nos textos dos HPPs, seriam reunidos em grupos idênticos. Essa ação consiste no que chamamos de aprendizagem não supervisionada, uma vez que o modelo computacional agrupa os dados, sem se basear em exemplos prévios para a tomada de decisão.
O agrupamento dos dados de HPP deu origem a um novo atributo, indicando o grupo ao qual aquele registro (paciente) que continha o HPP pertencia. Essa estratégia permitiu que o HPP (dado não estruturado) pudesse ser transformado em um novo atributo estruturado, indicador do grupo ao qual o HPP pertencia. Lembram-se que falei lá atrás que uma opção óbvia seria criar um modelo preditivo que considerasse as variáveis estruturadas relacionadas ao perfil do paciente? Agora, além dessas variáveis, uma nova variável estruturada foi incluída no modelo, resultante do uso de técnicas de PLN e aprendizagem supervisionada sobre um atributo não estruturado (o que pode ser considerada uma ação de mineração de textos).
Uma vez tendo todos esses atributos reunidos, bastou criar um modelo preditivo que elaborava o diagnóstico de demência a partir do aprendizado supervisionado, ou seja, o modelo aprendia a partir dos dados já existentes na base, analisando as variáveis mencionadas e como elas influenciavam o diagnóstico de demência dos pacientes do CDAP. Vale dizer que testamos os resultados de modelos gerados com e sem o uso da nova variável estruturada que agrupava os dados do HPP. E os modelos que consideravam o HPP se mostraram muito mais precisos!! Estes resultados foram publicados na revista Computer Methods and Programs in Biomedicine.
Enfim, utilizou-se uma estratégia que aplicou uma abordagem inovadora, considerando o uso de dados estruturados em conjunto com dados não estruturados para a criação de um modelo preditivo. Esse tipo de abordagem também pode ser usado para integrar dados estruturados a outros tipos de dados não estruturados, como imagens, áudios, entre outros.
Enfim, fundamental é refletir e definir estratégias que possam gerar resultados mais ricos e robustos. No próximo artigo falarei sobre um trabalho inovador realizado para a previsão de eventos extremos de chuvas. Até lá!

Anderson Namen é cofundador e cientista de dados da Digital Innovation Consulting Group, empresa focada em ajudar outras empresas a habilitar o digital como um importante impulsionador de negócios em vários setores da economia. Doutor em Engenharia de Sistemas e Computação pela COPPE/UFRJ, possui experiência de mais de 30 anos, tendo liderado projetos inovadores em diferentes organizações. Seu foco se concentra primordialmente em projetos englobando ciência de dados e sistemas de suporte à decisão. Atua também como professor de graduação e programas de pós-graduação na Universidade do Estado do Rio de Janeiro e na Universidade Veiga de Almeida.
Desenvolve há mais de 10 anos projetos ligados ao meio ambiente, envolvendo a análise da biodiversidade e suas relações com o clima, além da gestão e monitoramento de fauna. Na área de gestão de resíduos sólidos, teve projeto de rastreabilidade de resíduos perigosos selecionado entre os 3 melhores projetos ligados ao meio ambiente, sendo premiado no RFID Journal Green Awards, evento patrocinado pelo mais conhecido jornal focado em tecnologia RFID no mundo. Atualmente coordena projeto de aplicação de Inteligência Artificial para gestão de resíduos orgânicos, patrocinado pela Faperj, que envolve 8 diferentes organizações públicas e privadas, entre elas Embrapa, UFF, UERJ e Universidade Veiga de Almeida.
Liderou diversos projetos na área de educação, utilizando dados do INEP/MEC para previsão de resultados relacionados ao processo ensino-aprendizagem de estudantes do ensino básico. Também atou no planejamento e elaboração de currículos para o ensino superior e na criação de sistemas de apoio à decisão focados na experiência do aluno. Ainda na área de educação, liderou equipe transdisciplinar para criação de recursos de on-line focados nos diferentes estilos de aprendizagem dos estudantes, sendo agraciado com premiação pelo desenvolvimento de melhor disciplina on-line entre 15 diferentes instituições de ensino superior na América Latina.
Atuou durante 25 anos como diretor da empresa E3A Educação e Assessoria, tendo desenvolvido projetos de consultoria para empresas como Furnas Centrais Elétricas, Fundação Getúlio Vargas e Universidade Veiga de Almeida. Anteriormente, trabalhou nas empresas Mesbla Lojas de Departamentos e IBM Brasil, sendo reconhecido nessa última com 3 prêmios de contribuição significativa ao negócio.