Comentei em publicação recente que definir estratégias na área de ciência de dados, partindo de questões relacionadas à limpeza e tratamento de dados até à definição dos modelos de machine (ou deep) learning, é tarefa essencial para o sucesso de sua iniciativa. Nesse sentido, compartilho aqui, de forma bem resumida, minha experiência na coordenação de um projeto de pesquisa ligado ao diagnóstico de pacientes com suspeita clínica de demência.
Nesse projeto foram utilizados dados de pacientes atendidos pelo Centro de Alzheimer e Parkinson (CDAP) em Campos dos Goytacazes/RJ. Evidentemente, como em qualquer iniciativa em ciência de dados, o estudo e entendimento do domínio do problema foi fundamental. Nesse sentido, trabalhamos diretamente com médicos do CDAP que esclareceram as diferentes questões relacionadas ao diagnóstico de demência. Foi necessário entender os diversos testes cognitivos realizados com os pacientes e suas faixas de pontuação, assim como as diferentes informações coletadas relacionadas à saúde dos envolvidos.
A partir do entendimento da temática, o primeiro passo foi avaliar as tarefas de preparação dos dados, envolvendo seleção, limpeza, integração, transformação, redução e categorização dos dados. É importante ressaltar que grande parte do tempo gasto na criação de modelos preditivos se concentra no tratamento de dados. Alguns acreditam que o mais importante é se concentrar diretamente na construção de um modelo preditivo. Ledo engano! Pela minha experiência, diria que, dependendo do problema, 40 a 50 por cento do esforço envolvido se localiza na preparação dos dados. Afinal, dados mal ajustados gerarão um modelo ruim. E essa linha de pensamento certamente deverá fazer parte de sua estratégia.
Detalhar as tarefas de preparação de dados geraria um artigo enorme, por isso citarei apenas as questões principais que tiveram que ser trabalhadas. Em primeiro lugar, o conjunto de dados sofria de dois grandes problemas: (1) o quantitativo pequeno de registros para determinadas doenças e (2) muitos registros de saúde possuíam campos que não estavam devidamente preenchidos. Assim, uma decisão relevante foi optar por trabalhar apenas com 4 tipos de diagnósticos demências (Doença de Alzheimer – DA, Transtorno cognitivo leve – TCL, Demência vascular – DV e Demência mista – DM) dentre um cenário envolvendo 9 diferentes tipos de demências. Essa escolha se deveu à análise da qualidade e quantidade dos dados para cada uma das demências. Decisões como essa, logo no início do processo, podem poupar decepções futuras relacionadas à não obtenção de resultados relevantes e, claro, trabalho desnecessário.
Além dessa importante decisão ligada à preparação dos dados, diversas outras ações foram realizadas, como a categorização de alguns atributos, aplicada especialmente para a transformação das pontuações, obtidas nos testes cognitivos, em categorias de resultados (ex.: muito ruim, ruim, regular, bom, muito bom), e a complementação de dados faltantes em alguns atributos da base. Nesse último caso, técnicas de machine learning foram utilizadas.
Vale mencionar também que, dada a significativa diferença nos quantitativos de diagnósticos de demências existentes na base de dados do CDAP (situação conhecida como desbalanceamento de classes), essa condição poderia gerar modelos preditivos pouco robustos sob o ponto de vista estatístico. Nesse sentido, para as patologias TCL, DM e DV, que possuíam número reduzido de registros na base de dados, aplicou-se uma técnica, denominada SMOTE (Synthetic Minority Oversampling TEchnique), para adicionar registros (sintéticos) visando tornar os conjuntos de treinamento uniformemente distribuídos. Essa estratégia pode aprimorar bastante a eficácia dos modelos.
Uma vez terminada a fase de preparação dos dados, passou-se a analisar as estratégias relacionadas à criação dos modelos computacionais propriamente ditos, visando à elaboração de diagnósticos a partir da identificação de padrões na base de dados. Aqui, a estratégia foi utilizar uma abordagem híbrida, aplicando processamento de linguagem natural e aprendizagem não supervisionada, em conjunto com métodos de classificação (aprendizagem supervisionada). Mas contarei essa história com mais detalhes em minha próxima publicação. Até lá!

Anderson Namen é cofundador e cientista de dados da Digital Innovation Consulting Group, empresa focada em ajudar outras empresas a habilitar o digital como um importante impulsionador de negócios em vários setores da economia. Doutor em Engenharia de Sistemas e Computação pela COPPE/UFRJ, possui experiência de mais de 30 anos, tendo liderado projetos inovadores em diferentes organizações. Seu foco se concentra primordialmente em projetos englobando ciência de dados e sistemas de suporte à decisão. Atua também como professor de graduação e programas de pós-graduação na Universidade do Estado do Rio de Janeiro e na Universidade Veiga de Almeida.
Desenvolve há mais de 10 anos projetos ligados ao meio ambiente, envolvendo a análise da biodiversidade e suas relações com o clima, além da gestão e monitoramento de fauna. Na área de gestão de resíduos sólidos, teve projeto de rastreabilidade de resíduos perigosos selecionado entre os 3 melhores projetos ligados ao meio ambiente, sendo premiado no RFID Journal Green Awards, evento patrocinado pelo mais conhecido jornal focado em tecnologia RFID no mundo. Atualmente coordena projeto de aplicação de Inteligência Artificial para gestão de resíduos orgânicos, patrocinado pela Faperj, que envolve 8 diferentes organizações públicas e privadas, entre elas Embrapa, UFF, UERJ e Universidade Veiga de Almeida.
Liderou diversos projetos na área de educação, utilizando dados do INEP/MEC para previsão de resultados relacionados ao processo ensino-aprendizagem de estudantes do ensino básico. Também atou no planejamento e elaboração de currículos para o ensino superior e na criação de sistemas de apoio à decisão focados na experiência do aluno. Ainda na área de educação, liderou equipe transdisciplinar para criação de recursos de on-line focados nos diferentes estilos de aprendizagem dos estudantes, sendo agraciado com premiação pelo desenvolvimento de melhor disciplina on-line entre 15 diferentes instituições de ensino superior na América Latina.
Atuou durante 25 anos como diretor da empresa E3A Educação e Assessoria, tendo desenvolvido projetos de consultoria para empresas como Furnas Centrais Elétricas, Fundação Getúlio Vargas e Universidade Veiga de Almeida. Anteriormente, trabalhou nas empresas Mesbla Lojas de Departamentos e IBM Brasil, sendo reconhecido nessa última com 3 prêmios de contribuição significativa ao negócio.