Trabalhando há cerca de 15 anos com ciência de dados, posso afirmar com absoluta certeza que definir estratégias para aplicação de técnicas ligadas à temática – desde os mecanismos de limpeza e tratamento de dados, passando pela construção de data warehouses, até a definição dos modelos de machine (ou deep) learning que serão utilizados – é essencial para o sucesso de sua investida em qualquer domínio de problema.
Isso não significa que a estratégia inicial pensada trará sempre resultados efetivos. Às vezes uma determinada escolha pode não levar à obtenção de padrões ou tendências relevantes em sua base de dados. Na realidade, ao se pensar no caminho para a solução de um problema, você deve ter em mente diferentes opções/caminhos, ou seja, um plano B ou mesmo um plano C, planos esses que podem envolver também parte das ações definidas em seu plano A.
E o que é preciso para a definição desses diferentes caminhos? Primeiro, a sua experiência com o assunto é fundamental. Erros e acertos em projetos passados certamente formam um alicerce importante para a identificação das possíveis abordagens a serem utilizadas, das suas oportunidades, além dos riscos envolvidos. Em segundo lugar, é necessária a realização de uma análise e reflexão profunda sobre as diversas variáveis envolvidas no problema. Nesse sentido, diversas questões devem ser levantadas e respondidas: Quais fontes de dados devem ser usadas, pensando também em fontes adicionais às sugeridas inicialmente pelo seu cliente? Como integrar as diferentes fontes? Onde poderiam ser encontradas inconsistências nos dados? Como corrigir estas inconsistências? O problema permite a aplicação de algoritmos de aprendizagem supervisionada? Haveria oportunidades interessantes de aplicação da aprendizagem não supervisionada? As classes trabalhadas na abordagem de aprendizagem supervisionada estão desbalanceadas? Qual ação usar para balanceá-las? O volume de dados permitiria a aplicação de modelos de deep learning? Quais algoritmos poderiam ser aplicados e comparados visando identificar o de maior precisão?
Essas são algumas das inúmeras questões a serem avaliadas e respondidas. Uma vez as respondendo, e definindo os caminhos a serem seguidos, o próximo passo é implementar as ações previstas e avaliar os resultados obtidos. Trata-se de um processo interativo e cíclico, ou seja, implementam-se as ações, avaliam-se os resultados, efetuam-se os ajustes e reinicia-se o ciclo. Dentro desse processo, e dependendo dos resultados, pode-se partir para uma opção B ou C, conforme mencionado anteriormente. Nesse caso, as interações seguirão até que se encontrem resultados satisfatórios.
Meus próximos posts apresentarão alguns estudos de casos e as estratégias utilizadas para obtenção de sucesso. Até lá!

Anderson Namen é cofundador e cientista de dados da Digital Innovation Consulting Group, empresa focada em ajudar outras empresas a habilitar o digital como um importante impulsionador de negócios em vários setores da economia. Doutor em Engenharia de Sistemas e Computação pela COPPE/UFRJ, possui experiência de mais de 30 anos, tendo liderado projetos inovadores em diferentes organizações. Seu foco se concentra primordialmente em projetos englobando ciência de dados e sistemas de suporte à decisão. Atua também como professor de graduação e programas de pós-graduação na Universidade do Estado do Rio de Janeiro e na Universidade Veiga de Almeida.
Desenvolve há mais de 10 anos projetos ligados ao meio ambiente, envolvendo a análise da biodiversidade e suas relações com o clima, além da gestão e monitoramento de fauna. Na área de gestão de resíduos sólidos, teve projeto de rastreabilidade de resíduos perigosos selecionado entre os 3 melhores projetos ligados ao meio ambiente, sendo premiado no RFID Journal Green Awards, evento patrocinado pelo mais conhecido jornal focado em tecnologia RFID no mundo. Atualmente coordena projeto de aplicação de Inteligência Artificial para gestão de resíduos orgânicos, patrocinado pela Faperj, que envolve 8 diferentes organizações públicas e privadas, entre elas Embrapa, UFF, UERJ e Universidade Veiga de Almeida.
Liderou diversos projetos na área de educação, utilizando dados do INEP/MEC para previsão de resultados relacionados ao processo ensino-aprendizagem de estudantes do ensino básico. Também atou no planejamento e elaboração de currículos para o ensino superior e na criação de sistemas de apoio à decisão focados na experiência do aluno. Ainda na área de educação, liderou equipe transdisciplinar para criação de recursos de on-line focados nos diferentes estilos de aprendizagem dos estudantes, sendo agraciado com premiação pelo desenvolvimento de melhor disciplina on-line entre 15 diferentes instituições de ensino superior na América Latina.
Atuou durante 25 anos como diretor da empresa E3A Educação e Assessoria, tendo desenvolvido projetos de consultoria para empresas como Furnas Centrais Elétricas, Fundação Getúlio Vargas e Universidade Veiga de Almeida. Anteriormente, trabalhou nas empresas Mesbla Lojas de Departamentos e IBM Brasil, sendo reconhecido nessa última com 3 prêmios de contribuição significativa ao negócio.