Pre Loader

A importância do planejamento de estratégias de ações na área de ciência de dados

Trabalhando há cerca de 15 anos com ciência de dados, posso afirmar com absoluta certeza que definir estratégias para aplicação de técnicas ligadas à temática – desde os mecanismos de limpeza e tratamento de dados, passando pela construção de data warehouses, até a definição dos modelos de machine (ou deep) learning que serão utilizados – é essencial para o sucesso de sua investida em qualquer domínio de problema.

Isso não significa que a estratégia inicial pensada trará sempre resultados efetivos. Às vezes uma determinada escolha pode não levar à obtenção de padrões ou tendências relevantes em sua base de dados. Na realidade, ao se pensar no caminho para a solução de um problema, você deve ter em mente diferentes opções/caminhos, ou seja, um plano B ou mesmo um plano C, planos esses que podem envolver também parte das ações definidas em seu plano A.

E o que é preciso para a definição desses diferentes caminhos? Primeiro, a sua experiência com o assunto é fundamental. Erros e acertos em projetos passados certamente formam um alicerce importante para a identificação das possíveis abordagens a serem utilizadas, das suas oportunidades, além dos riscos envolvidos. Em segundo lugar, é necessária a realização de uma análise e reflexão profunda sobre as diversas variáveis envolvidas no problema. Nesse sentido, diversas questões devem ser levantadas e respondidas: Quais fontes de dados devem ser usadas, pensando também em fontes adicionais às sugeridas inicialmente pelo seu cliente? Como integrar as diferentes fontes? Onde poderiam ser encontradas inconsistências nos dados? Como corrigir estas inconsistências? O problema permite a aplicação de algoritmos de aprendizagem supervisionada? Haveria oportunidades interessantes de aplicação da aprendizagem não supervisionada? As classes trabalhadas na abordagem de aprendizagem supervisionada estão desbalanceadas? Qual ação usar para balanceá-las? O volume de dados permitiria a aplicação de modelos de deep learning? Quais algoritmos poderiam ser aplicados e comparados visando identificar o de maior precisão?

Essas são algumas das inúmeras questões a serem avaliadas e respondidas. Uma vez as respondendo, e definindo os caminhos a serem seguidos, o próximo passo é implementar as ações previstas e avaliar os resultados obtidos. Trata-se de um processo interativo e cíclico, ou seja, implementam-se as ações, avaliam-se os resultados, efetuam-se os ajustes e reinicia-se o ciclo. Dentro desse processo, e dependendo dos resultados, pode-se partir para uma opção B ou C, conforme mencionado anteriormente. Nesse caso, as interações seguirão até que se encontrem resultados satisfatórios.

Meus próximos posts apresentarão alguns estudos de casos e as estratégias utilizadas para obtenção de sucesso. Até lá!