Em 2007 foi lançado o Plano de Desenvolvimento da Educação (PDE), definindo uma série de metas para a educação básica. O Censo Escolar da Educação Básica, realizado anualmente, é um dos mecanismos que propiciam o acompanhamento das metas definidas pelo PDE. Além do censo, periodicamente são realizadas avaliações em nível nacional (SAEB – Sistema de Avaliação do Ensino Básico – e Prova Brasil) em larga escala, que objetivam avaliar a qualidade do ensino oferecido pelo sistema educacional brasileiro a partir da aplicação de testes padronizados e questionários. Nos testes, os estudantes respondem a questões de Língua Portuguesa, Matemática, Ciências Humanas e Ciências da Natureza.
Os questionários aplicados aos estudantes servem como instrumentos de coleta de informações sobre aspectos da vida escolar, nível socioeconômico, capital social e cultural dos alunos. Os questionários aplicados aos professores das séries avaliadas e aos diretores das escolas, por sua vez, possibilitam conhecer a formação profissional, práticas pedagógicas, nível socioeconômico e cultural, estilos de liderança e formas de gestão. Na mesma ocasião, os aplicadores dos testes preenchem um formulário sobre a escola indicando as condições de infraestrutura, segurança e os recursos pedagógicos disponíveis.
Todas estas informações são armazenadas em uma ampla base de dados disponibilizada pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP). Apesar das bases de dados do INEP consistirem importante fonte de informação, muitas vezes não são exploradas em todo o seu potencial, devido às dificuldades inerentes ao grande volume de dados envolvido, que inviabilizam a capacidade humana em sua interpretação. Nesse sentido, mais uma vez a ciência de dados pode se apresentar para apoiar a geração de informações que auxiliem a definição de ações voltadas à melhoria dos resultados do processo ensino-aprendizagem.
Desde 2011 venho coordenando alguns projetos nessa temática. O primeiro deles consistiu na criação de um Data Warehouse que reuniu dados dos alunos, professores, escolas e seus diretores, permitindo a geração de relatórios que relacionavam indicadores socioeconômicos, condições de infraestrutura, práticas pedagógicas e de gestão, com os resultados dos alunos nos testes de Língua Portuguesa. Depoimentos dos educadores que trabalharam nesse projeto indicaram, como grande diferencial dessa ferramenta, a integração de cerca de 300 diferentes perguntas em um sistema de apoio à decisão. Esse sistema permitiu a geração de centenas de relatórios analíticos de forma interativa, a partir de simples cliques de mouse, selecionando as perguntas desejadas entre os diferentes questionários, e visualizando em que grau as diferentes respostas implicavam nos resultados de aprendizagem dos alunos. Imagine poder identificar, por exemplo, qual tempo de experiência do professor, ou qual sua carga horária de dedicação semanal, ou qual tipo de atividade de leitura é exercida em suas aulas, e, a partir daí, identificar em quais contextos os resultados de seus alunos são melhores? Aqui eu citei 3 perguntas apenas, mas imagine poder fazer isso com mais de 300, envolvendo não somente docentes, mas também alunos, diretores e escolas? Mais detalhes sobre esse trabalho são apresentados no livro “Um caleidoscópio do Ensino de Língua Portuguesa” e em artigos publicados em congressos e revistas na área de educação.
Outra abordagem que venho utilizando, nesse caso com foco no ensino de Matemática, consiste na aplicação de modelos de Machine Learning para identificar tendências relacionadas a resultados positivos ou negativos no processo ensino-aprendizagem. Cabe ressaltar, assim como já abordei em outros artigos, que grande parte do tempo investido para a obtenção dos resultados dos modelos se concentrou no entendimento e no tratamento dos dados das bases do INEP, identificando inconsistências, integrando dados, enfim, construindo um armazém de dados e permitindo a preparação dos dados de entrada para os modelos computacionais utilizados. Em relação aos modelos, a ideia sempre foi utilizar diferentes modelos descritivos/preditivos e compará-los, de modo a identificar o mais preciso. Outra ação fundamental foi interpretar os resultados obtidos, fazendo conexões com a experiência prática em sala de aula e com outras pesquisas desenvolvidas sobre o processo de ensino e aprendizagem.
Deixarei para comentar sobre alguns resultados encontrados por esses modelos em meu próximo artigo. Até lá!!

Anderson Namen é cofundador e cientista de dados da Digital Innovation Consulting Group, empresa focada em ajudar outras empresas a habilitar o digital como um importante impulsionador de negócios em vários setores da economia. Doutor em Engenharia de Sistemas e Computação pela COPPE/UFRJ, possui experiência de mais de 30 anos, tendo liderado projetos inovadores em diferentes organizações. Seu foco se concentra primordialmente em projetos englobando ciência de dados e sistemas de suporte à decisão. Atua também como professor de graduação e programas de pós-graduação na Universidade do Estado do Rio de Janeiro e na Universidade Veiga de Almeida.
Desenvolve há mais de 10 anos projetos ligados ao meio ambiente, envolvendo a análise da biodiversidade e suas relações com o clima, além da gestão e monitoramento de fauna. Na área de gestão de resíduos sólidos, teve projeto de rastreabilidade de resíduos perigosos selecionado entre os 3 melhores projetos ligados ao meio ambiente, sendo premiado no RFID Journal Green Awards, evento patrocinado pelo mais conhecido jornal focado em tecnologia RFID no mundo. Atualmente coordena projeto de aplicação de Inteligência Artificial para gestão de resíduos orgânicos, patrocinado pela Faperj, que envolve 8 diferentes organizações públicas e privadas, entre elas Embrapa, UFF, UERJ e Universidade Veiga de Almeida.
Liderou diversos projetos na área de educação, utilizando dados do INEP/MEC para previsão de resultados relacionados ao processo ensino-aprendizagem de estudantes do ensino básico. Também atou no planejamento e elaboração de currículos para o ensino superior e na criação de sistemas de apoio à decisão focados na experiência do aluno. Ainda na área de educação, liderou equipe transdisciplinar para criação de recursos de on-line focados nos diferentes estilos de aprendizagem dos estudantes, sendo agraciado com premiação pelo desenvolvimento de melhor disciplina on-line entre 15 diferentes instituições de ensino superior na América Latina.
Atuou durante 25 anos como diretor da empresa E3A Educação e Assessoria, tendo desenvolvido projetos de consultoria para empresas como Furnas Centrais Elétricas, Fundação Getúlio Vargas e Universidade Veiga de Almeida. Anteriormente, trabalhou nas empresas Mesbla Lojas de Departamentos e IBM Brasil, sendo reconhecido nessa última com 3 prêmios de contribuição significativa ao negócio.