Pre Loader

Oportunidades de mineração de dados da educação básica nas bases do MEC (1)

Em 2007 foi lançado o Plano de Desenvolvimento da Educação (PDE), definindo uma série de metas para a educação básica. O Censo Escolar da Educação Básica, realizado anualmente, é um dos mecanismos que propiciam o acompanhamento das metas definidas pelo PDE. Além do censo, periodicamente são realizadas avaliações em nível nacional (SAEB – Sistema de Avaliação do Ensino Básico – e Prova Brasil) em larga escala, que objetivam avaliar a qualidade do ensino oferecido pelo sistema educacional brasileiro a partir da aplicação de testes padronizados e questionários. Nos testes, os estudantes respondem a questões de Língua Portuguesa, Matemática, Ciências Humanas e Ciências da Natureza.

Os questionários aplicados aos estudantes servem como instrumentos de coleta de informações sobre aspectos da vida escolar, nível socioeconômico, capital social e cultural dos alunos. Os questionários aplicados aos professores das séries avaliadas e aos diretores das escolas, por sua vez, possibilitam conhecer a formação profissional, práticas pedagógicas, nível socioeconômico e cultural, estilos de liderança e formas de gestão. Na mesma ocasião, os aplicadores dos testes preenchem um formulário sobre a escola indicando as condições de infraestrutura, segurança e os recursos pedagógicos disponíveis.

Todas estas informações são armazenadas em uma ampla base de dados disponibilizada pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP). Apesar das bases de dados do INEP consistirem importante fonte de informação, muitas vezes não são exploradas em todo o seu potencial, devido às dificuldades inerentes ao grande volume de dados envolvido, que inviabilizam a capacidade humana em sua interpretação. Nesse sentido, mais uma vez a ciência de dados pode se apresentar para apoiar a geração de informações que auxiliem a definição de ações voltadas à melhoria dos resultados do processo ensino-aprendizagem.

Desde 2011 venho coordenando alguns projetos nessa temática. O primeiro deles consistiu na criação de um Data Warehouse que reuniu dados dos alunos, professores, escolas e seus diretores, permitindo a geração de relatórios que relacionavam indicadores socioeconômicos, condições de infraestrutura, práticas pedagógicas e de gestão, com os resultados dos alunos nos testes de Língua Portuguesa. Depoimentos dos educadores que trabalharam nesse projeto indicaram, como grande diferencial dessa ferramenta, a integração de cerca de 300 diferentes perguntas em um sistema de apoio à decisão. Esse sistema permitiu a geração de centenas de relatórios analíticos de forma interativa, a partir de simples cliques de mouse, selecionando as perguntas desejadas entre os diferentes questionários, e visualizando em que grau as diferentes respostas implicavam nos resultados de aprendizagem dos alunos. Imagine poder identificar, por exemplo, qual tempo de experiência do professor, ou qual sua carga horária de dedicação semanal, ou qual tipo de atividade de leitura é exercida em suas aulas, e, a partir daí, identificar em quais contextos os resultados de seus alunos são melhores? Aqui eu citei 3 perguntas apenas, mas imagine poder fazer isso com mais de 300, envolvendo não somente docentes, mas também alunos, diretores e escolas? Mais detalhes sobre esse trabalho são apresentados no livro “Um caleidoscópio do Ensino de Língua Portuguesa” e em artigos publicados em congressos e revistas na área de educação.

Outra abordagem que venho utilizando, nesse caso com foco no ensino de Matemática, consiste na aplicação de modelos de Machine Learning para identificar tendências relacionadas a resultados positivos ou negativos no processo ensino-aprendizagem. Cabe ressaltar, assim como já abordei em outros artigos, que grande parte do tempo investido para a obtenção dos resultados dos modelos se concentrou no entendimento e no tratamento dos dados das bases do INEP, identificando inconsistências, integrando dados, enfim, construindo um armazém de dados e permitindo a preparação dos dados de entrada para os modelos computacionais utilizados. Em relação aos modelos, a ideia sempre foi utilizar diferentes modelos descritivos/preditivos e compará-los, de modo a identificar o mais preciso. Outra ação fundamental foi interpretar os resultados obtidos, fazendo conexões com a experiência prática em sala de aula e com outras pesquisas desenvolvidas sobre o processo de ensino e aprendizagem.

Deixarei para comentar sobre alguns resultados encontrados por esses modelos em meu próximo artigo. Até lá!!