Relação do consumo de bebidas alcoólicas por estudantes dos cursos de matemática e português de duas escolas secundárias de Portugal com a média das notas

Carlos Eduardo Cassimiro da Silva



A educação é um fator chave para alcançar um progresso econômico de longo prazo. Nas últimas décadas, o nível educacional português melhorou. No entanto, as estatísticas mantêm Portugal na cauda da Europa devido ao alto índice de reprovação e evasão de alunos. Por exemplo, em 2006, a taxa de abandono escolar precoce em Portugal era de 40% para os jovens dos 18 aos 24 anos, enquanto o valor médio da União Europeia era de apenas 15% (Eurostat 2007). Em particular, a reprovação nas aulas básicas de Matemática e Português (língua nativa) é extremamente grave, pois fornecem conhecimentos fundamentais para o sucesso nas demais disciplinas escolares (por exemplo, física ou história) [1]. Dessa maneira, torna-se oportuno averiguar quais as causas e o perfil dos alunos que apresentam baixo rendimento na escola.

O conjunto de dados utilizado nesse estudo aborda o aproveitamento dos alunos do ensino secundário de duas escolas portuguesas. Os atributos de dados incluem notas dos alunos, características demográficas, sociais e relacionadas à escola) e foram coletados por meio de relatórios escolares e questionários. Com este estudo, espera-se responder as perguntas:
• A quantidade consumida de álcool tem alguma relação proporcional com o desempenho do aluno?
• Existe algum outro indicativo que interfere negativamente no desempenho do aluno?
• Existe algum indicativo que interfere positivamente no desempenho do aluno?

O consumo de álcool demasiado, principalmente entre os jovens de escolas secundárias, pode indicar a presença de outros problemas sociais e emocionais. Nessa análise, o consumo de álcool vai ser associado ao desempenho do aluno somente como um indicador, e não como um fator de implicação direta.

[1] P. Cortez and A. Silva. Using Data Mining to Predict Secondary School Student Performance. In A. Brito and J. Teixeira Eds., Proceedings of 5th FUture BUsiness TEChnology Conference (FUBUTEC 2008) pp. 5-12, Porto, Portugal, April, 2008, EUROSIS, ISBN 978-9077381-39-7.

Conjunto de dados

Atributos para os conjuntos de dados student-mat.csv (curso de matemática) e student-por.csv (curso de língua portuguesa):
1 school - escola do aluno (binário: 'GP' - Gabriel Pereira ou 'MS' - Mousinho da Silveira)
2 sex - sexo do aluno (binário: 'F' - feminino ou 'M' - masculino)
3 age - idade do aluno (numérico: de 15 a 22)
4 address - tipo de endereço residencial do aluno (binário: 'U' - urbano ou 'R' - rural)
5 famsize - tamanho da família (binário: 'LE3' - menor ou igual a 3 ou 'GT3' - maior que 3)
6 Pstatus - status de coabitação dos pais (binário: 'T' - vivendo juntos ou 'A' - separados)
7 Medu - escolaridade da mãe (numérico: 0 - nenhuma, 1 - ensino fundamental (4º ano), 2 - 5º ao 9º ano, 3 - ensino médio ou 4 - ensino superior)
8 Fedu - escolaridade do pai (numérico: 0 - nenhuma, 1 - ensino fundamental (4º ano), 2 - 5º ao 9º ano, 3 - ensino médio ou 4 - ensino superior)
9 Mjob - trabalho da mãe (nominal: 'professora', 'saúde' relacionado, 'serviços' civis (por exemplo, administrativo ou policial), 'em casa' ou 'outro')
10 Fjob - trabalho do pai (nominal: 'professor', 'saúde' relacionado, 'serviços' civis (por exemplo, administrativo ou policial), 'em
casa' ou 'outro')
11 reason - razão para escolher esta escola (nominal: perto de 'casa', 'reputação' da escola, preferência de 'curso' ou 'outra')
12 guardian - tutor do aluno (nominal: 'mãe', 'pai' ou 'outro')
13 traveltime - tempo de viagem de casa para a escola (numérico: 1 - <15 min., 2 - 15 a 30 min., 3 - 30 min. A 1 hora, ou 4 -> 1 hora)
14 studytime - tempo de estudo semanal (numérico: 1 - <2 horas, 2 - 2 a 5 horas, 3 - 5 a 10 horas ou 4 -> 10 horas)
15 failures - número de falhas de classe anteriores (numérico: n se 1 <= n <3, caso contrário, 4)
16 schoolup - suporte educacional extra (binário: sim ou não)
17 famsup - apoio educacional à família (binário: sim ou não)
18 paid - aulas extras pagas dentro da disciplina (Matemática ou Português) (binário: sim ou não)
19 activities - atividades extracurriculares (binárias: sim ou não)
20 nursey - frequentou a creche (binário: sim ou não)
21 higher - deseja cursar o ensino superior (binário: sim ou não)
22 internet - acesso à internet em casa (binário: sim ou não)
23 romantic - com um relacionamento romântico (binário: sim ou não)
24 famrel - qualidade das relações familiares (numérico: de 1 - muito ruim a 5 - excelente)
25 freetime - tempo livre depois da escola (numérico: de 1 - muito baixo a 5 - muito alto)
26 goout - sair com amigos (numérico: de 1 - muito baixo a 5 - muito alto)
27 Dalc - consumo de álcool durante o trabalho (numérico: de 1 - muito baixo a 5 - muito alto)
28 Walc - consumo de álcool no fim de semana (numérico: de 1 - muito baixo a 5 - muito alto)
29 health - estado de saúde atual (numérico: de 1 - muito ruim a 5 - muito bom)
30 absences - número de faltas escolares (numérico: de 0 a 93)
31 G1 - nota do primeiro período (numérico: de 0 a 20)
31 G2 - nota do segundo período (numérico: de 0 a 20)
32 G3 - nota final (numérico: de 0 a 20, meta de saída)

Nota: Não foi encontrada alguma referência sobre os valores da escala de consumo de álcool, se foi uma autoavaliação ou se teve alguma métrica. Seria interessante para análise saber também a quantidade de vezes que houve o consumo aos finais de semana e principalmente nos dias da semana, que pode ser interpretado como mal hábito e um possivel indicativo correlato com o desempenho escolar. Também não foi informado os dados coletados foram somente de estudantes que consomem álcool, ou se também foi feita com estudantes que não consomem e que o valor 1 na escala representa o não-consumo.

Link para a página do Kagle do conjunto de dados: https://www.kaggle.com/uciml/student-alcohol-consumption/code

Bibliotecas utilizadas

Exploração descritiva dos dados

Para poder, de alguma forma, generalizar a aprendizagem/aproveitamento anual do aluno, optei por criar mais uma coluna com a média das três notas, e não somente a última que é a mais importante para aprovação, onde as notas tendem a serem melhores para a aprovação.

Como nenhuma coluna apresentou dados faltantes, podemos prosseguir diretamente para a visualização dos dados.

Avaliando as descrições estatísticas dos atributos, é possivel notar que o consumo de álcool na durante a semana não é tanto comparado ao consumo durante os finais de semana, o que era esperado, mas considerando que a maioria dos estudantes tem entre 16 e 18 anos, o consumo precoce de álcool nessa proporção pode servir como um indicativo de correlação com outros fatores socioeconômicos ou emocionais dos adolecentes.
Sobre as notas, pelas médias e pelos quartis do G3, que é a nota mais importante para a aprovação do referido ano, podemos ver que a maioria dos estudantes consegue atingir pelo menos a nota 10, que é considerada como o mínimo suficiente para aprovação. Entretando, vendo o 2º quatil (50%) com valor de 11, podemos ver que praticamente metade dos estudantes atinge somente as notas notas consideradas como mínimas para a aprovovação, ou até menos que isso, como podemos ver no 1º quartil.
Outro dado que podemos ver avaliando a média das 3 notas, comparando o 1º da G3 e da média da notas (meanG), é que apesar no 1º quartil de G3 já apresentar como máximo a nota mínima para aprovação, quando vemos o mesmo quartil das médias, pode-se perceber que o valor está a baixo do valor mínimo de aprovação, ou seja, apesar dos alunos conseguirem atingir a uma nota mínima suficiente, na média os mesmos não estão tendo um aproveitamente equivalente no aprendizado.
Avaliando todas as médias (G1,G2,G3 e meanG), podemos que todas se encontram em torno do valor considerado suficinte (10-11) e com uma variância que apresenta uma certa desigualdade no aproveitamento das disciplinas.
As faltas (coluna absences) possuem uma variância maior que a média, dessa maneira, podemos ver que a maioria dos alunos possuem poucas faltas, mas que possuem alguns alunos que faltam muito.

• A quantidade consumida de álcool tem alguma relação proporcional com o desempenho do aluno?

Matriz de Correlação

Apesar de o consumo de álcool poder ter relação com outra variáveis categóricas e outros aspectos sociais e subjetivos, como também o desempenho do alunos, podemos iniciar a análise da relação avaliando a correlação dos atributos numéricos dos dados.

Avaliando a matriz, podemos ver que as variáveis mais correlacionadas são as das notas. Das notas, podemos ver que a variável mais correlacionada com as outras é a 'meanG', pois foi uma coluna criada apartir das outras notas, e entre elas, podemos ver que a menos correlacionada é primeira nota (G1) com a terceria (G3), que deve ser reflexo de um esforço maior ao final do ano para atingir uma nota para aprovação dos anos com notas menores da primeira nota.
O consumo de álcool nos finais de semana (Walc) possui uma correlação considerável com o consumo nos dias da semana (Dalc), refletindo em uma tendência, mas não é possível generalizar demais essa tendência pois, como mencionado anteriormente, não sabemos se o consumo de álcool na semana seria mais frequente ou em maior quantidade em uma sexta-feira ou distribuído entre os dias da semana.
Outa variável que apresenta uma correlação considerável é a escolaridade da mãe e do pai do aluno, mas para essa análise, tal correlação não apresenta muito significado. A piore, vemos que não há uma correlação direta entre consumo de álcool e as notas dos alunos, mas ainda podemos avaliar os gráficos de dispersão para averiguar alguma tendência a partir da relação.
Também foi tentado mudar as escalas das variáveis com o MinMaxScaler do sklearn.preprocessing, mas não houve mudanças drásticas nas correlações, então não mantive no relatório.

Consumo de Álcool e Média das Notas

Avaliando o gráfico de dispersão da relação entre o consumo de álcool nos finais de semana e as médias dos alunos, não há nada tão explícito, como esperado a partir da matriz de correlação. Entretanto, sendo mais minuncioso, é possível percerber que há uma certa tendência, pouco sútil, entre as maiores médias e a proporção do consumo de álcool, onde quanto maior o valor na escala de consumo menor tende a ser a média máxima do alunos. Também é possível ver que independente do consumo de álcool, a proporção de notas mínimas de português são menores do que das notas mínimas de matemática. A partir desse gráfico, não foi possível perceber relação do consumo de álcool com notas baixas.

Avaliando o gráfico de dispersão da relação entre o consumo de álcool nos dias de semana e as médias dos alunos, novamente, não há nada tão explícito, mas podemos ver de forma mais clara a tendência mencionada no gráfico anterior, onde quanto maior o consumo de álcool, menores tendem a ser expectativas das médias. Novamente, não vimos nenhuma tendência de notas ruins relacionadas ao consumo, somente uma proporção entre as médias máximas serem menores.

Crianção de um Score para o Consumo de Álcool

Vimos que o consumo de álcool nos dias da semana possuem maior representativade em relação ao desempenho, dessa maneira, foi pensada a criação de uma nova variável que relacione o consumo de álcool nos dias da semana com o consumo nos finais de semana, pois na prática as duas variáveis refletem no consumo total de álcool daquele aluno.
Essa nova coluna também foi pensada para poder possibilitar uma melhor visualização no gráfico de dispersão da relação do consumo de álcool com as médias, pois na escala padrão das variáveis só temos valores de 1 a 5, diminuindo o espaço de visualização da dispersão.
Como o consumo de álcool nos dias da semana mostrou-se ter maior representatividade na relação com as médias, e subjetivamente também podemos associar com um hábito não muito saudável, atribuí um peso maior na sua variável no cálculo de um score.

Avaliando o gráfico de disperção do escore de ácool com as médias, é possível verificar de forma mais clara a tendência percebida anteriormente, onde o consumo de álcool não reflete diretamente nas piores notas, mas quanto maior é o consumo de álcool dos alunos, menores podem ser as expectativas das suas médias.

• Existe algum outro indicativo que interfere negativamente no desempenho do aluno?

Faltas e Média de Notas

Analisando o gráfico de dispersão e de barras das faltas e da média das notas, podemos ver que existe uma espécie de correlação negativa entre as duas variáveis, onde quanto maior o número de faltas, menores tendem as ser as médias dos alunos. Entretanto, como podemos ver na gráfico de dispersão, não podemos generalizar em dizer que se trata de literalmente de uma correlação negativa, pois é possível ver que mesmo alunos com poucas faltas também tiram notas baixas.

Escore de Consumo de Álcool, Média de Notas e Faltas

Aproveitando que também notamos uma tendência na relação das faltas e das médias semelhante a tendência na relação do consumo de álcool e das médias, torna-se oportuno tentar visualizar alguma tendência entre as três instâncias. As faltas foram representadas pelo número das faltas, que foram elevadas à 1.5 (x^1.5) para dar um peso maior e melhor visualização em alguma tendência nos alunos mais faltosos.
Os gráficos para as duas turmas não apresentam alguma tendência explícita entre si. Entretanto, observando os dois separadamente, pode-se notar que, no curso de português, os alunos com um escore de álcool igual ou superior a 10 tendem a terem mais faltas, o que não se repete no curso de matemática, que possue uma certa concentração de alunos mais faltosos próximos nas notas de suficiência mínima. Em ambos os casos, não foi possível encontrar alguma tendência generalizada entre os alunos ou os dois cursos por essas três instâncias.

Relação Familiar e Médias

Avaliando o gráfico de dispersão da qualidade do relacionamento com a família e a média das notas, explicitamente não há nada sútil, mas pode-se reparar que existe uma certa tendência proporcional em acorco com o crescimento na escala (de famrel), em outras palavras, quanto melhor for a relação do aluno com a sua família, melhores podem as suas notas. Entretanto, não podemos generalizar essa observação para o desempenho geral dos alunos para a sua relação familiar, apenas que as maiores médias vão crescendo de acordo com a escala.

Status Civil dos Pais e Médias

Com o objetivo de avaliar a qualidade da relação familiar dos alunos com as médias, seguiu-se para avaliar se o status civil teria alguma influência com as notas ou o consumo de álcool dos estudantes, na perspetiva que o status civil tem relação com a estrutura familiar e a qualidade da relação familiar.
Analisando o gráfico de barras (Fig.11) que relaciona a média com o status civil dos pais dos alunos, podemos quer que não existe nenhum dado expressivo que indique alguma diferença, nem mesmo na variança e na moda das notas. No gráfico de dispersão (Fig.12), também não foi possível ver nenhuma tendência entre o consumo de álcool, as médias e o status civil dos pais.
É possível ver somente a mesma tendência já observada entre o consumo de álcool e as médias. Também é possível notar nos gráfico de estudantes com mais juntos existem médias maiores do que com os estudantes com pais separados, mas também há mais estudantes com médias menores. Acredito que isso se deve ao fato de que há mais estudantes com pais juntos do que com pais separados, aumentando as chances de aparecerem estudantes com notas melhores e com notas piores.

• Existe algum indicativo que interfere positivamente no desempenho do aluno?

Sair com os Amigos e Médias

Tempo Livre Fora da Escola e Médias

Para investigar se há algum indicador que interfere postivamente na média dos alunos, foi verificado se há alguma tendência entre as atividades fora da escola e a vida social(representada pela saída com os amigos) com as médias, pois oferecem mais oportunidades de socialiação e alívio de estresse do estudante. Entretanto, não foi possível notar alguma tendência entre essas variáveis e as médias maiores. A única oservação que pôde ser feita, foi que somente nos casos em que os estudantes encontram-se na escala 1 de ambas as váriaveis, as médias foram menores do que as médias dos alunos que socializavam mais e tinham atividades fora da escola, mas essa diferença não foi tão significativa.

Tempo de Estudo e Média

Avaliando o gráfico de dispersão do tempo de estudo com as médias, também não encontramos diferenças expressivas nas médias, mas é possível ver que os estudantes com 3 e 4 na escala tiraram médias maiores do que os outros estudantes que estudaram menos.

Relacionamento e notas

Na perspectiva de que relacionamentos amorosos também contribuem como um componente de socialização, e que assim podem trazer bem-estar e consequente disposição, foi avaliado o gráfico de dispersão do escore de álcool com a média de notas dos estudantes que namoram e os que não namoram, entretanto, não foi possível verificar alguma tendência relancionando essas variáveis. O que pode-se notar é que os estudantes que não namoram tiveram as maiores médias maiores que as maiores médias dos estudantes que namoram, mas isso se deve ao fato de que há mais alunos nesse grupo, logo a chances de ter pessoas com médias maiores é maior.

Conclusão

Com as análises das instâncias consideradas, foi possível verificar que não haviam variáveis diretamente relacionadas com o desempenho dos alunos das referidas escolas secundárias de portugal nos cursos de matemática e português, como previsto na análise da matriz de correlação das variáveis numéricas. Entretanto, ainda assim foi possível verificar algumas tedências que respodem as perguntas dimencionadas para a análise desse conjunto de dados.

• A quantidade consumida de álcool tem alguma relação proporcional com o desempenho do aluno?
A quantidade consumida de álcool não apresentou relação diretamente proporcional ao desempenho das médias, mas foi possível notar que quanto maior era o consumo de álcool dos estudantes, menor era a expectativa de médias mais altas.
Dentre as duas váriaveis de consumo de álcool, a que apresentou mais significânica para esse achado foi a variável de consumo de álcool nos dias da semana. Como mencionado no início, não foi entrada alguma informação sobre a escala de consumo de álcool, mas podemos associar que os valores de 4 e 5 também estajam relacionados com o consumo de álcool em outros dias da semana além da sexta-feita, que pode ser considerado um hábito pouco saudável e ter alguma influência no desempenho do aluno.

• Existe algum outro indicativo que interfere negativamente no desempenho do aluno?
Foi verificado que o número de faltas também apresenta uma certa tendência nas médias, onde os alunos com mais faltas tendem a ter um expectativa de atigeram médias mais altas menores do que os alunos que frequetam as aulas, mas não apresenta relação com médias baixas baixas.
No geral, não foi encontrado nenhuma variável que tivesse relação direta com notas baixas, apenas tendências de menores expectativas nas maiores médias.

• Existe algum indicativo que interfere positivamente no desempenho do aluno?
Semelhante com os achados anteriormente citados, não foi encontrada nenhuma variável que influênciou diretamente em desempenhos melhores, mas foi possível verificar que as expectativas de desempenho médio das notas eram melhores para alunos que empregavam mais horas semanais de estudo fora da escola.

Com os resultados encontrados através das análises feitas para responderem essas perguntas, com esse conjunto de dados, foi possível concluir que não existem variáveis que tenham relação direta com os melhores ou os piores desempenhos, mas existem tendências que aumetam ou dimuniem a expectativa de desempenho médio das notas.