Aproximación bayesiana a la calificación continua de alumnos

Hacía tiempo que no escribía una nota técnica, y como el otro día se me ocurrió una idea metarreferencial de las mías (en particular, aplicar la regla de Bayes para estimar la nota más probable de un alumno en base a sucesivas notas de evaluación continua… en una asignatura bastante basada en Bayes), me parece interesante dejarlo escrito por aquí.

EL ESCENARIO

El escenario es el siguiente: tenemos un grupo de $N$ alumnos que son evaluados a lo largo de una asignatura $M$ veces. Supongamos que la evaluación i-ésima del alumno j-ésimo produce una nota $n_{i}^{j} \in \left [ 0,10 \right ]$ . La cuestión es: dado que al principio no sabemos nada de la nota final que deberíamos asignarle al alumno j-ésimo, y dadas las notas que ha sacado en cada una de las evaluaciones intermedias (junto con una incertidumbre sobre las mismas), ¿cuál es nuestra certidumbre sobre la nota que debería tener finalmente? A partir de ahí, ¿cuál debería ser su nota final?

Ahora dejaremos de lado el superíndice “j” que identifica el alumno, porque supondremos que las notas de un alumno son independientes de las de los demás (suponemos que no se copian durante las pruebas de evaluación). Así, tenemos sólo un alumno con $M$ notas intermedias denotadas $\{ n_{1}, n{2}, \cdots , n_{M} \}$ . Cada nota asignada a un alumno, por muy mal que quede decirlo, tiene una incertidumbre asociada. Sí, la vida es así de dura y casi ninguna cosa se puede calificar con certeza.

Para cada alumno podemos definir la probabilidad (o mejor dicho, “verosimilitud” o “likelihood”) de que, dado que sus conocimientos y desempeño en el examen se corresponden con una calificación $x$ , obtenga cualquiera de las otras calificaciones. En un soporte continuo entre 0 y 10, se podría modelar bastante aceptablemente con una gaussiana, que asume que el error es simétrico (se le puede calificar más alto o más bajo con la misma probabilidad), con la media situada en la nota real que el alumno debería tener y la varianza, suponiendo un profesor con cierta experiencia, no demasiado grande (vamos a poner que para ese tipo de profesor la nota caería entre dos puntos por debajo y por encima de la media el 95% de las veces):

En la figura hemos mostrado una gaussiana con media $\mu=5$ y desviación estándar $\sigma=1$ , con resolución de una centésima de punto y normalizada para que la integral en el soporte (que está restringido a $x \in \left [0,10 \right]$ ) sea 1. Algebraicamente sería:

p_{l}(x; \mu, \sigma)= \frac{1}{K_{\mu,\sigma} \sqrt{2 \pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2 \sigma^2}} \bm{, donde}\: K_{\mu,\sigma}= \frac{1}{ \sqrt{2 \pi \sigma^2}} \int_{x=0}^{x=10} e^{-\frac{(x-\mu)^2}{2 \sigma^2}} dx

Falta por definir qué conocimiento tenemos sobre la incertidumbre de la nota final del alumno cuando todavía no hemos observado sus notas intermedias (probabilidad a priori). En nuestro caso, suponemos que el profesor no tiene ningún dato sobre el alumno (si lo tuviera, podría incorporarse como una nota intermedia más), y por tanto el “prior” sería una distribución uniforme sobre todas las notas: $p_{0}(x)= \begin{cases} \frac{1}{10} & \bm{ si }\: x \in \left [ 0,10 \right ] \\ 0 & \bm{ si} \: \bm{no} \end{cases}$ .

Para terminar de establecer el escenario, haría falta saber si las notas intermedias se influyen unas a otras. Es decir, si el hecho de que el profesor puntúe a un alumno de cierta manera en una nota influye en cómo le puntúe en las demás. Nadie está libre de ser influenciado por la historia previa del alumno, especialmente conforme se avanza el curso y se tiene información sobre éste. Como hay un número finito de notas intermedias, se podría hacer el razonamiento en el caso de que exista esta deriva, pero para simplificar los razonamientos posteriores, supondremos que no, es decir, que $p(n_{1},n_{2},\cdots,n_{M})= \prod_{i=1}^{M} {p(n_{i})}$ .

EL ESTIMADOR

Ya que tenemos todos los elementos, podemos plantearnos cómo estimar la nota final del alumno, junto con la incertidumbre que deberíamos asociarle, usando la regla de Bayes. En particular, incluyendo la independencia entre las notas intermedias y el hecho de que su probabilidad conjunta es la misma para cualquier valor que la nota final $c$ pudiera tomar, el reverendo Bayes nos diría que:

p(c \mid n_{1},n_{2},\cdots,n_{M}) = \frac{p(n_{1},n_{2},\cdots,n_{M} \mid c) p(c)}{p(n_{1},n_{2},\cdots,n_{M})} \propto \prod_{i=1}^{M}{p(n_{i} \mid c)} p(c)

Si sustituimos la verosimilitud por la gaussiana que habíamos definido y el conocimiento a priori por la uniforme (que queda absorbida por la proporcionalidad), nos queda:

p(c \mid n_{1},n_{2}, \cdots ,n_{M}) \propto \prod_{i=1}^{M} {\frac{1}{K_{c,\sigma} \sqrt{2 \pi \sigma^2}} e^{- \frac{(n_{i}-c)^2}{2 \sigma^2}} } \propto \frac {1}{K_{c,\sigma}^{M}} e^{- \frac{1}{2 \sigma^2} \sum_{i=1}^{M}{(n_{i} - c)^2} }

Reagrupando términos llegamos a:

p(c \mid n_{1},n_{2}, \cdots ,n_{M}) \propto \frac {1}{K_{c,\sigma}^{M}} e^{- \frac{1}{2 \sigma^2} M \left ( c - \frac{1}{M} \sum_{i=1}^{M}{n_{i}} \right )^2 + \left ( \sum_{i=1}^{M}{n_{i}^2} - \frac{1}{M} \left ( \sum_{i=1}^{M}{n_{i}} \right )^2 \right ) } \\ \propto \frac {1}{K_{c,\sigma}^{M}} e^{- \frac{\left ( c - \frac{1}{M} \sum_{i=1}^{M}{n_{i}} \right )^2}{2 \left ( \frac{\sigma}{\sqrt{M}} \right )^2} }

Es decir, que la forma resultante para la incertidumbre que tenemos en la nota final se parecerá muchísimo a una gaussiana (puesto que para todo $c$ excepto en las notas extremas o si $\sigma$ es muy grande, $K_{c,\sigma}$ será muy próximo a 1), con media la media de las notas intermedias ( $\frac{1}{M} \sum_{i=1}^{M}{n_{i}}$ ) y varianza la de la incertidumbre de las notas intermedias reducida por el número de éstas ( $\frac{\sigma^2}{M}$ ), con lo que, a más notas intermedias disponibles, menor incertidumbre tendremos, como es lógico.

Esta ecuación nos dice la forma de la incertidumbre en la nota final, dadas las notas intermedias y nuestro desconocimiento inicial. La nota final puede estimarse a partir de ella de varias formas. El estimador más común es el MMSE, que trata de minimizar el error cuadrático medio entre el valor de la estimación y el valor real, y en nuestro caso (unimodal) coincide con otros estimadores, como el MAP y el MED. El MMSE no es otra cosa que la esperanza de la probabilidad a posteriori mostrada anteriormente, con lo que si quisiéramos estimar la nota final a ponerle al alumno, debería ser muy parecido a la media de sus notas intermedias.

Entonces, ¿qué hemos ganado? Pues que este estimador, al contrario que la media de las notas, nos dice la forma de la incertidumbre que deberíamos tener en nuestra calificación final (que no es exactamente una gaussiana centrada en la media de las notas intermedias). Si el profesor quisiera ser conservador, podría usar como estimador el límite superior del intervalo de confianza del 95% de la incertidumbre de la nota final, por ejemplo.

Aquí abajo pongo tres ejemplos de estimación (la raya roja) de nota final en base a 7 notas intermedias, para un alumno malo, otro medio y otro bueno, con un profesor medianamente experto ( $\sigma=1$ ). Como se ve en las figuras, la incertidumbre es menor que la que tenemos en cada calificación intermedia, dado que hemos hecho varias observaciones (compárense con la figura del apartado anterior).

Obviamente, la incertidumbre se incrementa si tenemos pocas notas intermedias (obsérvese en las figuras cómo cuando las notas intermedias son más extremas o cuando hay mayor varianza, aparece diferencia entre su media y el resultado del estimador; esto es por el factor $K_{c,\sigma}$ ):

o si el profesor no tiene mucha experiencia o está inseguro ( $\sigma=5$ , aunque obsérvese cómo la inseguridad del profesor no termina reflejándose por completo en la gráfica: es amortiguada por disponer de varias notas intermedias):

y tendremos más certeza en la nota final que ponemos si medimos muchas notas intermedias (en este caso 25 alrededor del 6):

o si el profesor tiene mucho acierto al ponerlas (en este caso, $\sigma=0.02$ ):

AFINANDO

Las suposiciones que hemos tomado en el razonamiento anterior son:

El error que comete el profesor al puntuar cada nota intermedia es un error de medida cuya incertidumbre puede modelarse bien con una función de densidad gaussiana.
El profesor no aplica ningún conocimiento para estimar a priori la nota final del alumno, antes de observar las notas intermedias.
Los alumnos no se copian.
El profesor no es influenciado por las notas intermedias anteriores a la hora de poner la siguiente nota intermedia.

En general son suposiciones razonables, y, por tanto, el modelo propuesto debería ajustarse suficientemente bien a la realidad. Sin embargo podemos relajar alguna de ellas, por ejemplo la no-influencia de las notas anteriores en la calificación de las siguientes, y proponer los primeros pasos bajo esa relajación.

Antes hemos supuesto que esta influencia es nula: $p(n_{1},n_{2},\cdots,n_{M} \mid c) = \prod_{i=1}^{M} {p(n_{i} \mid c)}$ . Si no lo fuera, tendríamos en su lugar:

p(n_{1},n_{2},\cdots,n_{M} \mid c) = p(n_{M} \mid n_{M-1}, n_{M-2},\cdots,n_{1},c) \\ \: p(n_{M-1} \mid n_{M-2}, n_{M-3},\cdots,n_{1},c) \cdots p(n_{M-(M-2)} \mid n_{1},c) p(n_{1} \mid c)

Como se ve en esta cadena, el último factor sería equivalente a la gaussiana que hemos usado antes para la verosimilitud (el profesor no se vería influenciado por nada en la primera nota salvo por la evidente relación entre ésta y lo que el alumno realmente merece), pero a partir de ahí necesitaríamos un modelo nuevo para su labor de corrección de las restantes, que dependería de las notas ya puestas, no sólo de la nota que el alumno merece.

Lo más lógico parece suponer que el profesor se vea influenciado por la media de las notas anteriores y la que el alumno merece. De hecho sería aún más fino suponer que el peso en esa media de las notas anteriores es mayor que el de la nota que el alumno realmente merece (siempre impresionan más las notas que uno ve que la supuesta verdadera nota). El modelo que nos falta sería entonces:

p(n_{k} \mid n_{k-1}, n_{k-2}, \cdots, n_{1},c) = \frac{1}{K_{\mu_{k-1,c},\sigma_{k-1}} \sqrt{2 \pi \sigma_{k-1}^2}} e^{-\frac{(n_{k}-\mu_{k-1,c})^2}{2 \sigma_{k-1}^2}} \\ \bm{ donde}\: K_{\mu_{k-1,c},\sigma_{k-1}}= \frac{1}{ \sqrt{2 \pi \sigma_{k-1}^2}} \int_{x=0}^{x=10} e^{-\frac{(x-\mu_{k-1,c})^2}{2 \sigma_{k-1}^2}} dx

Hemos llamado $\mu_{k-1,c}= \alpha \sum_{i=1}^{k-1}{n_{i}} + (1-\alpha) c$ a la media ponderada de las notas anteriores a la k-ésima y la nota real, y $\sigma_{k-1}=\frac{\sigma}{k-1}$ a la desviación estándar del error del profesor (alrededor de esa media) cuando es influenciado por las k-1 notas disponibles, que es lógicamente menor conforme más notas disponibles tiene.

El producto completo sería entonces:

p(n_{1},n_{2},\cdots,n_{M} \mid c) = \\ \left ( \frac{1}{K_{c,\sigma} \sqrt{2 \pi \sigma^2}} e^{-\frac{(n_{1}-c)^2}{2 \sigma^2}} \right ) \left ( \prod_{i=2}^{M} { \frac{1}{K_{\mu_{i-1,c},\sigma_{i-1}} \sqrt{2 \pi \sigma_{i-1}^2}} e^{-\frac{(n_{i}-\mu_{i-1,c})^2}{2 \sigma_{i-1}^2}} } \right )

Siguiendo a partir de aquí el mismo razonamiento que en las secciones anteriores, se llega a algo muy parecido a una gaussiana. Se deja al valiente que ha llegado hasta aquí deducir en dónde estará centrada y qué varianza tendrá (seguramente menor debido al escalado de la varianza que hemos introducido).