Amigos y amigas, hoy hablaremos de la formulilla que hay para puntuar lo más justamente posible un examen tipo test. ¿Por qué motivo, os preguntaréis, nos castiga éste con semejante bodrio? Pues principalmente por egoísmo: siempre se me olvida cuando necesito recalcularla, y, como además es una cuestión de probabilidades, hey, qué mejor que dejarla aquí, en este blog probabilístico e incierto (pero escrita en piedra, como el nombre del blog también indica).
De todas formas al final la aderezaré con una reflexión sobre la puntuación de exámenes en general, para que la audiencia menos interesada no se me duerma del todo 🙂
Normalmente, los exámenes tipo test de los que tienen sólo una respuesta correcta suelen puntuar lo mismo cada pregunta, aunque éstas tengan diferente dificultad. Se podría discutir mucho sobre este aspecto, y lo mismo lo hago en otra entrada (o en un paper educativo ;P) pero digamos que normalmente, y digo normalmente en sentido probabilístico, el que una pregunta difícil te dé la misma nota que una fácil se puede ver también por el lado bueno: puedes obtener la misma nota, tan deseada, en las preguntas fáciles… Es cuestión de que las dificultades sean simétricas probabilísticamente hablando. Dejémoslo, en fin, en que esto no tiene por qué causar demasiados problemas.
Así que tenemos P preguntas en el examen, cada una con R respuestas posibles. Podríamos pensar que puntuando cada pregunta con S puntos si se ha marcado la única respuesta correcta y con 0 puntos si se ha dejado en blanco, está contestada de manera “rara” (borrones, más de una respuesta, etc.), o es incorrecta, el asunto del test estaría ya solucionado y esta entrada no habría sido escrita.
Ah, amigos, esto es lo que hice yo el primer año que puse un examen tipo test, pardillo de mí. Los alumnos honestos, es decir, aquéllos que contestaban las preguntas que pensaban que sabían y no contestaban las que no sabían, obtenían una nota cercana a lo justo. El problema es que si en vez de dejar en blanco las que no sabían, contestaban ésas al azar, no podían sacar menos nota que si las dejaban en blanco, y sin embargo sí podían sacar, simplemente por suerte, más nota de la que merecían. Como diría cierto personaje de La princesa prometida: ¡inconcebible!
El hecho es que si un alumno marca una respuesta al azar en una pregunta de este tipo de test, tiene una probabilidad de \frac{1}{R} de acertar, y \frac{R-1}{R} de fallar. Por tanto, la nota que podría esperar obtener en la pregunta (si hiciera el ejercicio muchas veces, es decir, la esperanza matemática), contestando al azar, sería \frac{1}{R}S+\frac{R-1}{R}0=\frac{S}{R} puntos. Suponiendo que la nota máxima a sacar en el test completo fuera de 10, lo que implica que PS=10, el alumno que contestara alguna pregunta al azar podría esperar obtener una recompensa media de \frac{10}{PR} puntos por pregunta (¡cuando la recompensa por contestar al azar debería ser 0 puntos!). Como máximo, podría obtener \frac{10}{R} puntos adicionales a los que hubiera obtenido de no contestar las preguntas que no se sabía, lo cual no es un valor despreciable a menos que el número de respuestas posibles para cada pregunta sea grande (de hecho, si R=2, lo que entra dentro de lo posible, un alumno podría esperar aprobar el examen entero contestando al azar…).
Solucionar este problema no es trivial, sobre todo porque requiere identificar aquellas preguntas que han sido contestadas al azar (lo dejaré también para un paper :)). La aproximación que se suele escoger no es totalmente justa, y en cierta medida (cuanto más inseguro está el alumno), perjudica un poco más de la cuenta a quienes fallan no por contestar al azar, sino por no contestar bien. Sin embargo suele ser suficiente para, al menos, disuadir a los alumnos de que contesten al azar lo que no saben bien (y por tanto, debería persuadirlos de estudiar mucho para que no hubiera preguntas en las que les pasara eso, aunque no estoy muy seguro de que ese efecto se consiga…). De hecho, se considera una forma muy común de definir las puntuaciones de los exámenes tipo test.
Esta solución se basa simplemente en no dar un 0 a una pregunta salvo cuando está en blanco o “rara” (cosas fácilmente distinguibles). Cuando está incorrecta no se la puntúa con 0, sino que se le da una puntuación N\neq0. Para conseguir un sistema de puntuación lo más justo posible, se busca que un alumno que conteste a todo el examen al azar tenga, mediante este mecanismo, una nota esperada de 0 (que es lo realmente justo). Eso es lo mismo que forzar a que la siguiente fórmula se cumpla: P(\frac{1}{R}S+\frac{R-1}{R}N)=0. La solución, despejando N, simplificando, y dado que P\ne0, es la siguiente:
Usando esto, tenemos que un examen con R=5 respuestas por cada pregunta, en el que cada una supusiera S=1 punto si se responde correctamente, tendría que suponer a su vez N=-\frac{1}{4}=-0.25 puntos si se respondiera incorrectamente. Si, poniendo otro ejemplo, cada pregunta supone S=2 puntos de responderse correctamente, entonces debería suponer N=-\frac{2}{4}=-0.5 puntos de responderse incorrectamente.
Hay que tener en cuenta que esto afecta a todos los alumnos: no sólo a los que respondan al azar, sino también a los que lo hagan incorrectamente pensando que lo están haciendo bien: les baja la nota más de lo que se la bajaría el tener un 0 por equivocarse. Normalmente se considera que esto fuerza al alumno a estudiar más y mejor, porque se arriesga más al responder, pero las personas somos muy complicadas, y puede pasar que haya alumnos que se aprendan muy bien y respondan sólo a unas pocas preguntas: las suficientes para aprobar. El resultado de usar esta estrategia no suele ser bueno para esos alumnos, ya que en un examen siempre hay una probabilidad de equivocarse (por nervios, por no entender bien el enunciado, etc.), y terminan sufriendo la temida bajada de nota. Así que la primera conclusión suele considerarse válida: este sistema fuerza al alumno a que el no responder preguntas o el responderlas equivocadas no se dé mucho, es decir, a estudiar más.
En cualquier caso, y por mucho que en la pedagogía moderna este tipo de pruebas se llamen “pruebas objetivas”, no existe ninguna manera completamente objetiva de evaluar a un alumno (ni a un profesor, ni a un investigador, ni a un pintor, ni a un arquitecto, ni, en general, a casi nadie que haga una labor medianamente compleja), así que nos tenemos que conformar con aproximaciones. Algunos piensan, de hecho, que el profesor podría tener una idea mucho más acertada de lo que sabe un alumno que la formulita de evaluación del test, y no les falta razón en muchos casos (con la experiencia vas viendo con bastante claridad qué nota se merece cada alumno, sobre todo si no tienes doscientos)
Esta última forma de evaluación, llamémosla intuitiva, tiene un grave problema: no es explicable ni objetiva. Eso quiere decir que probablemente tengas más ojo para puntuar acertadamente a unos que a otros, simplemente por cómo tienes la cabeza de cargada ese día, y, lo que es más injusto desde mi punto de vista: los alumnos no se enfrentan a algo que comprendan y por tanto puedan prepararse; dicho de otra manera: no conocen bien cuáles son las reglas del juego que deben ganar, porque o bien pueden variar arbitrariamente o bien pueden ser difíciles de explicar, o ambas cosas.
Por tanto, yo, por ahora, me quedo con las puntuaciones inexactas y puede que injustas, pero al menos objetivas y perfectamente explicables (y comprensibles por todos los que se enfrentan a ellas), que con mi intuición a la hora de evaluar, que puede estar muy bien si ese día me pilla con la mente clara, pero que también puede ser bastante más injusta si consideramos a todos los alumnos en su conjunto y a todos mis estados de ánimo y capacidad cognitiva a lo largo del tiempo.





