Lithographica

Un cuaderno más de Juan Antonio Fernández Madrigal

Aproximación bayesiana a la calificación continua de alumnos

Abril16/2010

Hacía tiempo que no escribía una nota técnica, y como el otro día se me ocurrió una idea metarreferencial de las mías (en particular, aplicar la regla de Bayes para estimar la nota más probable de un alumno en base a sucesivas notas de evaluación continua… en una asignatura bastante basada en Bayes), me parece interesante dejarlo escrito por aquí.



EL ESCENARIO

El escenario es el siguiente: tenemos un grupo de N alumnos que son evaluados a lo largo de una asignatura M veces. Supongamos que la evaluación i-ésima del alumno j-ésimo produce una nota n_{i}^{j} \in \left [ 0,10 \right ]. La cuestión es: dado que al principio no sabemos nada de la nota final que deberíamos asignarle al alumno j-ésimo, y dadas las notas que ha sacado en cada una de las evaluaciones intermedias (junto con una incertidumbre sobre las mismas), ¿cuál es nuestra certidumbre sobre la nota que debería tener finalmente? A partir de ahí, ¿cuál debería ser su nota final?

Ahora dejaremos de lado el superíndice “j” que identifica el alumno, porque supondremos que las notas de un alumno son independientes de las de los demás (suponemos que no se copian durante las pruebas de evaluación). Así, tenemos sólo un alumno con M notas intermedias denotadas \{ n_{1}, n{2}, \cdots , n_{M} \}. Cada nota asignada a un alumno, por muy mal que quede decirlo, tiene una incertidumbre asociada. Sí, la vida es así de dura y casi ninguna cosa se puede calificar con certeza.

Para cada alumno podemos definir la probabilidad (o mejor dicho, “verosimilitud” o “likelihood”) de que, dado que sus conocimientos y desempeño en el examen se corresponden con una calificación x, obtenga cualquiera de las otras calificaciones. En un soporte continuo entre 0 y 10, se podría modelar bastante aceptablemente con una gaussiana, que asume que el error es simétrico (se le puede calificar más alto o más bajo con la misma probabilidad), con la media situada en la nota real que el alumno debería tener y la varianza, suponiendo un profesor con cierta experiencia, no demasiado grande (vamos a poner que para ese tipo de profesor la nota caería entre dos puntos por debajo y por encima de la media el 95% de las veces):

En la figura hemos mostrado una gaussiana con media \mu=5 y desviación estándar \sigma=1, con resolución de una centésima de punto y normalizada para que la integral en el soporte (que está restringido a x \in \left [0,10 \right]) sea 1. Algebraicamente sería:

p_{l}(x; \mu, \sigma)= \frac{1}{K_{\mu,\sigma} \sqrt{2 \pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2 \sigma^2}} \mbox{, donde } K_{\mu,\sigma}= \frac{1}{ \sqrt{2 \pi \sigma^2}} \int_{x=0}^{x=10}  e^{-\frac{(x-\mu)^2}{2 \sigma^2}} dx

Falta por definir qué conocimiento tenemos sobre la incertidumbre de la nota final del alumno cuando todavía no hemos observado sus notas intermedias (probabilidad a priori). En nuestro caso, suponemos que el profesor no tiene ningún dato sobre el alumno (si lo tuviera, podría incorporarse como una nota intermedia más), y por tanto el “prior” sería una distribución uniforme sobre todas las notas: p_{0}(x)= \begin{cases} \frac{1}{10} & \mbox{ si } x \in \left [ 0,10 \right ] \\ 0 & \mbox{ si no} \end{cases} .

Para terminar de establecer el escenario, haría falta saber si las notas intermedias se influyen unas a otras. Es decir, si el hecho de que el profesor puntúe a un alumno de cierta manera en una nota influye en cómo le puntúe en las demás. Nadie está libre de ser influenciado por la historia previa del alumno, especialmente conforme se avanza el curso y se tiene información sobre éste. Como hay un número finito de notas intermedias, se podría hacer el razonamiento en el caso de que exista esta deriva, pero para simplificar los razonamientos posteriores, supondremos que no, es decir, que p(n_{1},n_{2},\cdots,n_{M})= \prod_{i=1}^{M} {p(n_{i})}.



EL ESTIMADOR

Ya que tenemos todos los elementos, podemos plantearnos cómo estimar la nota final del alumno, junto con la incertidumbre que deberíamos asociarle, usando la regla de Bayes. En particular, incluyendo la independencia entre las notas intermedias y el hecho de que su probabilidad conjunta es la misma para cualquier valor que la nota final c pudiera tomar, el reverendo Bayes nos diría que:

p(c \mid n_{1},n_{2},\cdots,n_{M}) = \frac{p(n_{1},n_{2},\cdots,n_{M} \mid c) p(c)}{p(n_{1},n_{2},\cdots,n_{M})} \propto \prod_{i=1}^{M}{p(n_{i} \mid c)} p(c)

Si sustituimos la verosimilitud por la gaussiana que habíamos definido y el conocimiento a priori por la uniforme (que queda absorbida por la proporcionalidad), nos queda:

p(c \mid n_{1},n_{2}, \cdots ,n_{M}) \propto \prod_{i=1}^{M} {\frac{1}{K_{c,\sigma} \sqrt{2 \pi \sigma^2}} e^{- \frac{(n_{i}-c)^2}{2 \sigma^2}}  } \propto \frac {1}{K_{c,\sigma}^{M}}  e^{- \frac{1}{2 \sigma^2} \sum_{i=1}^{M}{(n_{i} - c)^2} }

Reagrupando términos llegamos a:

p(c \mid n_{1},n_{2}, \cdots ,n_{M}) \propto \frac {1}{K_{c,\sigma}^{M}}  e^{- \frac{1}{2 \sigma^2} M \left ( c - \frac{1}{M} \sum_{i=1}^{M}{n_{i}} \right )^2 + \left ( \sum_{i=1}^{M}{n_{i}^2} - \frac{1}{M} \left ( \sum_{i=1}^{M}{n_{i}} \right )^2 \right ) } \\ \propto \frac {1}{K_{c,\sigma}^{M}}  e^{- \frac{\left ( c - \frac{1}{M} \sum_{i=1}^{M}{n_{i}} \right )^2}{2 \left ( \frac{\sigma}{\sqrt{M}} \right )^2} }

Es decir, que la forma resultante para la incertidumbre que tenemos en la nota final se parecerá muchísimo a una gaussiana (puesto que para todo c excepto en las notas extremas o si \sigma es muy grande, K_{c,\sigma} será muy próximo a 1), con media la media de las notas intermedias (\frac{1}{M} \sum_{i=1}^{M}{n_{i}}) y varianza la de la incertidumbre de las notas intermedias reducida por el número de éstas (\frac{\sigma^2}{M}), con lo que, a más notas intermedias disponibles, menor incertidumbre tendremos, como es lógico.

Esta ecuación nos dice la forma de la incertidumbre en la nota final, dadas las notas intermedias y nuestro desconocimiento inicial. La nota final puede estimarse a partir de ella de varias formas. El estimador más común es el MMSE, que trata de minimizar el error cuadrático medio entre el valor de la estimación y el valor real, y en nuestro caso (unimodal) coincide con otros estimadores, como el MAP y el MED. El MMSE no es otra cosa que la esperanza de la probabilidad a posteriori mostrada anteriormente, con lo que si quisiéramos estimar la nota final a ponerle al alumno, debería ser muy parecido a la media de sus notas intermedias.

Entonces, ¿qué hemos ganado? Pues que este estimador, al contrario que la media de las notas, nos dice la forma de la incertidumbre que deberíamos tener en nuestra calificación final (que no es exactamente una gaussiana centrada en la media de las notas intermedias). Si el profesor quisiera ser conservador, podría usar como estimador el límite superior del intervalo de confianza del 95% de la incertidumbre de la nota final, por ejemplo.

Aquí abajo pongo tres ejemplos de estimación (la raya roja) de nota final en base a 7 notas intermedias, para un alumno malo, otro medio y otro bueno, con un profesor medianamente experto (\sigma=1). Como se ve en las figuras, la incertidumbre es menor que la que tenemos en cada calificación intermedia, dado que hemos hecho varias observaciones (compárense con la figura del apartado anterior).







Obviamente, la incertidumbre se incrementa si tenemos pocas notas intermedias (obsérvese en las figuras cómo cuando las notas intermedias son más extremas o cuando hay mayor varianza, aparece diferencia entre su media y el resultado del estimador; esto es por el factor K_{c,\sigma}):

o si el profesor no tiene mucha experiencia o está inseguro (\sigma=5, aunque obsérvese cómo la inseguridad del profesor no termina reflejándose por completo en la gráfica: es amortiguada por disponer de varias notas intermedias):

y tendremos más certeza en la nota final que ponemos si medimos muchas notas intermedias (en este caso 25 alrededor del 6):

o si el profesor tiene mucho acierto al ponerlas (en este caso, \sigma=0.02):



AFINANDO

Las suposiciones que hemos tomado en el razonamiento anterior son:

  1. El error que comete el profesor al puntuar cada nota intermedia es un error de medida cuya incertidumbre puede modelarse bien con una función de densidad gaussiana.
  2. El profesor no aplica ningún conocimiento para estimar a priori la nota final del alumno, antes de observar las notas intermedias.
  3. Los alumnos no se copian.
  4. El profesor no es influenciado por las notas intermedias anteriores a la hora de poner la siguiente nota intermedia.

En general son suposiciones razonables, y, por tanto, el modelo propuesto debería ajustarse suficientemente bien a la realidad. Sin embargo podemos relajar alguna de ellas, por ejemplo la no-influencia de las notas anteriores en la calificación de las siguientes, y proponer los primeros pasos bajo esa relajación.

Antes hemos supuesto que esta influencia es nula: p(n_{1},n_{2},\cdots,n_{M}  \mid c) = \prod_{i=1}^{M} {p(n_{i} \mid c)}. Si no lo fuera, tendríamos en su lugar:

p(n_{1},n_{2},\cdots,n_{M} \mid c) = p(n_{M} \mid n_{M-1}, n_{M-2},\cdots,n_{1},c) \\ \mbox{      } p(n_{M-1} \mid n_{M-2}, n_{M-3},\cdots,n_{1},c) \cdots p(n_{M-(M-2)} \mid n_{1},c) p(n_{1} \mid c)

Como se ve en esta cadena, el último factor sería equivalente a la gaussiana que hemos usado antes para la verosimilitud (el profesor no se vería influenciado por nada en la primera nota salvo por la evidente relación entre ésta y lo que el alumno realmente merece), pero a partir de ahí necesitaríamos un modelo nuevo para su labor de corrección de las restantes, que dependería de las notas ya puestas, no sólo de la nota que el alumno merece.

Lo más lógico parece suponer que el profesor se vea influenciado por la media de las notas anteriores y la que el alumno merece. De hecho sería aún más fino suponer que el peso en esa media de las notas anteriores es mayor que el de la nota que el alumno realmente merece (siempre impresionan más las notas que uno ve que la supuesta verdadera nota). El modelo que nos falta sería entonces:

p(n_{k} \mid n_{k-1}, n_{k-2}, \cdots, n_{1},c) = \frac{1}{K_{\mu_{k-1,c},\sigma_{k-1}} \sqrt{2 \pi \sigma_{k-1}^2}} e^{-\frac{(n_{k}-\mu_{k-1,c})^2}{2 \sigma_{k-1}^2}} \\ \mbox{ donde } K_{\mu_{k-1,c},\sigma_{k-1}}= \frac{1}{ \sqrt{2 \pi \sigma_{k-1}^2}} \int_{x=0}^{x=10}  e^{-\frac{(x-\mu_{k-1,c})^2}{2 \sigma_{k-1}^2}} dx

Hemos llamado \mu_{k-1,c}= \alpha \sum_{i=1}^{k-1}{n_{i}} + (1-\alpha) c a la media ponderada de las notas anteriores a la k-ésima y la nota real, y \sigma_{k-1}=\frac{\sigma}{k-1} a la desviación estándar del error del profesor (alrededor de esa media) cuando es influenciado por las k-1 notas disponibles, que es lógicamente menor conforme más notas disponibles tiene.

El producto completo sería entonces:

p(n_{1},n_{2},\cdots,n_{M} \mid c) = \\ \left ( \frac{1}{K_{c,\sigma} \sqrt{2 \pi \sigma^2}} e^{-\frac{(n_{1}-c)^2}{2 \sigma^2}}  \right )  \left ( \prod_{i=2}^{M} {  \frac{1}{K_{\mu_{i-1,c},\sigma_{i-1}} \sqrt{2 \pi \sigma_{i-1}^2}} e^{-\frac{(n_{i}-\mu_{i-1,c})^2}{2 \sigma_{i-1}^2}}  } \right )

Siguiendo a partir de aquí el mismo razonamiento que en las secciones anteriores, se llega a algo muy parecido a una gaussiana. Se deja al valiente que ha llegado hasta aquí deducir en dónde estará centrada y qué varianza tendrá (seguramente menor debido al escalado de la varianza que hemos introducido).

Driver de sonido para Intel HC7 ALC860-DV en Ubuntu

Febrero19/2010

Bueno, otra bonita nota técnica de viernes de otro dispositivo que me dejó de ir en la última actualización del Jaunty… Ains si los fabricantes de hardware dieran soporte para más que para Windows… :)

Esta vez ha costado más encontrar la solución, pero ésta ha sido más sencilla. Resulta que el sonido de mi ya algo vetusto portátil Fujitsu-Siemens Amilo Pro V3505 comenzó a escucharse mal. Básicamente, todo sonido se oía como “prrrprrrprrprrrprrr”. No era una situación óptima, así que rebusqué.

Todo el software estaba bien cargado y funcionando: el módulo snd-hda-intel, el códec, etc. Incluso seleccionando directamente el hardware desde las preferencias de Gnome se podía escuchar, pero no se solucionaba la cosa permanentemente.

El problema estaba en la configuración del susodicho módulo. Yo lo he solucionado cambiando el fichero /etc/modprobe.d/alsa-base.conf, añadiendo las siguientes líneas al final:


options snd-hda-intel position_fix=1
options snd-hda-intel model=hp

Ignoro por qué no hay un modelo exacto para mi portátil, pero ése va bien, vaya usted a saber en virtud de qué componentes compartidos entre los de Hewlett Packard y los de Fujitsu-Siemens…

Y ya no se oye el crepitar :)

Problemas para conectarse por Wifi en Ubuntu usando una Intel Pro/Wireless 3945

Febrero12/2010

Hacía tiempo que no ponía una nota técnica de ésas que termino teniendo que consultar de vez en cuando, y como hoy es viernes seguro que no afecta mucho a la avalancha de visitas que suele tener este blog a diario ;PP

El caso es que tengo Jaunty en este ordenador, y una wifi de Intel integrada en la placa, y en una de las últimas actualizaciones seguramente me han cambiado el driver ipw3945 por el iwl3945, que por lo visto puede dar problemas. A mí lo que me ha pasado es que tras un minuto escaso de conexión comienza a desconectarse automáticamente, dando los errores “iwl3945: Microcode SW error detected.” y “iwl3945: Can’t stop Rx DMA.” (se pueden obtener con dmesg | grep -i iwl3945). A partir de ahí, se acabó la conexión :(

Afortunadamente, el poco rato que estaba conectado al arrancar la máquina he podido consultar en google y he encontrado aquí una solución que me permito copiar:

Primero creamos un fichero que desactiva una opción problemática del módulo y lo recargamos. Poco después, automáticamente, habremos recuperado la conexión por una recarga automática del módulo (sólo hay tres líneas de comando, aunque aquí aparezcan más):


sudo echo alias wlan0 iwl3945 > /etc/modprobe.d/iwl3945
sudo echo options iwl3945 disable_hw_scan=1 >> /etc/modprobe.d/iwl3945
sudo modprobe -r iwl3945

Luego instalamos un paquetillo que nos trae el módulo en su nueva versión y reiniciamos, con lo que se acabó :)


aptitude install linux-backports-modules-jaunty-generic
reboot

El placer de migrar

Diciembre11/2009

Bueno, segunda parte de las andanzas migratorias de un servidor, mucho mejor que la primera :)

Ya está solucionado lo de los subdominios: había creado entradas en el DNS estático que lo que hacían eran redirecciones URL (metiendo las páginas cargadas dentro de frames), cuando había una opción de crear el subdominio de otra manera que no había visto… Un minipunto para los de mi nuevo hosting, que, eso sí, son gente muy educada y amable en la atención al cliente -y el plan contratado la verdad es que está muy bien-.

El problema del tener capado el “set_time_limit” no lo quieren cambiar por protección, y la verdad es que eso sí es un incordio: para empezar, WordPress te puede dar la lata en las importaciones, que pueden tardar tiempo, y te las puede dejar a medio hacer…

El correo solucionado también. El panel de control que usan te deja toquetear todo lo que quieras en los registros del DNS, y con añadirle la configuración del SPF, como la seda :)

Así que asunto finiquitado por ahora… Ya sólo quedan los refinamientos propios de estas cosas. Y ha molao (para quien le guste toquetear a medio-bajo nivel, claro).

El dolor de migrar

Diciembre10/2009

Aún migrando de hosting y dominio… Ya lo tengo todo en el de destino, y todo creado y propagado por DNS, pero me está dando la lata que resuelvan los subdominios insertando código HTML extra en las páginas que se cargan a partir de una URL que contiene el nombre del subdominio… Una forma rara de resolver un subdominio (metiéndole frames, para más señas :-O).

Por ahora este blog va razonablemente bien, dado que lo he configurado para que no use el subdominio -sino el dominio real y su directorio: jafma.net/blog-, y he quitado todos los enlaces absolutos que incluían el nombre de dominio dentro de las entradas. Probablemente tendréis (si lo seguís por feed) que cambiar la dirección del feed para que donde ponga “blog.jafma.net” ponga “jafma.net/blog”. Ésta es la opción más razonable (a fin de cuentas un subdominio es cómodo pero no es realmente un dominio).

A eso hay que añadirle que el envío de correo no me va aún (eso es importante en BIBLION), que hay algunas cosas deshabilitadas en la empresa de hosting en el PHP (como el set_time_limit, que es necesario para algunas cosillas de WordPress como importar los XML de otro WordPress), que he tenido que actualizar una entrada de cada categoría después de hacer la importación en el WordPress para que actualice la BBDD con las entradas que hay para cada categoría, que el plugin que uso para fórmulas matemáticas (EasyLatex) necesita que el directorio caché donde guarda las imágenes de éstas tenga unos permisos concretos sí o sí y que no había guardado la configuración al detalle del WordPress (permalinks, sustitución de caretillos, etc…).

Hombre, me gusta bajar a niveles inferiores para toquetear y aprender, pero espero que esta migración no termine dándome migraña…

P.D.: Si no estás viendo esta entrada, ha surgido algún otro problema ;P

Migración de hosting y dominio

Diciembre4/2009

Una entrada breve para avisar de que estos días estoy migrando de hosting y dominio todos los contenidos de http://jafma.net. Por ahora la cosa no va mal (si estáis leyendo esta entrada es que aún estamos en el hosting original), pero si hay alguna interrupción temporal del blog o similar ya sabéis qué puede ser…

Stay tuned!

Por qué tanta gente compra la lotería de Navidad en Doña Manolita

Diciembre2/2009

La última vez que estuvimos en Madrid nos topamos con una cola inmensa de personas que llegaba a rodear uno de los edificios de Gran Vía. Bueno, en realidad con dos: una iba a ser engullida por las rebajas-chollo de productos Jimmy Choo y otra era ingerida con parsimonia por la pequeña puerta de la muy veterana -instalada en 1931- administración de loterías Doña Manolita. Para no decir lo que verdaderamente pienso de la primera cola, dedicaré esta entrada a la segunda :)

¿Por qué la gente va a comprar lotería donde mucha gente va a comprar lotería? Esto se aplica no sólo a lo que pasa en Doña Manolita, sino también a la gente que va a La Bruixa D’or (en Sort) o que busca los billetes en grandes ciudades, para ver si así tiene más suerte.

Un científico diría que es pura superstición, lo que es cierto en el caso de la gente que compra el número que coincide con su aniversario de bodas, o con la enésima candidatura de Madrid a las Olimpíadas, o que lo busca en una ciudad que ha sufrido recientemente una desgracia (esto último se sitúa entre el morbo y lo miserable: leñes, déjales a los que viven allí que les toque, no te lo lleves tú). Pero no me refiero a eso, sino a cuando todo el mundo compra donde mucha gente compra.

Un psicólogo diría que las masas atraen a las masas (y no le faltaría razón en su análisis: si todo el mundo compra de esa manera, tiene que ser mejor, ¿verdad? Así se hizo rico Bill Gates). Un informático, que no suele vivir muy pegado a la realidad, diría que todos esos cerebros humanos necesitan un reseteo. Un estadístico… Aah, un estadístico diría que la gente confunde las causas con los efectos.

Asumamos que la probabilidad de ganar algo en una lotería que reparte N números distintos es uniforme, es decir, que los bombos de la lotería no están trucados. No quiero meterme en muchos detalles de la división en décimos de los números ni nada de eso, porque mi intención es explicar eso que pensaba el estadístico de una forma simple… Así que vamos a simplificar de nuevo suponiendo que sólo se reparte un premio y que cada persona sólo compra un número (no un décimo). Ninguna de estas simplificaciones afectan a lo que viene ahora.

Si esto es así, la probabilidad de que toque algún premio en mi compra es \frac{1}{N}. Como N es muy grande, mi probabilidad es muy pequeña, casi insignificante, y por eso sigo teniendo sólo unos minutos al día para escribir en este blog como divertimento, en lugar de estar pegándome la vida padre (es que mi santa siempre compra el boleto equivocado ;P).

¿Cómo puedo aumentar mis probabilidades de ganar? Pues comprando más números, claro :) O sea, gastándome más dinero. Llegará un momento en que mis costes superen a mi esperada ganancia, pero tampoco nos metamos en esos berenjenales (de hecho la lotería por Internet está aprovechándose de la posibilidad de comprar muchos números entre mucha gente para supuestamente aumentar la probabilidad de éxito).

El caso es que como no me quiero gastar más dinero, voy a Doña Manolita, o compro un número (o décimo) en Madrid, que es más grande que Málaga, y claro, por tanto va a tocarme más probablemente.

No. Falso. Estoy confundiendo causas con efectos.

Estadísticamente hablando, estoy haciendo el siguiente razonamiento: digamos que A es el evento “toca el premio en el billete que tengo” y que B es el evento “toca el premio en algún billete que vende Doña Manolita (por poner)”. Está claro que P(A)=\frac{1}{N} y que P(B)=\frac{M}{N}, donde M es el número de billetes que reparte (vende) Doña Manolita. Obviamente, se puede observar que, siendo M bastante grande por el afán de los consumidores, P(A)\ll{P(B)}.

El razonamiento erróneo que me hago inconscientemente es el siguiente: dado que es más probable que toque en Doña Manolita (porque hay más gente que compra allí, concretamente M personas), si toca en Doña Manolita es muy probable que me toque a mí, porque me estaré repartiendo las posibilidades entre M personas, que a pesar de ser muchas, es mucho mejor que repartirlas entre N, que es toda la población española… Puesto matemáticamente, estoy diciendo lo siguiente: P(A\mid{B})=\frac{1}{M}\gg\frac{1}{N}=P(A).

Esta fórmula está algebraicamente bien construida: la probabilidad de que me toque un billete (evento A) comprado en Doña Manolita, dado que efectivamente ha tocado alguno en Doña Manolita (dado el evento B), se reparte uniformemente entre los M compradores de Doña Manolita, lo que me es más favorable que si se repartiera uniformemente entre los N pobladores hispánicos.

El problema es que, aunque algebraicamente correcta, la fórmula es semánticamente inválida y por tanto no debería haber tenido la osadía de expresarla: la probabilidad condicionada de un evento a otro (P(A\mid{B})) se define como la probabilidad de que se dé A dado que ya se ha dado B. Y ahí está el quid. Cuando se reparten los premios, primero se decide si se da A o no (o sea, toca el premio en mi billete o no) y sólo luego se puede saber si ha tocado en Doña Manolita o no (sabiendo si el billete ganador fue vendido allí o no).

Dicho de otra manera: que toque en Doña Manolita o no es un efecto (consecuencia) de que primero le toque a alguien o no, no una causa, como pensamos intuitivamente. La intuición es muy necesaria en la vida: está muy bien para tomar decisiones rápidas y/o aproximadas, en ocasiones no muy lejanas de las mejores, lo que nos viene muy bien cuando no tenemos tiempo de reacción o datos suficientes. Pero no está tan bien cuando sí hay tiempo y datos, y podemos planificar racionalmente -o sea, montar una cadena de razonamientos que lleven al mejor resultado-.

Si fuéramos Mr. Spock no tendríamos intuición, sólo raciocinio, y no usaríamos el hecho de que ha tocado en Doña Manolita como evento B sobre el que condicionar la probabilidad de que me toque a mí (evento A). Mr. Spock diría que para que yo pudiera usar ese razonamiento y fuera semánticamente válido, el sistema de loterías no podría funcionar como funciona, sino que primero habría un bombo que decidiría en qué administración (o ciudad, o lo que se quiera) iría a parar el premio, y luego otro que diría a qué número le toca de entre los de ese lugar solamente.

Obviamente, ninguno somos Mr. Spock. Seguirán formándose colas en Doña Manolita, y en la Bruixa d’Or, y se le pedirán a los familiares que uno tiene desperdigados por ciudades grandes que compren, y esas cosas. Qué le vamos a hacer. Parece divertido olvidarse por un momento de las leyes físicas y dejar libre nuestra imaginación irracional. Por eso somos humanos :)

La curiosa Ley de Bode (y otros)

Noviembre24/2009

El otro día, leyendo el libro de astronomía para jóvenes que debe aparecer ahí a la izquierda de esta página (me gustan mucho los libros para jóvenes, sí, qué pasa, y jugar a la Wii y los episodios de Pocoyó; no es incompatible con trabajar con inferencia bayesiana recursiva, incluso cuando ésta se hace con métodos de Monte Carlo indescriptiblemente enrevesados), me encontré en dicho libro una referencia a la Ley de Titus-Bode, descubierta a mediados del siglo XVIII, según la cual hay una manera de saber a qué distancia del Sol está un planeta simplemente sabiendo su número de orden en la lista de planetas del sistema solar.

La cosa es que si llamamos i\in[1,10] al índice del planeta según la siguiente tabla:

i 1 2 3 4 5 6 7 8 9 10
Planeta Mercurio Venus Tierra Marte Asteroides Júpiter Saturno Urano Neptuno Plutón

podemos obtener la distancia al Sol del susodicho planeta (una teoría dice que los asteroides entre Marte y Júpiter podrían ser un planeta que no llegó a formarse), tomando como 1.0 la distancia entre la Tierra y el Sol, es decir, usando unidades astronómicas:

Mercurio Venus Tierra Marte Asteroides Júpiter Saturno Urano Neptuno Plutón
1 2 3 4 5 6 7 8 9 10
0.4 0.7 1.0 1.6 2.8 5.2 10 19.6 38.8 77.2

En particular, la ecuación original que da lugar a estos numerillos es:

d=\frac{3\lfloor{2^{i-2}}\rfloor+4}{10}

donde \lfloor{x}\rfloor indica el máximo valor entero menor o igual que x. Las distancias más precisamente medidas en tiempos modernos aparecen en la última fila de esta tabla para que veáis la precisión que tiene la Ley:

Mercurio Venus Tierra Marte Asteroides Júpiter Saturno Urano Neptuno Plutón
1 2 3 4 5 6 7 8 9 10
0.4 0.7 1.0 1.6 2.8 5.2 10 19.6 38.8 77.2
0.39 0.72 1.0 1.52 2.77 5.2 9.54 19.2 30.06 39.44

Digamos que hasta Urano la cosa va más que bien, de hecho, asombrosamente bien.

Más allá de que los que descubrieron esta Ley dieran con ella, que ya es un suceso admirable para su época, ¿cómo es posible que una ecuación tan tonta -una progresión geométrica- pueda estar tan de acuerdo con la distribución de los planetas alrededor del sol, que fue un suceso completamente aleatorio -o gobernado por infinitud de pequeñas perturbaciones, lo que es lo mismo-? Pues es más: leyes parecidas pueden encontrarse para la distribución de otros cuerpos que se formaron a partir de nubes de material girando alrededor de un cuerpo central, como los satélites de los planetas más grandes del sistema solar.

No se conoce con total certidumbre por qué esta Ley se cumple. Simplemente se cumple. Para quien tenga más curiosidad y tiempo libre que yo, aquí explican una posible razón. A mí me ha recordado al principio de exclusión de Pauli para partículas, aunque obviamente obedece a diferentes causas físicas. Citando su primera frase:

Todo cuerpo planetario en órbita, dentro de un sistema estelar, que tenga un período orbital X, tiende a sacar de sus órbitas a los planetas de menor tamaño cuyo período orbital sea un múltiplo o fracción entera de X.

Iker Jiménez vs. la Teoría de la Probabilidad: el misterio de la hora del coche capicúa

Octubre26/2009

Pues sí: hay muchas veces que miramos el cutre-reloj de nuestro cutre-coche, normalmente al aparcar y al salir de un aparcamiento (no me preguntéis por qué nos da por mirarlo justo en esos momentos) y nos encontramos una bonita hora capicúa. Tenemos pruebas tomadas directamente del cutre-reloj con la cutre-cámara de mi cutre-teléfono móvil. Ésta de abajo es sólo una de ellas, lo que estadísticamente hablando no dice nada, pero vosotros me creéis cuando os digo que esto nos pasa uno de cada dos días aprox.:

Como podéis comprender, una mente científicamente entrenada, a pesar de llevar sufriendo durante meses constantes e intensivos ataques de burocracia y de proceso de Bolonia, no puede conciliar el sueño sin desentrañar estos efectos místicos que Iker Jiménez achacaría al próximo despertar templario de las fuerzas telúricas de Merlín (predicho por San Malaquías).

Este cutre-reloj nuestro no muestra segundos y es de formato 12 horas. Para encontrar un número capicúa en tal cutre-reloj podemos dividir el espacio de las horas del día en cuatro casos: i) cuando son entre las 0:00 am y las 9:59 am (el dígito de enmedio no importa entonces: basta con que coincidan los de los extremos para que la hora sea capicúa), ii) cuando son entre las 10:00 am y las 12:59 am, iii) cuando son entre las 1:00 pm y las 9:59 pm (parecido al caso i pero de menor duración), y iv) cuando son entre las 10:00 pm y las 11:59 pm (parecido al caso ii pero de menor duración). Llamaremos al caso con la letra c \in \lbrace \mbox{i,ii,iii,iv} \rbrace, y sabemos la longitud en horas de cada caso: 10 para c=i, 3 para c=ii, 9 para c=iii y 2 para c=iv, que, como es lógico, suman 24 horas, cubriendo todo el día.

Supongamos que miramos el reloj en cualquier momento del día con la misma probabilidad. Queremos saber si se estará mostrando una hora capicúa. En teoría de la probabilidad, esto supone que podemos definir una distribución de probabilidad de dominio discreto e imagen continua acotada:

\begin{array}{lcl} P: \lbrace A,B \rbrace \rightarrow \lbrack 0,1 \rbrack \\ \sum_{x \in \lbrace A,B \rbrace} {P(x)} = 1 \end{array}

donde “es capicúa” es el evento A, y “no es capicúa” el B, y, como muestra la segunda línea, la suma de imágenes de la función correspondientes a todos los elementos del dominio debe ser 1 para que se considere bien definida como función de distribución de probabilidad. En nuestro caso, como ambos elementos del dominio son excluyentes, se puede decir además que tenemos una distribución de probabilidad de Bernoulli, aunque no añada mucho a este análisis:

P(x)=\begin{cases} p & \mbox{si }x=A \\ q=(1-p) & \mbox{si }x=B \end{cases}

de la que no sabemos cuánto vale p (que es la cuestión).

Siguiendo una aproximación frecuentista (me encanta decir esto), en el caso i definido antes nos encontramos con que la probabilidad de que la hora sea capicúa será 1 (= será ciertamente capicúa) un minuto de cada diez, o sea, P(A \mid \mbox{caso i})=\frac{1}{10}. Nótese que esto es una frecuencia, y al ser constante durante el caso al que se aplica, no es influida por lo que dure ese caso (el i). En el caso iii se cumple lo mismo -hay la misma frecuencia de capicúas aunque ese caso sólo dure 9 horas-: P(A \mid \mbox{caso iii})=\frac{1}{10}. En los casos ii y iv es distinto. En el caso ii, dado que hay 60 minutos posibles (del “00″ al “59″) y 3 horas posibles (de las “10″ a las “12″), sólo en 3 de esos minutos posibles (el “01″, el “11″ y el “21″) se podría dar la coincidencia; o sea, en el caso ii la hora será capicúa durante 3 minutos de las 3 horas, o, usando minutos como unidad de tiempo, P(A \mid \mbox{caso ii})=\frac{3}{180}; para el caso iv el razonamiento es similar pero sólo dura 2 horas, llegando a P(A \mid \mbox{caso iv})=\frac{2}{120}.

Con estos datos y el teorema de la probabilidad total se puede formalizar el cálculo del valor de p:

p=P(A)=\sum_{c \in \lbrace i,ii,iii,iv \rbrace} {P(A \mid c) P(c)}

Como hemos calculado arriba la duración en tiempo, durante un día entero, de cada caso, sabemos sus frecuencias relativas, o sea, que P(\mbox{caso i})=\frac{10}{24}, P(\mbox{caso ii})=\frac{3}{24}, P(\mbox{caso iii})=\frac{9}{24} y P(\mbox{caso iv})=\frac{2}{24}, con lo que tenemos:

p=P(A)=\frac{1}{10}\frac{10}{24}+\frac{3}{180}\frac{3}{24}+\frac{1}{10}\frac{9}{24}+\frac{2}{120}\frac{2}{24} \simeq 0.083

Lo que viene a decir que, si miramos el reloj al azar en cualquier momento del día (con la misma probabilidad), tendremos que casi 1 de cada 10 veces -un poquito menos- nos encontraremos un valor capicúa, lo cual era lógico puesto que los casos ii y iv apenas tienen probabilidad de suceder -son muy pocas horas a lo largo del día-, y por tanto quienes dominan son los otros dos, que tienen una probabilidad de capicúa de \frac{1}{10}.

Bueno, esto es malo para una mente científica: según la teoría de la probabilidad ni de lejos te vas a encontrar la frecuencia que nosotros observamos en el mundo real y boloñés de nuestro cutre-coche. Aquí podría Iker levantar la mano y achacar nuestra sobreabundancia capicuística a una profecía de la voluntad celeste escrita en papiro por San Malaquías (y guardada por el Priorato de Sión en algún rincón oculto de Bretaña).

Ah, amigos, pero es que la suposición “miramos el reloj en cualquier momento del día con la misma probabilidad”, escrita más arriba, no se da en nuestro caso exactamente… Como he dicho al principio, miramos el reloj al salir o entrar en un aparcamiento, o sea, cuatro veces al día los días que cogemos el coche (si cogemos el coche no volvemos a comer a casa). Además, ninguna de esas entradas/salidas de aparcamiento suele caer en los casos ii ni iv (esos casos no reflejan horarios normales de entrada/salida al trabajo… por ahora). Por tanto, cada vez que miramos el reloj tenemos una probabilidad de que sea capicúa igual a la que se tiene en los casos i o iii, es decir, para nosotros es más exacto suponer P_{\mbox{nosotros}}(A)=\frac{1}{10}. Pero es que, además, el día que miramos el reloj lo hacemos cuatro veces: al salir del aparcamiento, al entrar en el otro, y viceversa, y, dado que esos momentos son independientes en el tiempo, tenemos que la probabilidad de que un día que cojamos el coche veamos alguna hora capicúa es 4P_{\mbox{nosotros}}(A)=0.4.

O sea, 4 días de cada 10 en que usemos el coche, o, lo que es lo mismo, casi 1 de cada 2 días.

Lo que yo había dicho.

Hale, Iker, ahora vas y lo cascas :)

Fascinación por la teoría de la probabilidad

Julio8/2009

Se pueden dar diversos significados a la probabilidad: clásico, frecuentista, bayesiano o subjetivo, axiomático… Todos ellos bastante poco conocidos por la mayoría de la gente. Como no quiero asustar a los dos lectores habituales de este blog, y como lo que me interesa decir es otra cosa, voy a hablar lo más llanamente que pueda :)

El significado clásico (el primero que se inventó, por Laplace) no merece mucha atención a estas alturas. Se puede considerar una versión rústica del significado frecuentista, así que no lo explicaré.

Desde un punto de vista frecuentista, la probabilidad de que algo sea de cierta forma (asumiendo que no sabemos nada de ese algo, ni de si es o no de esa forma) es un valor numérico. Se calcula cuando el número de observaciones que hacemos de ese algo va creciendo hasta infinito, haciendo la división entre las veces que ese algo es de esa cierta forma y el número total de observaciones. Por tanto, es un valor entre 0 (ese algo NUNCA es de esa forma) y 1 (ese algo SIEMPRE es de esa forma). El punto de vista frecuentista es a) a posteriori y b) inalcanzable, ya que hace falta hacer infinitas observaciones para obtener la probabilidad, ese valor numérico que nos da algún conocimiento, aunque aparentemente mínimo, sobre lo desconocido. Hay un subterfugio para salvar esa inalcanzabilidad: conforme vamos haciendo observaciones, poco a poco, algunas veces más rápido, otras menos (puede ser extremadamente difícil predecir cuán rápido), el valor de la división que he mencionado antes va convergiendo hacia el valor final/real de la probabilidad, y por tanto podremos acceder al conocimiento en un plazo razonable de tiempo. En este hecho se basan prácticamente todos los desarrollos de la ciencia y técnica modernas basados en probabilidades. Este subterfugio permite romper la barrera de la inalcanzabilidad en multitud de ocasiones, pero la del a posteriorismo es irrompible desde el punto de vista frecuentista: siempre tengo que observar antes de saber la probabilidad.

Desde un punto de vista subjetivo o bayesiano, la probabilidad es lo que alguien cree acerca de que algo sea de cierta manera, expresado también como un número entre 0 (ese alguien cree imposible que ese algo sea de esa manera) y 1 (ese alguien cree que ese algo es necesariamente de esa manera), como antes sin tener un conocimiento previo de la realidad de ese algo, pero en este caso, además, sin tener que haber hecho observación alguna, es decir, no es a posteriori. Es una medida de la creencia humana subjetiva sobre las cosas que no conoce. En realidad se puede hibridar este significado bayesiano con el frecuentista: en algún momento puedo hacer observaciones, y ese valor de creencia puede ser modificado apropiadamente y, con suerte (no siempre), convergerá a la probabilidad frecuentista con el tiempo (de nuevo, con el suficiente número de observaciones).

El significado axiomático de probabilidad, por último, es el más “puro”, porque es pura matemática: un conjunto de axiomas que dicen qué es la probabilidad y un conjunto de teoremas -deducciones construidas sólo a partir de los axiomas-, o sea, un conjunto de reglas matemáticas que debe cumplir el mundo de las probabilidades. No aporta mucho semánticamente a nuestra discusión, porque en realidad puede interpretarse como se quiera (al final uno termina interpretándolo de modo frecuentista o bayesiano, dependiendo del problema, porque es compatible matemáticamente con ambas interpretaciones, aunque nunca suele decirlo para que no se le tiren a la yugular los defensores de una de ellas).

Fijaos: todo esto (especialmente el significado frecuentista) se resume en que la probabilidad es un consuelo: los científicos la usan cuando no conocen nada más sobre algún aspecto de una cosa, por su complejidad o inaccesibilidad. Entonces dicen: “tiene un 22.3% de probabilidad de ser así y un 77.7% de no ser así”. Pero eso y no decir nada sobre el asunto es casi lo mismo… ¿no?

Pues no, no es lo mismo, ni mucho menos. Y he ahí lo asombroso del asunto. Que podamos estimar el valor numérico de la probabilidad de que alguna cosa sea de cierta forma simplemente observándola suficiente tiempo, sin conocer nada más sobre ella, es… sobrecogedor. Significa que las cosas, realmente, nos dan información aunque no sepamos nada de ellas (ni leyes físicas ni intuiciones ni nada), simplemente viéndolas. Es más, una vez estimada la probabilidad de algo (como hemos visto, el valor real de la probabilidad nunca se sabe con certeza a no ser que la calculemos sobre algo que ya conocemos a la perfección, lo cual sólo sirve para fines teóricos), ¡podemos hacer deducciones sobre ese algo! Siempre, por supuesto, serán deducciones probabilísticas: podremos saber cuál es la probabilidad de que tal cosa, siendo de tal manera ahora, sea de tal otra dentro de tanto tiempo; o de que nos toque la lotería -y por tanto tomar una decisión sobre si merece la pena apostar o no-; o de que conduciendo a tal velocidad tenga un accidente o no -y por tanto reducir o acelerar-.

Asombroso. Pero la probabilidad es terca (el querer saber algo sobre aquello de lo que no se sabe nada es pretencioso, si preferimos ponerlo así): se nos escurre enseguida entre los dedos… Sobre todo cuando nos sentimos henchidos de gozo con su descubrimiento y lo sobrevaloramos. A ver, que sepamos que un dado de 6 caras -ideal- tiene una probabilidad de 1/6 de sacar un uno no significa que 1 de cada 6 veces saque un uno (¡de hecho podría sacar una cantidad inmensa de números distintos de uno si le placiera, o al contrario, sacar unos durante un número inmenso de veces!). Sólo serán 1 de cada 6 veces… si hacemos infinitas tiradas. ¡Algo irreal!

En mi opinión, la probabilidad, esa teoría matemática de lo que no se conoce, es uno de los logros más fascinantes de la ciencia experimental… De hecho, según la mecánica cuántica, la propia realidad en que existimos, a ese nivel cuántico, no es más que… probabilidad.

« Antiguas
  • Últimas lecturas:

  • Andanzas literarias:

  • Criaturas:

  • Creative Commons License