Desde hace un tiempo a esta parte, hay cadenas de TV (como Antena 3) que incluyen encuestas en sus telediarios, que contestan sus telespectadores a través de su página web. Nada que no hicieran ya los periódicos digitales.
Por supuesto, todos sabemos (y ellos también, aunque hagan caso omiso), que la probabilidad de que alguien conteste una encuesta en un medio determinado dista de ser uniforme (justa), sino que más bien aumenta cuando el encuestado es simpatizante de las ideas que transmite la cadena o el periódico. También sabe uno (y ellos, aunque hagan caso omiso) que las preguntas las hacen de la forma en que haya más probabilidad de que salga el resultado que buscan. Todo eso se resume en que la mayoría de las veces la probabilidad de que salga SÍ (o NO) es alta y casi predecible.
Así que cuando una mente deformada por lo probabilístico ve lo siguiente:

lo último que deduce es “hay una mayoría de la población que apoya las medidas del PP para salir de la crisis”, porque sabe que ese muestreo está tan sesgado que mejor tirarlo a la basura, y en su lugar se para a pensar cosas tan peregrinas como “¿qué probabilidad habrá de que salgan exactamente esas cifras?”. Una cuestión mucho más interesante, sin duda. En particular lleva a otra aún más divertida: “¿cuánta gente habrá votado para que salgan exactamente esas cifras? Seguro que no todo número de votantes consigue que salgan esas cifras, y además, nunca dicen cuánta gente vota, y me huele que son cuatro gatos”.
Pues la verdad es que ninguna de estas preguntas tiene respuesta clara y bien definida. Claro, por eso se lo montan de esta manera 🙂
Probabilísticamente el problema se puede modelar como sigue.
En primer lugar, la medida del número de votantes del SÍ (los del NO son el total de votantes menos los del SÍ) es una variable aleatoria discreta, llamémosla X_{1}, que sigue una distribución de masa hipergeómetrica: la que modela la probabilidad de que haya x_{1} individuos en una población que muestren una característica (haber dicho SÍ) tomados de una muestra de N individuos (supondremos que nadie vota más de una vez, ejem) de una población total de M en la cual hay K individuos que dirían SÍ (sean encuestados o no). Matemáticamente esto se expresa así:
En resumen: que en cualquier mirada que le echemos al valor de X_{1} veremos un número de individuos que vota que SÍ, y por tanto que está entre 0 y el número total de votantes, que es N. Los que votan NO serían N-X_{1}.
Ahora necesitamos saber qué porcentaje de individuos consultados (y no qué número absoluto) responde que SÍ. Esto es una función sencilla de X_{1}, con lo que es otra variable aleatoria. En particular la podemos definir como X_{2}= 100 { X_{1} \over N }. Resulta que la distribución de masa de probabilidad de X_{2} se puede deducir de la de X_{1} por álgebra de variables aleatorias:
La distribución de masa de probabilidad f_{X_{2}} estará definida para todo x_{2} \in \lbrack 0,100 \rbrack y nos dará directamente la probabilidad de que un cierto porcentaje entero de SÍes se produzca.
Supongamos que hay un 75% de la población española (aproximadamente unos 40 millones) que opina que SÍ, vote o no vote en la encuesta. Asumiendo que votan finalmente 1000 personas de esa población, f_{X_{2}} nos dirá esto:

Nótese que, como es lógico, hay más probabilidad de que la pantalla nos diga “SÍ: 75% NO: 25%” (aproximadamente hay un 30% de probabilidad) que cualquier otra cosa, ya que ésa es exactamente la distribución de opiniones en la población, pero que hay incertidumbre: como sólo han votado un número limitado de personas en una única ocasión, hemos medido el valor de X_{2} una única vez; si lo hubiéramos medido en otra ocasión y por tanto con otras personas, podríamos ver otro resultado en pantalla, por ejemplo “SÍ: 72% NO: 28%”, aunque la verdad es que sería menos probable. Lo que seguro que nunca podría pasar es que saliera “SÍ: 25% NO: 75%”, puesto que la probabilidad de que el SÍ sea un 25% es cero en la gráfica de arriba (estaría a la izquierda).
Ésos eran los porcentajes si votaran 1000 personas, pero qué curioso lo que pasaría si sólo votaran 100 aun manteniendo la población y sus opiniones intactas:

La varianza aumenta y ahora la probabilidad de que salga la respuesta correcta (“SÍ: 75% NO: 25%”) no es cerca del 30% como antes, sino sólo un poco más del 9%, debido al pequeño número de votantes, y además es bastante más probable que salgan respuestas más alejadas de la realidad, que antes no eran posibles.
Si seguimos disminuyendo el número de votantes, en el límite, si sólo votara una persona, no habría forma de saber nada porque podría salir cualquier respuesta (SÍ entre el 0 y el 100%) con igual probabilidad. Es lo que se llama una distribución uniforme.
Viendo esto, con el resultado que han puesto de la encuesta en la mano no podríamos saber si éste es debido a que ha votado poca gente y ha dado la mera casualidad de que han votado eso, o bien a que ha votado mucha gente y realmente refleja la división de opiniones en la población real. No se puede estimar nada con un sólo dato…
Aunque en realidad tenemos más información: sabemos que en estos concursos siempre salen unos porcentajes predecibles (sesgados), por la trivialidad de la pregunta y por la población que está dispuesta a contestarla (no es un muestreo realmente aleatorio, pues muestrean más probablemente a la gente que va a dar el resultado que esperan). En estas condiciones, aun habiendo pocos votantes, las probabilidades no se dispersarían tanto (la varianza no crecería), y así el resultado seguiría estando alrededor de la respuesta esperada por los que hacen la encuesta… que sólo reflejaría la opinión de los que están dispuestos a contestarla.
Así que no podríamos decir, viendo los porcentajes obtenidos en una encuesta de éstas, cuánta gente ha votado. La única manera de darse cuenta de que tienen pocos votantes sería que saliera un resultado que no estuviera de acuerdo con lo que opinara el target al que va dirigido la encuesta (por ejemplo si el resultado de la foto de arriba del todo fuera el contrario).
En caso de preguntas generales y que no dependan de la forma de pensar del target de una cadena o periódico, aunque no sepamos lo que opina la población en general, podemos aproximarlo por lo que opinemos nosotros, que tiene bastante probabilidad de ser lo que opina la población en general si se trata de una pregunta de amplio espectro. Si alguna vez vemos una pregunta de este tipo que les da un resultado absurdo desde nuestro punto de vista, seguramente no ha votado mucha gente.





