Cuando llega la hora del análisis o de representarlos de manera visual, existen herramientas que se utilizan para manipular resultados usando estadística y juegos de representación visual.

Aquí hice una recopilación de una clase donde se habla de gráficas, así que el crédito lo tienen aquí .

Muchas veces en debates, noticias, resultados de investigaciones, datos de porcentajes, se utiliza un ejemplo de un gráfico para avalar un punto de vista aclarando “son datos, no son opiniones”, instaurando la idea de que los datos no mienten, tienen la verdad absoluta y son indiscutibles. Pero, si bien es cierto que los datos no mienten, también es cierto que se puede mentir con ellos.

Conocí una frase de Mark Twain - un escritor importante en la literatura universal debido a su estilo narrativo único y a sus obras que critican la sociedad y las injusticias, siendo considerado uno de los padres de la literatura estadounidense, destacando su libro de Las Aventuras de Tom Sawyer - que dice que hay 3 tipos de mentiras:

Las mentiras, las malditas mentiras, y las estadísticas.
Mark Twain

Las estadísticas

Ahora que estoy estudiando las estadísticas a fondo me doy cuenta de los grandes sesgos que tenemos como sociedad en general respecto a cómo vemos la vida guiados lejos de una percepción lógica de probabilidades y estadística. Para hacerme entender te doy un ejemplo práctico dónde tú vas a participar, ¿has visto la película de black jack? Hay una escena famosa de un acertijo, si no lo has visto te animo a que respondas antes de ver la respuesta.

Imagina que eres el concursante de un programa de tv donde participas por premios, y te enfrentas a tres puertas. Detrás de una está el coche de tus sueños y detrás de las otras dos hay cabras. Tú eliges una puerta, pero antes de abrirla, el presentador, que sabe qué hay detrás de cada puerta, abre una de las otras dos puertas que no elegiste, mostrando que está con una cabra. Luego, te ofrece la opción de cambiar tu elección original por la puerta que queda cerrada.

¿Cambiarías de puerta o te quedarías con tu elección inicial?

Piénsalo un minuto antes de seguir.

Paradoja de Mounty Hall

Aquí la mejor estrategia es cambiar de puerta. Al principio, hay un 1/3 de probabilidad de que el premio esté detrás de cada puerta, pero cuando el presentador revela una puerta vacía, la probabilidad de que el premio esté detrás de la puerta que no eligió sube a 2/3, mientras que la probabilidad de que esté detrás de la puerta que elegiste sigue siendo 1/3. Por lo tanto, cambiar aumenta las probabilidades de ganar el premio.

Paradoja de Mounty Hall con probabilidades

Pero en nuestro sesgo, no es así como funciona en nuestra cabeza. Este video explica lo que nos sucede, y si eres aún más curioso y quieres saber sobre la interesantísima historia de este problema (donde una mujer dejó en ridículo a hombres de la academia) mira este video.

Analizando datos

Por otro lado, no sé qué tan consciente la gente esté de como de un mismo set de datos se pueden derivar muchas historias distintas, y muchas veces esas historias pueden ser contradictorias entre sí.

Se pueden hacer trucos numéricos, como por ejemplo usar un promedio en casos donde sería más apropiado usar una moda o una mediana, se pueden hacer trucos con el experimento en sí, con lo que generan los datos, como por ejemplo elegir una muestra de participantes que no sea representativa de la población objetivo, como sucede en la salud.

Pero vamos a ir con ejemplos de...

Visualización de datos

Ejemplo 1. Gráfico de barras

Para empezar, veamos un gráfico de barras de toda la vida, muy clásico, en el que podemos ver el nivel de pobreza de tres países africanos: Nigeria, Chad y Etiopía. En este gráfico se ve claramente que Nigeria tiene un nivel de pobreza muchísimo más alto que el de Chad, que a su vez tiene un nivel de pobreza más alto que el de Etiopía.

Pero… no se si notaste que hay algo muy raro en este gráfico, y es que el eje vertical empieza en 60, lo cual es raro, ¿por qué 60? Veamos qué pasa si llevamos este número a cero.

Gráfico de barras con su eje desde cero

La diferencia real no era tan grande como parecía, la pobreza en estos tres países es prácticamente la misma. Este es un truco muy muy común, que se puede aplicar a varios tipos de gráficos.

Pensando un poco en el análisis de los datos, si en vez de ver la pobreza en un año en particular, miramos cómo fue evolucionando a lo largo de los años, se analiza de manera diferente.

Gráfica de líneas

En este caso vemos que la pobreza en Nigeria en los últimos 10 años aumentó un montón, y que la de Etiopía disminuyó mucho.

Pero otra vez, el eje vertical empieza en 59, y si hacemos que empiece en 0, la diferencia real es muy pequeña, porque los dos se mantuvieron casi constantes.

Gráfica de líneas con su eje desde 0

Hay algo todavía más burdo que este ejemplo y es, directamente no mostrar entre qué rangos se mueven las variables.

Puedes pensar, bueno pero eso sería muy obvio, pero mira esta gráfica que mostró Apple en una conferencia.

Ejemplo 2. Gráfica sin datos

De la performance sólo nos dicen “higher is better”, pues sí ya sé que mientras más performance mejor, pero no me indicas cómo la están midiendo y entre qué valores se está moviendo, porque sin eso, esta diferencia que se ve acá, que es la que intentan mostrar como muy buena, puede ser muy diferente si le hacemos zoom al eje vertical como antes.

Grafica sin nada

Y lo mismo con el eje horizontal, como saber entre qué rangos se está moviendo, porque pueden estar mostrando justo la parte en la que el chip de apple es mejor. Otro problema es que no sabemos realmente con qué chip lo están comparando, y por último por qué se corta acá la línea del M1, ¿cuál es el límite de cuánto consume? ¿o simplemente querían mostrar hasta ahí por impacto visual?.

Ese gráfico es perfecto porque tiene varios trucos al mismo tiempo.

Teniendo todo esto en cuenta, la única conclusión que podemos sacar de un gráfico así es que básicamente no nos dice nada, es una cosa más para dar un impacto visual en una conferencia donde no tienes tanto tiempo para ponerte a analizar los gráficos.

Pasemos a ver como hacen trucos con los totales. Miremos por ejemplo los casos totales de Covid en Argentina durante el mes de febrero del 2022.

Ejemplo 3. Totales

Aquí se ve que los casos subieron de 8 millones y medio a casi 9 millones con 400 mil casos nuevos, se puede decir que la situación en febrero fue difícil con los casos que no pararon de subir.

Pero hay un detalle, estamos viendo los casos totales, estos obviamente no pararon de subir, porque subir es lo único que puede hacer un total, o al menos mantenerse constante si es que no hay ningún caso nuevo, pero nunca puede bajar porque son los casos totales.

Veamos que pasa si en vez de ver los casos totales durante ese mes, vemos los casos por día.

Gráfico con casos por día

En este gráfico se ve que en realidad los casos por día durante febrero estuvieron en bajada, la situación no fue tan mala como se creyó anteriormente, y no estaba empeorando sino que, al contrario, estaba mejorando.

Así que cuidado con los gráficos de totales, de cosas que se acumulan, porque estos siempre van a estar en subida y pueden hacer creer que lo que muestran siempre está empeorando

Cuando vemos cuánto es que está subiendo, a qué velocidad, por ejemplo cuánto sube por día, la tendencia en realidad puede ser diferente.

Conclusiones

Quizá no podemos llegar a saberlo todo cuando nos muestren datos o estudios, pero observar con ojos más entrenados, cuestionar más y comprender la complejidad detrás de los datos, seguramente ayudará a conocer mejor de lo que nos muestran. Espero poder haber ayudado un poco a cambiar tu manera de ver los datos!