Visualización de distribuciones mediante líneas de calor

10 julio, 2012
Yusef Hassan

Un problema recurrente en visualización cuantitativa es la necesidad de representar gráficamente conjuntos de valores numéricos. La mayoría de veces recurrimos a resumir esos conjuntos en forma de medias, pero esta simplificación conlleva que perdamos la posibilidad de analizar la distribución de los datos, y por tanto una gran parte de su mensaje.

A continuación describo algunos de los modelos tradicionales de representación de distribuciones, para después introducir un modelo alternativo, que podríamos denominar líneas de calor (o mapas de calor lineales).

Nota: Como conjunto de datos para los ejemplos se ha utilizado el proporcionado por Chandoo. Todas las gráficas han sido generadas mediante un framework de visualización propio de Scimago Lab.

Representaciones tradicionales

La forma más sencilla de representar gráficamente distribuciones de valores es mediante strip plots, donde cada punto representa un valor individual. Aunque puede ser una representación útil cuando se manejan pocos valores, conforme aumenta su número también lo hace el solapamiento visual, disminuyendo drásticamente su efectividad.

strip plot

Otra forma muy común de representación es mediante histogramas, una especie de gráfica de barras en la que se divide el rango de valores en intervalos, y por cada intervalo la altura de la barra señala la frecuencia o el número de valores del mismo. A diferencia de las gráficas de barras comunes, en los histogramas las barras se representan contiguas, para denotar la secuencialidad de los intervalos. El problema de los histogramas es que no dejan ver realmente la distribución, además de que su expresividad es muy dependiente del número de intervalos que se utilicen.

histogram

Una gráfica muy popular es la conocida como caja y bigotes. En esta no se representan los valores ni sus frecuencias, sino medidas que resumen la distribución: el valor mínimo, el cuartil Q1, el cuartil Q2 (mediana), el cuartil Q3 y el valor máximo. No se trata de una gráfica demasiado intuitiva ya que requiere de cierto conocimiento previo para su correcta interpretación.

box-and-whisker

Líneas de calor

Aunque me encantaría atribuirme la invención de este tipo de gráfica, la verdad es que no es más que una reutilización o aplicación combinada de conceptos existentes. Por un lado podría verse como un mapa de calor reducido a una dimensión, y en el que además de utilizar el color para codificar concentraciones de valores, se utiliza el tamaño. Por otro lado podría verse como una especie de Bean Plot (Kampstra; 2008) pero que aprovecha el color para reforzar la codificación.

linear heat map

Comparando los diferentes ejemplos, las líneas de calor no parecen una mala alternativa.

Bibliografía

Few, S. (2009). Now You See It. Analytics Press, 1st edition.

Kampstra, P. (2008). Beanplot: A Boxplot Alternative for Visual Comparison of Distributions. Journal of Statistical Software, vol. 28.

Yau, N. (2012). How to visualize and compare distributions. Flowingdata.

¡Hola! Este blog se aloja en Dinahosting y se gestiona con Wordpress (rss)