Exploración de datos

20 julio, 2016

El primer análisis al que nos lanzamos es la predicción de donantes. Algo familiar, útil y en principio sencillo. La institución local sabe quién ha donado hasta ahora y necesita saber que puede esperar para las próximas veces. Este trabajo lo vamos a desarrollar al detalle aquí, para que todos podáis ver de qué va esto de los datos.

El problema entonces es sencillo, en principio, pues contamos con un problema bien definido y como ahora veremos una cantidad reducida de datos. Aunque en el análisis de datos no es dos y dos son cuatro. No hay una única manera de hacer las cosas. Se pueden explotar el ingenio e ir más allá para conseguir los mejores resultados. Por lo tanto, también vamos a comentar otras aproximaciones que se pueden tomar.

Pero bueno, basta ya de charla y vamos al lío. ¿Qué tenemos? Tenemos datos con las siguientes variables:

Diagrama-BloodPrediction1

Número de identificación del donantes
Meses desde la última donación
Número de donaciones
Volumen de la donación
Meses desde la primera donación
VARIABLE A PREDECIR: donación (o no) en marzo de 2007
En una tabla tiene una pinta como esta:

Dispersión-con-histograma1

Predicciones sangre Tabla

De las seis variables, la primera no nos da ninguna información y la última solo nos sirve para ajustar nuestra predicción. Así que nos quedan cuatro. Sin embargo, si nos fijamos la variable número de donaciones y volumen de la donación son proporcionales. Tiene sentido porque al hacer una donación el volumen se extrae una cantidad fija. Por lo tanto, el volumen de donación no nos está aportando ninguna información extra. Podemos prescindir de ella. Tenemos a priori tres variables útiles.

Ahora comienza el trabajo conceptual y lo haremos a la par que echamos un vistazo a los datos método descriptivo. Este es el diagrama que nos representa las relaciones entre las variables:

Un donante realiza un determinado número de donaciones. Sabemos cuándo fue la primera, la última y cuantas fueron en total. Si lo consideráramos de utilidad podríamos calcular el periodo intermedio durante el cual ha estado donando. Así mismo también podríamos calcular un periodo medio entre cada donación.

Otras consideraciones interesantes que surgieron a la vista de los datos y con el conocimiento de la materia del equipo son:

Hay un periodo mínimo entre donaciones de 2 meses y un máximo anual de 4 donaciones para hombres y 3 para mujeres.
La última donación de cualquier sujeto de la muestra como mínimo es hace dos meses. Todos los pacientes pueden donar si así lo eligen en el momento actual.
Algunos donantes de la muestra solo han donado una vez. La primera y la última donación es el mismo momento.
En cuanto a las variables, vamos a echarle un mejor ojo con unos gráficos. Nos es de especial interés detectar patrones diferenciados para plantear un análisis a parte. Si no hay patrones muy diferenciados no lo haremos ya que nos exponemos sin motivo a que suceda un sobreajuste u overfitting. Este término hace referencia al error de crear un modelo demasiado complejo que capture no solo las tendencias generales sino peculiaridades de nuestros datos. El modelo nos dirá que ha ajustado mejor que uno más sencillo pero realmente incluso será peor porque es un artificio para ajustarse a características que no se van a dar en otro set de datos.

En estos gráficos ampliables podemos ver un diagrama de dispersión de dos de las tres variables. Además hemos incluido el histograma de cada variable a los lados, por lo que tenemos un 3×1.

En la variable número de donaciones y la variable meses desde última donación predominan los valores bajos. Lo que más hay es gente que ha donado pocas veces y la última vez fue hace poco.

Dispersión-con-histograma21
En la variable meses desde la primera donación, en cambio, la gente está más repartida. Hay más gente que empezó a donar recientemente pero existe una cierta cantidad de gente que donó por primera vez hace 8 años, otros hace 4 años y otros el último año. Los que han donado muchas veces, lo hacen desde hace mucho, como es lógico.

Otro aspecto de los datos que es de especial interés es los outliers, elementos con valores muy extremos. Esto se puede deber simplemente al azar pero también se puede deber a errores en la medición o a que son cualitativamente diferentes a los demás. Ya hemos podido verlos en los gráficos previos pero quizás el mejor gráfico para observarlos es el diagrama de caja y bigotes o Boxplot.

La caja corresponde al rango en el que se encuentra el 50% central de los casos. A ambos lados se extiende un intervalo vez y media el tamaño de la caja. Si existen valores atípicos, que se salen de ese intervalo se representan con un círculo.

Aunque aún no lo hemos comentado, en realidad tenemos dos conjuntos de datos muy parecidos. El que hemos tratado hasta ahora (Train) y el otro (Test) provienen del mismo sitio. Sin embargo, la organización separó el segundo y eliminó la variable a predecir para que nosotros hagamos la predicción. De esta manera podrán saber que bien logramos hacerlo.

Boxplots

¿Por qué interesarnos ahora por este conjunto? Esto no es imprescindible pero es conveniente. Si alguna de las pequeñas diferencias que puede haber en estos conjuntos está en los valores atípicos, los que más pueden condicionar el resultado, lo intentaremos controlar.

Con esto ya hemos terminado de explorar tanto el problema como los datos. Así que ya estamos preparados para atacar con métodos, a lo cual iremos directos en el segundo post.

Nacho Sánchez Puente