Machine Learning

“Insight” en el Baròmetre d’Opinió Politica del CEO

September 13, 2017

|Ramon Julià – NomarDataa

Los barómetros de opinión son encuestas de escalas de actitud de carácter periódico con cuestiones sociológicas, políticas y económicas, que organizan, diseñan, realizan y publican las instituciones estatales con los centros de investigaciones sociológicas como el CIS (Centro de Investigaciones Sociológicas de España) o el CEO (Centre d’Estudis d’Opinió de a Generalitat de Catalunya).

Los datos de las instituciones citadas se recolectan por muestreo aleatorio. Los cuestionarios del CIS y CEO son estratificados por tamaño del hábitat, cuotas de sexo, edad, ..etc.

En base a los resultados de estos estudios los gobiernos, partidos políticos y medios de comunicación informan y toman decisiones que afectan a todos los ciudadanos.

Buscando “Insight” en el Baròmetre d’Opinió Politica 2ª onada 2017 del Centre d’Estidis d’Opinió

Para realizar nuestro análisis vamos a partir del Baròmetre d’Opinió Politica del CEO 2ª onada 2017 que se puede encontrar en ceo.gencat.cat.

A partir de los microdatos de la encuesta que el CEO pone a disposición vamos a buscar insight que nos permitan analizar la situación política que se vive en Catalunya.

En primer lugar definiremos el concepto Insight, concepto muy utilizado en el marketing digital, para no crear confusiones. Estas son varias definiciones que nos pueden orientar sobre lo que es un insight:

  • Un insight es una comprensión de las necesidades/inquietudes reales expresadas y no expresadas por los encuestados.

  • Valor o creencia que activa la conducta de los encuestados.

Cuando estamos analizando algo solemos confundir el concepto Insight con el de conclusiones. Son cosas parecidas, pero su implicación es totalmente diferente. Cuando hallamos un Insight hemos encontrado la raíz del problema, la oportunidad, a través de datos deducidos y no gracias a información “visible”.

Un Insight implica percepción, entendimiento y conocimiento. Una conclusión nos habla de resolución, resultado y decisión en base a datos ya conocidos.

Metodología

De las diversas alternativas que tenemos para buscar Insight en la encuesta del CEO, vamos a utilizar para este estudio los algoritmos basados en reglas de asociación ( association rules).

Las reglas de asociación se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.

El objetivo de las reglas de asociación es encontrar asociaciones o correlaciones entre los elementos u objetos de grandes conjuntos de datos.

La ventaja de los algoritmos de reglas de asociación sobre los algoritmos más estándar de árboles de decisión (C5.0 y Árbol C&R) es que las asociaciones pueden existir entre cualquiera de los atributos. Un algoritmo de árbol de decisión generará reglas con una única conclusión, mientras que los algoritmos de asociación tratan de buscar muchas reglas, cada una de las cuales puede tener una conclusión diferente. A diferencia de un árbol de decisión, este conjunto de reglas de asociación no se puede usar directamente para realizar predicciones de mismo modo que puede hacerlo un modelo estándar (como un árbol de decisión o una red neuronal). Esto se debe a las diversas conclusiones diferentes posibles de las reglas.

Para nuestro estudio vamos a utilizar un dataset confeccionado a partir de los microdatos del CEO,  formado por features que evalúan el contexto sociopolítico, actitudes delante la política, valores políticos y comportamiento electoral de los encuestados, conjuntamente con la herramienta de análisis Bigml .

(Dataset)

Aplicando el algoritmo de reglas de asociación obtenemos como asociaciones mas importantes representadas en modo grafico:

Para seleccionar las reglas asociativas mas interesantes para nuestro  estudio, debemos fijarnos en los valores de los parámetros Coverage, Support, Confidence, Leverage y Lift. EL significado de estos parámetros y su calculo lo podemos encontrar en el link association rules.

Relaciones Destacados

El parámetro Leverage nos sirve para encontrar las asociaciones de ítems que ocurren mas frecuentemente en nuestro dataset. En nuestro estudio estas relaciones están relacionadas con el concepto independencia.

A favor de la Independencia de Catalunya:

En contra de la independencia de Catalunya:

Por otro lado, el parámetro Lift nos da las asociaciones de ítems de baja frecuencia en nuestro dataset, pero fuertemente conectadas unas con otras. En nuestro caso estas relaciones hacen referencia al paro y la falta de trabajo como problemas mas importante en Catalunya

A la vista de los resultados podemos corroborar que las técnicas de Data Analytics y Machine Learning son un complemento muy potente para la obtención de insight en estén tipo de encuestas. Permiten percibir inquietudes reales expresadas o no expresadas por los encuestados, a través de datos deducidos, aportando una visión  complementario a los análisis estadísticos que se utilizan tradicionalmente para valorar los resultados de las mismas.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *