Durante los últimos años, desde la línea de especialización de Inteligencia Artificial y Big Data de CTIC Centro Tecnológico se han desarrollado numerosos proyectos centrados en la aplicación de ambos campos a diferentes ámbitos (industrial, telecomunicaciones, sanitario, etc.). En particular, el uso de técnicas de Aprendizaje Automático o Machine Learning ha experimentado un gran crecimiento, dado el aumento exponencial del volumen de datos generados en los últimos años, tanto por grandes corporaciones como por pequeñas y medianas empresas.
Entre los diferentes trabajos llevados a cabo desde CTIC, se encuentra el análisis de sentimientos y preferencias, particularizando su uso a redes sociales, y en concreto, a la red social de microblogging, Twitter. Así, gran parte de los datos a analizar consisten en textos (como pueden ser los propios mensajes publicados en Twitter, comúnmente conocidos como tweets). Por ello, se recurrirá a técnicas de Procesamiento del Lenguaje Natural, área de la Inteligencia Artificial centrada en el análisis de este tipo de información. En este caso, se han analizado textos exclusivamente en español, dado que al variar la estructura y semántica de los textos en función del idioma en el que estén escritos, las técnicas aplicadas serán dependientes del idioma analizado.
Dada la gran presencia en la sociedad de las redes sociales, utilizadas en gran medida para expresar opiniones acerca de diferentes cuestiones, resulta de especial interés para cualquier empresa conocer qué imagen se está generando en éstas sobre su marca. Así, surge la idea de desarrollar una herramienta que permita analizar la opinión generada en la red social en estudio (Twitter), de modo que, desde la empresa en cuestión, se puedan identificar las opiniones negativas y tomar las medidas adecuadas.
Dicha herramienta ha sido desarrollada con diferentes componentes que permitan obtener información de interés para la empresa. Por un lado, se ha desarrollado un módulo de análisis de polaridad de los mensajes provenientes de Twitter mencionando a dicha marca. Para ello, se han recurrido a diferentes técnicas de Machine Learning combinadas con métodos propios del Procesamiento del Lenguaje Natural. Así, se ha generado un modelo que, dado un nuevo mensaje de las mismas características (proveniente de Twitter y en español), proporciona una etiqueta correspondiente a su polaridad (Positiva, Neutra, Negativa).
Figura 1. Ejemplo de tweet etiquetado como negativo.
Figura 2. Ejemplo de tweet etiquetado como positivo.
A partir de los diferentes mensajes descargados de Twitter donde se menciona la marca en estudio, se procede a obtener datos generales asociados a todas las menciones analizadas, tales como el número total de menciones identificadas, el porcentaje de éstas que han sido etiquetadas como positivas, negativas y neutras, una nube de palabras de dichas menciones, así como aquellas menciones que han sido más relevantes en Twitter (con respecto al número de veces que han sido marcados como favoritos o retuiteados).
Figura 3. Nube de palabras de menciones a la cuenta oficial de CTIC Centro Tecnológico @fundacionctic.
Figura 4. Proporción de menciones positivas, negativas y neutras para la cuenta oficial de CTIC Centro Tecnológico @fundacionctic.
Adicionalmente, se ha desarrollado una segunda parte de la herramienta que permita perfilar diferentes usuarios de Twitter a partir de su nombre de usuario. Esta segunda parte podrá ser de utilidad por una empresa de cara a conocer a sus propios clientes, pudiendo así generar promociones personalizadas, y realizar una segmentación de éstos en función de la información recabada.
Este segundo apartado hace uso de algunas de las características previas, como el análisis de polaridad de sus mensajes, pero complementándolo con información asociada a sus preferencias y gustos. Para ello, se ha recurrido a la aplicación de diferentes técnicas de Procesamiento del Lenguaje Natural, combinadas con el análisis de las cuentas seguidas por el usuario en cuestión. Entre las diferentes características analizadas para dicho usuario, se ha seleccionado:
- Interés por el fútbol, y en caso de ser así, de qué equipo o equipos es seguidor entre los más seguidos a nivel regional y nacional.
- Posible inclinación política entre distintos partidos.
- Interés por el cine.
Figura 5. Ejemplo de preferencias extraídas para un usuario de Twitter.
La cartera de gustos a analizar es ampliable, así como los equipos y partidos políticos que se desee rastrear, teniendo en cuenta las características que tengan dichas nuevas categorías a analizar.
Finalmente, y de modo que se puedan identificar nuevas fuentes de información del usuario, se rastrea su perfil y sus mensajes en busca de otras redes sociales externas propias, tales como Facebook, Instagram o Linkedin.
Pelayo Quirós.
-Línea Data4Value-