Análisis: Titulares de las noticias en Puerto Rico
Durante los últimos meses hemos estado viviendo tiempos sin precedentes. Esto incluye la pandemia mundial del Covid-19, una recesión económica y tensiones raciales de niveles históricos. Además, en Puerto Rico, la política y las situaciones del gobierno son un tema de discusión constante. Durante el transcurso de la semana del 5–12 de junio de 2020 he recopilado un total de 418 titulares de noticias de El Nuevo Día para analizar tendencias y observar cuáles fueron los temas relevantes.
Análisis Exploratorio
El primer paso del análisis fue determinar cuáles palabras dominaron los titulares, pero antes se deben remover los stopwords. Por definición, stopwords son palabras comúnmente utilizadas (“de”, “la”, “el”, etc…) que son usualmente filtradas al momento de analizar información textual. Una vez hecho esto, podemos observar las palabras relevantes en los titulares:

Las palabras frecuentes nos encaminan a tener una idea sobre los temas más relevantes en las noticias. La Figura 2 nos demuestra que la pandemia del Covid-19 esta dominando los titulares. Para poder añadir contexto a nuestro análisis también podemos observar secuencias de palabras o frases. La siguiente gráfica nos demuestra cuáles secuencias continuas de tres palabras fueron frecuentes en los titulares:

Nuevamente podemos confirmar que la pandemia ha dominado las noticias. A pesar de esto, se puede observar que George Floyd ha sido tema de discusión en varias ocasiones. Esta observación me llevo a explorar que otras personas han sido protagonistas en las noticias recientemente. Para poder realizar esta investigación apliqué el proceso de reconocimiento de entidades nombradas, el cuál es un método que busca clasificar las entidades dentro de una oración como “Persona”, “Localización” y “Organización”, entre otras. La misma se puede visualizar de la siguiente manera:

Las entidades mas frecuentes, luego de aplicar el método de clasificación a todos los titulares, fueron las siguientes:

Ahora se podrá observar cuáles fueron los nombres más frecuentes y pertenecientes a la etiqueta de PER.

De manera semejante se aplicó lo mismo para localizaciones y organizaciones.


Dado lo observado, podemos concluir que la pandemia del Covid-19 ha sido el mayor tema de conversación en Puerto Rico, mientras que George Floyd ha sido la persona más sobresaliente, seguido por Pau Donés. Estas observaciones pueden apreciarse por medio de una nube de palabras, en la cuál el tamaño y el color de las palabras representa la importancia de las mismas.

Análisis de Sentimiento
El análisis de sentimiento es una manera de obtener mayor comprensión sobre data textual. La función principal de este análisis es la determinación de las siguientes propiedades:
- Polaridad: Determina tono positivo, negativo o neutral del texto.
- Subjetividad: Se refiere al nivel de opinión o sentimiento asociado al texto.
Primero se analizó polaridad:

La distribución de polaridad en la Figura 10 demuestra neutralidad en los titulares de El Nuevo Día (valores cercanos a cero). Basado en estos valores se agruparon los titulares en tres categorías de polaridad (negativo, positivo y neutral).

Algunos ejemplos de algunas oraciones por polaridad:
Neutral:
- El mundo revalúa monumentos históricos tras muerte de George Floyd.
- Unión Europea suavizará restricciones de viajes, pero no para todos.
Positivo:
- Por qué es bueno comer granos enteros, si tienes diabetes.
- Medalla Light ya está disponible para los consumidores de New Jersey y Pennsylvania.
Negativo:
- Empleados de Facebook frustrados porque la red social no retira mensajes de Trump.
- Honda sufre ataque cibernético.
Luego se realizó un análisis de subjetividad, de la cuál se obtuvo la siguiente distribución:

La mayoría de los valores estan cercanos a cero, lo cuál indica imparcialidad en muchos de los titulares. Aun así podemos verificar cuáles titulares fueron basados en opiniones personales.
Algunos ejemplos de titulares subjetivos fueron:
- Gisselle describe a Jenniffer González: "es espectacularmente simpática, sandunguera, alegre".
- Los Obama pronuncian inspiradores discursos en la despedida a la clase 2020.
En general, este análisis añade compresión al tipo de noticias que se discute en Puerto Rico y en el contexto en el que se comunica con el público.
Próximos Pasos
Otros tipos de análisis que se podrían llevar a cabo son:
- La categorización automática de titulares en el contexto de deportes, política, negocios, etc…
- Un análisis profundo de las historias y artículos en su totalidad, mas allá de solo los titulares.
- Un estudio del tipo de noticias que los autores acostumbran a escribir, incluyendo un análisis de sentimiento por autor.
Referencias:
https://neptune.ai/blog/exploratory-data-analysis-natural-language-processing-tools