Análisis: Titulares de las noticias en Puerto Rico

Carlos G. Rivera
5 min readJun 12, 2020

--

Durante los últimos meses hemos estado viviendo tiempos sin precedentes. Esto incluye la pandemia mundial del Covid-19, una recesión económica y tensiones raciales de niveles históricos. Además, en Puerto Rico, la política y las situaciones del gobierno son un tema de discusión constante. Durante el transcurso de la semana del 5–12 de junio de 2020 he recopilado un total de 418 titulares de noticias de El Nuevo Día para analizar tendencias y observar cuáles fueron los temas relevantes.

Análisis Exploratorio

El primer paso del análisis fue determinar cuáles palabras dominaron los titulares, pero antes se deben remover los stopwords. Por definición, stopwords son palabras comúnmente utilizadas (“de”, “la”, “el”, etc…) que son usualmente filtradas al momento de analizar información textual. Una vez hecho esto, podemos observar las palabras relevantes en los titulares:

Figura 1: Palabras frecuentes en los titulares.

Las palabras frecuentes nos encaminan a tener una idea sobre los temas más relevantes en las noticias. La Figura 2 nos demuestra que la pandemia del Covid-19 esta dominando los titulares. Para poder añadir contexto a nuestro análisis también podemos observar secuencias de palabras o frases. La siguiente gráfica nos demuestra cuáles secuencias continuas de tres palabras fueron frecuentes en los titulares:

Figura 2: Secuencias frecuentes en los titulares.

Nuevamente podemos confirmar que la pandemia ha dominado las noticias. A pesar de esto, se puede observar que George Floyd ha sido tema de discusión en varias ocasiones. Esta observación me llevo a explorar que otras personas han sido protagonistas en las noticias recientemente. Para poder realizar esta investigación apliqué el proceso de reconocimiento de entidades nombradas, el cuál es un método que busca clasificar las entidades dentro de una oración como “Persona”, “Localización” y “Organización”, entre otras. La misma se puede visualizar de la siguiente manera:

Figura 3: Oración con entidades reconocidas.

Las entidades mas frecuentes, luego de aplicar el método de clasificación a todos los titulares, fueron las siguientes:

Figura 4: Entidades frecuentes: Persona (PER), Localización (LOC), Organización (ORG), Entidad Miscelánea (MISC).

Ahora se podrá observar cuáles fueron los nombres más frecuentes y pertenecientes a la etiqueta de PER.

Figura 5: Nombres frecuentes en los titulares.

De manera semejante se aplicó lo mismo para localizaciones y organizaciones.

Figura 6: Localizaciones frecuentes en los titulares
Figura 7: Organizaciones frecuentes en los titulares

Dado lo observado, podemos concluir que la pandemia del Covid-19 ha sido el mayor tema de conversación en Puerto Rico, mientras que George Floyd ha sido la persona más sobresaliente, seguido por Pau Donés. Estas observaciones pueden apreciarse por medio de una nube de palabras, en la cuál el tamaño y el color de las palabras representa la importancia de las mismas.

Figura 8: Nube de palabras.

Análisis de Sentimiento

El análisis de sentimiento es una manera de obtener mayor comprensión sobre data textual. La función principal de este análisis es la determinación de las siguientes propiedades:

  1. Polaridad: Determina tono positivo, negativo o neutral del texto.
  2. Subjetividad: Se refiere al nivel de opinión o sentimiento asociado al texto.

Primero se analizó polaridad:

Figura 9: Polaridad en los titulares.

La distribución de polaridad en la Figura 10 demuestra neutralidad en los titulares de El Nuevo Día (valores cercanos a cero). Basado en estos valores se agruparon los titulares en tres categorías de polaridad (negativo, positivo y neutral).

Figura 10: Clasificación de polaridad en los titulares.

Algunos ejemplos de algunas oraciones por polaridad:

Neutral:

  • El mundo revalúa monumentos históricos tras muerte de George Floyd.
  • Unión Europea suavizará restricciones de viajes, pero no para todos.

Positivo:

  • Por qué es bueno comer granos enteros, si tienes diabetes.
  • Medalla Light ya está disponible para los consumidores de New Jersey y Pennsylvania.

Negativo:

  • Empleados de Facebook frustrados porque la red social no retira mensajes de Trump.
  • Honda sufre ataque cibernético.

Luego se realizó un análisis de subjetividad, de la cuál se obtuvo la siguiente distribución:

Figura 11: Subjetividad en los titulares.

La mayoría de los valores estan cercanos a cero, lo cuál indica imparcialidad en muchos de los titulares. Aun así podemos verificar cuáles titulares fueron basados en opiniones personales.

Algunos ejemplos de titulares subjetivos fueron:

  • Gisselle describe a Jenniffer González: "es espectacularmente simpática, sandunguera, alegre".
  • Los Obama pronuncian inspiradores discursos en la despedida a la clase 2020.

En general, este análisis añade compresión al tipo de noticias que se discute en Puerto Rico y en el contexto en el que se comunica con el público.

Próximos Pasos

Otros tipos de análisis que se podrían llevar a cabo son:

  • La categorización automática de titulares en el contexto de deportes, política, negocios, etc…
  • Un análisis profundo de las historias y artículos en su totalidad, mas allá de solo los titulares.
  • Un estudio del tipo de noticias que los autores acostumbran a escribir, incluyendo un análisis de sentimiento por autor.

Referencias:

https://neptune.ai/blog/exploratory-data-analysis-natural-language-processing-tools

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

Carlos G. Rivera
Carlos G. Rivera

Written by Carlos G. Rivera

Software Engineer and Data Scientist

No responses yet

Write a response