el análisis de textos imagen

En las humanidades digitales, el análisis de textos es el proceso consistente en clasificar y extraer automáticamente información significativa de un texto no estructurado. Implica, además, detectar e interpretar tendencias y patrones para obtener información relevante a partir de datos como la frecuencia en el uso de palabras, las tendencias psicológicas y el lenguaje comúnmente asociado con eventos históricos, etc., que un ser humano no podría notar fácilmente sin la ayuda de herramientas computacionales. Como resultado, las herramientas de análisis de textos permiten a los académicos leer cuerpos de texto de nuevas formas mediante el uso del aprendizaje automático para captar estos patrones y analizarlos. Al analizar un corpus, es posible comenzar a comprender los aspectos culturales y sociales que subyacen a un texto y cómo se conectan con el contexto en el que se escribió el texto. Por tanto, el análisis de textos consiste en describir las características de un texto y realizar interpretaciones para responder a preguntas concretas.

Para mi proyecto de análisis de textos, quiero estudiar el impacto de la COVID-19 en la salud mental de los adolescentes utilizando datos de Twitter. Específicamente, quiero estudiar los tweets de Florida en español e inglés desde abril de 2020 hasta junio de 2020. Para el proceso de recopilación de datos, es necesario utilizar tweets procesados en archivos de plano texto. Para crear mi corpus y descargar los tweets para mi investigación, utilizaré la plataforma creada por el equipo de Narrativas Digitales de la COVID-19 de la Universidad de Miami. Una vez que los tweets se descargan en texto plano, los archivos se pueden cargar para analizar un corpus en diferentes herramientas.

Dos programas que hemos utilizado para analizar los tweets son Voyant y AntConc. Por un lado, Voyant es una aplicación web de código abierto de análisis de texto y visualizaciones que permite a los usuarios cargar un corpus y visualizar patrones de varias formas. Por ejemplo, los usuarios pueden experimentar con coloridos grupos de palabras que representan la frecuencia de las palabras y visualizar cómo aparecen palabras y frases específicas en los textos en gráficos de líneas. Las principales herramientas de Voyant son el Cirrus, el Lector, las Tendencias, el Sumario y los Contextos.

Figura 1: el Cirrus

Como se ve en la figura 1, el Cirrus es una nube de palabras simple que muestra los términos de mayor frecuencia en el corpus, mientras que en la sección del Lector puede verse el texto real del corpus. Las Tendencias es una visualización de la frecuencia de las palabras en todo el corpus o dentro de cada documento. El Sumario es un resumen avanzado sobre los datos del corpus.

Figura 2: los contextos

Como se ve en la Figura 2, los Contextos consisten en una lista de apariciones de una palabra específica. En general, Voyant es una herramienta muy útil para mi proyecto. Uno de los beneficios de Voyant es que permite a los usuarios copiar un enlace html para incrustar las herramientas de Voyant en su propio sitio web. La mayoría de las limitaciones de Voyant se deben al hecho de que la plataforma puede ser un poco lenta de cargar o, a veces, se atasca al cargar archivos o cambiar entre las diferentes herramientas lo cual hace que no siempre sea un proceso sencillo y sencillo.

Por otro lado, AntConc es un software que simplifica la búsqueda y el análisis de una gran cantidad de archivos de texto. AntConc tiene algunas herramientas muy importantes pero similares a las de Voyant. Con AntConc, es posible crear términos de búsqueda simple y avanzada en un conjunto de archivos, analizar la concordancia y también usar herramientas de gráficos de concordancias para identificar el uso de palabras o sintagmas. En la sección “Words” aparece la lista de palabras utilizadas en el corpus clasificadas o bien según su frecuencia o por orden alfabético.

Figura 3: las concordancias

Las concordancias, a su vez, permiten ver las ocurrencias de una palabra en concreto, es decir, en qué momento de la narrativa se usa el término de búsqueda rodeado de su contexto, tal y como se ve en la figura 3. Una limitación de AntConc es que solo puede funcionar eficazmente con corpora a pequeña escala.

Para mi siguiente ensayo, gracias a estas dos herramientas (Voyant y AntConc), podré analizar tweets del sur de Florida en español e inglés para comprender las formas en que la pandemia de la COVID-19 afectó la salud mental de los adolescentes. El uso del análisis de textos para este proyecto me permitirá identificar palabras clave / ideas / temas relacionados con los adolescentes y la pandemia y luego comprender cómo estos términos se relacionan entre ellos. Mi esperanza es que a través de una serie de palabras y términos clave pueda entender dónde concentrarme y qué narrativas hay detrás de dichos términos. Antes de esta clase de humanidades digitales, no estaba familiarizada con el proceso de análisis de textos. Sin embargo, ahora lo entiendo como una herramienta poderosa que ayuda a los académicos a obtener información útil y procesable a partir de sus datos textuales. Además, programas como AntConc y Voyant ahorran tiempo y aumentan la productividad al automatizar las tareas, lo que permite a los usuarios en general evitar tareas engorrosas y, en última, proporcionar un mejor análisis de datos.