Jueves 07 de febrero del 2013 The New York Times

Lentes digitales para darle una nueva mirada a la historia de la literatura

The New York Times Service

Es esta capacidad para recopilar, medir y analizar datos con objeto de tener un entendimiento significativo lo que es la promesa de la tecnología de los grandes datos.

Es esta capacidad para recopilar, medir y analizar datos con objeto de tener un entendimiento significativo lo que es la promesa de la tecnología de los grandes datos.

Lo más seguro es que cualquier lista de destacados novelistas del siglo XIX que escribieron en inglés incluya a Charles Dickens, Thomas Hardy, Herman Melville, Nathaniel Hawthorne y Mark Twain.

Sin embargo, no aparecen en los primeros lugares de una lista de los escritores más influyentes de su época. En cambio, se encontró en una investigación reciente que Jane Austen, la autora de “Pride and Prejudice”, y Sir Walter Scott, el creador de “Ivanhoe”, tuvieron el efecto más grande en otros autores, en términos de estilo y temas.

Estos dos fueron “el equivalente literario al Homo erectus o, si se quiere, a Adán y Eva”, escribió Matthew L. Jockers en la investigación publicada el año pasado. Basó sus conclusión en un análisis de 3.592 obras publicadas de 1780 a 1900. Hubo que escarbar mucho, algo que hizo una computadora.

En el estudio, que implicó un análisis sintáctico estadístico y una colección de miles de novelas, se hacen otras observaciones asombrosas. Por ejemplo, las obras de Austen se agrupan estrictamente por su estilo y temática, mientras que las de George Eliot (también conocida como Mary Ann Evans) varían más claramente, y se asemejan muchísimo más a los patrones de los hombres. Según criterios similares, Harriet Beecher Stowe estaba 20 años adelantada a su tiempo, dijo Jockers, cuya investigación se publicará pronto como libro: “Macroanalysis: Digital Methods and Literary History” (University of Illinois Press).

Estas conclusiones difícilmente son la última palabra. En esta etapa, este tipo de análisis digital es, en su mayor parte, un signo intrigante de que la tecnología de los grandes datos está avanzando sistemáticamente más allá de internet, hacia la investigación científica en campos aparentemente extraños, como las ciencias sociales y las humanidades. Las nuevas herramientas de descubrimientos proporcionan una mirada nueva a la cultura, en gran parte como el microscopio nos dio una más cercana a las sutilezas de la vida y el telescopio abrió el camino a las galaxias lejanas.

“Tradicionalmente, la historia literaria se había hecho estudiando un puñado relativo de textos”, dice Jockers, un profesor adjunto de Inglés e investigador en el Centro para la Investigación Digital en Humanidades de la Universidad de Nebraska. “Lo que hace esta tecnología es que te permite ver el panorama general – el contexto en el que trabajaron los autores – a una escala que nunca antes habíamos visto”.

Jockers, de 48 años, personifica el avance digital en las humanidades. Obtuvo el doctorado en literatura inglesa por la Universidad del Sur de Illinois, pero también estaba fascinado con la informática y se hizo programador autodidacta. Antes de cambiarse a la Universidad de Nebraska el año pasado, pasó más de una década en la Universidad de Stanford, donde fue un fundador del Laboratorio Literario de Stanford, dedicado a la exploración digital de libros.

Hoy, Jockers describe las herramientas de su oficio en términos familiares para un ingeniero en informática en internet – algoritmos que usan el aprendizaje de máquinas y técnicas de análisis de redes. Sus modelos matemáticos están elaborados para identificar patrones de palabras y elementos temáticos en textos escritos. Los números y la fuerza de los vínculos entre novelas determina la influencia, en forma muy parecida a como Google clasifica los sitios web.

Es esta capacidad para recopilar, medir y analizar datos con objeto de tener un entendimiento significativo lo que es la promesa de la tecnología de los grandes datos. En las humanidades y ciencias sociales, el flujo de datos nuevos proviene de muchas fuentes que incluyen libros escaneados a forma digital, sitios web, publicaciones en blogs y comunicaciones en redes sociales.

Las especialidades centradas en los datos están creciendo rápido, con lo que está surgiendo un vocabulario nuevo. En ciencia política, este análisis cuantitativo se llama metodología política. En historia, está la cliométrica, que aplica econometría a la historia. En literatura, la estilometría es el estudio del estilo de un autor, y hoy día descansa muchísimo en los análisis informático y estadístico. La culturonomía es el término genérico utilizado para describir consultas cuantitativas rigurosas en ciencias sociales y humanidades.
“Algunos la llaman informática y algunos la llaman estadística, pero la esencia es que estos métodos algorítmicos son ahora, cada vez más, parte de cualquier disciplina”, dice Gary King, el director del Instituto para la Ciencia Social Cuantitativa en Harvard.

Los analistas de datos culturales adaptan con frecuencia analogías biológicas para describir su trabajo. Jockers, por ejemplo, llamó a la presentación de su investigación “Computar y visualizar al genoma literario del siglo XIX”. Tales metáforas biológicas parecen apropiadas porque gran parte de la investigación es un examen cuantitativo de palabras. Tal como los genes son los bloques fundamentales en la construcción biológica, las palabras son la materia prima de las ideas.

“Lo que es crítico y distintivo para la evolución humana es las ideas y cómo evolucionan”, dice Jean Baptiste Michel, un investigador posdoctoral en Harvard. Michel y otro investigador, Erez Lieberman Aiden, coordinaron un proyecto para explotar el almacén de libros virtual, conocido como Google Libros y rastrear el uso de las palabras al paso del tiempo, así como comparar palabras relacionadas e, incluso, graficarlas.

Google cooperó y elaboró el programa informático para hacer que los gráficos estén abiertos al público. La versión inicial del sitio de exploración cultural de Google comenzó a finales de 2010, basada en más de cinco millones de libros que datan a partir de 1500. Para ahora, Google ha escaneado 20 millones de títulos y se usa el sitio 50 veces por minuto. Por ejemplo, si se escribe “mujeres” en comparación con “hombres”, se verá que, durante siglos, la cantidad de referencias para hombres ha hecho que parezcan pocas las de las mujeres. El cambio se produjo en 1985, año a partir del cual las mujeres han llevado la delantera.

En un trabajo publicado en la revista Science en 2011, Michel y el equipo de investigación aprovechó los datos de Google Libros para averiguar cuán rápido se diluye el pasado en los libros. Por ejemplo, las referencias a “1880” presentan su punto máximo en ese año, caen a la mitad para 1912, un intervalo de 32 años. En comparación, “1973” declinó a la mitad de su punto máximo para 1983, sólo 10 años después. “Estamos olvidando nuestro pasado con más rapidez cada año que pasa”, escribieron los autores.

Jon Kleinberg, un informático teórico en la Universidad Cornell, y un grupo de investigadores abordaron a la memoria colectiva desde una perspectiva muy diferente. Su trabajo, publicado el año pasado, se centra en lo que hace que sean memorables los diálogos de las películas. Las oraciones que perduran en la mente de la población son historias evolucionarias de éxito, dice Kleinberg, al comparar “la idoneidad del lenguaje y la idoneidad de los organismos”.

Como medida de comparación, los investigadores utilizaron “citas memorables”, seleccionadas de la popular base de datos en internet sobre cine, o IMDb, por sus siglas en inglés, y la cantidad de veces que aparece un diálogo de una cinta en particular en la red. Luego compararon los diálogos memorables con los guiones completos en los que aparecieron de cerca de mil películas.

Para entrenar a sus algoritmos estadísticos en la estructura de oraciones comunes, en el orden de las palabras y en las palabras de uso más general, alimentaron a sus computadoras con archivos enormes de artículos extraídos de cables de noticias. Los diálogos memorables consistieron de palabras sorprendentes, integradas en oraciones de estructura común: “Podemos pensar que las citas memorables consisten en la selección de palabras inusuales, construidas sobre un andamiaje de patrones comunes de los elementos del discurso”, se dice en su investigación.

Por ejemplo, la oración en inglés: “You had me at hello” (Me atrapaste desde que dijiste hola) de la película “Jerry McGuire”. Kleinberg nota que, básicamente, es la misma secuencia de las partes del discurso que la cotidiana “I met him in Boston” (Lo conocí en Boston). Otro ejemplo, la línea de “Apocalypse Now”: “Me encanta el olor del napalm por las mañanas”. Sólo una palabra separa a esa aseveración de esta otra: “Me encanta el olor del café por las mañanas”.

Este análisis se puede usar para todo tipo de comunicados, incluida la publicidad. En efecto, el grupo de Kleinberg también examinó lemas publicitarios. Estadísticamente, los mas parecidos a citas de películas memorables incluyeron: “La calidad nunca pierde el estilo” de los vaqueros Levi’s, y “Vengan al territorio Marlboro” de los cigarros de esa marca.
Sin embargo, los métodos algorítmicos no son una guía infalible al éxito del mundo real. Un lema publicitario que no encajó bien dentro de los parámetros estadísticos de las líneas memorables fue el eslogan de las pilas Energizer, “La batería que sigue, sigue y sigue”.

Las herramientas cuantitativas en las humanidades y ciencias sociales, como en otros campos, son más poderosas cuando las controla un humano inteligente. Se necesita que los expertos con conocimientos profundos de un tema formulen las preguntas correctas y reconozcan las deficiencias de los modelos estadísticas.

“Siempre vas a necesitar ambos”, dice Jockers, el matemático literato. “Pero estamos en un momento en el que hay muchísima más aceptación de estos métodos que en el pasado. Llegará el tiempo en el que este tipo de análisis sólo sea parte del equipo de herramientas en las humanidades, como en cualquier otra disciplina”. (Steve Lohr, The New York Times News Service)

Enlace corto: