miércoles 13

Una ley predice la frecuencia de uso de una palabra en un texto

Posteado por Obra Social el 13/04/2016 en | 0 comentarios

Gráfico de la ley de Zipf. Fuente: UAB

Post de Álvaro Corral, investigador del Centro de Investigación Matemática (CRM) y coordinador del estudio sobre la ley de Zipf.

En el marco del proyecto «Investigación en matemática colaborativa», impulsado por la Obra Social "la Caixa", investigadores del Centro de Investigación Matemática (CRM), adscritos al Departamento de Matemáticas de la Universidad Autónoma de Barcelona (UAB), hemos analizado por primera vez, con todo el rigor matemático y estadístico necesario, la validez de la ley de Zipf. Esta investigación ha sido publicada en enero de 2016 en PLOS ONE.

En este estudio hemos encontrado que la ley de Zipf, una relación matemática que determina la frecuencia de uso de las palabras, se cumple con precisión en la mayor parte de los textos, si se excluyen del análisis las palabras extremadamente raras.

La ley de Zipf, en su versión más sencilla, formulada en la década de 1930 por el lingüista estadounidense George Kingsley Zipf, determina que, de manera sorprendente, la palabra más frecuente de un texto aparece el doble de veces que la siguiente más frecuente, tres veces más que la tercera más frecuente, y así sucesivamente. 

Esta ley, que se puede aplicar en muchos otros campos aparte de la literatura, se había comprobado con más o menos rigor en pequeñas cantidades de datos, pero carecía de una comprobación con todo el rigor matemático y sobre una base de datos lo bastante grande como para darle validez estadística. 

Para demostrar la ley, los investigadores analizamos toda la colección de textos en lengua inglesa del proyecto Gutenberg, una base de datos pública y gratuita con más de 30.000 obras en esta lengua. Es una tarea sin precedentes: en el ámbito de la lingüística la ley nunca había sido comprobada en conjuntos de más de una docena de textos diferentes.

Según el análisis, si se ignoran las palabras más raras, aquellas que solo salen una o dos veces en todo un libro, el 55% de los textos se ajustan perfectamente a la ley de Zipf (en su formulación más general). Si se tienen en cuenta todas las palabras, también las más raras, este porcentaje es del 40%. 

Frecuencia de aparición de cada palabra según su posición en el rango de mayor a menor frecuencia. Primeros diez millones de palabras para treinta wikipedias. Fuente: Sergio Jiménez, Wikimedia Commons.

Es muy sorprendente que la frecuencia de aparición de las palabras esté determinada por una fórmula con un solo parámetro libre. La famosa campana de Gauss, por ejemplo, ya necesita dos, posición y anchura, para ajustarse a datos reales de otros fenómenos. Si descartáramos palabras que aparecen tres, cuatro o cinco veces en toda una obra, la proporción de libros que siguen la ley de Zipf podría llegar a porcentajes aún más altos. 

En términos matemáticos, la ley afirma que si se ordenan todas las palabras por frecuencia de uso, la segunda más frecuente aparece la mitad de veces que aparece la más frecuente; la tercera, un tercio de veces y, en general, la que ocupa la posición n aparece 1/n veces la más frecuente.

Hemos estudiado la validez de las tres formulaciones más utilizadas de la ley de Zipf en todos los textos en lengua inglesa de la base de datos del proyecto Gutenberg (que incluye más de 31.000 libros) y hemos observado que una de estas formulaciones se ajusta, con resultados estadísticamente significativos, a la frecuencia de aparición de todas las palabras de más del 40% de los libros de la colección, unos textos que contienen entre cien y más de un millón de palabras.

Parece evidente que, en la actual era de los datos masivos y de las computadoras de altas prestaciones, se deberán enfocar los esfuerzos en el análisis de la ley a gran escala, y estos resultados son un primer paso en esta dirección. 

Aunque la literatura se considera una de las expresiones por antonomasia de la libertad creadora, según los resultados de estos investigadores, ni los más grandes autores como Shakespeare o Dickens escapan a la tiranía de la ley de Zipf.

Más información 

- Artículo científico publicado en PLOS ONE

 

Compartir

7

Categoría:

Archivo: 2016 2016 » Abril

Post Relacionado:

NewsLetters
El-artico-se-rompe

CosmoCaixa, donde la ciencia se convierte en experiencia

con la colaboración de

Associació Catalana de Comunicació Científica