19/2/2021 | Real Academia Española (RAE)
La Real Academia Española, en colaboración con la Asociación de Academias de la Lengua Española (ASALE), presenta una nueva actualización del Corpus del Español del Siglo XXI (CORPES XXI). La más reciente versión de la herramienta, la 0.93, cuenta con más de 316 000 documentos, que suman algo más de 333 millones de formas ortográficas, procedentes de textos escritos y de transcripciones de textos orales. Con respecto a la versión anterior, publicada en mayo de 2020, supone un incremento de más de 21 millones de formas.
NOVEDADES DE LA VERSIÓN 0.93
Más de cuatro millones y medio de las formas incorporadas en esta actualización son transcripciones de textos orales (programas de radio y televisión, entrevistas en medios de comunicación, YouTube, etc.). Algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del vídeo, de acuerdo con la procedencia del texto fuente.
Por lo que respecta al bloque de ficción (novelas, guiones de cine, relatos, obras de teatro), las formas de CORPES sobrepasan los 93 millones, mientras que las contenidas en textos de libros de no ficción y en publicaciones periódicas (ciencias sociales, salud, política, artes, tecnología…) se acercan a los 238 millones. Los textos procedentes de libros suponen casi 166 millones de formas; las publicaciones periódicas están representadas con unos 158 millones. Seis millones y medio más provienen de blogs, entrevistas digitales, redes sociales y miscelánea.
Más en rae.es