Real Academia Española (RAE)
La nueva versión del CORPES, la 1.1, cuenta con más de 380 000 documentos que suman algo más de 410 millones de formas ortográficas, procedentes de textos escritos y de transcripciones orales. Con respecto a la versión anterior, publicada en mayo de 2023, supone un incremento de más de 15 millones de formas; más de cinco millones de ellas proceden del parámetro oral y algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del vídeo de acuerdo con la procedencia del texto fuente.
Por lo que respecta al bloque de Ficción (novelas, guiones de cine, relatos, obras de teatro), las formas del CORPES sobrepasan los 108 millones, mientras que las contenidas en textos de libros de no ficción y en publicaciones periódicas (ciencias sociales, salud, política, artes, tecnología…) sobrepasan los 296 millones. Los textos procedentes de libros suponen más de 190 millones de formas; las publicaciones periódicas están representadas con unos 205 millones. Algo más de nueve millones más provienen de blogs, entrevistas digitales, redes sociales y miscelánea.
Cronológicamente se incorporan unas 150 000 formas ya correspondientes a 2024; más de cinco millones son de 2023, unos once millones de 2022 y más de catorce para 2021; aumenta también el número de textos producidos entre 2016-2020, con algo más de 75 millones de formas en esta versión.
Más en rae.es