Dicho de manera sencilla, un corpus textual es un conjunto de textos, codificados digitalmente, que comparten una o varias características, aunque es conveniente matizar diferentes cuestiones relacionadas con esta definición.
En primer lugar, cuando hablamos de textos, nos referimos, tanto a cualquier texto completo o fragmento (una novela, una revista, un artículo, un guion, un fragmento de una novela etc.), como a cualquier otra representación escrita (transcripciones de los diálogos de una película, de un programa radiofónico, etc.), que fueron creados con una intención comunicativa real y, usualmente, producidos con anterioridad a la creación del propio corpus.
Por otro lado, la característica o características comunes de los textos que forman parte de un corpus difieren de un corpus a otro. Así, por ejemplo, un corpus puede contener documentos de un período temporal específico, de un estilo narrativo concreto o de una área temática particular. Estas características determinarán, en gran medida, el tipo de estudios e investigaciones que se podrán hacer empleando este corpus.
No debemos olvidar que el fin último de un corpus es el de permitir la realización y/o validación de diferentes tipos de estudios (léxicos, gramaticales, semánticos, sociolingüísticos, etc., dependiendo del corpus en particular), por lo que una selección adecuada de los textos es fundamental para que el corpus pueda servir al propósito para el que ha sido creado. Por lo tanto, para efectuar esta selección de forma correcta, es importante tener en cuenta que el corpus debe ser representativo para la materia que se pretende investigar.
Para ahondar más en este tema te recomendamos el capítulo 1 del libro "Introducción a la lingüística de corpus en español", de Guillermo Rojo (2021).