Le corpus est composé de 4872 sonnets, principalement du 19e siècle. Nous avons identifié 760 auteurs, soit 4414 sonnets écrits par des hommes (660), 439 sonnets écrits par des femmes (107). Reste 19 sonnets auquels nous n'avons pu attribuer un ou une auteure.
Parmi les auteurs identifiés, 19 d'entre eux ont été sélectionnés, et sont une des contraintes possibles sur la page générateur de poèmes. Il s'agit de :
- Théodore de Banville (1823 – 1891) - 37 poèmes
- Charles Baudelaire (1821 – 1867) - 66 poèmes
- Eugénie Casanova (1825 – 1908) - 22 poèmes
- François Coppée (1842 – 1908) - 28 poèmes
- Charles des Guerrois (1817 – 1916) - 66 poèmes
- Théophile Gautier (1811 – 1872) - 55 poèmes
- José-Maria de Heredia (1842 – 1893) - 127 poèmes
- Leconte de Lisle (1818 -1894) - 25 poèmes
- Stéphane Mallarmé (1842 – 1898) - 27 poèmes
- Robert de Montesquiou (1855 – 1921) - 79 poèmes
- Alfred de Musset (1810 – 1857) - 21 poèmes
- Gérard de Nerval (1808 – 1855) - 18 poèmes
- Claudius Popelin (1825 – 1892) - 70 poèmes
- Sully Prudhomme (1839 – 1907) - 166 poèmes
- Arthur Rimbaud(1854 -1891) - 17 poèmes
- Charles-Augustin Sainte-Beuve (1804 – 1869) - 57 poèmes
- Blanche Sari-Flégier (1852 – 1914) - 32 poèmes
- Paul Verlaine (1844 – 1896) - 110 poèmes
Le corpus a été constitué à partir de diverses sources, majoritairement des données disponibles en ligne comme celles de la bibliothèque nationale de France (3980 sonnets), ou encore Wikisource (781 sonnets) mais aussi des données extraites de blogs, d'anthologies, du corpus Malherbe.
La composition de notre corpus est assez inégale, puisque :
- Le travail sur les deux premières sources a été fait automatiquement et en partie vérifié et corrigé à la main. Il reste donc des erreurs.
- Le corpus contient majoritairement des données de la BNF, puisque ce travail est le résultat d'un partenariat établi avec cette dernière.
- Certains auteurs n'ont que très peu de sonnets, d'autres sont totalament absents.
- Des expériences avec des corpus particuliers (par exemple avec des auteurs contemporains dont les oeuvres sont encore sous droits) sont envisagées mais sont plus difficiles à mettre en oeuvre et à rendre publiques, pour des raisons évidentes.