Titre | Méthodologie pour l'élaboration d'un corpus et d'une archive du web littéraire francophone | |
---|---|---|
Auteur | Christian Cote | |
![]() |
Revue | Cahiers du numérique |
Numéro | Vol. 20, no 3-4, 2024 Le web : source et archive | |
Page | 335-359 | |
Résumé |
Cet article propose une méthodologie pour la constitution d'un corpus et d'une archive du web littéraire francophone. Elle emprunte à la fois aux méthodes de la linguistique de corpus et à l'archivage du web et propose une méthode originale pour acquérir des données précises à partir du web. En effet, le problème fondamental de l'acquisition de ce corpus consiste en la difficulté à identifier la production littéraire web dans toute sa diversité : la littérature web n'est pas directement repérable parce que l'on ne dispose ni de mots-clés ni d'indices spécifiques ou récurrents. Nous utilisons donc dans ce corpus différentes méthodes et outils, coordonnés et permettant, par la complémentarité des points de vue et toujours sous contrôle manuel, de constituer un corpus sinon exhaustif, du moins représentatif de cette littérature. Nous avons pour cela emprunté des concepts comme celui de réseau de sociabilité et constitué des ensembles de données liées permettant de décrire la structure de ces communautés d'écrivains à partir des différents phénomènes de reconnaissance mutuelle. Enfin, au-delà de cette méthodologie et de sa validation, nous présentons quelques éléments relativement à la structuration de corpus, et notamment son indexation. Source : Éditeur (via Cairn.info) |
|
Résumé anglais |
This article proposes a methodology for building a corpus and archive of the French-language literary web. It borrows from both corpus linguistics and web archiving, and proposes an original method for acquiring accurate data from the web. Indeed, the fundamental problem in acquiring this corpus lies in the difficulty of identifying web literary production in all its diversity: web literature is not directly identifiable because we have neither keywords nor specific or recurring indices. In this corpus, we are therefore using a variety of complementary methods and tools, which, through the complementarity of viewpoints and always under manual control, enable us to build up a corpus that is, if not exhaustive, at least representative of this literature. To this end, we have borrowed concepts such as the sociability network, and set up linked data sets to describe the structure of these writers' communities, based on the various phenomena of mutual recognition. Finally, beyond this methodology and its validation, we present a few elements relating to corpus structuring, and in particular its indexing. Source : Éditeur (via Cairn.info) |
|
Article en ligne | https://shs.cairn.info/revue-les-cahiers-du-numerique-2024-3-page-335?lang=fr |