Contenu du sommaire : Le web : source et archive

Revue Cahiers du numérique Mir@bel
Numéro Vol. 20, no 3-4, 2024
Titre du numéro Le web : source et archive
Texte intégral en ligne Accessible sur l'internet
  • Pages de début - p. 99-104 accès libre
  • Les auteurs - p. 105-106 accès libre
  • Introduction. Le web : source et archive - Laurence Favier, Emmanuelle Bermès, Marie-Madeleine Géroudet p. 107-116 accès libre
  • Archiver le web : quelle objectivité construire pour quelles interrogations ? - Bruno Bachimont p. 117-131 accès libre avec résumé avec résumé en anglais
    Au cours des dernières décennies, le Web s'est imposé comme un moyen privilégié de diffusion et de partage de contenus et d'expériences. Cela pose la question de sa mémoire et, par conséquent, de son archivage. Cet archivage repose généralement sur le principe de la collecte, généralement automatique et périodique, d'un ensemble d'adresses IP par des robots. Les pages Web sont alors enregistrées et stockées, simulant l'expérience de navigation d'un internaute. Il en résulte un ensemble de pages que l'on pourrait, en principe, consulter comme si l'on revenait au Web du passé : en réalité, une collecte n'étant jamais exhaustive ni permanente, l'archive obtenue est un échantillonnage temporel et spatial du Web sur une période donnée. Dans ces conditions, quel régime de mémoire est inauguré par l'archivage du Web, et quelle épistémologie peut-on en déduire pour caractériser les consultations que l'on peut en faire et les enseignements que l'on peut en tirer ? L'objectif de cet article est de répondre à ces questions. L'enjeu sera de déterminer ce que pourrait être le « noème » d'une archive du Web, c'est-à-dire le concept ou l'essence qui configure et prédétermine notre compréhension de cette archive.
    Over the last few decades, the web has established itself as a privileged means of disseminating and sharing content and experiences. This raises the question of its memory and, consequently, its archiving. Such archiving is generally based on the principle of the collection, generally automatic and periodic, of a set of IP addresses by robots. The web pages are then recorded and stored, simulating the browsing experience of an Internet user. The result is a set of pages that could, in principle, be consulted as if we were going back to the Web of the past: in reality, as a collection is never exhaustive or permanent, the archive obtained is a temporal and spatial sampling of the Web over a given period. Under these conditions, what kind of memory regime is inaugurated by archiving the Web, and what epistemology can we deduce from this to characterise the consultations we can make of it and the lessons we can learn from it? The aim of this article is to address these questions. The challenge will be to determine what the ‘noeme' of a Web archive might be, i.e. the concept or essence that configures and predetermines our understanding of this archive.
  • L'archive comme horizon : le web face à la conquête de notre passé numérique - Joana Casenave, Laurence Favier p. 133-161 accès libre avec résumé avec résumé en anglais
    La volonté de conserver et de documenter les sites et contenus accessibles sur le Web pour en rendre possible l'histoire a démarré peu de temps après la diffusion du Web. Si l'objectif général de l'archivage du Web avec toutes les difficultés qui lui sont inhérentes est clair, comment définir ce que l'on cherche à conserver ? Dans le cadre législatif français, cet objectif s'inscrit dans l'obligation de dépôt légal et spécifiquement du dépôt légal des documents numériques. Aux États-Unis, Internet Archive se présente comme une bibliothèque numérique de sites Internet et autres artefacts culturels qui ont un format numérique. On voit là la diversité des approches qui, dans tous les cas, proposent des dispositifs dédiés aux publications et non aux archives. Les matériaux collectés dans les divers projets d'archivage du Web ne rentrent dans aucune définition du concept d'archive. Par ailleurs, l'informatique multiplie le recours à ce concept. Cet article est une enquête sur le sens du concept d'archive appliqué aux matériaux numériques depuis l'émergence du Web. De la traçabilité numérique à l'archivage informatique en passant par « les archives ouvertes » nées avec le Web, le champ sémantique de l'archive ne cesse de s'élargir avec le développement de l'informatique. Cet élargissement est en même temps celui des outils, des objets, des acteurs qui forment des infrastructures du savoir par lesquelles se construit la connaissance de notre passé numérique. La valeur archivistique des matériaux numériques intégrés dans ces infrastructures reste un horizon déjà préfiguré et qui reste à conquérir.
    The intention to preserve and document websites and content accessible on the Web in order to enable the writing of history, began shortly after the Web's emergence. While the overall objective of Web archiving—with its inherent challenges—is clear, defining what exactly should be preserved remains complex. Within the French legislative framework, this aim aligns with the obligation of legal deposit, specifically the legal deposit of digital documents. In the United States, the Internet Archive presents itself as a digital library of websites and other cultural artifacts in digital format. These examples illustrate the diversity of approaches, all of which establish systems dedicated to publications rather than traditional archives. The materials collected in various Web archiving projects do not fit into any standard definition of the concept of archive. Moreover, computer specialists and the information technology field in general is multiplying the use of this concept in widely varying interpretations. This paper investigates the meaning of the archive concept as applied to digital materials since the emergence of the Web. From digital traceability to computational archiving, including “open archives” initiated with the Web, the semantic scope of the archive has continually expanded alongside technological advancements. This expansion also encompasses the tools, objects, and actors that shape knowledge infrastructures through which our understanding of the digital past is constructed. The archival value of digital materials integrated into these infrastructures remains an already prefigured horizon that is yet to be fully conquered.
  • Les archives du web : du « goût de l'archive » à des cultures historiennes renouvelées ? - Frédéric Clavert, Caroline Muller p. 163-179 accès libre avec résumé avec résumé en anglais
    Partant du projet collectif Le goût de l'archive à l'ère numérique, cet article constate que le livre d'Arlette Farge, Le goût de l'archive, très populaire chez les historiennes et historiens français, ne correspond plus à l'expérience de recherche d'une grande partie d'entre eux. Les archives du Web sont un cas intéressant pour montrer ce décalage : souvent méconnues des historiens et historiennes qui pourraient en faire usage, parfois malmenées méthodologiquement, les usages, mésusages et non-usages des archives du Web montrent à quel point une culture numérique commune aux historiens et historiennes manque, nous rappelant au passage la nécessité de repenser notre formation. Le cas des archives du web montre également que nous avons besoin de nouvelles philologies, adaptées à l'ère numérique et, plus particulièrement, aux sources nativement numériques. Premier type de sources nativement numériques largement accessible, les archives du web annoncent les enjeux que devront relever les historiens et historiennes du contemporain : en premier lieu, expliciter des pratiques numériques discrètes qui, autrement, risquent d'introduire des impensés dans notre méthodologie. Cette explicitation pourra aller jusqu'à reconsidérer ce que nous tenons aujourd'hui pour acquis, la définition d'une « archive ».
    Based on the collaborative project Le goût de l'archive à l'ère numérique, this article notes that Arlette Farge's book Le goût de l'archive, which is very popular with French historians, no longer corresponds to the research experience of a large proportion of them. Web archives provide an interesting example of this discrepancy: often unknown to historians who could make use of them, and sometimes methodologically abused, the uses, misuses and non-uses of web archives show the extent to which a common digital culture among historians is lacking, reminding us of the need to rethink our training. The case of web archives also shows that we need new philologies, adapted to the digital age and, more specifically, to natively digital sources. As the first type of natively digital source to be widely accessible, web archives herald the challenges that contemporary historians will have to take up: firstly, to make explicit discrete digital practices which otherwise risk introducing many unanswered questions into our methodology. This clarification could go so far as to reconsider what we take for granted today, the definition of an ‘archive'.
  • Web vivant et web archivé, aux sources de l'histoire nativement numérique - Sophie Gebeil p. 181-193 accès libre avec résumé avec résumé en anglais
    L'article se penche sur l'utilisation du web comme source pour la recherche historique contemporaine. Malgré la pratique répandue de la consultation d'archives numérisées, un nombre limité d'historiens utilisent le web comme source primaire. La discussion aborde les complexités inhérentes à l'utilisation de documents nés numériques et souligne l'impératif d'exploiter les archives du web pour l'historiographie numérique. Il souligne que ces archives, reconstruites à partir du web, exigent un examen minutieux et une relation redéfinie avec les documents d'archives. En outre, l'article illustre comment l'intégration des archives web depuis le début des années 2000 a revitalisé les méthodologies historiques en conjonction avec les humanités numériques, en s'appuyant sur des études des pratiques mémorielles et des mobilisations collectives.
    The article delves into the utilization of the web as a source for contemporary historical research. Despite the widespread practice of consulting digitized archives, a limited number of historians employ the web as a primary source. The discussion addresses the complexities inherent in using born-digital documents and underscores the imperative of leveraging web archives for digital historiography. It highlights that these archives, reconstructed from the web, demand heightened scrutiny and a redefined relationship with archival materials. Furthermore, the article illustrates how the integration of web archives since the early 2000s has revitalized historical methodologies in conjunction with digital humanities, drawing on studies of memorial practices and collective mobilizations.
  • Le web comme source : En quête d'une science auxiliaire ? - Emmanuelle Bermès, Sophie Gebeil, Grégory Miura p. 195-215 accès libre avec résumé avec résumé en anglais
    Cet article découle d'une réflexion initiée durant le cycle d'ateliers du projet ResPaDon, qui s'est poursuivie lors d'une table ronde organisée dans le cadre du colloque « Le web, source et archives » en avril 2023. En remontant aux fondements méthodologiques posés par l'Introduction aux études historiques de Langlois et Seignobos, il revient sur la notion de « science auxiliaire », interrogée à l'aune de l'analyse des sources web par la démarche scientifique. Dans un contexte où historiennes et historiens du temps présent sont confrontés aux enjeux de la culture numérique, un besoin croissant de créer des liens avec les professionnels chargés de l'archivage de ces sources d'un genre nouveau se fait sentir. Trois parcours convergent autour de cette réflexion : ceux d'Emmanuelle Bermès, maîtresse de conférences à l'École des chartes et spécialiste de la patrimonialisation des collections numériques ; de Sophie Gebeil, chercheuse au laboratoire TELEMMe et historienne des pratiques mémorielles en ligne ; et de Grégory Miura, conservateur général des bibliothèques et président du comité technique 46 de l'ISO. Ces perspectives complémentaires offrent une analyse approfondie de la patrimonialisation des collections numériques et de l'étude des archives du web en tant que sources. Le recours aux sciences auxiliaires comme grille de lecture met en évidence la nécessité de réévaluer les méthodes de citation et de stabilisation des sources web, ainsi que le besoin d'une formation à la littératie numérique pour tous les chercheurs et chercheuses, dans une optique d'évolution vers des pratiques normées.
    This article arises from a reflection initiated during the cycle of workshops of the ResPa
    Don project, which continued through a panel discussion organized as part of the conference “The web, source and archives” in April 2023. Going back to the methodological foundations laid by the Introduction to Historical Studies by Langlois and Seignobos, it comments the notion of “auxiliary science”, questioned in the light of the scientific analysis of web sources. In a context where historians of the present time are confronted with the challenges of digital culture, we feel a growing need to create links with the professionals responsible for archiving these sources of a new type. Three paths converge around this reflection: those of Emmanuelle Bermès, assistant professor at the École des chartes and specialist in the heritage of digital collections; of Sophie Gebeil, researcher at the TELEMMe laboratory and historian of online memorial practices; and of Grégory Miura, general curator of libraries and president of ISO technical committee 46. These complementary perspectives offer an in-depth analysis of the heritage of digital collections and the study of web archives as sources. The use of auxiliary sciences as a reading grid highlights the need to re-evaluate methods of citation and stabilization of web sources, as well as the need for training in digital literacy for all researchers, with a view to development. towards standardized practices.
  • Protocole pour documenter un projet scientifique : Patrimonialisation du web et corpus augmenté par les vidéos d'écran dans le projet Millenium - Céline Ferjoux p. 217-234 accès libre avec résumé avec résumé en anglais
    L'article propose d'étudier les enjeux épistémologiques et techniques d'un projet scientifique accueilli en résidence au DataLab de la Bibliothèque nationale de France et intitulé, Millenium : le problème de l'an 2000 (Y2K). Expression de l'imaginaire et des savoirs techniques dans une société pré-numérique. Basé sur un corpus multimodal, le terrain d'enquête illustre l'augmentation du corpus d'archives web par l'audiovisuel via la pratique du screencast et en aborde les implications pour l'étude d'une controverse sociotechnique.
    The article proposes to study the epistemological and technical issues of a scientific project hosted in residence at the National Library of France DataLab and entitled, Millenium : the Year 2000 problem (Y2K). Expression of imagination and technical knowledge in a pre-digital society. Based on a multimodal corpus, the field of inquiry illustrates the augmentation of web archives corpus by audiovisual via the practice of screencast and adress the implications for the study of a sociotechnical controversy.
  • Les modalités de constitution de deux corpus audiovisuels : Une approche singulière dans un contexte archivistique varié - Mehdi Zoghaïb p. 235-246 accès libre avec résumé avec résumé en anglais
    L'objectif de cette étude est de comprendre la pluralité des tentatives de constitution d'un corpus de propagande terroriste. L'article présente les différentes méthodologies observées et pratiquées au cours de la recherche et met en avant les principales difficultés rencontrées par les chercheurs au cours du processus de compilation. Les résultats de cette étude s'ajoutent aux recherches antérieures dans le domaine des archives de propagande terroriste. Cependant d'autres recherches dans ce domaine sont nécessaires pour une compréhension plus complète de ce type spécifique de compilation dans un contexte de censure globale en ligne.
    The purpose of this study is to understand the plurality of attempts to build up a corpora of terrorist propaganda. It displays the different methodologies observed and practised in the course of this research. This paper presents the main difficulties encountered by the scholars during the compilation process. The results of this study add to previous research in the field of terrorist propaganda archives. Further research in the area is needed for a more complete understanding of this specific kind of compilation in a context of online global censorship.
  • Des émissions culinaires aux vidéos-conseils : transformation des recettes audiovisuelles de la télévision au web et la question du faire à manger « digital » - Christian Bonah, Solène Lellinger, Caroline Sala p. 247-265 accès libre avec résumé avec résumé en anglais
    Basée sur des archives télévisuelles de la seconde moitié du 20e siècle et des archives web du début du 21e siècle en Europe, cette exploration historique vise à retracer la manière dont les conseils ont été donnés et les recettes suggérées pour la préparation des repas. L'article propose une méthodologie pour analyser les transformations des présentations audiovisuelles de recettes, de la télévision des années 1960 aux vidéos web du début du 21e siècle, via un web crawl en deux étapes. Comment les instructions culinaires, et avec elles l'acte de préparer la nourriture, ont-elles été transformées entre le monde hertzien de la télévision et les recettes numériques du web ? Pour exemple, nous étudions les transformations d'une recette spécifique : la recette de la crêpe française. Qu'est-ce que ces transformations nous apprennent sur notre rapport à la nourriture, à la préparation des repas et sur le web comme outil d'information et de communication dans la sphère privée que représente la cuisine et les actions qui s'y déroulent ? Au-delà de l'approche comparative web-vidéo et télévision, notre contribution interroge la manière dont un crawl web se rapporte en termes de sources d'archives aux archives d'histoire orale antérieures qui ont créé de manière similaire des archives pour les historiens qui ont été recherchées et créées plutôt que rassemblées de manière institutionnelle, transformant ainsi le « métier d'historien ».
    Based on second half of the 20th Century television archives and early 21th centuries webarchives from Europe, this historical exploration aims to retrace the ways in which advice was given and recipes suggested for preparing meals. From a broader perspective, the paper lies at the crossroads of a history of food and a history of health and nutrition. The paper suggests a methodology for analyzing the transformations of audiovisual presentations of recipes from the 1960s television to early 21st Century web videos, via a two step web crawl. How have cooking instructions, and with them the act of preparing food, been transformed between the hertzian world of television and the digital recipes of the web? In exemplary manner we study the transformations of a specific time transcending recipe and its representations: the French pancake (crêpe) recipe. What do these transformations tell us about our relationship to food, to preparing meals and about the web as a tool for information and communication in the private sphere represented by the kitchen and the actions that take place there? Beyond the comparative web-video and television approach, our contribution widens its methodological perspective questioning how a prepared cold web crawl relates in terms of archival sources to prior oral history archives that created in a similar fashion archives for historians that were sought and created rather than institutionally gathered thereby transforming the “historian's craft”.
  • Une archive peut en cacher une autre : Comment tirer parti des variations entre plusieurs archives d'un même site ? - Clément Bert Erboul, Grégoire Clémencin, Jean Finez p. 267-290 accès libre avec résumé avec résumé en anglais
    Cet article s'attache à mettre au jour certaines des difficultés que posent aux chercheurs les informations collectées à partir des espaces communautaires accessibles sur le Web. Le cas d'une enquête menée en 2020 sur un groupe privé Facebook nous permet de revisiter le processus de construction d'une archive d'un tel espace. Nous revenons en particulier sur les variations observées entre les données issues des serveurs de Facebook et celles collectées par un dispositif parallèle ad hoc. Trois exemples de variations de données sont étudiés : la cohérence intrinsèque des données fournies par Facebook, les variations entre les données directement issues de la plateforme et celles récoltées par un dispositif de collecte ad hoc et enfin les décalages observés entre les discours présents sur la plateforme et les données quantitatives que l'on peut observer par ailleurs. En conclusion, l'article milite pour une combinaison des sources d'information lors de terrains numériques.
    This article aims to uncover some of the challenges researchers face when collecting information from community spaces accessible on the Web. A case study of an investigation conducted in 2020 on a private Facebook group allows us to revisit the process of constructing an archive of such a space. We particularly examine the variations observed between data from Facebook's servers and those collected through an ad hoc system. Three examples of data variations are explored: the intrinsic coherence of the data provided by Facebook, the discrepancies between data directly from the platform and those gathered by an ad hoc collection system, and finally, the gaps observed between the narratives present on the platform and the quantitative data collected. In conclusion, the article advocates for combining information sources when conducting digital fieldwork.
  • Harlem Shake à la BnF… à la recherche d'un phénomène viral dans les archives du web - Alexandre Faye, Fred Pailler, Sara Aubry, Antoine Silvestre de Sacy, Valérie Schafer p. 291-310 accès libre avec résumé avec résumé en anglais
    Le phénomène du Harlem Shake devient viral au cours du mois de février 2013. Il est remixé et rejoué par des milliers de personnes, notamment en France. Il combine des caractéristiques telles que les dimensions internationales, trans-plateformes, transculturelle et translinguistique des phénomènes viraux, ainsi qu'un caractère à la fois démesuré et éphémère. Dans le cadre du projet Hivi (2021-24), dédié à l'histoire de la viralité en ligne et du projet BUZZ-F, plus particulièrement consacré aux phénomènes viraux en France, mené avec le soutien du DataLab de la Bibliothèque nationale de France (BnF) sur l'année académique 2021-2022, il a servi d'exemple saillant de viralité et d'étude de cas pour explorer et analyser sa préservation et sa recherchabilité dans les archives du web. Cet article revient sur le travail commun entre chercheurs et archivistes du web pour identifier le Harlem Shake au sein des archives du web de la BnF, créer et documenter des jeux de données utiles et représentatifs, les contextualiser et en proposer des visualisations. Il éclaire les apports mais aussi les biais et limites identifiés, les stratégies de recherche mises en place (via les URL, le calcul de la viralité à partir de l'historique de collecte et ses difficultés d'interprétation, etc.). Il envisage enfin les perspectives ouvertes pour la recherche et pour l'archivage du web.
    The Harlem Shake phenomenon went viral in February 2013. It was remixed and reenacted by thousands of people, including in France. It combined characteristics of viral phenomena such as the international, cross-platform, cross-cultural, and cross-linguistic dimensions, as well as being both extravagant and ephemeral. As part of the Hivi project (2021-24), dedicated to the history of online virality, and the BUZZ-F project, which focused specifically on viral phenomena in France and was conducted with the support of the DataLab at the National Library of France (BnF) during 2021-2022, it served as a prominent example of virality and a case study for exploring and analyzing its preservation and searchability in web archives. This article reflects on the collaborative work between researchers and web archivists to identify the Harlem Shake within the BnF web archives, create and document useful and representative datasets, contextualize them, and offer visualizations. It highlights the contributions as well as the biases and limits identified, the research strategies that were implemented (through URLs, calculating virality based on the collection history and the interpretive challenges, etc.). Finally, it considers the opportunities this may open up for research and web archiving.
  • Archiver le web littéraire : pour une approche située des corpus en ligne - Servanne Monjour, Nicolas Sauret p. 311-333 accès libre avec résumé avec résumé en anglais
    Notre contribution vise à souligner combien l'archivage du Web littéraire exige une prise de position épistémologique, engageant la réévaluation de concepts traditionnels des études littéraires : œuvre, auteur, écriture, etc. Le changement de paradigme initié par la littérature native numérique, éditorialisée, exerce un impact sur la fabrique, la consultation et l'interprétation de l'archive du Web littéraire. À partir d'un cas d'étude, que l'on appellera ici le « projet Marilyn » porté par Anne Savelli, nous montrons comment la constitution d'un corpus « sauvage » par des chercheurs (transformés en archivistes autodidactes pour l'occasion), met à jour un point aveugle dans les initiatives d'archivage institutionnelles, que l'on peut expliquer certes par l'ultra-contemporanéité du corpus et son absence dans les archives de l'institution, mais plus fondamentalement par un déplacement conceptuel des phénomènes littéraires dans l'espace numérique.
    This paper highlights how archiving the literary web requires an epistemological stance that involves a reevaluation of traditional concepts in literary studies: work, author, writing (etc.) The paradigm shift brought about by digitally born and editorialised literature affects the way we build, read and interpret the literary web archive. Using a case study that we will call the “Marilyn Project”, led by Anne Savelli, we will show how the constitution of a “wild” corpus by researchers (turned for the occasion into self-taught archivists) reveals a blind spot in institutional archiving projects. This blind spot can be explained not only by the contemporaneity of the corpus, but above all by a conceptual displacement of literary phenomena in digital space.
  • Méthodologie pour l'élaboration d'un corpus et d'une archive du web littéraire francophone - Christian Cote p. 335-359 accès libre avec résumé avec résumé en anglais
    Cet article propose une méthodologie pour la constitution d'un corpus et d'une archive du web littéraire francophone. Elle emprunte à la fois aux méthodes de la linguistique de corpus et à l'archivage du web et propose une méthode originale pour acquérir des données précises à partir du web. En effet, le problème fondamental de l'acquisition de ce corpus consiste en la difficulté à identifier la production littéraire web dans toute sa diversité : la littérature web n'est pas directement repérable parce que l'on ne dispose ni de mots-clés ni d'indices spécifiques ou récurrents. Nous utilisons donc dans ce corpus différentes méthodes et outils, coordonnés et permettant, par la complémentarité des points de vue et toujours sous contrôle manuel, de constituer un corpus sinon exhaustif, du moins représentatif de cette littérature. Nous avons pour cela emprunté des concepts comme celui de réseau de sociabilité et constitué des ensembles de données liées permettant de décrire la structure de ces communautés d'écrivains à partir des différents phénomènes de reconnaissance mutuelle. Enfin, au-delà de cette méthodologie et de sa validation, nous présentons quelques éléments relativement à la structuration de corpus, et notamment son indexation.
    This article proposes a methodology for building a corpus and archive of the French-language literary web. It borrows from both corpus linguistics and web archiving, and proposes an original method for acquiring accurate data from the web. Indeed, the fundamental problem in acquiring this corpus lies in the difficulty of identifying web literary production in all its diversity: web literature is not directly identifiable because we have neither keywords nor specific or recurring indices. In this corpus, we are therefore using a variety of complementary methods and tools, which, through the complementarity of viewpoints and always under manual control, enable us to build up a corpus that is, if not exhaustive, at least representative of this literature. To this end, we have borrowed concepts such as the sociability network, and set up linked data sets to describe the structure of these writers' communities, based on the various phenomena of mutual recognition. Finally, beyond this methodology and its validation, we present a few elements relating to corpus structuring, and in particular its indexing.
  • Le rôle des archives de lecteurs en ligne pour le chercheur en littérature : Étude d'un site web dédié à Charles Bukowski - Amélie Macaud p. 361-380 accès libre avec résumé avec résumé en anglais
    Cet article revient sur le rôle des archives de lecteurs pour les chercheurs en littérature, en tant que support de la recherche, avec une vue d'ensemble des archives du site et son fonctionnement, puis en tant que sujet de recherche, à travers une étude approfondie de la page d'archives photographiques. Les archives de fans sont rarement des archives officielles. Il existe des archives dites « clandestines » (De Kosnik, 2016) en ligne, créées par des lecteurs grâce aux échanges entre pairs, par et pour d'autres lecteurs. Lors de ma thèse, j'ai eu l'occasion d'étudier l'un de ces groupements de lecteurs/fans, Bukowski.net, qui collecte et archive minutieusement tout ce qui peut se rapporter à leur auteur fétiche, Charles Bukowski. Source a priori inépuisable de documents, ce site se dote aussi d'un forum, qui permet l'explicitation de certains documents, ou facilite l'échange entre pairs, et la mise en valeur de trouvailles concernant leur auteur.
    This article proposes a methodology for building a corpus and archive of the French-language literary web. It borrows from both corpus linguistics and web archiving, and proposes an original method for acquiring accurate data from the web. Indeed, the fundamental problem in acquiring this corpus lies in the difficulty of identifying web literary production in all its diversity: web literature is not directly identifiable because we have neither keywords nor specific or recurring indices. In this corpus, we are therefore using a variety of complementary methods and tools, which, through the complementarity of viewpoints and always under manual control, enable us to build up a corpus that is, if not exhaustive, at least representative of this literature. To this end, we have borrowed concepts such as the sociability network, and set up linked data sets to describe the structure of these writers' communities, based on the various phenomena of mutual recognition. Finally, beyond this methodology and its validation, we present a few elements relating to corpus structuring, and in particular its indexing.
  • Archives numériques de la presse : entre droit à l'oubli et droits de l'histoire - Nathalie Mallet-Poujol p. 381-397 accès libre avec résumé avec résumé en anglais
    Les archives de presse numérique – presse électronique ou presse papier – contribuent pleinement à la liberté d'expression et d'information et doivent, à ce titre, bénéficier de garanties juridiques quant à leur intégrité. Cependant, leur basculement sur internet s'avère problématique au regard des droits des personnes, en raison de la nouvelle temporalité de la mise à disposition de l'information. La permanence de l'information, et sa possible réapparition, grâce aux moteurs de recherche, peuvent être sources de préjudices pour les personnes. Il n'est évidemment pas possible, en raison de la liberté de la presse et des droits de l'histoire, de supprimer l'information litigieuse de l'article original car l'intangibilité de ce corpus particulier doit être préservée. Les juges garantissent cette intangibilité en rejetant tout droit à l'effacement des informations de presse, principe dont le système de protection des données personnelles est imprégné par un ensemble de dérogations. Toutefois, il convient d'éviter, dans certains cas, que ces informations ne refassent surface, d'où la nécessité d'une accessibilité modulée à ces archives. Il est donc possible de procéder à certains déréférencements, l'anonymisation devant rester une solution exceptionnelle.
    Digital press archives - electronic press or paper press - fully contribute to freedom of expression and information and must, as such, benefit from legal guarantees as to their integrity. However, their switch to the Internet proves problematic with regard to the rights of individuals, due to the new temporality of the provision of information. The permanence of information, and its possible reappearance, thanks to search engines, can be sources of harm for people. It is obviously not possible, due to freedom of the press and the rights of history, to delete the disputed information from the original article because the intangibility of this particular corpus must be preserved. The judges guarantee this intangibility by rejecting any right to erase press information, a principle with which the personal data protection system is imbued by a set of exemptions. However, it is appropriate to prevent, in certain cases, this information from resurfacing again, hence the need for modulated accessibility to these archives. It is therefore possible to carry out certain dereferencing while anonymization must remain an exceptional solution.
  • De l'usage des archives du web à la BnF : Enquête sur les usages et les attentes en contexte de recherche - Antoine Henry p. 399-417 accès libre avec résumé avec résumé en anglais
    Cet article revient sur les usages et les attentes que peuvent avoir les chercheuses et chercheurs en SHS par rapport aux archives du web. En nous basant sur un travail de recherche mis en œuvre dans le cadre du projet ResPaDon, nous avons réalisé une enquête auprès d'acteurs de l'enseignement supérieur et de la recherche (ESR). Après une mise en perspective de l'enquête réalisée par la BnF en 2010, nous analysons l'évolution des usages et les postures des personnes interrogées. Si les archives du web sont aujourd'hui un matériau de recherche de plus en plus utilisé et accepté, de nombreuses questions restent en suspens aussi bien sur le volet méthodologique, technique ou encore de formation des chercheuses et chercheurs. Entre « bricolage » et collaborations institutionnelles, nous présentons une diversité de configurations et les questions associées.
    This article looks at the uses and expectations that researchers in the social sciences and humanities may have of web archives. Based on research carried out as part of the ResPaDon project, we carried out a survey of players in higher education and research. After putting the survey lead by the national library of France (BnF) in 2010 into perspective, we will analyse the changes in usage and the attitudes of the respondents. While web archives are now increasingly used and accepted as research material, many questions remain unanswered in terms of methodology, technique and researcher training. Between “do-it-yourself” and institutional collaboration, we will present a diversity of configurations and the associated issues.
  • Pages de fin - p. 419-425 accès libre