Titre | L'extraction d'entités nommées : une opportunité pour le secteur culturel ? | |
---|---|---|
Auteur | Simon Hengchen, Seth van Hooland, Ruben Verborgh, Max De Wilde | |
Revue |
I2D - Information, données & documents (anciennement : Documentaliste - Sciences de l'information) Titre à cette date : i2D : information, données et documents : pratiques & recherche |
|
Numéro | vol. 52, no 2, juin 2015 Datavisualisation | |
Rubrique / Thématique | Recherche en sciences de l'information |
|
Page | 70-79 | |
Résumé |
[étude] Les champs de métadonnées non structurés tels que « description » offrent une plus-value considérable à la compréhension pour les utilisateurs finals. Néanmoins, leur caractère non structuré les rend peu exploitables dans un contexte électronique et d'automatisation. Cet article explore les possibilités et les limitations de la reconnaissance d'entités nommées (« Named-Entity Recognition », NER) et de l'extraction terminologique (« Term Extraction », TE) dans la prospection de données non structurées afin d'en extraire des concepts significatifs. Ces concepts permettent de tirer parti d'une recherche et d'une navigation améliorées, mais peuvent également jouer un rôle très important dans la recherche en humanités numériques. À travers une étude de cas basée sur les champs de description des archives historiques de la ville de Québec, les auteurs, Simon HENGCHEN, Seth van HOOLAND, Ruben VERBORGH et Max DE WILDE, proposent une évaluation de quatre services tiers d'extraction d'entités afin de promouvoir l'expérimentation de la reconnaissance d'entités nommées et l'extraction terminologique. Dans le but de couvrir autant le NER que la TE, ils utilisent, pour l'évaluation des entités nommées, une approche quantitative basée sur la précision, le rappel et le F-score calculés sur la base d'un référent manuel (« gold standard corpus »). Une seconde approche, plus qualitative, permet ensuite de prendre en compte la pertinence des termes extraits et aborde la question du multilinguisme. Source : Éditeur (via Cairn.info) |
|
Résumé anglais |
Extraction of nominative entities, an opportunity for the cultural sector ? Non-structured descriptive metadata provide additional benefits for end-user comprehension. However, their unstructured nature minimize their usefulness in an automated, digital context. This article explores the potential and the limits of Named Entity Recognition (NER) and Term Extraction (TE) in unstructured data searches in order to extract some meaningful cancepts. These concepts allow us to benefit from improved retrieval and navigation, but they also play a very important role in digital humanities research. Using a case study to promote NER and TE experiments, based on the descriptive fields of the historical archives of Quebec City, the authors assess four third-party entity extractors. In an effort to address both NER and TE to assess named entities, they use a quantitative approach based on precision, recall and F-score calculated on the "gold standard corpus". A second more qualitative approach then leads us to consider the relevance of TE and to address the issue of multilingualism. Source : Éditeur (via Cairn.info) |
|
Article en ligne | http://www.cairn.info/article.php?ID_ARTICLE=I2D_152_0070 |