Le Crowdsourcing | ScienceGate

Vers un réseau lexico-sémantique de grande taille obtenu par crowdsourcing

Le Crowdsourcing ◽

10.17184/eac.3913 ◽

2021 ◽

pp. 75-94

Author(s):

Mathieu Lafourcade ◽

Nathalie Lebrun

Keyword(s):

Nous Avons ◽

Games With A Purpose ◽

Sens Commun

Le projet JeuxDeMots vise à construire une grande base de connaissances de sens commun (et de spécialité), en français, à l’aide de jeux (GWAPs – Games With A Purpose), d’approches contributives, mais également de mécanismes d’inférences. Une dizaine de jeux ont été conçus dans le cadre du projet, chacun permettant de collecter des informations spécifiques, ou de vérifier la qualité de données acquises via un autre jeu. Cet article s’attachera à décrire la nature des données que nous avons collectées et construites, depuis le lancement du projet durant l’été 2007. Nous décrirons en particulier les aspects suivants : la structure du réseau lexical et sémantique JeuxDeMots, certains types de relations (sémantiques, ontologiques, subjectives, rôles sémantiques, associations d’idées, etc.), les questions d’activation et d’inhibition, l’annotation de relations (méta-informations), les raffinements sémantiques (gestion de la polysémie), la création de termes agglomérés permettant la représentation de connaissances plus riches (relations à n-arguments).

Le collaboratif

Le Crowdsourcing ◽

10.17184/eac.3916 ◽

2021 ◽

pp. 117-130

Author(s):

Yolaine Coutentin

Keyword(s):

Base De Données ◽

Démarche Participative

En janvier 2017, les archives de Saint-Brieuc ont mis en ligne sur la plateforme Zooniverse le fonds d’un érudit local du e siècle, Ludovic Anne-Duportal, qui avait dépouillé les registres paroissiaux de la ville et reconstitué les familles briochines de 1535 à 1792. La proposition faite aux contributeurs était d’indexer ces documents par noms de famille afin de disposer d’une base de données permettant d’accéder rapidement aux fiches. Un mois après, l’indexation était réalisée à plus de 50 %. Ce projet est l’aboutissement d’une préoccupation participative des archives de Saint-Brieuc qui est ancienne et antérieure à la mise en ligne de documents. La posture de l’archiviste face à l’usager avait déjà connu un début d’évolution avec, entre autres, la transformation des cours de paléographie en Club participatif de paléographie. Cette animation avait créé un premier vivier de personnes mobilisables sur les projets patrimoniaux. Ensuite une démarche participative fut créée pour intégrer les demandes des usagers sur les fonds à mettre en ligne. Ainsi nous fut signalé le fonds Bagot, député maire briochin au moment de la Révolution. Après avoir vérifié l’intérêt du fonds, il fut procédé à sa numérisation et sa mise en ligne. La communauté d’indexeurs a réfléchi ensuite à la mise en place de nouveaux projets sur Zooniverse et éventuellement Wikisource. C’est sur ces expériences que cet article s’appuie pour élaborer une réflexion critique sur la politique qui sous-tend le choix du crowdsourcing, sur les implications de celui-ci, et sur la distinction entre projet collaboratif et projet participatif, et pour définir le rôle du pilote de ce type de projet.

Partager et faire connaître l’héritage littéraire féminin

Le Crowdsourcing ◽

10.17184/eac.3918 ◽

2021 ◽

pp. 185-196

Author(s):

Suzan Van Dijk

Keyword(s):

Digital Humanities ◽

Mots Clés ◽

Les Six ◽

Isabelle De Charriere

Isabelle de Charrière (Belle de Zuylen, 1740-1805), classée en tête du « canon littéraire d’Utrecht », fait partie de l’héritage culturel néerlandais, malgré le fait qu’elle écrivait et publiait en français. La numérisation de sa correspondance était une initiative de l’Association Isabelle de Charrière, réalisée dans le contexte de l’Institut Huygens d’Histoire des Pays-Bas (Amsterdam). Sous la direction de Madeleine van Strien-Chardonneau et de Suzan van Dijk, avec l’aide de Maria Schouten, un petit groupe de membres de cette Association s’est chargé de ce travail. Ils ont procédé au scannage des transcriptions (2552 lettres) contenues dans les six premiers volumes des Œuvres complètes, à l’OCR, puis à la transcription des textes, avec la modernisation de l’orthographe. Ils ont ajouté des métadonnées, et commencé à préparer des annotations explicatives, qui devraient rendre les textes accessibles à une audience plus large. Ces premiers travaux permettent déjà de procéder à un certain nombre de recherches sur des aspects précis des lettres et des correspondants grâce à la recherche par mots-clés. Pour faciliter l’étude ponctuelle de ce corpus, l’étape suivante est l’étiquetage d’éléments/passages pertinents par rapport à la personnalité de l’auteure et de ses préoccupations. Cet étiquetage servirait d’annotations dans le texte, et de catégories dans les bases de données comme le NEWW VRE, qui s’appuient sur des sources comme le sont ces correspondances privées – selon le principe qui avait été présenté en 2014 au colloque Digital Humanities de Lausanne.

Externalisation ouverte pour l’exploitation d’une source d’archives manuscrite importante

Le Crowdsourcing ◽

10.17184/eac.3915 ◽

2021 ◽

pp. 95-104

Author(s):

Marika Ceunen

En 2009, les archives de la ville de Louvain (Belgique) ont décidé de numériser et rendre publiques la partie la plus importante de leur fonds historique portant sur l’Ancien Régime, à savoir les 1 128 registres du greffe scabinal de Louvain (1362-1795) (www.itineranova.be). Cette mission a été réalisée exclusivement en recourant à des externes. Aujourd’hui, le projet Itinera Nova a plus de 70 bénévoles d’origines très diverses qui se sont investis dans tous les aspects du projet, qui vont de la numérisation des registres à la transcription d’Actes néerlandais pour les rendre plus accessibles, ou à la recherche de fonds, ou même au brassage de leur propre « bière des Clercs ». En attribuant aux volontaires des missions qui rejoignent leurs centres d’intérêt sans leur imposer de contraintes, nous leur donnons l’occasion de s’enrichir tout en se rendant utiles à la communauté. De plus, nous saisissons toutes les occasions d’organiser des rencontres avec les volontaires puisque la plus grande part des tâches peut s’effectuer en solitaire chez soi.

Crowdsourcing et bases de données

Le Crowdsourcing ◽

10.17184/eac.3914 ◽

2021 ◽

pp. 105-116

Author(s):

François Vignale

Keyword(s):

Reading Experience ◽

Grand Public

La base de données EuRED (European Reading Experience Database) vise à rassembler des expériences de lecture des Européens de l’invention de l’imprimerie à nos jours. Cette preuve de concept a nécessité la mise au point d’une ontologie, de thesaurus et l’adoption du standard xml-TEI et s’appuie sur la réutilisation de données existantes (35 000 fiches) qui proviennent de la base britannique UK-RED lancée en 2006. Cette dernière a été constituée par des bénévoles formés à l’utilisation et par le grand public lesquels, soit dépouillaient des corpus d’auteurs, soit déposaient des témoignages familiaux, ce qui a généré malheureusement un nombre si important d’erreurs diverses que la possibilité de réutiliser ces données s’en trouvait menacée. Ces obstacles nous ont conduit à encadrer la participation du public dans EuRED et plus encore dans un projet H2020 qui en est la suite et qui prévoit également l’exploration de données massives. Ici, notre approche de la science participative et du crowdsourcing repose sur deux axes : 1) la contribution sera toujours possible mais avec une saisie contrôlée pointant vers des référentiels externes et internes ; 2) l’amélioration continue de ces mêmes thesaurus et des algorithmes d’exploration sera rendue possible par les retours d’utilisateurs non-professionnels et de citoyens-experts. Ce sont les constats qui ont guidé cette réflexion et les orientations retenues que nous souhaitons présenter dans cet article.

Relevé collaboratif des registres de l’assemblée et des tables du Conseil général des Ponts et chaussées

Le Crowdsourcing ◽

10.17184/eac.3917 ◽

2021 ◽

pp. 131-144

Author(s):

Stéphane Rodriguez-Spolti

Keyword(s):

Site Internet

Faisant suite à l’Assemblée des Ponts et chaussées créée au milieu du e siècle, le Conseil général des Ponts et chaussées, instauré en 1804, donne son avis sur toutes les questions relatives à l’aménagement du territoire (routes, ponts, voies navigables, ports, chemins de fer, moulins et usines, assainissement et gestion des espaces naturels). Les 188 tables tenues de 1814 à 1965 présentent l’ensemble des affaires examinées par cette institution. Elles fournissent la date des avis rendus et rassemblés dans les 2 000 registres des délibérations. Numérisées et attachées à l’inventaire des archives du Conseil général des Ponts et chaussées, ces tables sont consultables sur le site Internet des Archives nationales. Afin de fournir une clé d’accès à cet ensemble archivistique, les Archives nationales ont lancé en janvier 2017 un projet collaboratif ouvert aux internautes désireux de participer à distance au relevé de l’ensemble des affaires indiquées dans les tables. Ces relevés sont effectués dans le cadre de missions historiques ou thématiques à l’aide d’outils fournis par les Archives nationales. En trois ans, ce projet a évolué, notamment suite aux suggestions de contributeurs. La liste des missions ouvertes et des outils d’aide à la lecture est désormais consultable sur le carnet de recherche créé en 2018 pour l’ensemble des projets participatifs menés par les Archives nationales.

Le numérique participatif au service de la République des Lettres

Le Crowdsourcing ◽

10.17184/eac.3909 ◽

2021 ◽

pp. 23-36

Author(s):

Edouard Bouyé

Keyword(s):

A Priori

Loin des clichés, l’inflation de la production documentaire a fait des archivistes les animateurs d’équipes nombreuses ; et la consultation des archives est l’une des pratiques culturelles les plus populaires. Cette rencontre d’un public motivé et d’une documentation numérique considérable a suscité le développement d’entreprises de crowdsourcing permises par la pratique des documents d’archives ainsi que par les connaissances toponymiques et onomastiques des usagers : édition de textes, annotation collaborative de l’état civil ou de fonds iconographiques, établissement de dictionnaires historiques, etc. Le rôle de l’archiviste est de rendre possible ce travail sur les sources, de l’encadrer, de le faire connaître (par la médiation numérique). Il faut susciter la création d’un réseau, d’une communauté virtuelle (en s’appuyant sur des communautés réelles) et donner de la reconnaissance à son travail. Le public attend de l’archiviste, qui doit se déprendre de la posture du sachant distillant son savoir, qu’il soit néanmoins être le garant de la fiabilité de l’information produite, même s’il n’a pas les moyens concrets de la valider systématiquement a priori. Diverses questions doivent être examinées : celle de la propriété intellectuelle de l’information produite, celle des rapports entre crowdsourcing et crowdfunding, celle des raisons et des conditions du succès des entreprises de crowdsourcing dans les archives, où chaque participant contribue à l’enrichissement du patrimoine commun.

Des bénévoles au service du patrimoine écrit

Le Crowdsourcing ◽

10.17184/eac.3911 ◽

2021 ◽

pp. 47-58

Author(s):

Emmanuelle de Champs

Keyword(s):

Oxford English Dictionary

Les définitions actuelles du « crowdsourcing » ne reflètent qu’imparfaitement la façon dont ce processus peut être appliqué en-dehors des circuits économiques et pour la création d’une valeur immatérielle et non monétaire : l’amélioration des connaissances et l’accès au patrimoine littéraire et historique. Cet article s’interroge sur la spécificité de la démarche collaborative en ligne dans les institutions patrimoniales. Il compare l’appel aux bénévoles anonymes lancé par les éditeurs du Oxford English Dictionary à la fin de l’époque victorienne aux initiatives actuelles, plus particulièrement le projet Testaments de Poilus mené depuis 2017 aux Archives nationales et départementales.

L’ethos participatif

Le Crowdsourcing ◽

10.17184/eac.3912 ◽

2021 ◽

pp. 59-74

Author(s):

Bénédicte Grailles

Les passionnés d’histoire familiale sont des acteurs centraux du crowdsourcing archivistique. Cette communauté d’utilisateurs, bien organisée dans le monde réel et déjà productrice de contenus sous forme de tables et de bases de données, a investi le numérique sans état d’âme pour occuper un espace central dans l’écosystème archivistique. Ces usagers consommateurs de nombreux documents d’archives, sont prêts à s’investir dans tout type d’usages participatifs, l’exemple le plus frappant étant l’indexation collaborative. Ils enrichissent et partagent des contenus patrimoniaux via le cadre institutionnel et en dehors de lui. En dehors des services, ils créent des communautés apprenantes en ligne qui forment des espaces sociaux d’échange hautement spécialisés (Geneanet par exemple), où se déploient leurs pratiques propres : redocumentarisation des documents (réagencement, annotation, organisation de collections personnelles, intégration de liens etc.) et production de documents totalement factices – les «fiches» manquantes du fichier des morts pour la France mis en ligne par le service historique de la Défense par exemple. Après une analyse de l’offre de projets collaboratifs autour des documents d’archives, nous tenterons de mieux cerner le profil des généanautes et nous interrogerons sur l’éventualité d’un ethos spécifique du généalogiste et sur les conséquences à moyen terme dans la relation aux archives.

PhotosNormandie

Le Crowdsourcing ◽

10.17184/eac.3919 ◽

2021 ◽

pp. 145-168

Author(s):

Patrick Peccatte

PhotosNormandie est un projet collaboratif portant sur plus de 5 100 photos et 300 films historiques sur le débarquement du 6 juin 1944 et la bataille de Normandie. Il a pour objectif d’améliorer les légendes des photos et des films en utilisant les fonctionnalités des plates-formes Flickr et YouTube. Les photos proviennent des Archives Nationales des États-Unis (NARA) et du Canada et sont libres de droits. Les films proviennent également du NARA et ont été numérisés par l’équipe du projet. Actif depuis janvier 2007, le projet s’est constitué autour d’une cinquantaine de passionnés aux compétences complémentaires où l’on compte des archivistes, documentalistes, historiens, enseignants, etc. L’activité régulière du projet durant treize années a permis d’accroître considérablement la qualité des descriptions et de les enrichir d’informations inédites. L’ensemble des légendes produites forme probablement la meilleure description documentaire actuelle de cette collection de photos et films. L’article décrit les méthodes utilisées au cours de cette activité de crowdsourcing, les difficultés rencontrées, les (non) relations avec les acteurs institutionnels, ainsi que les résultats obtenus.

Le Crowdsourcing
Latest Publications

TOTAL DOCUMENTS

H-INDEX

Published By Editions Des Archives Contemporaines

Vers un réseau lexico-sémantique de grande taille obtenu par crowdsourcing

Le collaboratif

Partager et faire connaître l’héritage littéraire féminin

Externalisation ouverte pour l’exploitation d’une source d’archives manuscrite importante

Crowdsourcing et bases de données

Relevé collaboratif des registres de l’assemblée et des tables du Conseil général des Ponts et chaussées

Le numérique participatif au service de la République des Lettres

Des bénévoles au service du patrimoine écrit

L’ethos participatif

PhotosNormandie

Export Citation Format

Le CrowdsourcingLatest Publications

TOTAL DOCUMENTS

H-INDEX

Published By Editions Des Archives Contemporaines

Vers un réseau lexico-sémantique de grande taille obtenu par crowdsourcing

Le collaboratif

Partager et faire connaître l’héritage littéraire féminin

Externalisation ouverte pour l’exploitation d’une source d’archives manuscrite importante

Crowdsourcing et bases de données

Relevé collaboratif des registres de l’assemblée et des tables du Conseil général des Ponts et chaussées

Le numérique participatif au service de la République des Lettres

Des bénévoles au service du patrimoine écrit

L’ethos participatif

PhotosNormandie

Le Crowdsourcing
Latest Publications