Main Page

From DataCegeSoma
Jump to navigation Jump to search


Bienvenue sur DataCegeSoma, un prototype de base de connaissance collaborative pour le CegeSoma/les Archives de l'État en Belgique.

Elle est destinée à accueillir les données d'autorité Personnes physiques du CegeSoma sous forme de données structurées, multilingues, interrogeables à l'aide d'un point d'accès SPARQL.

Contexte

Ce prototype a été réalisé par Anne Chardonnens dans le cadre d'une thèse de doctorat en Sciences l'Information et de la Communication à l'Université libre de Bruxelles, dans le contexte du projet de recherche Adochs. Il a pour objectif de répondre à différents besoins :

  • centralisation de données disparates
  • attribution d'identifiants pérennes (URIs)
  • gestion de données multilingues
  • publication sous forme structurée
  • intégraton de liens vers des ressources externes (Linked Data)
  • édition collaborative en temps réel
  • outils de gestion et maintenance
  • import massif de nouveaux jeux de données

Exemple

La fiche de la résistante belge Andrée de Jongh représente une bonne illustration de la façon dont cette base de connaissance permet de stocker dans un format structuré :

  • des informations d'identification
  • des informations sur ses relations à d'autres personnes
  • des informations sur ses activités de résistante au cours de la Seconde Guerre mondiale
  • des informations sur les Archives du CegeSoma la concernant
  • des renvois vers d'autres identifiants (internes ou externes)

Données

Ces données d'autorité relatives aux grands conflits du XXème siècle et dispersées jusque là dans diverses bases de données, fichiers Excel ou xml, ont fait l'objet d'un travail de nettoyage, de réconciliation et d'alignement avec des référentiels issus du web de données, avant d'être publiées ici de façon centralisée selon le modèle de données Wikibase (...).

Modèle de données

À venir...

Jeux de données

  • Personnes (à venir)
  • Lieux : provinces, communes, sections de communes et localités belges provenant d'un assemblage de trois sources :
    • un référentiel utilisé par les Archives de l'Etat
    • l'Institut national de statistiques de Belgique informations
    • Wikidata

Références

Par défaut, toutes les informations publiées sur DataCegeSoma proviennent de l'institution elle-même. Dans le meilleur des cas, la liste des sources utilisées pour décrire une personne est donnée sous forme de texte (et non de données structurées) à l'aide de la propriété Affirmé dans. Pour l'heure, la mention des références attestant une information n'est pas encore précisée au niveau de la déclaration, mais c'est une pratique qui sera encouragée à l'avenir dans le cadre de la création de nouvelles données.

Dans certains cas, nous avons opté pour une démarche expérimentale visant à compléter les données disponibles à l'aide d'informations issues de Wikidata : ce processus est alors signalé de façon explicite à l'aide de la référence importé de Wikidata et de la mention l'élément de l'élément Wikidata correspondant (voir par exemple les lieux de détention sur la fiche de Andrée de Jongh).

Multilinguisme

  • Dans la mesure du possible, ce prototype vise à fournir des labels et descriptions dans les trois langues nationales belges (néerlandais, français et allemand) ainsi qu'en anglais. Il est toutefois possible que certains termes ou certaines descriptions n'aient pas encore fait l'objet d'un contrôle ou d'une traduction (à l'instar de cette page d'accueil), merci de votre compréhension !
  • Par ailleurs, dans certains cas, des labels ont été générés dans l'une de ces langues à partir de noms en français ou néerlandais (langue des données d'origine), faute de mieux. Dans un premier temps, il nous semble en effet préférable d'avoir une occurrence non traduite plutôt qu'un silence dans certaines langues.

Qualité des données

Tout est mis en place pour offrir la meilleure qualité de données possible, il est néanmoins possible que des erreurs subsistent. Nous serions heureux de l'entendre (par mail) si vous deviez rencontrer une bévue ou imprécision !

Vie privée

L'ensemble des données relatives à des personnes publiées sur cette plateforme concerne des personnes décédées ou dont la date de naissance - remontant à 100 ans ou plus - laisse présumer qu'elles sont aujourd'hui décédées, ce qui ne les soumet dès lors pas au Règlement général sur la protection des données (RGPD) entré en vigueur dans l'Union européenne depuis mai 2018. Nous vous invitons toutefois à nous contacter (par mail) en cas de problème par rapport à l'une ou l'autre information publiée sur ce site.

Recherche

Recherche libre

La recherche libre permet d'effectuer (dans l'onglet de recherche en haut à droite) une recherche dans toute la Wikibase à l'aide d'une chaîne de caractères, en profitant d'une fonctionnalité d'autosuggestion. Il existe également un mode de recherche avancée, permettant d'affiner la recherche.

API

Les données sont accessibles par des programmes informatiques grâce à une API.

Voir exemple et documentation ici.

Recherche structurée

La recherche structurée tire parti du fait que les données sont encodées dans un format lisible par des machines. Grâce à une requête SPARQL, il est possible d'effectuer des recherches beaucoup plus élaborées.

Exemples de requêtes SPARQL :

  • Tous les lieux situés en Belgique (nom et description en français), accompagnés de leur identifiant AGR, ainsi que de leur code INS et identifiant Wikidata s'ils sont disponibles -> Essayez !
  • Tous les lieux situés en Belgique (en français), accompagnés de leur identifiant AGR et code INS lorsqu'ils sont disponibles et disposés sur une carte -> Essayez !
  • Toutes les propriétés, avec leur description, leurs alias et leur type -> Essayez !
  • Toutes les personnes présentes dans la Wikibase -> Essayez
  • Toutes les personnes associées au fond d'archives AA 2346 qui sont connues pour avoir été impliquées dans la Seconde Guerre mondiale en Belgique et qui ont été exécutées pour "faits de résistance" entre 1940 et 1944 -> Essayez !
  • Toutes les personnes (présentes dans la Wikibase) impliquées dans la résistance au cours de la Seconde Guerre mondiale et ayant participé à des activités de récolte et diffusion de renseignements, accompagnées, si l'information est disponible, des Archives que possède le CegeSoma à leur sujet -> Essayez !
  • Une ligne du temps avec les personnes (présentes dans la Wikibase) liées au conflit de la Seconde Guerre Mondiale et ayant été exécutées par arme à feu, avec le lieu de l'exécution s'il est disponible -> Essayez !
  • La visualisation sur une carte des lieux de décès des personnes (présentes dans la Wikibase) liées au conflit de la Seconde Guerre mondiale et ayant été exécutées par arme à feu -> Essayez !

Requêtes SPARQL fédérées

Pour aller plus loin encore, il est possible d'interroger simultanément plusieurs bases de connaissance grâce aux requêtes SPARQL fédérées.

Exemples de requête SPARQL fédérées avec Wikidata (attention, des problèmes de performance ont été constatés, nous tentons de les résoudre, en attendant, il est possible de tester la requête pour une seule personne, voir exemple en fin de liste) :

  • Obtenir une liste des 'lieux' stockés dans la Wikibase accompagnés de la taille de leur population selon Wikidata, si l'information est disponible. -> Essayez !
  • Obtenir une liste des 'personnes' stockées dans la Wikibase, accompagnés des institutions possédant des archives à leur sujet (P485) selon Wikidata, ainsi que du nom de ces institutions si l'information est disponible, avec un regroupement des valeurs multiples dans une même cellule pour une meilleure lisibilité. -> Essayez !
  • Obtenir une liste des 'personnes' stockées dans la Wikibase, accompagnées de leur 'occupation' selon Wikidata, si l'information est disponible. -> Essayez !
  • Obtenir une liste des 'personnes' stockées dans la Wikibase, accompagnées de leur occupation / parti politique / distinctions reçues si l'information est disponible sur Wikidata. -> Essayez !
    • Idem, mais en groupant les valeurs multiples dans une même cellule pour une meilleure lisibilité. -> Essayez !
  • Rechercher, pour une personne en particulier, si Wikidata possède des informations sur son occupation / parti politique / distinction reçue / institution possédant des archives à son sujet -> Essayez !

Contribution

L'enrichissement des données à l'aide de nouvelles informations peut se faire manuellement par le biais de cette interface ou de façon semi-automatisée à l'aide de l'outil Quick-Statements ou d'un script JavaScript inspiré de Wikibase-Edit.

Pour l'instant, la création de comptes utilisateurs est restreinte au personnel du CegeSoma. Cependant, si le CegeSoma décide de pérenniser ce prototype, l'un des objectifs serait de pouvoir collaborer avec des personnes travaillant sur la Seconde Guerre mondiale en Belgique, intéressées à contribuer à l'enrichissement et à l'amélioration de la qualité des données.

Documentation

Cette base de connaissance repose sur le logiciel libre Wikibase.

Les détails sur la configuration de cette instance Wikibase sont disponibles sur cette page.

À venir

Si ce prototype est pérennisé, voici les pistes que nous aimerions explorer :

  • Contenu
  • Intégration de nouveaux jeux de données
  • Élaboration de directives pour systématiser la structure des descriptions
  • Traductions systématiques vers le français, néerlandais, allemand et anglais (au minimum pour les propriétés)
  • Description (lorsque c'est pertinent) de la forme féminine et masculine de l'élément à l'aide de propriétés dédiées, afin de faciliter leur réutilisation (exemple : un veuf, une veuve)
  • Meilleure documentation de l'usage des propriétés (et notamment des qualificatifs) à l'aide de propriétés dédiées telles que "conditions d'usage" ou "exemple d'utilisation"
  • Insertion de nouveaux liens d'équivalence entre les propriétés utilisées et d'autres ontologies (comme schema.org ou Records in Contexts)
  • Interface
  • Écosystème Wikibase
  • Enrichissement de Wikidata à l'aide des données de cette Wikibase
  • Création d'une propriété Wikidata (de type identifiant externe) afin de créer des renvois vers les entités de cette instance
  • Suivi et participation aux efforts de fédération entre instances différentes Wikibase
  • Réutilisation
  • Affichage des données de la Wikibase directement dans la nouvelle interface de consultation des Archives de l'État (actuellement en cours de refonte)

Liens utiles