Pour fin de diffusion sur le portail, les normes retenues sont le produit d’un travail collaboratif entre des organisations diffusant sur ce portail et elles s’inspirent fortement des standards internationaux en matière de données ouvertes, soit Dublin Core, la Classification des fonctions des administrations publiques COFOG et Data Catalog Vocabulary (DCAT). Elles doivent être respectées par l’ensemble des organisations conformément à l’entente encadrant l’utilisation de ce portail.
Bien que les lignes directrices soient appelées à évoluer afin d’assurer une amélioration continue de la qualité des données diffusées sur ce portail, les bonnes pratiques internationales demeureront une référence incontournable dont s’inspireront les diffuseurs du site Données Québec.
La version intégrale du document est disponible en format PDF: Lignes directrices sur la diffusion de données ouvertes.
1. Dispositions générales
1. 1 Objet des lignes directrices
Ce document vient appuyer les diffuseurs en présentant les normes techniques à respecter pour publier les jeux de données sur le portail Données Québec. Un jeu de données est composé de métadonnées et de ressources (fichier). Un jeu de données contient au moins une ressource de type données et peut être accompagné d’une carte interactive, d’un service web ou de documentation. Les ressources ont aussi leurs métadonnées spécifiques.
1. 2 Champ d’application
Les organisations diffusant des données ouvertes sur le portail ont la responsabilité de les respecter et de documenter les dérogations. Les choix retenus ont été déterminés et approuvés par les partenaires du portail.
Il est essentiel de signaler que les lignes directrices mentionnées dans le présent document s’appliquent d’abord et avant tout aux jeux de données diffusés pour une première fois après avril 2016, soit la date de la mise en ligne du portail Données Québec.
En ce qui concerne les données diffusées pour une première fois avant le lancement du portail (avril 2016), les diffuseurs sont fortement encouragés à respecter les normes établies dans ce qui suit lorsqu’ils en effectueront une mise à jour.
1. 3 Schéma synthétique des lignes directrices
Le schéma présenté ci-après définit de manière structurée et synthétisée les lignes directrices à suivre lors de la diffusion de données
2. Données tabulaires
Les jeux de données tabulaires, c’est-à-dire pouvant être représentés sous forme d’un tableau simple comportant des lignes et des colonnes, peuvent être diffusés en données ouvertes sous différents formats de fichiers. Pour fin de diffusion sur le portail :
le format CSV est fortement recommandé.
Les considérations propres au type des champs (nombre, date, etc.) sont décrites à la section 5 – Considérations pour les différents types de données, alors que les règles s’appliquant à plusieurs formats de fichiers sont décrites à la section 7 – Considérations générales relatives aux fichiers. Le texte qui suit est relatif aux formats proposés pour les données tabulaires.
2. 1 Format CSV (fortement recommandé)
Le format Comma-separated values (CSV) désigne un format de fichier ouvert représentant des données tabulaires sous forme de valeurs délimitées par des séparateurs de champs. Ce format est celui qui est recommandé, car le portail Données Québec offre des fonctionnalités additionnelles pour les jeux de données diffusés en CSV.
Par exemple, le portail affiche automatiquement le contenu d’un fichier CSV dans un tableau où l’utilisateur du portail peut trier et filtrer les données.
Pour les jeux de données diffusés en CSV, le portail offre également à l’utilisateur la possibilité d’en créer une représentation graphique.
Le portail offre aussi d’autres fonctionnalités plus avancées pour les fichiers CSV, par exemple l’intégration du jeu de données à une base de données permettant une visualisation plus performante pour l’utilisateur et l’extraction du jeu de données (partiellement ou en totalité) à partir d’un API.
Un jeu de données peut être diffusé en plusieurs formats sur le portail. Considérant les nombreux avantages associés aux CSV, il est fortement recommandé de diffuser les jeux de données tabulaires en format CSV (et optionnellement sous d’autres formats).
Structure du CSV
Le CSV n’a jamais fait l’objet d’une spécification formelle, offrant donc beaucoup de flexibilité au diffuseur. Dans le but de simplifier l’interprétation des CSV et de faciliter l’interopérabilité entre eux, les diffuseurs devront respecter les quelques règles suivantes :
- la première ligne du fichier désigne l’en-tête des colonnes :
- les en-têtes ne comportent pas de caractères accentués ou d’espaces,
- pour les en-têtes, la barre de soulignement est utilisée au lieu des espaces;
- les lignes suivantes donnent les valeurs des données;
- les éléments sont séparés par des virgules « , »;
- les guillemets anglais « » « » sont utilisés pour délimiter les champs de texte.
Outil de validation
Il est possible de valider le contenu d’un CSV à l’aide de l’outil CSV Lint : http://csvlint.io.
Exemple de données en CSV
Un jeu de données donnant l’état d’avancement de différents projets pourrait ressembler à ce qui suit en format CSV.
Ce fichier pourrait être représenté dans le tableau suivant.
Tableau 1 – Représentation d’un CSV sous forme de tableau
Id | Nom | Nom_Organisme | Date_Fin_Projetee | Statut | Variation_echeancier |
11598 | Refonte ERT – État du réseau routier | Transports | 2015-10-30 | Actif | -45.9 |
13942 | Téléphonie IP | Conseil exécutif | 2015-06-30 | Terminé | 3.4 |
13373 | Rehaussement Infrastructure Serveurs / Services | Société d’habitation du Québec | 2015-12-31 | Terminé | -25.6 |
13964 | Refonte du site Internet ministériel | Culture et Communications | 2017-03-31 | Suspendu |
2. 2 Format XLSX et ODS (à utiliser sous certaines conditions)
- dans la majorité des cas, les outils de visualisation du portail ne peuvent pas afficher le contenu de ces fichiers;
- il est impossible d’accéder au contenu de ces fichiers par l’intermédiaire de l’API du portail;
- les formats de logiciels tableurs permettent la mise en forme des données, allant à l’encontre de la volonté d’offrir des données brutes aux citoyens et aux entreprises.
Toutefois, lorsque les formats XLSX et ODS doivent être utilisés pour des raisons particulières, on doit prendre en considération les éléments suivants:
- le fichier ne doit contenir aucun formatage;
- la première ligne désigne l’en-tête des colonnes :
- les en-têtes ne comportent pas de caractères accentués ou d’espaces,
- pour les en-têtes, la barre de soulignement est utilisée au lieu des espaces;
- l’utilisation d’onglets doit être évitée;
- l’utilisation de fonctions dynamiques doit être évitée;
- la fusion de cellules est à proscrire.
Par ailleurs, un jeu de données demeure conforme aux présentes lignes directrices si les formats XLSX et ODS ou tout autre format sont offerts en plus du format recommandé (CSV).
3. Données hiérarchiques
Les jeux de données hiérarchiques, c’est-à-dire ne pouvant pas être représentés sous forme d’un tableau simple, doivent être diffusés dans des formats permettant de reproduire les relations complexes entre les données. Différents formats de fichiers offrent cette possibilité, pour fin de diffusion sur le portail :
le format JSON est fortement recommandé.
Malgré le fait que ces formats soient beaucoup plus appropriés pour des données hiérarchiques, ils pourraient aussi être utilisés pour des données tabulaires.
Les considérations propres au type des champs (nombre, date, etc.) sont décrites à la section 5 – Considérations pour les différents types de données, alors que les règles s’appliquant à plusieurs formats de fichiers sont décrites à la section 7 – Considérations générales relatives aux fichiers. Le texte qui suit est relatif aux formats proposés pour les données hiérarchiques.
3. 1 Format JSON (fortement recommandé)
Le format JavaScript Object Notation (JSON) désigne un format de données ouvertes permettant de représenter des données hiérarchiques. Dans le contexte du portail de données ouvertes, le format JSON est recommandé, puisqu’il est destiné à représenter de l’information brute et structurée, qu’il est simple à interpréter et qu’il est facile à intégrer pour la majorité des langages de programmation.
Outil de validation.
Il est possible de valider le contenu d’un format JSON à l’adresse suivante : http://www.webtoolkitonline.com/json-tester.html
3. 2 Format XML (à retenir sous certaines conditions)
Le format Extensible Markup Language (XML) est un langage informatique de balisage dont l’objectif est le stockage et l’échange de contenu complexe. Il peut donc être utilisé pour des données tabulaires, mais il est beaucoup plus approprié pour des données hiérarchiques. Par son extensibilité, le format XML est également très flexible.
Structure du format XML
Dans le cadre des données ouvertes, le XML doit respecter les conditions suivantes :
- Le XML est brut et autodescriptif : celui-ci ne contient que les données pertinentes. Il est interdit d’inclure de l’information sur la mise en forme (par exemple, un enregistrement en format XML à partir de l’application Microsoft Excel ne respecte pas ces critères);
- Le XML est valide : l’arborescence est cohérente et logique. Il est possible de vérifier que le contenu du XML respecte le standard, à l’adresse suivante : http://www.w3schools.com/xml/xml_validator.asp ;
- Aucun caractère accentué n’est intégré dans le nom des balises;
- Le XML est encodé en UTF-8 et l’encodage est indiqué à l’aide de la balise.
4. Données géographiques
Les données géographiques portent sur les entités géographiques qui représentent des objets et des phénomènes localisés dans l’espace. Cette section concerne les jeux de données ouvertes en géomatique.
4. 1 Données vectorielles
Les données vectorielles sont composées d’une partie géométrique (point, ligne et polygone) et d’une partie descriptive (les attributs). Ces données permettent de représenter des objets ou des phénomènes géolocalisés. Pour fin de diffusion sur le portail :
le format GeoJSON est fortement recommandé.
4. 1. 1 Format GeoJSON (fortement recommandé)
GeoJSON est le format ouvert le plus répandu dans le cas de développement d’applications Web en données ouvertes, puisqu’il est une adaptation géographique du JSON. Ce format est apprécié des développeurs et il est accepté par la plupart des systèmes d’information géographique (SIG) sur le marché. Dans le contexte du portail de données ouvertes, le format GeoJSON utilise par défaut le système géodésique WGS84 (EPSG: 4326). En utilisant ce système géodésique, lorsque la taille du fichier est inférieure à 5 mégaoctets (Mo), il est possible de tirer profit des outils de visualisation du portail CKAN.
Exemple d’un fichier GeoJSON
Le jeu de données « Échelles limnimétriques (publiques) » publié par le Ministère de la Sécurité Publique (MSP) offre un exemple de fichier GeoJSON. Les deux figures représentées après décrivent respectivement un extrait du fichier de format GeoJSON et son aperçu par l’entremise de l’outil de visualisation CKAN.
Visualisation
Le système de coordonnées géographiques doit être WGS 84 (projection par défaut : EPSG:4326 : http://spatialreference.org/ref/epsg/4326/ ) pour visualiser un jeu de données sur le portail, car celui-ci ne peut supporter qu’une seule projection. Pour les jeux de données faisant appel à une autre projection que celle utilisée par défaut (4326), le code EPSG de la projection utilisée doit être documenté à la section Information complémentaire si cette projection s’applique à toutes les ressources (fichiers) du jeu ou dans la description de la ressource lorsque la projection particulière s’applique pour une ressource donnée.
Visualisation enrichie (IGO2)
Pour une visualisation plus interactive (symbologie, interrogation de la couche, connexion à des services Web, superposition avec d’autres jeux de données, etc.) des données géographiques, l’équipe géomatique du MSP et ses partenaires, entre autres le ministère des Transports, de la Mobilité durable et de l’Électrification des transport, l’Institut de la Santé publique du Québec et le ministère de la Culture et des Communications, soutiennent, par l’entremise de l’initiative Infrastructure de géomatique ouverte, l’intégration d’IGO2 (http://igouverte.org/ ). Ainsi, les données géographiques diffusées sur Données Québec peuvent être intégrées à ce visualisateur , d’ailleurs adapté pour appareils mobiles. Pour en savoir plus sur l’intégration des jeux de données à IGO2, contactez le pilote du portail.
Pour diverses raisons, le format GeoJSON pourrait ne pas être adapté pour la diffusion de certaines données. Lorsque la situation se présente d’autres formats peuvent être envisagés :
- GeoPackage : format ouvert de données géospatiales raster ou vecteur, mis-en-oeuvre sous la forme d’une base de données SQLite, ce format supporte les relations.
- Le standard GeoPackage adopté par l’Open Geospatial Consortium (OGC) est recommandé pour la diffusion de base de données volumineuses comprenant des relations.
- Il est à noter que le standard GeoPackage de l’OGC recommande, entre autres, l’utilisation des minuscules pour nommer les tables et les champs;
- Shapefile : format ouvert largement répandu, publié sous la forme d’une archive compressée;
- KML, GML : un langage dérivé du XML pour encoder, manipuler et échanger des données géographiques;
- CSV :
- Si l’information géospatiale est un point, le CSV doit contenir un champ « latitude » et un champ « longitude »,
- Si l’information géospatiale est une ligne, une polyligne ou un polygone, le CSV doit contenir un champ « well known text ».
Un service Web peut être offert en complémentarité de ces formats afin de permettre la
consommation par certains outils et les standards de l’OGC sont à privilégier.
- Web Feature Service (WFS)
- Service de vecteurs tuilés (Vector Tile Service)
Pour les jeux de données faisant appel à une autre projection que celle utilisée par défaut (4326), le code EPSG de la projection utilisée doit être documenté à la section Informations complémentaires si cette projection s’applique à toutes les ressources (fichiers) du jeu ou dans la description de la ressource lorsque la projection particulière s’applique pour une ressource donnée.
Par ailleurs, un jeu de données demeure conforme aux présentes lignes directrices si d’autres formats sont offerts en plus du format recommandé (GeoJSON).
Exemple d’un format CSV contenant de l’information géographique.
À titre d’exemple, le jeu de données « Sites patrimoniaux cités par les municipalités et les communautés autochtones », diffusé par le ministère de la Culture et des Communications, permet une visualisation par géolocalisation, puisqu’il contient les champs « latitude » et « longitude ». Les deux figures présentées ci-après illustrent, respectivement, un extrait du contenu du fichier de format CSV et une visualisation d’un fichier CSV contenant l’information géographique.
Outils de conversion
Pour la conversion, deux logiciels libres et gratuits sont proposés :
- Système d’information géographique (SIG) : le logiciel QGIS dispose de nombreuses fonctionnalités, dont un outil de conversion;
- Application Web, soit l’outil Web OGRE, qui permet la conversion rapide de fichiers.
- La bibliothèque GEDAL offre des outils qui peuvent être utilisés à partir d’un langage de programmation (C, C++, Java, Python, etc.) pour faire la conversion
de fichier.
Des logiciels propriétaires tels que FME et ArcGIS font également la conversion.
4. 2 Données matricielles (raster)
Les données matricielles, ou images géoréférencées, sont des représentations numériques d’images du territoire. Avec ce type de données d’images, la projection conique conforme de Lambert (EPSG:32198) est recommandée pour les données couvrant une grande partie du territoire du Québec. Toutefois, il est possible de diffuser les images dans une autre projection, notamment pour des données à l’échelle municipale. Cette projection doit être documentée par son code EPSG, dans le fichier et dans la métadonnée du jeu de données, à la section Informations complémentaires si elle s’applique à toutes les ressources (fichiers) ou dans la description de la ressource si elle est propre à une ressource. Pour fin de diffusion sur le portail :
le format GeoTIFF est fortement recommandé.
Les autres formats à considérer sont :
- JPEG2000;
Un service Web peut être offert en complémentarité de ces formats afin de permettre la consommation par certains outils et les standards de l’OGC sont à privilégier, par exemple :
- Web Coverage Service (WCS);
- Web Map Service (WMS):
- Web Map Tile Service (WMTS).
Veuillez prendre note que les images géoréférencées de taille très volumineuse (plusieurs gigaoctets) ne peuvent être téléversées directement sur le portail. Veuillez communiquer avec le pilote du portail pour discuter d’options de rechange.
4. 3 Données 3D
Le format privilégié pour les données 3D est CityGML.
5. Considérations pour les différents types de données
Les jeux de données contiennent différents types d’information (texte, nombre, date, etc.). Selon le type d’information, certaines recommandations doivent être respectées pour assurer l’intégrité, simplifier l’interprétation et accroître l’interopérabilité.
5. 1 Valeurs inconnues ou non disponibles
Peu importe la nature d’une donnée (date, heure, nombre, booléen, texte), lorsque la valeur n’est pas connue, quelle qu’en soit la raison, il est fortement recommandé de laisser le champ vide plutôt que de mettre une valeur par défaut qui introduirait des erreurs d’interprétation.
5. 2 Date et heure
Lorsqu’une donnée représente une date ou une heure, elle doit être fournie selon la norme ISO8601. À cet égard, voici les spécifications techniques :
- Format de la date : AAAA-MM-JJ;
- Format de l’heure : HH:MM:SS;
- Lorsque la date et l’heure sont dans le même champ, on utilise la valeur « T » pour les séparer [AAAA-MM-JJTHH:MM:SS].
5. 3 Nombre
Pour ce qui est des nombres, les particularités suivantes sont à prendre en considération :
- Les valeurs décimales sont séparées par un point « . »;
- Les valeurs sont fournies selon les unités de base du Système international (par exemple, m, g);
- Les valeurs monétaires sont en dollars ($).
5. 4 Booléen
En ce qui concerne les booléens, il est proposé d’utiliser des valeurs simples et évidentes à interpréter. Par exemple, les combinaisons suivantes peuvent être retenues :
- TRUE, FALSE;
- Vrai, Faux;
- Oui, Non.
6. Structures des données
Certains jeux contenant des données structurées ont été normalisés (champs requis, champs optionnels, nom des champs, etc.) de manière à faciliter l’interopérabilité et la comparabilité.
Dans certains cas, la structure des données a été normalisée par les partenaires de Données Québec, notamment les jeux de données diffusés pour les compétitions de codage HackQC. Ces normes établies sont décrites sur le portail https ://www.donneesquebec.ca/normes-etablies/.
Pour les jeux n’ayant pas été normalisés par les partenaires de Données Québec et pour lesquels des normes reconnues existent, celles-ci doivent être favorisées dans la mesure du possible.
7. Considérations générales relatives aux fichiers
Outre les règles mentionnées précédemment et propres aux différents formats, les quelques règles générales suivantes sont à prendre en considération.
7. 1 Encodage pour les fichiers textes
Pour tous les formats de fichiers sauvegardés sous forme de texte (y compris, par exemple, les formats CSV, JSON, XML, GeoJSON, SHP ainsi que les champs textes dans une base de données géospatiales), l’encodage utilisé doit être UTF-8. Cet encodage de caractères informatiques a été conçu par l’ISO pour respecter l’ensemble du répertoire universel de caractères codés. Dans le contexte québécois, UTF-8 permet de respecter les exigences du français intégral.
Encodage UTF-8 et suite bureautique de Microsoft
La suite bureautique de Microsoft Office ne supporte pas la sauvegarde en UTF-8. La façon la plus simple de remédier à cette situation consiste à utiliser le logiciel Bloc-notes de Windows. Voici la procédure à suivre :
1. Ouvrir le fichier avec Bloc-notes;
2. Dans le menu, sélectionner « Fichier », puis « Enregistrer sous »;
3. Dans le menu « Encodage », sélectionner UTF-8;
4. Enregistrer le fichier.
7. 2 Nom des fichiers
Des noms de fichier structurés et uniformes permettent aux utilisateurs de comprendre ce qu’ils ont téléchargé et limitent les risques d’erreur. Voici la structure de base recommandée pour nommer les fichiers : préfixe-identifiant-suffixe.extension (par exemple, gtdo-rapport-2013.csv).
Voici quelques éléments à prendre en considération :
- Tout en minuscules;
- Aucun caractère accentué (par exemple : à, è, î);
- Aucun caractère spécial (par exemple : %, oe, …, =, ¾);
- Aucun espace;
- Éviter les mots superflus (par exemple, les déterminants);
- Privilégier le trait d’union « – » plutôt que la barre de soulignement « _ ».
7. 3 Format d’image
Une image n’est pas considérée comme une donnée ouverte. Toutefois, certains jeux de données peuvent être accompagnés d’images (photos historiques, désastre naturel, etc.). Deux formats de fichiers d’images sont à envisager :
- Représentation principale en PNG;
- Représentation secondaire en JPG.
7. 4 Compression
La compression de fichier doit être évitée. En effet, les outils de prévisualisation du portail ne peuvent gérer les formats compressés (.zip, .tar, etc.). Toutefois, voici quelques exceptions à prendre en considération :
- Certains jeux sont accompagnés de plusieurs images. Dans ce cas précis, il est acceptable de compresser les fichiers au format ZIP;
- Certains formats, tels que le Shapefile et le GTFS, sont standardisés sous un format compressé.
8. Métadonnées
Les métadonnées sont les données qui accompagnent les jeux de données afin de décrire leur contenu et leur contexte. Elles sont un complément essentiel aux jeux de données ouvertes, car elles permettent de structurer la définition du jeu de données. Les métadonnées utilisées sur le portail s’appuient sur les standards DCAT et Dublin Core et sont structurées en deux groupes :
- les métadonnées associées au jeu de données, de manière globale;
- les métadonnées associées à chacune des ressources (par exemple, les fichiers attachés au jeu de données). Les ressources contiennent généralement les données pour différentes périodes de temps ou pour différentes perspectives, mais les ressources peuvent aussi contenir des compléments d’information décrivant la signification des champs du jeu de données ou toute information pouvant servir à l’utilisateur des données.
Cette section aborde les différents éléments normatifs concernant les métadonnées utilisées sur le portail Données Québec.
8. 1 Métadonnées associées à un jeu de données
Le tableau suivant présente la corrélation entre les métadonnées québécoises et celles de Dublin Core qui sont associées globalement à un jeu de données. Il décrit également chacune des métadonnées et mentionne si la métadonnée est requise (R) ou facultative (F). La mention (A) pour une métadonnée indique qu’elle est gérée automatiquement par le portail.
8. 2 Métadonnées associées aux ressources
Le tableau suivant dresse la liste des métadonnées du portail associées à chacune des ressources attachées au jeu de données. Il décrit également chacune des métadonnées et mentionne si la métadonnée est requise (R) ou facultative (F). La mention A pour une métadonnée indique qu’elle est gérée automatiquement par le portail.
Métadonnée du portail | R/F/A | Nomenclature |
---|---|---|
Identifiant unique du fichier | A | Identifiant généré automatiquement par CKAN |
Titre | R | Texte libre |
Description | R | Texte libre qui permet de décrire ce qui est propre au fichier |
Taille | F | Saisie manuelle : ce champ est particulièrement important si le jeu occupe plusieurs centaines de mégaoctets |
Format | R | Saisie manuelle : (XML, CSV, JSON, etc.) tout en majuscules, à l’exception de GeoTIFF, de GeoJSON et de SQLite |
Type de ressource | R | Menu déroulant avec les valeurs suivantes : Carte interactive, Données, Documentation et Services Web. Cette métadonnée permet de faciliter la recherche des ressources en fonction de leur type. Aussi, le diffuseur est invité à fournir la définition des champs dans un document soutien de type « documentation ». |
Lien URL | A |
|
Diffusion initiale | A | Date de la première diffusion du fichier ou du lien vers le fichier sur le portail donneesquebec.ca. La date est en temps universel coordonné Avancé de l’Est (EDT) au format suivant : AAAA-MM-JJ HH:mm EDT. |
Respect des lignes directrices | R | Choix multiples : permet de préciser la conformité du fichier aux lignes directrices (voir 8.3). |
Dernière modification (fichier ou lien) | A | La date de la dernière mise à jour indique la date à laquelle la ressource (fichier de données ou lien vers ce fichier dans le cas d’un fichier hébergé à l’externe) a été modifiée. Pour les fichiers qui ne sont pas hébergés sur donneesquebec.ca, la date de la dernière mise à jour (du lien vers le fichier) pourrait différer de la date de mise à jour réelle du fichier référé. Il est dans ce cas recommandé d’utiliser les API pour mettre à jour cette date. La date est en temps universel coordonnéavancé de l’Est (EDT), au format suivant : AAAA-MM-JJ HH:mm EDT. |
8.3 Métadonnée « Respect des lignes directrices »
La métadonnée du respect des lignes directrices indique la conformité d’un jeu de données aux présentes lignes directrices en deux endroits.
- au niveau du jeu de données, par une cote globale correspondant au meilleur niveau de conformité d’une des ressources de type données du jeu;
- au niveau de chaque ressource, en détaillant les cinq éléments de conformité suivants :
- Format de la ressource (recommandé, ouvert alternatif, propriétaire);
- Licence (sans restriction, légère restriction, plusieurs restrictions);
- Description des champs (fournie en métadonnée ou en ressource, absente);
- Considération fichiers (conforme ou n/a, faible non-conformité, non conforme; les éléments de non-conformité sont affichés);
- Considérations données (conforme ou n/a, faible non-conformité, non conforme; les éléments de non-conformité sont affichés).
8. 4 Métadonnée « Licence »
La métadonnée « Licence » fait partie des différentes métadonnées du jeu de données. La « Creative Commons 4.0 » est la licence adoptée pour les jeux de données du portail. Plus précisément, la variante CC-BY est assignée par défaut aux données du portail. Toutefois, en fonction du contexte des exigences présentes au sein de votre organisme, une variante différente peut être retenue. Pour trouver quelle variante de la licence CC peut convenir à un jeu de données, Creative Commons a créé un outil d’aide à la décision.
Considérations particulières
- La licence est irrévocable. Ainsi, une fois accordée, elle ne peut être révoquée. Vous devez donc vous assurer que votre organisme est le titulaire des droits d’auteur des données qu’il diffuse. Bien sûr, vous pouvez en tout temps cesser de diffuser un jeu de données. Toutefois la licence continuera de s’appliquer aux données qui auront été antérieurement diffusées.
- L’organisme détient les droits d’auteur (patrimoniaux et moraux) relatifs aux données qu’il diffuse, ou il les a obtenus sous une licence compatible à la CC4.
- L’organisme adhère au respect de la vie privée. Il est donc important de :
- ne pas diffuser de données contenant des renseignements personnels non publics ou qui seraient contraires aux lois en la matière;
- prendre soin que l’identification d’une personne ne puisse pas se faire par croisement de données.
8. 5 Métadonnée « Catégorie »
Les jeux de données du portail sont classés selon différentes catégories, précisées par l’entremise de métadonnées du jeu de données. Les catégories du portail de données ouvertes s’appuient sur la Classification des fonctions des administrations publiques (COFOG) et sur le thésaurus de l’activité gouvernementale. Le fait d’assurer une corrélation avec ces deux nomenclatures favorise une compréhension mutuelle, tant sur le plan national que sur le plan international, des termes utilisés lors de la classification de l’information. Le thésaurus, accessible à l’adresse http://www.thesaurus.gouv.qc.ca, peut être utilisé pour repérer la bonne catégorie pour un jeu de données.
COFOG | Thésaurus québécois | Catégorie correspondante sur le portail |
---|---|---|
Protection de l’environnement | Ressources naturelles, agriculture, environnement | Environnement, ressources naturelles et énergie |
Agriculture et alimentation | ||
Affaires économiques | Économie, finances et industrie | Économies et entreprises |
Transport | ||
Infrastructure | ||
Ordre et sécurité publique | Loi, justice et droit | Loi, justice et sécurité publique |
Services généraux des administrations publiques | Gouvernance, politique et administration publique | Gouvernement et finances |
Enseignement | Éducation, emploi et sciences | Éducation et recherche |
Loisir, culture et culte | Information, culture, communications | Société et culture |
Tourisme et loisirs | Tourisme, sports et loisirs | |
Santé | Santé | Santé |
Protection sociale | Soutien aux personnes, familles et communauté | Politiques sociales |
8. 6 Définition des catégories
En s’inspirant du thésaurus de l’activité gouvernementale du gouvernement du Québec, les catégories permettant de classer les jeux de données du portail ont été définies de la façon suivante.
Environnement, ressources naturelles et énergie
Domaine d’affaires correspondant à la mise en valeur et à l’utilisation optimale du territoire et des ressources énergétiques, forestières et minérales, et ce, dans une perspective de développement durable. Cela inclut les forêts, les gisements de pétrole, de gaz naturel ou de minerai, les ressources hydroélectriques et autres biens de même nature qui ont une valeur économique certaine. Ce domaine concerne aussi la protection des écosystèmes et de la biodiversité, la prévention, la réduction et la suppression de la pollution dans l’environnement ainsi que toute activité climatique pouvant avoir des répercussions sur la vie des citoyens.
Agriculture et alimentation
Domaine d’affaires correspondant à la mise en valeur et à l’utilisation optimale de tout ce qui touche l’agriculture, la pêche et l’alimentation : production, transformation, distribution et commercialisation des produits agricoles et des pêches.
Économie et entreprises
Domaine d’affaires correspondant au développement de la compétitivité des entreprises et des marchés dans le secteur industriel ou de la technologie ou toute autre entreprise à but lucratif.
Transport
Ensemble des moyens publics et privés permettant de déplacer, à l’aide d’un équipement de transport, des personnes ou des marchandises sur une distance relativement importante.
Infrastructure
Ensemble des équipements collectifs de base nécessaires à la vie économique de la nation : routes, ponts, voies ferrées, canaux, ports, réseaux de télécommunication et d’énergie, gestion de l’eau.
Loi, justice et sécurité publique
Domaine d’affaires qui correspond à tout ce qui a trait à la législation et à son application, tout en reconnaissant les droits des citoyens et leur accès au système de justice. En ce sens, cette catégorie inclut le domaine législatif : préparation des lois et règlements (civil et pénal), administration de la justice, protection des personnes, prévention de la criminalité, encadrement des activités policières et administration des décisions des tribunaux. Elle concerne aussi l’ensemble des mesures instaurées par l’État dans le but de garantir l’ordre public et la sécurité des citoyens.
Gouvernement et finances
Domaine d’affaires correspondant à la manière dont le pouvoir est exercé par le gouvernement sur les citoyens et l’appareil d’État. Cette catégorie inclut la gestion des services publics et de son administration, le contrôle du processus législatif et démocratique ainsi que le maintien et le renforcement des relations entretenues par le gouvernement, que ce soit du point de vue municipal ou international.
Éducation et recherche
Domaine d’affaires correspondant au développement et au maintien du système éducatif ainsi qu’à l’accès à celui-ci. Cette catégorie inclut également tout ce qui a trait à l’innovation et à la recherche industrielle et scientifique.
Société et culture
Domaine d’affaires correspondant à la mission du gouvernement en matière de culture, notamment sur le plan de son développement et de sa diffusion. Le terme « culture et société » fait référence à un ensemble des usages, des coutumes, des structures sociales et des manifestations artistiques, culturelles, religieuses et intellectuelles qui définissent un groupe ou une société par rapport à un autre.
Tourisme, sports et loisirs
Domaine d’affaires correspondant à l’action gouvernementale en matière de loisirs, de sports et de tourisme. Ce domaine se traduit par le développement de l’offre touristique, de la mise en marché du Québec et de ses acquis touristiques ainsi que de toute l’infrastructure visant l’accueil des visiteurs.
Santé
Domaine d’affaires correspondant à la régulation du système de santé, c’est-à-dire à la définition des règles de fonctionnement et de leur application ainsi qu’à toutes les spécificités reliées aux domaines médical et social.
Politiques sociales
Domaine d’affaires correspondant à la mission sociale du gouvernement. Il touche, entre autres, les relations avec les citoyens (jeunes, familles, aînés, femmes), l’immigration, le développement communautaire et l’intégration des individus. Ce domaine inclut également le soutien socioéconomique par l’entremise des divers programmes gouvernementaux, des personnes en difficulté ou caractérisées comme vulnérables.
8. 7 Métadonnée « Mots clés »
Le thésaurus contient des milliers de termes liés hiérarchiquement aux grands domaines de l’activité gouvernementale. Il permet donc de repérer non seulement la bonne catégorie pour un jeu de données, mais aussi les mots clés recommandés. Le thésaurus est accessible à l’adresse suivante : http://www.thesaurus.gouv.qc.ca .
Exemple de classification
Par exemple, pour classer le jeu fictif « liste des parcs nationaux du Québec », une recherche de « Parc national » dans le thésaurus propose la suite hiérarchique suivante : « parc → attrait touristique → tourisme → tourisme et loisir ». La catégorie équivalente sur le portail est donc « tourisme, sports et loisirs ». Les mots clés à considérer sont les suivants : parc, attrait touristique, ainsi qu’aire protégée proposée comme terme associé par le thésaurus. Le mot clé « tourisme et loisir » n’a pas de valeur ajoutée, puisqu’on le retrouve déjà dans la métadonnée catégorie.
Les mots clés doivent être saisis en considérant ces points :
- La première lettre en majuscule;
- Le reste du mot en minuscules;
- Pas de pluriel.
8. 8 Métadonnée des Données ou Description des champs
Dans un jeu de données, la description des champs contient minimalement :
- La liste des attributs et leur définition
- Les domaines de valeurs s’il y a lieu
Cette description peut être fournie à l’un des emplacements suivants :
Métadonnées
Dans cette option, la description des données est inscrite dans la métadonnée « informations complémentaires » du jeu ou « Description » de la ressource. Les usagers pourront ainsi prendre connaissance de cette information en consultant le tableau des métadonnées du jeu (Fiche descriptive du jeu de données) ou l’entête de la page de la ressource. Il est possible d’utiliser les markdown pour formater le texte dans l’interface graphique.
Ressource
La description des données peut aussi être inscrite dans un fichier distinct de préférence au format PDF et téléverser dans le jeu de données comme une ressource. Il est important dans ce cas de sélectionner « Guide et document support » pour le type de ressource. Les usagers téléchargeront le fichier pour avoir cette information.
Dictionnaire de données
Cette option est disponible pour les données tabulaires stockées dans un fichier au format CSV, XLS, ou XLSX. Elle permet au diffuseur d’indiquer pour chaque champ (colonne) de ses données le type de la donnée (texte, numérique, date), l’intitulé, et une description détaillée. Cette information sera disponible aux usagers du datastore via les API. Cette méthode peut être un complément pour les données au format tabulaire permettant ainsi aux usagers accédant aux données par API de mieux comprendre la donnée sans avoir à consulter la page de la ressource ou du jeu.
Il est recommandé de décrire les données diffusées avec au moins une des approches ci-dessus.
9. Mise à jour et modification d’un jeu de données
La mise à jour des jeux de données et des métadonnées associées à ceux-ci peut se faire manuellement, en utilisant le formulaire offert sur le portail de données ouvertes, ou de manière automatisée, en utilisant l’API.
L’API permet d’actualiser un fichier de données. Lorsqu’il est utilisé en combinaison avec la base de données interne du portail (datastore), l’API peut servir à remplacer, par une information plus actuelle, des valeurs dans un jeu de données ou à insérer une mise à jour de la valeur tout en conservant les anciennes valeurs. Cette fonctionnalité est seulement offerte avec les fichiers de format CSV.
L’utilisation de l’API et de la base de données est documentée, en anglais, aux adresses suivantes :
- API : https://docs.ckan.org/en/2.9/api/index.html ;
- Base de données : http://docs.ckan.org/en/2.9/maintaining/datastore.html .
9. 1 Gestion de l’historique des données
Peu importe à quelle fréquence la valeur d’une donnée est mesurée et peu importe la fréquence à laquelle elle est rendue accessible en données ouvertes, il est souvent intéressant de conserver un historique des valeurs. Différentes manières existent pour conserver un historique des valeurs antérieures, notamment :
- en diffusant un fichier unique cumulant toutes les valeurs des données;
- en diffusant un nouveau fichier pour chaque mise à jour. Le fichier peut comporter uniquement les nouvelles valeurs ou contenir une certaine période (par exemple, les 5 dernières années);
- en actualisant la base de données interne du portail pour insérer les dernières valeurs. La base de données peut être utilisée pour stocker toutes les valeurs diffusées dans le passé. L’utilisation de la base de données a l’avantage pour les utilisateurs des données de pouvoir recourir à l’API pour extraire les valeurs pour la période qu’ils désirent. Cette fonctionnalité est seulement offerte avec les fichiers de format CSV.
La manière retenue dépend généralement des besoins des utilisateurs pour ces données et de la stabilité dans le temps des données antérieures (certaines données historiques peuvent nécessiter d’être revues pour faciliter leur comparaison avec la dernière mise à jour). Peu importe la manière choisie par le diffuseur, ce dernier doit bien décrire comment il gère l’historique des données par l’entremise des métadonnées.
9. 2 Gérer la désuétude des données
Dans le cycle de vie de la donnée, des données peuvent devenir désuètes. La désuétude est liée à une donnée qui perd de sa valeur avec le temps. Selon le principe de permanence défini en 2007 par la Sunlight foundation, l’information diffusée devrait demeurée disponible dans le temps. Dans le cas d’évolution (ex: rehaussement ou regroupement), l’archivage est privilégié à la suppression. Toutefois les données en temps réel qui ne sont plus mises à jour pourraient ne pas être archivées.
Dans le tableau suivant, on retrouve différents cas de figure et la façon de les gérer.
Cas de figure | Façon de le gérer |
---|---|
Si un jeu de données (l’ensemble de données) ne sera plus mis à jour | La métadonnée fréquence de mise à jour du jeu est mise à “Archives” |
Si l’archive concerne seulement une ressource d’un jeu de données | Le type de la ressource est mis à “Archives” |
Le contexte a évolué, | Si le nouveau jeu contient les mêmes données, l’ancien jeu peut être supprimé. Si le nouveau jeu ne contient pas les mêmes données, l’ancien jeu est conservé et la métadonnée fréquence de mise à jour du jeu est mise à “Archives”. |
Le contexte a évolué, | La métadonnée fréquence de mise à jour est mise à “Archives” |
Suite à une restructuration d’un ou plusieurs jeux de données (regroupement, éclatement, réorganisation des ressources) | Le(s) ancien(s) jeu(x) peuvent être supprimés puisque les données sont encore disponibles |
Suite à un rehaussement d’un jeu de données qui mène à une diffusion plus granulaire et exhaustive | L’ancien jeu peut être supprimé puisque les données sont encore disponibles. |
9. 3 Gestion des modifications
Pour des modifications importantes ayant un impact sur la façon dont les données sont utilisées, il est recommandé de documenter ces modifications. La documentation des changements peut être fournie soit dans un document en ressource soit dans la métadonnée information complémentaire.
Afin que les utilisateurs puissent se préparer, les modifications importantes peuvent être documentées en prévision d’un changement futur comme l’ajout, le retrait, ou le renommage d’une colonne. Cette information peut aussi être communiquée via différents canaux de communication, notamment le blogue de Données Québec.
Voici l’exemple d’un changement apporté au jeu de données du système électronique d’appel d’offres en 2021. En mars 2021 un fichier JSON inspirée de la normes Open Contracting Data Standard (OCDS) a été ajouté au jeu de données du système électronique d’appel d’offres (SEAO). Pour notifier les usagers de cette modification et faciliter son utilisation, la description du jeu a été modifiée et un document décrivant le nouveau fichier a été ajouté.