Support et données lisibles par machine

L'ISBN , identifiant numérique unique d'un livre, est représenté par un code-barres EAN-13 . Ce code comporte des barres lisibles par machine et des chiffres lisibles par l'homme.

En informatique et en communications , un support lisible par machine (ou support lisible par ordinateur ) est un support capable de stocker des données dans un format facilement lisible par un ordinateur ou un capteur . Il s'oppose aux supports et données lisibles par l'humain .

Le résultat est appelé données lisibles par machine ou données lisibles par ordinateur , et les données elles-mêmes peuvent être décrites comme ayant une lisibilité par machine .

des données structurées .

Les premières tentatives de création de données lisibles par machine remontent aux années 1960. Parallèlement aux avancées majeures en lecture automatique et en traitement automatique du langage naturel (comme ELIZA de Weizenbaum ), on anticipait le succès des fonctionnalités lisibles par machine et l'on s'efforçait de créer des documents exploitables par machine. À titre d'exemple, la musicologue Nancy B. Reich a créé en 1966 un catalogue lisible par machine des œuvres du compositeur William Jay Sydeman .

Aux États-Unis, la loi OPEN Government Data Act du 14 janvier 2019 définit les données lisibles par machine comme « des données dans un format pouvant être facilement traitées par un ordinateur sans intervention humaine, tout en garantissant qu'aucune signification sémantique ne soit perdue ». Cette loi enjoint aux agences fédérales américaines de publier les données publiques de cette manière, en veillant à ce que « toute donnée publique de l'agence soit lisible par machine ».

Les données lisibles par machine peuvent être classées en deux groupes : les données lisibles par l’humain, balisées pour être également lisibles par les machines (par exemple, les microformats , RDFa , HTML ), et les formats de fichiers de données destinés principalement au traitement par machine ( CSV , RDF , XML , JSON ). Ces formats ne sont lisibles par machine que si les données qu’ils contiennent sont formellement structurées ; l’exportation d’un fichier CSV à partir d’une feuille de calcul mal structurée ne répond pas à cette définition.

Lisible par machine n’est pas synonyme d’ accessible numériquement . Un document accessible numériquement peut être en ligne, ce qui facilite son accès par ordinateur, mais son contenu est beaucoup plus difficile à extraire, à transformer et à traiter par la logique de programmation informatique s’il n’est pas lisible par machine.

Le langage XML (Extensible Markup Language ) est conçu pour être lisible par les humains et les machines. La technologie XSLT ( Extensible Stylesheet Language Transformations ) permet d'améliorer la présentation des données pour une meilleure lisibilité par l'humain. Par exemple, XSLT peut être utilisé pour générer automatiquement un document XML au format PDF ( Portable Document Format ). Les données lisibles par machine peuvent être automatiquement transformées pour être lisibles par l'humain, mais l'inverse n'est généralement pas vrai.

Aux fins de la mise en œuvre de la loi de modernisation de la performance et des résultats du gouvernement (GPRA), le Bureau de la gestion et du budget (OMB) définit le « format lisible par machine » comme suit : « Format dans un langage informatique standard (autre que du texte anglais) pouvant être lu automatiquement par un navigateur Web ou un système informatique (par exemple, XML). Les documents de traitement de texte traditionnels et les fichiers PDF sont facilement lisibles par les humains, mais généralement difficiles à interpréter par les machines. D’autres formats, tels que XML , JSON ou les feuilles de calcul avec colonnes d’en-tête exportables au format CSV, sont des formats lisibles par machine. Le HTML étant un langage de balisage structurel qui étiquette distinctement les parties du document, les ordinateurs peuvent rassembler les composants du document pour créer des tables des matières, des plans, des bibliographies, etc. Il est possible de rendre lisibles par machine les documents de traitement de texte traditionnels et d’autres formats, mais ces documents doivent inclure des éléments structurels améliorés. »

Médias

Les supports lisibles par machine comprennent notamment les supports magnétiques tels que les disques , cartes, bandes et tambours magnétiques , les cartes perforées et les bandes de papier , les disques optiques , les codes-barres et les caractères à encre magnétique .

Les technologies courantes de lecture automatique comprennent l'enregistrement magnétique, le traitement des signaux et les codes-barres . La reconnaissance optique de caractères (OCR) permet aux machines de lire des informations accessibles aux humains. Toute information récupérable par quelque forme d'énergie que ce soit peut être lisible par machine.

Exemples :

Acoustique
Chimique
- Photochimique
Électrique
- Semiconducteur utilisé dans les microprocesseurs de mémoire vive volatile
- Transistor à grille flottante utilisé dans les cartes mémoire non volatiles
- transmission radio
stockage magnétique
Mécanique
- Boîtes et Swins
  - Carte perforée
  - Ruban adhésif en papier
    - Rouleau de musique
  - cylindre ou disque de boîte à musique
- Rainures (Voir aussi : Données audio )
  - Cylindre de phonographe
  - disque de gramophone
  - Courroie DictaBelt (rainure sur courroie en plastique)
  - Disque électronique capacitif
Optique
- stockage optique
Thermodynamique

Applications

Documents

document lisible par machine est un document dont le contenu peut être facilement traité par ordinateur . Ces documents se distinguent des données lisibles par machine plus générales par leur structure plus poussée, qui leur confère le contexte nécessaire aux processus métier pour lesquels ils sont créés.

Catalogues

MARC (catalogage lisible par machine) est un ensemble standard de formats numériques permettant la description lisible par machine des documents catalogués par les bibliothèques, tels que les livres, les DVD et les ressources numériques. Les catalogues informatisés et les logiciels de gestion de bibliothèque doivent structurer leurs notices bibliographiques conformément à cette norme, afin que les informations bibliographiques puissent être librement partagées entre ordinateurs. La structure des notices bibliographiques suit presque universellement la norme MARC. D'autres normes sont utilisées conjointement avec MARC ; par exemple, les Règles anglo-américaines de catalogage (AACR) / Description et accès aux ressources (RDA) fournissent des directives pour la formulation des données bibliographiques dans la structure des notices MARC, tandis que la Description bibliographique normalisée internationale (ISBD) fournit des directives pour l'affichage des notices MARC sous une forme standardisée et lisible par l'humain.

Dictionnaires

Un dictionnaire lisible par machine (MRD) est un dictionnaire stocké sous forme de données lisibles par machine au lieu d'être imprimé sur papier. Il s'agit d'un dictionnaire électronique et d'une base de données lexicales .

Un dictionnaire lisible par machine est un dictionnaire électronique pouvant être chargé dans une base de données et interrogé par un logiciel. Il peut s'agir d'un dictionnaire explicatif monolingue, d'un dictionnaire multilingue facilitant la traduction entre deux langues ou plus, ou d'une combinaison des deux. Les logiciels de traduction multilingues utilisent généralement des dictionnaires bidirectionnels. Un dictionnaire lisible par machine peut avoir une structure propriétaire, interrogée par un logiciel dédié (par exemple en ligne via Internet), ou une structure ouverte, disponible pour le chargement dans des bases de données et donc utilisable par diverses applications. Les dictionnaires classiques contiennent un lemme accompagné de diverses descriptions. Un dictionnaire lisible par machine peut offrir des fonctionnalités supplémentaires et est donc parfois qualifié de dictionnaire intelligent. Le dictionnaire anglais Gellish, en accès libre, en est un exemple .

Le terme « dictionnaire » désigne également un vocabulaire ou un lexique électronique , comme ceux utilisés par exemple dans les correcteurs orthographiques . Si les dictionnaires sont organisés selon une hiérarchie de concepts (ou termes) de type sous-type et sur-type, on parle alors de taxonomie . S'ils contiennent également d'autres relations entre les concepts, il s'agit d'une ontologie . Les moteurs de recherche peuvent utiliser un vocabulaire, une taxonomie ou une ontologie pour optimiser les résultats de recherche. Les dictionnaires électroniques spécialisés sont les dictionnaires morphologiques et les dictionnaires syntaxiques.

Le terme MRD est souvent opposé à celui de dictionnaire NLP , car un MRD est la version électronique d'un dictionnaire initialement imprimé sur papier. Bien que les deux termes soient utilisés par les programmes, on préfère l'expression « dictionnaire NLP » lorsque le dictionnaire a été conçu spécifiquement pour le traitement automatique du langage naturel (TALN). Une norme ISO, appelée Lexical Markup Framework (FDF) , permet de représenter les deux structures pour les MRD et les NLP .

Médias

Applications

Documents

Catalogues

Dictionnaires

Passeports