High Energy Physics Libraries Webzine

 
 
Home
Editorial Board
Contents
Issue 11

 HEP Libraries Webzine
Issue 11 / August 2005


Les Sciences et l'Histoire des Sciences dans Gallica
[Voir la version anglaise de cet article]

Natalie Pigeard-Micault(*)

06/06/2005


 
 

Abstract

Gallica est un projet de la Bibliothèque nationale de France qui a pour but de numériser les ouvrages classiques français qui ne sont plus soumis au copyright. Les textes sont disponibles par un portail web. L'article développe une analyse de l'usage des collections en mathématiques et physique. Gallica travaille an collaboration avec l'équipe de MathDoc. Pour l'avenir, on peut espérer que les données de Gallica pourront être utilisées par d'autres bibliothèques par l'intermédiaire du protocole d'OAI, et réciproquement, que Gallica pourra se développer en "moissonnant" d'autres sources numerisées.
 

Introduction

Gallica [1] est une bibliothèque virtuelle qui offre à tous gratuitement un accès à environ 75 000 volumes de textes dans tous les domaines du savoir de l'antiquité au début du 20ème siècle. Les lecteurs peuvent y avoir accès, de chez eux, directement, sans manipuler indéfiniment des ouvrages fragilisés par le temps, parfois inaccessibles dans les bibliothèques proches. Cette bibliothèque connaît un franc succès avec un million de connexion par mois sur les documents offerts. Avoir accès aux «Procès verbaux de l'académie des sciences » ou au « Journal des scavans» n'est plus un parcours du combattant réservé à ceux qui ont le temps. Il est désormais possible au chercheur d'avoir accès aux articles d 'Einstein sur la théorie de la relativité dans les Annalen der Physik de 1905 et ainsi de les citer.

L'idée d'une numérisation à grande échelle du patrimoine culturel est née avec l'annonce de la création d'une Très Grande Bibliothèque à la fin des années 80. L'objectif initial était d'offrir aux usagers du futur Établissement public de la Bibliothèque de France (EpBF), une lecture assistée par ordinateur (PLAO) d'environ 300 000 titres de référence. Volume ramené à 100 000 pour des raisons budgétaires.

Un historique des choix techniques

De l'ouvrage papier aux fichiers numériques

Les tests de numérisation ont commencé en 1990. Les choix devaient ouvrir la plus grande marge de manoeuvre et d'utilisation dans un avenir en pleine mutation informatique tout en se pliant aux critères d'une production semi-industrielle. Il apparaît alors immédiatement exclu de s'équiper en matériel de numérisation en constant perfectionnement et en personnel photographe. Les quantités à numériser sont telles qu'au moins deux prestataires exterieurs ont dû être choisis.

Le premier test a permis de déterminer qu'il était impossible de numériser un ouvrage relié page à page pour un coût raisonnable sans risquer de le dégrader par les manipulations. De plus, les capacités de production sur du papier relié, ne répondant pas à des critères industriels, ne permettaient pas de tenir le calendrier.

Il a donc été décidé de numériser ou des ouvrages massicotés (achetés à cet effet) ou des microformes.

Les ouvrages patrimoniaux n'étant que très rarement illustrés, le choix de la numérisation en noir et blanc au format de fichier TIFF s'est imposé du fait de la très large utilisation de ce standard.

La compression en CCITT groupe 4, permettait quant à elle d'offrir au lecteur des fichiers rapidement chargeables sans perte de qualité. En 1994 l'EpBF fusionne avec la Bibliothèque nationale pour devenir la BnF [2]. En 1997, une communication des ouvrages numérisés via Internet est envisagée. Ce type de consultation a pour avantage premier d'offrir à plusieurs lecteurs à la fois, quelle que soit leur localisation, des ouvrages anciens, parfois rares, sans se déplacer à la Bibliothèque nationale de France tout en préservant les collections d'une trop grande manipulation. Le TIFF n'étant pas un standard de consultation sur internet, le PDF, plus adapté, fut proposé.

Rapidement, le besoin d'une numérisation couleur apparaît. Le problème étant la différence de taille des fichiers engendrée par la numérisation couleur malgré la compression JPEG. De plus le processus industriel de la numérisation noir et blanc, ne pouvait initialement inclure une insertion couleur pour quelques pages. Les images couleurs étaient donc numérisées par un prestataire différent et stockées sur des serveurs autres que les fichiers noir et blanc. Seule Gallica pouvait accéder à ces deux serveurs. Mais on obtenait une lecture des ouvrages offrant d'un côté l'ensemble de l'ouvrage en noir et blanc et d'un autre les illustrations en couleurs. Depuis 2003, les prestataires numérisent de manière indifférente les pages noir et blanc et couleur. En 2004 le système informatique est capable de renvoyer aux lecteurs un ouvrage mixte.

Des textes patrimoniaux sur internet

Dès que l'idée d'une mise en ligne sur internet émerge, ce nouveau moyen de diffusion d'information réactualise les problèmes de droits suivant le code de la propriété intellectuelle.

L'établissement a appliqué la loi européenne concernant les droits de la propriété intellectuelle à partir de 1996. Schématiquement, un ouvrage est libre de droit, 70 ans après le décès de l'auteur. Les oeuvres de Bourbaki sont donc exclues. Les oeuvres de Marie Curie, décédée en 1934, lorsqu'elles ne sont pas préfacées par sa fille Irène, comme par exemple Recherches sur les substances radioactives de 1904 viennent tout juste d'être libérées et donc peuvent être numérisées.
Depuis cette date seuls les ouvrages libres de droits sont numérisés.

Avec l'ouverture d'un site internet, il a fallu également dessiner une structure d'accueil sur le site à l'image des publics visés. Si un public de chercheurs en science et histoire des sciences influençait en grande partie les sélections pour la constitution du corpus, une très nette orientation vers ce que l'on peut appeler "le grand public" s'effectue depuis quelques années. Les très grands auteurs intéressent le lycéen, l'étudiant et le professeur du secondaire, alors que les nombreux ouvrages de vulgarisation des sciences et des techniques attirent les curieux.

L'interface d'accueil du site Gallica permet plusieurs modes d'accès à l'ouvrage numérisé qui ne sont qu'un reflet de la multiplicité de ces publics. L'outil « recherche » mène à un catalogue des ouvrages effectivement consultables. Il s'adresse aux personnes qui ont à l'avance délimité leur champ de recherche à un auteur, un titre ou un sujet. La recherche plein texte permet une interrogation sur la totalité de la notice ainsi que sur les tables de matières saisies. C'est via cette recherche plein texte que l'on peut accéder directement aux articles de Jérome Lalande tels que son « Observation de l'Eclipse de Lune du 27 Mars 1755 faite au Luxembourg a Paris », publié dans « Histoire de l'Académie royale des sciences avec les mémoires de mathématique et de physique tirés des registres de cette Académie » Année 1755. Et ceci en saissant simplement dans cette rubrique de recherche le nom de l'auteur voulu.

Un accès direct à la liste des dictionnaires et un autre à la liste des périodiques sont également proposés via cette interface. Les dictionnaires et périodiques étant les ouvrages les plus difficilement consultables en mode image sur un poste informatique, et paradoxalement les plus demandés, cet accès permet aux lecteurs fidèles de connaître les nouvelles mises en ligne rapidement pour ce type de document.Une liste des nouveautés est diffusée chaque mois.

L'interface « découverte » mène à des parcours thématiques qui, pour chaque grande période, présentent chaque corpus grâce à des textes introductifs sur des thèmes scientifiques bien précis. Par exemple, pour un 17ème siècle élargi, il semble intéressant d'amener le lecteur aux oeuvres de Copernic, Bruno, Kepler ou Galilée par une présentation de l'histoire de l'astronomie de cette période.

Les parcours thématiques semblent être particulièrement utilisés par les professeurs du secondaire et leurs élèves. Ils peuvent souvent servir de support de cours.

Mais qu'offre-t-on en science sur Gallica ? Comment a été constitué le corpus ?

La physique et les mathématiques sur Gallica

Constitution des corpus

Après avoir défini un « corpus idéal » en coopération avec les chercheurs et à l’aide des bibliographies de références, il a fallu confronter ce choix à la possibilité de se procurer les textes et à l’offre du marché de l’antiquariat.
Une des premières ressources a été le marché de l'antiquariat et les achats chez des éditeurs de microformes.

L'achat d'antiquariat, grâce à une numérisation directe, permet un résultat de meilleure qualité qu’à partir d’une microforme. De plus l’automatisation de ce processus de numérisation après massicotage permet de faible coûts. Le désavantage étant que les acquisitions se cantonnent au 19ème siècle, puisqu'il est exclu de massicoter des ouvrages dits anciens donc anterieurs au 19ème siècle. L'achat de microformes est donc complémentaire puisqu'il permet d'intégrer des copies d'ouvrages très anciens (surtout en botanique, médecine et collections étrangères comme les « Philosophical transactions »). Malheureusement leur qualité et par conséquent la qualité de numérisation ne sont pas forcément très satisfaisantes. Un autre désavantage des microformes est qu'elles sont, sauf exception, toutes en noir et blanc. Toutes planches ou illustrations en couleurs sont donc dégradées à la reproduction.

La deuxième ressource et non la moindre provient du partenariat avec d’autres bibliothèques. Ainsi avons nous pu numériser les publications périodiques de l’Académie des sciences entre autres. 20% des ouvrages scientifiques mis en ligne proviennent de ces bibliothèques partenaires.
Suite à la création de la BnF en 1994 il nous a été également permis de puiser dans les fonds de la BN qui ont été microformés dans un objectif de pure conservation ou qui étaient en double après la fermeture du centre de prêt de Versailles.

Aujourd'hui nous sommes dans une phase de complétude ou affinement du corpus et non de constitution en grande masse. Si bien que les principales ressources sont le marché de l'antiquariat (mais dans une moindre mesure) et les fonds de la BnF ainsi que les bilbiothèques partenaires. .

Le corpus scientifique représente environ 17 % de l'ensemble du fonds numérique de la Bibliothèque nationale de France (environ 16000 volumes) et également 17 % du corpus libre de droit consultable via internet (12000 volumes).
A ce fonds, s'ajoutent les ouvrages interdisciplinaires qui peuvent être catalogués en philosophie, vulgarisation, littérature scientifique, économie rurale, agronomie…

Utilisation des corpus mathématiques et physiques

Un simple coup d’œil sur les statistiques de consultation permet de voir le nombre de consultation doubler, tous les mois de mai et juin. Il est évident que le déroulement des examens universitaires est la cause de ce pic.
Afin d’avoir une vue d’ensemble sur les consultations des ouvrages scientifiques dans Gallica, il est donc plus juste de nous référer aux consultations des mois « neutres» que sont par exemple novembre et décembre.
On remarque qu’il n’existe qu’un nombre insignifiant d’ouvrages non consultés durant ces 2 mois et donc que même les dernières mises en ligne sont consultées ; ce qui suppose une veille constante chez le lecteur de gallica.

En s’attardant sur la physique et les mathématiques, on remarque que les deux corpus offrent à peu de choses près le même nombre de documents avec 873 volumes de mathématiques (518 titres) et 905 volumes de physique (391 titres). Le nombre largement inférieur de titres en physique s’explique par un nombre triple de volumes de périodiques. Les deux corpus sont également différents dans le sens où les traités, études, représentent plus de 77% du corpus de mathématiques contre seulement 54 % du corpus de physique. Cependant, dans les deux corpus, on trouve tous les grands auteurs de l’antiquité au début du 20e siècle, ainsi qu’un panel de tous les manuels d’enseignement supérieur (pour le 19e siècle). Les deux corpus ont été constitués de manière semblable, il s’agit principalement d’achat, de quelques emprunts dans des bibliothèques partenaires et enfin du fonds interne à la Bibliothèque nationale de France. Cependant, les suggestions de numérisation sont bien plus nombreuses en mathématiques qu’en physique. Ne dit-on pas couramment que les textes anciens de mathématiques sont toujours d’actualité et constituent la base de la physique d’aujourd’hui ? Ce qui expliquerai la forte proportion de traités et études en mathématiques comme la forte évolution de l’offre de consultation sur Gallica pour la dernière année. En effet, à la fin 2003 Gallica offrait en physique 130 volumes de plus qu’en mathématiques.

Cet intérêt pour les textes mathématiques est largement visible si l’on regarde les statistiques de consultation des mois de novembre et en décembre 2004. En effet, seuls 13 volumes de mathématiques offerts n’ont pas été consultés durant ces 2 mois contre 33 en physique. Donc, non seulement le corpus est utilisé dans sa quasi-totalité, mais en plus chaque volume mathématique reçoit le double de consultation qu’un ouvrage de physique (18236 par mois en moyenne contre 9268). Sur ces 2 mois, un volume de mathématique est en moyenne consulté 42, 5 fois contre 21 fois pour un de physique. Il serait aisé de penser que cette différence est due au nombre plus élevé de traités en mathématiques comparativement à celui de physique et que le public est plus enclin aux grande monographies qu’aux autres types de documents. Or, il n’en est rien puisque le périodique « Journal de mathématiques pures et appliquées » obtient autant de consultation à lui seul que l’ensemble des périodiques de physique.

Par conséquent, si on peut expliquer la forte offre et consultation des œuvres en mathématiques par la pérennité des textes et les suggestions des historiens des mathématiques et mathématiciens, cela ne peut être qu’un paramètre auquel il faut en ajouter un autre bien concret :
la cellule Mathdoc, unité mixte de services CNRS-UJF ayant créé un portail documentaire en mathématiques [3] est sans doute pour beaucoup dans ce succès. Les liens entre la bibliothèque nationale et la cellule mathdoc ont été formalisés par une convention pôle associé en 2002. Gallica fournit à la cellule mathdoc les notices des nouvelles mises en ligne en mathématique ; la cellule mathdoc les intègre dans son moteur de recherche. Outre ce travail de mise à jour des nouvelles mises en ligne, la cellule mathdoc a indexé tous les articles des périodiques mathématiques numérisés par Gallica. Ainsi, il est possible de rechercher un auteur ou titre d’article dans le « Journal de mathématiques pures et appliquées » et de le visualiser dans son intégralité immédiatement, sans passer par une fastidieuse recherche dans les tables des matières de différentes sources d'information. En effet, le portail MathDoc ne regroupe pas seulement les textes mathématiques de Gallica mais aussi un grands nombre de numérisations en mathématiques qu’elles viennent de Gallica, de la Michigan University Library ou encore de la Cornell University Library. Ainsi la communauté de chercheurs sait qu’en consultant leur portail ils ont accès à presque tout le corpus mathématique numérisé. Ce regroupement des numérisations mathématiques ainsi que cette facilité d’accès a augmente de manière conséquente le nombre de consultation des ouvrages de Gallica. Il n’existe aucun équivalent en physique.

S’il est un point sur lequel se réunissent Mathématiques et Physique, c’est sur le type d’ouvrages consultés.
De chaque coté, les ouvrages les plus consultés sont systématiquement (en dehors des périodiques) les grands auteurs des domaines cités.
En physique arrivent en tête : Newton, Fourier, Poincaré, Duhem, Arago.
En mathématiques : Cauchy, Molk, Lagrange, Huygens, Bertrand, Abel.
En dehors du monde des chercheurs qui utilise les ouvrages spécialisés, l’enseignement secondaire et leurs élèves se tournent vers ces noms les plus connus. Ce sont ces textes qui ont fait une certaine histoire des sciences et que l’on présente dans les parcours thématiques destinés au plus vaste public qui soit…

Evolutions techniques et scientifiques à venir

Aujourd’hui, l’évolution de Gallica s’articule autour de la complétude des corpus existants et sur les modalités d’accès à ces corpus. Mais la naissance de nombreux corpus numérisés en sciences, ainsi que l'évolution des techniques, nous incite a redéfinir autant la forme que le contenu de gallica.

En effet, de nombreuses institutions se lancent dans la mise en ligne de texte. Elles choisissent de mettre en valeur leurs fonds documentaires, de célébrer tel ou tel événement scientifique, ou encore d’offrir, à l’instar de la cellule Mathdoc des portails réunissant une documentation spécialisée. Il est donc nécessaire de pouvoir disposer de moyens offrant au lecteur une visibilité directe sur l'ensemble des corpus numérisés en sciences. La BnF s'achemine vers une solution OAI. Ce protocole permettra à terme à toute bibliothèque équipée de capturer des notices des ouvrages de Gallica qui l'intéressent pour la cohésion de son corpus sans doublonner la numérisation, et en renvoyant immédiatement le lecteur vers cette numérisation. Aujourd’hui, les premières notices de monographies simples de Gallica sont versées en Dublin Core afin que Gallica soit diffuseur de données. Ce premier test est en cours. Enfin, nous espérons pouvoir renvoyer à terme les lecteurs de Gallica sur les ouvrages pertinents numérisés par d'autres institutions sur leur propres sites. Nous espérons tester Gallica capteur de données, d’ici la fin 2006.

De plus, la coopération avec la cellule Mathdoc a permis d'avancer sur le problème de la saisie structurée des tables des matières de périodiques afin que l'interrogation sur l'auteur et le titre permette un accès direct à l'article. Est donc également à l'étude le versement dans l'OAI les informations issues des tables des matières des périodiques. C'est une immense bibliothèque numérique qui se profile, réunissant les grands corpus numériques et offrant des outils de navigation permettant d’entrer bien plus simplement dans des documents difficiles d’accès commes les périodiques, dictionnaires ou œuvres complètes.

References:

[1] Gallica. Page d'accueil
URL: http://gallica.bnf.fr

[2] Bibliothèque Nationale de France. Page d'accueil
URL: http://www.bnf.fr

[3] Cellule Mathdoc. Page d'accueil
URL: http://mathdoc.emath.fr/

Author Details

Natalie Pigeard-Micault
DCP Responsable des sciences et techniques
Gallica
Bibliothèque nationale de France
Quai F. Mauriac
75 706 Paris cedex 13
France

Email: natalie.pigeard@bnf.fr
URL: http://gallica.bnf.fr
 

For citation purposes:


Natalie Pigeard, "Science et histoire des Sciences dans Gallica", High Energy Physics Libraries Webzine, issue 11, August 2005
URL: http://webzine.web.cern.ch/webzine/11/papers/3/
 

Reader Response

If you have any comments on this article, please contact the  Editorial Board
 
Top
Home
Editorial Board
Contents
Issue 11
Maintained by: HEPLW Team

Last modified: 19 July 2005