Université d'été, CRDP de Versailles, 20-24 juillet 1998
Ce texte a pour objet de présenter les grands traits d'une analyse de l'information scientifique et technique disponible sur le réseau Internet, d'évoquer les principaux outils spécifiques de recherche d'information, et d'en discuter les utilisations potentielles en éducation. Quelques exemples sont présentés en physique, chimie, biologie, technologie et accessoirement en informatique, ce dernier domaine constituant un cas un peu plus particulier.
1. INFORMATION SCIENTIFIQUE ET TECHNIQUE SUR INTERNET
Avant d'analyser en quoi le réseau Internet modifie à la diffusion de l'information scientifique et technique, il convient de rappeler que l'Internet a été initialement mis en place pour faciliter les échanges entre scientifiques, principalement dans le domaine de la physique, et aussi entre militaires.
La banalisation d'Internet conduit à une évolution de la publication et de la diffusion dans le domaine scientifique et technique. Les principales modifications observables peuvent se résumer en trois points :
· une plus grande disponibilité des documents, non seulement pour les chercheurs, mais aussi pour le "grand public",
· une plus grande rapidité de la diffusion et des échanges entre les producteurs de documents et leurs utilisateurs,
· la mise en valeur de la littérature "grise" : thèses, textes de vulgarisation, documents pour l'éducation.
1.1 Les types d'information et leurs origines
1.1.1 Ouvrages et revues
La littérature scientifique "officielle", constituée des ouvrages publiés par les éditeurs et des articles de revues, n'est en général pas directement disponible sur la Toile. Les deux raisons principales en sont : le coût de la numérisation de documents imprimés déjà édités et la difficulté à faire respecter les droits de l'auteur et de l'éditeur.
De fait, il existe très peu d'ouvrages imprimés disponibles en ligne, sauf quelques exceptions comme les ouvrages anciens à caractère historique. A titre d'exemple, la Bibliothèque Nationale de France a numérisé de nombreux ouvrages du 19e siècle et en met une sélection à disposition sur son serveur Gallica (2). On peut ainsi y consulter 33 ouvrages de physique dont le suivant : "Sur [la] diffraction de la lumière" par A. Fresnel et aussi 41 ouvrages en sciences appliquées et technologie.
En ce qui concerne les articles de revue, une évolution récente est perceptible. De nombreux éditeurs proposent à la fois une version électronique et une version papier avec des modes d'abonnement différents. De nouveaux titres sont créés uniquement sous forme électronique, disponible en ligne (Pour un état de la question, on pourra consulter une analyse de Ghislaine CHARTRON, URFIST Paris Pour un état de la question, on pourra consulter une analyse de Ghislaine CHARTRON, URFIST, Paris (3)). On comptait déjà environ 3000 revues et lettres d'information sous forme électronique en janvier 1997.
Une tradition de pré-publications (pre-prints) s'est installée dans certains secteurs de la recherche comme en physique des hautes énergies ou en astronomie. Elle consiste à mettre à disposition de la communauté, en pratique de tout le monde, les versions des articles avant leur publication dans une revue reconnue.
A titre d'exemple, les archives de publications et pré-publications électroniques en physique sont conservées par le Los Alamos National Laboratory ; leur diffusion est relayée en France à Jussieu (4). De même que l'on trouve un grand nombre d'informations en astrophysique par le service ADS financé par la NASA (5).
Il s'agit là d'un mode de diffusion moins formel que la publication classique mais beaucoup plus efficace du point de vue de la dissémination.
Cette pratique de la pré-publication commence à se répandre dans d'autres communautés de chercheurs ; certains articles deviennent désormais disponibles sur les serveurs des équipes de recherche ou même dans les pages personnelles des chercheurs (on en trouve de nombreux exemples en informatique).
Les références d'ouvrages ou d'articles sont assez facilement consultables au travers des bases de données bibliographiques développées parles grandes bibliothèques comme la Bibliothèque Nationale de France (6), ou la Bibliothèque du Congrès (7), ou par des agences spécialisées comme l'Institut de l'information scientifique et technique (INIST) du CNRS (8).
Les revues de vulgarisation ont adopté une politique d'ouverture sur Internet. Pour la science (9) ou La Recherche (10) mettent en ligne une partie de leurs articles, des dossiers et des bibliographies liées aux articles.
1.1.2 Données et documentation
La diffusion de données scientifiques par le réseau connaît un développement considérable. En biologie moléculaire, de grands serveurs comme INFOBIOGEN en France (11) offrent désormais un accès complet aux grandes banques de données biologiques : banques de séquences nucléiques d'ADN et d'ARN comme EMBL, ou de structures moléculaires tridimensionnelles comme PDB. Dans un tout autre domaine, celui de l'observation de la Terre, plusieurs banques d'images sont disponibles en ligne (Une première liste est consultable sur le serveur du MENRT (12)).
La documentation technique ainsi qu'un grand nombre de données techniques et économiques, diffusées auparavant sur d'autres supports, commencent à être transférées et même produites directement pour la Toile. Ces données proviennent d'institutions le plus souvent mais aussi d'entreprises. Les fédérations professionnelles (comme en plasturgie (13)), les centres de recherche spécialisés (comme le CSTB pour le bâtiment (14), CEMAGREF pour l'agriculture et l'environnement (15), et les entreprises (comme Usinor (16), Pechiney (17), Siemens (18)) offrent des informations en ligne très utiles aux professionnels et aux enseignants.
1.1.3 Littérature grise
On peut considérer que la littérature "grise", c'est-à-dire l'ensemble des documents imprimés sans référence et tirés jusqu'à présent à un petit nombre d'exemplaires comme les thèses, les rapports de recherche, les études, les notes, a bénéficié avec la Toile de la possibilité d'une diffusion accrue au moindre coût. La multiplicité des lieux qui produisent ces documents, de même que la multiplicité des sites qui les diffusent ne permet pas d'en rendre compte simplement. Les sources principales de documents de ce type se trouvent au plus près de leurs producteurs : chercheurs, équipes de recherche, laboratoires, universités, institutions, agences, entreprises.
Parmi cet ensemble, il faut remarquer en particulier que le réseau Internet donne lieu à la production et à la diffusion d'un grand nombre de documents de vulgarisation, une bonne partie d'entre eux étant destinés à l'éducation ou à la formation.
Enfin, il est apparu de nouvelles formes d'information, comme celle constituée par le contenu des échanges entres individus sur les forums de discussion. En effet, ces forums ont pour fonction principale de faciliter les échanges sur des sujets déterminés. Il s'est développé des forums très actifs dans des domaines techniques très spécialisés, notamment en informatique. La consultation différée des échanges préalablement archivés permet de retrouver des informations techniques sur un sujet donné.
1.2 Le cas particulier des documents pour l'éducation ou la formation
Les principaux producteurs de documents pour l'éducation et la formation (universités, écoles, musées) ont commencé à mettre leurs produits sur la Toile, voire à produire directement pour ce nouveau support. Plusieurs universités commencent à offrir des enseignements entièrement disponibles via Internet, dans des domaines très spécialisés.
Les documents de référence et les supports de cours en accès totalement libre sont encore relativement peu nombreux ; les accès sont généralement restreints aux étudiants inscrits (Pour les USA, on peut en obtenir un aperçu au "World Lecture Hall" de l'Université du Texas à Austin qui contient un grand nombre de liens sur les documents produits pour l'enseignement (19)). La collaboration pour la production de documents pour l'enseignement entre universités et la mise en commun entre producteurs se développe rapidement dans l'enseignement supérieur. Ainsi le projet ARIADNE (20) qui regroupe plusieurs universités et écoles d'ingénieurs en Europe a pour objectif de produire et de mettre en commun des documents et logiciels pour l'enseignement dans ce domaine ; le serveur SEMUSDI (21) de l'INSA de Rouen rassemble des documents sur le même domaine.
En revanche, il est facile de trouver des documents d'accompagnement, d'évaluation, des fiches de manipulation de laboratoire, des dossiers d'élèves, sur les serveurs institutionnels. En France, les principales entrées sont rassemblées sur le serveur du MENRT (22), sur les serveurs des académies et ceux de centres de ressources (comme le serveur de l'opération La Main à la Pâte (23) ou le serveur Biogeo (24) à l'INRP) Au delà des ces points d'entrée institutionnels, on trouve ce type de documents sur les serveurs de collèges, d'universités, d'écoles, ou d'associations, sans oublier les serveurs individuels.
Les musées, qui pour certains ont une mission de formation explicite, offrent des documents très complets. Dans le domaine des sciences et des techniques on peut citer :le Musée des Arts et Métiers à Paris (25), le Deutches Museum à Munich (26), le musée de Paléontologie de l'Université de Californie (27) ou encore l'Exploratorium de San Francisco (28).
Il faut ici considérer également les tentatives d'élaboration d'encyclopédies virtuelles, dont la réalisation repose sur un travail collectif partagé.
1.3 Discussion
D'un point de vue technique, le support informatique lui-même entraîne une extension de la notion de document. Au delà des aspects multimédias apportés par l'intégration d'images et de sons, de nombreux auteurs intègrent les possibilités d'adaptation des illustrations à la demande des utilisateurs en rendant les documents plus interactifs (voir les appliquettes associées à des documents en physique (29) ou les outils de visualisation de molécules en biologie (30)). Dans une certaine mesure, logiciels et données commencent à être traités de manière analogue aux documents textuels.
L'existence d'un support unique, quelquefois uniforme, (le document au format HTML ou ses dérivés) a pour conséquence de faire disparaître les frontières entre les divers types de documents (ouvrages, articles, thèses, rapports, documentation) auparavant très bien différenciés par leur mode de publication. Il en résulte une confusion possible pour un lecteur peu renseigné sur le domaine qu'il explore.
En matière de diffusion, la publication des connaissances sur la Toile exerce une influence notable sur la publication des résultats de la recherche. Comme le souligne Jean Zinn-Justin (31) responsable d'édition en physique, les articles électroniques sont des documents beaucoup plus "plastiques" que les articles traditionnels ; ils sont modifiables et peuvent exister en plusieurs versions ; on peut leur adjoindre des commentaires et des critiques de lecteurs ou d'évaluateurs ; en conséquence, il suggère de séparer la diffusion des articles de leur évaluation, ce qui en pratique commence à se faire bien que de manière très informelle.
La mise à disposition de l'information sur Internet peut répondre à des demandes exprimées par une communauté de chercheurs (on le devine assez aisément en astronomie). Elle résulte parfois d'une politique de l'offre qui ne correspond pas nécessairement à des besoins exprimés ; d'où un foisonnement un peu "anarchique" de la publication sur Internet.
L'utilisateur, qu'il soit enseignant ou élève, se trouve souvent désemparé devant une telle situation. C'est le plus souvent par un réseau d'échanges que se crée une "culture" documentaire sur un domaine. Une bonne connaissance des techniques documentaires et des 'lieux" de références en constitue le préalable.
2. LA RECHERCHE D'INFORMATION SUR INTERNET
2.1 Les méthodes de recherche d'information
Il faut tout d'abord rappeler que les méthodes de recherche d'information qui ont été développées restent applicables à la recherche d'information sur Internet.
La principale difficulté réside dans le caractère hypertextuel de la structure de la Toile. Quel que soit le domaine considéré, il est extrêmement difficile d'en obtenir une représentation exacte et synthétique. L'utilisateur est ainsi confronté à une multitude de vues partielles, d'inégal intérêt, dont il devra tirer une représentation personnelle suffisamment utile pour sa recherche. La conséquence de cette situation est une perte de temps considérable, quelquefois aggravée par la lenteur des communications. La construction d'une synthèse personnelle est un exercice probablement plus difficile que dans le cas d'une recherche par les moyens traditionnels.
Le deuxième obstacle potentiel est d'ordre linguistique. Le réseau étant mondial, on y trouve des informations dans toutes les langues. Il est utile de décider si l'on veut des résultats qui se limitent à une seule langue (le français par exemple) et par conséquent d'identifier les outils qui se limitent à un espace linguistique précis (francophone). Il est évident que l'anglais y est la langue dominante. Mais les différences linguistiques et même la question du codage des caractères propres à chaque langue peuvent interférer avec les techniques de recherche.
Il existe de nombreuses méthodes générales, enseignées en documentation. Parmi les cours disponibles sur ce sujet en langue française, citons celui de Jean Pierre Lardy, disponible sur le site de L'ADBS (33), le cours destiné à la formation des bibliothécaires à l'Université de Nanterre (34) ou encore les documents de l'URFIST (35).
Des méthodes de recherche plus spécialisées ont été élaborées par des documentalistes et des responsables de formation de scientifiques ou d'ingénieurs. On peut consulter avec intérêt le programme INTO INFO développé par plusieurs universités européennes (36), ou encore suivre les conseils des documentalistes de l'INSA de Lyon (37). Ceux-ci répartissent les documents en une vingtaine de types, chaque type faisant l'objet d'une procédure de recherche adaptée. Enfin, rappelons qu'il existe un dossier de l'ingénierie éducative du CNDP portant sur le CDI et Internet (38).
2.2 Les principaux outils de recherche
2.2.1 Bases de données bibliographiques
Les informations bibliographiques disponibles sur Internet proviennent de sources différentes : les grandes institutions chargées de constituer des bases généralistes, des bibliothèques spécialisées le plus souvent universitaires, des initiatives privées de groupes ou d'entreprises.
La direction des bibliothèques du ministère donne accès à toutes les informations sur les bibliothèques universitaires (39).
La Bibliothèque Nationale de France offre en ligne deux catalogues : BN-Opale qui comprend tous les ouvrages français mis au dépôt légal depuis 1970 (2 000 000 de références parmi lesquelles il est facile de retrouver un livre si son éditeur est français) et BN-Opaline qui comporte en particulier des cartes, des photographies, des documents multimédias, des didacticiels, des ouvrages avec logiciels et des CD-ROM (le mot mathématiques dans le titre renvoie une liste de 66 documents). La consultation s'effectue avec telnet c'est-à-dire par une émulation de terminal en mode caractère un peu archaïque mais assez efficace.
Le catalogue de revues de l'INIST est consultable en ligne mais la fourniture des documents est payante. De même, UNCOVER (40) offre une recherche en ligne sur son catalogue de périodiques exclusivement en langue anglaise qui indexe environ 17000 publications. Cette base de données est très complète et régulièrement mise à jour ; vous y trouverez sans difficultés les articles parus dans les revues du mois précédent.
Quelques grandes bases de références spécialisées sont disponibles en accès libre comme MEDLINE (41) pour ce qui concerne la médecine.
2.2.2 Répertoires thématiques
Ces répertoires, encore appelés annuaires ou catalogues, sont constitués à partir d'une description des sites et des services. Ces descriptions sont validées par des experts et ensuite classées dans une organisation hiérarchique. On peut les interroger en parcourant la hiérarchie ou en effectuant une recherche par catégories et par mots-clés. Il est important de considérer la couverture géographique et linguistique des répertoires thématiques.
Les principaux répertoires généraux francophones sont : Francité, Nomade, QuiQuoiOù, Yahoo France
Les principaux répertoires généraux anglophones sont : A2z, EuroFerret, Magellan, Yahoo, Yelloweb
On trouvera un pointeur sur ces répertoires en consultant le guide de Jean Pierre Lardy (42).
Il existe des répertoires organisés suivant d'autres critères : géographiques, thématiques. Ces derniers sont les plus utiles pour la recherche d'informations spécialisées. De nombreux répertoires thématiques sont tenus à jour par des institutions ou même des individus. Ainsi trouve-t-on en biologie moléculaire le " Pedro's BioMolecular Research Tools" (43) maintenu par une petite équipe, ou le BioToolkit (44) soutenu par une institution privée.
En physique, l'un des principaux points d'entrée est : TIPTOP (45), The Internet Pilot to Physics Project, initiative de quelques universitaires qui ont construit un système de classement propre à la physique qui décrit de nombreux documents dont la fiabilité est garantie(Karttunen M., Holmlund K., Nowotny G., The Internet Pilot to Physics Project, International Journal of Modern Physics, vol 8, n°1, 1997, p. "-17 (46)).
Des catalogues et des bases de références spécialisés en éducation se développent actuellement en France : EDUCASUP (47) pour l'enseignement supérieur avec un ensemble très bien documenté en chimie développé par le CDIEC (48), le projet EDUCASOURCE du MENRT dont on peut consulter un extrait sur le serveur du CNDP (49), ou encore le serveur BIOGEO (50) de l'INRP pour la biologie et la géologie.
2.2.3 Moteurs de recherche
Les techniques d'indexation automatique appliquées à la Toile ont donné naissance à de nouveaux outils : les moteurs. Leur principe est d'explorer systématiquement le réseau et d'indexer le plus possible de documents.
Chaque moteur ayant ses propres techniques, il est difficile de savoir précisément comment s'effectue cette indexation qui porte sur les titres des pages, les sous-titres, une partie du texte, et quelques éléments déclaratifs (encadrés par une marque META dans les documents HTML).
L'interrogation des moteurs se fait exclusivement par mots-clés. Il est tout aussi difficile de savoir comment les moteurs utilisent ensuite les résultats de l'indexation pour classer les pages résultant d'une interrogation.
Les principaux moteurs francophones sont : Ecila, Excite France, Infoseek France, Lokace, Lycos Fance, Les Pages Web.
Les principaux moteurs généraux sont : AltaVista, Excite, Hotbot, Infoseek, Lycos, Northern Light, WebCrawler.
On trouvera un pointeur sur ces moteurs dans le guide de Jean Pierre Lardy (51).
Ces outils sont assez efficaces pour retrouver une information précise : un laboratoire dont on connaît le nom ou la spécialité, un article, une revue, un organisme, voire une personne particulière. En bref : plus on sait ce que l'on cherche, plus il est facile de le trouver. En revanche, les recherches ouvertes et larges sont assez peu fructueuses, bien que le système de classement des résultats d'une requête offre souvent une ou deux pages intéressantes dans les premières affichées.
Il en faut cependant pas trop compter sur leur exhaustivité. Une étude récente (52) estime que le taux de couverture des moteurs les plus puissants n'excède pas 33 % de l'ensemble de la Toile, soit environ 100 millions sur 320 millions de pages en décembre 97. On est donc loin d'une indexation complète ! Un grand nombre de pages plutôt spécialisées, peu référencées par d'autres pages, voire mal rédigées, échappent largement à ces outils.
Ainsi il est quelquefois plus efficace d'interroger un moteur français sur des contenus situés sur des serveurs francophones plutôt que d'appeler un moteur anglophone à couverture plus large.
Il faut également noter que les réponses d'un moteur à une requête donnée ne sont pas toujours garanties. Ainsi nous avons pu constater qu'une même requête adressée au moteur AltaVista renvoyait de 3 à 30 pages suivant l'heure de la journée et suivant l'adresse du serveur appelé (en France ou aux USA).
Certains moteurs se sont spécialisés dans l'indexation de documents spécialisés comme DejaNews (53) pour les forums de discussion, Lycos Media pour les images et les sons (54), Shareware pour les logiciels (55).
Des techniques un peu plus élaborées permettent d'interroger plusieurs moteurs simultanément, améliorant ainsi l'extension du domaine de recherche ; ce sont les méta-moteurs .
Malgré leur relative efficacité, les moteurs restent encore assez lents et peu sélectifs. Plusieurs techniques tentent de remédier à cette difficulté.
Certains moteurs ont intégré des fonctions qui permettent de mieux cerner l'objet de la recherche par des techniques linguistiques. Le serveur Altavista situé au USA (56) offre ainsi une possibilité (l'option Refine) de restreindre l'interrogation en incluant et en excluant des expressions puisées dans les documents trouvés. Des logiciels de recherche et de filtrage fonctionnant sur le poste de l'utilisateur (57) permettent de sélectionner une partie plus significative des résultats de la recherche.
La technique la plus répandue consiste à déléguer la recherche d'information à un service ou à un agent logiciel spécialisé. Ce service peut être offert par un serveur comme The Informant du Dartmouth College (58) qui se propose d'interroger à votre place un ou plusieurs sites ou moteurs et de vous prévenir régulièrement par courrier électronique de l'évolution de leurs réponses. Les agents logiciels comme Autonomy (59) possèdent leur propres méthodes de recherche et explorent la Toile à l'aide de descriptions fournies par l'utilisateur. La conception d'agents intelligents capables de s'adapter aux besoins de l'utilisateur est un sujet de recherche particulièrement d'actualité (voir le Software Agents Groupe du MIT Media Laboratory (60)).
3. PERSPECTIVES D'UTILISATION EN ÉDUCATION
La Toile peut être vue comme un vaste fonds documentaire en perpétuel renouvellement. Ce fonds qui comporte une multitude de documents scientifiques et techniques et qui est alimenté régulièrement par des chercheurs, des entreprises, des enseignants, ou même des individus passionnés, peut être utilisé pour construire, remettre à jour ou illustrer un enseignement. Il intéresse donc au premier chef les enseignants.
Mais l'utilisation effective par des enseignants suppose que quelques conditions soient remplies. La première consiste à mettre à leur disposition les meilleurs outils de recherche de l'information. Sur ce point, malgré les efforts entrepris récemment tant au niveau national qu'académique, on constate aisément que les catalogues thématiques spécialisés dans une discipline ou dans un domaine restreint sont encore peu nombreux. Nous pensons que c'est d'abord sur la base deces catalogues de référence construits par des enseignants, des documentalistes et des experts du domaine que les informations disponibles pourront être disséminées et utilisées. Un important travail de coopération reste à faire.
Personnaliser sa recherche, atteindre les "bons" documents suppose une maîtrise des principaux outils de recherche automatique. Au delà d'une connaissance des techniques documentaires, une initiation aux techniques spécifiques d'indexation, de recherche et d'archivage sur Internet est d'autant plus indispensable que ces outils évoluent eux-mêmes très rapidement.
En ce qui concerne les élèves, la recherche d'informations scientifiques ou techniques occupe encore une place mineure dans leurs activités. Quelques éléments des programmes actuels évoquent ce type de travail. L'initiation à la démarche de recherche est inscrite dans les programmes du collège (61). Au lycée, le travail sur documents, de préférence originaux, est explicitement mentionné dans certains programmes, comme celui de chimie de la classe de seconde ; ce travail peut être précédé d'une activité documentaire préalable. Le rapport final de la consultation nationale sur les lycées cite explicitement la recherche documentaire comme devant faire partie de la culture commune (principe n° 8 (62)). Il est probable que la généralisation des accès à Internet vienne modifier profondément la pratique de recherche d'information en rendant plus facile l'accès aux documents, qui en retour pourrait renforcer la motivation des élèves.
Le développement de ces activités repose le plus souvent sur la mise en œuvre d'une pédagogie de projet. On pourra constater que l'introduction des TIPE (Travaux d'Intérêt Personnel Encadrés) dans les programmes des classes préparatoires aux grandes écoles, s'ils ont rencontré quelques réticences initiales, semblent recevoir l'assentiment de nombreux enseignants et pourrait même servir de modèle pour d'autres niveaux. Le principe n° 27 du rapport pré-cité suggère la création d'une "épreuve sur dossier personnel interdisciplinaire".
Peu d'expériences ont été rapportées sur une utilisation intensive de la documentation disponible en ligne pour l'apprentissage et la construction des connaissances. Certains projets combinent cette activité avec la mise en commun et la discussion collective des informations trouvées et des résultats que l'on peut en tirer comme le "Knowledge Integration Environment Project" à l'Université de Berkeley (63). La communication et la confrontation des idées au sein d'un projet collectif sont probablement les corollaires indispensables de la recherche d'information dans une pédagogie de projet.
Enfin, à côté d'une activité centrée sur la recherche d'information, les ressources disponibles sur Internet peuvent être employées dans le cadre d'autres activités, principalement dirigées (travaux pratiques). Les données recueillies peuvent alors être traitées avec des logiciels spécialisés, et les informations textuelles ou graphiques venir conforter des hypothèses formulées ou expliquer certains résultats. L'usage des ressources disponibles en ligne s'intégrerait alors dans l'activité quotidienne des élèves, à l'instar de ce qui se fait régulièrement dans les laboratoires ou les entreprises.
Note : La rédaction de ce document a bénéficié
des contributions de Dominique Lenne et Naoum Salame.