BIOGEO Interrogation avec Harvest

Dernière mise à jour : 03/10/ 2000

Principes

Harvest est un système d'indexation et de consultation qui utilise les éléments de structure d'une page HTML (description, auteur, mots-clés), des objets (fichiers html, .exe, .zip, textes, images) et des attributs de ces objets.

Interrogation

L'interface permet de rechercherdes mots-clés et des phrases, ou bien des pages ou des répertoires.

La recherche de mots-clés s'effectue sur tous les sites ou sur un seul ; on peut afficher toutes les URL correspondant à la requête ou de se limiter à un intervalle de temps, de préciser le type de fichier recherché : pages HTML, fichiers binaires, images, etc. (cf. les exemples), chercher dans le chams du titre, des mots-clés, etc.

La recherche de pages et de répertoires peut être réalisée directement en choisissant dans une liste de mots présélectionnés.

Affichage des résultats

Le système affiche d'abord le nombre d'URL (pages ou objets) correspondant à la requête trouvées dans la base et le nombre de sites sur lesquels elles figurent.

Dans tous les tris proposés, les résultats sont affichés en commençant par le site qui comporte le plus de pages répondant à  la requête. Les pages d'un même site ne sont donc pas éclatées. Ceci permet de mettre en évidence la spécificité d'un site. Les différents tris ne modifient pas cet ordre.

Tri des URL nombre d'occurrences

Sur chaque site, on trouve en premier la page comportant le plus grand nombre de correspondances avec les termes de la requête, suivie des autres pages quel que soit le nombre de correspondances qu'elles présentent.

Tri des URL par nombre de liens

Les résultats sont affichés en fonction du nombre de liens que contient la page (sont exclus du décompte les liens externes, les ancres et les adresses électroniques).

Tri des URL par ordre alphabétique

Ce tri met en évidence l'ensemble des URL appartenant au même répertoire et fait ressortir les groupes de pages.

Tri des URL par ordre chronologique

Les URL sont affichées en commençant par la plus récente. A partir de la date de l'indexation courante, les fichiers antérieurs d'1 mois, 3 mois, 6 mois, ou plus, sont marqués par un code couleur.

Sélectionner les pages principales

Sur chaque site sont affichées au maximum les trois URL qui comportent le plus d'occurences ou bien le plus de liens internes (pages principales).



Attention

- Avant une interrogation, consulter  les statistiques pour voir la liste des sites qui ont été indexés.

- Le temps de réponse est de quelques secondes pour la recherche de mots isolés ou de pages. Il augmente en fonction de la complexité de la requête et du nombre d'objets à rechercher.

  Logiciels et données Autoformation   Education interactive