Biotic | Interrogation avec Harvest |
Principes
Harvest est un système d'indexation et de consultation qui utilise les éléments de structure d'une page HTML (description, auteur, mots-clés), des objets (fichiers html, .exe, .zip, textes, images) et des attributs de ces objets.
Interrogation
L'interface permet de rechercherdes mots-clés et des phrases, ou bien des pages ou des répertoires.
La recherche de mots-clés s'effectue sur tous les sites ou sur un seul ; on peut afficher toutes les URL correspondant à la requête ou de se limiter à un intervalle de temps, de préciser le type de fichier recherché : pages HTML, fichiers binaires, images, etc. (cf. les exemples).
La recherche de pages et de répertoires peut être réalisée directement en choisissant dans une liste de mots sélectionnés un nom de page ou de répertoire. On peut également chercher, dans le champs de la requête, la page ou le répertoire de son choix.
On peut aussi rechercher une page ou un répertoire sur un site déterminé.
Affichage des résultats
Le système affiche d'abord le nombre d'URL (pages ou objets) correspondant à la requête trouvées dans la base et le nombre de sites sur lesquels elles figurent.
Dans tous les tris proposés, les résultats sont affichés en commençant par le site qui comporte le plus de pages répondant à la requête. Les pages d'un même site ne sont donc pas éclatées. Ceci permet de mettre en évidence la spécificité d'un site. Les différents tris ne modifient pas cet ordre.
Tri des URL nombre d'occurrences
Sur chaque site, on trouve en premier la page comportant le plus grand nombre de correspondances avec les termes de la requête, suivie des autres pages quel que soit le nombre de correspondances qu'elles présentent.
Tri des URL par nombre de liens
Les résultats sont affichés en fonction du nombre de liens que contient la page (sont exclus du décompte les liens externes, les ancres et les adresses électroniques).
Tri des URL par ordre alphabétique
Ce tri met en évidence l'ensemble des URL appartenant au même répertoire et fait ressortir les groupes de pages.
Tri des URL par ordre chronologique
Les URL sont affichées en commençant par la plus récente. A partir de la date de l'indexation courante, les fichiers antérieurs d'1 mois, 3 mois, 6 mois, ou plus, sont marqués par un code couleur.
Sélectionner les pages principales
Sur chaque site sont affichées au maximum les trois URL qui
comportent le plus d'occurences ou bien le plus de liens internes
(pages principales).
- Avant une interrogation, consulter les statistiques pour voir la liste des sites qui ont été indexés.
- Le temps de réponse est de quelques secondes pour la recherche de mots isolés ou de pages. Il augmente en fonction de la complexité de la requête et du nombre d'objets à rechercher.