Les méta-moteurs

 
 

Jean-Pierre LARDY
UNIVERSITE CLAUDE BERNARD  -  URFIST
serveur : http://urfist.univ-lyon1.fr/
 

Table des matieres

1. Présentation du  web
2. Types d'outils de recherch
3. Les méta-moteurs
4. Les méta-moteurs en ligne
5. Les méta-moteurs clients
6. Les aspirateurs de sites
7. Conclusion






1.    Présentation du  web

retour à la table des matieres

2.    Types d'outils de recherche

2.1    Les annuaires :

2.2    Les moteurs de recherche

retour à la table des matieres

3.    Les méta-moteurs

Les outils de recherche sur le web ont de nombreuses faiblesses :
 
Les méta-moteurs interrogent en une fois différents outils de recherche pour fournir la réponse la plus exhaustive à une question. Le problème n’est pas simple car chaque outil de recherche a ses particularités. D'autre part les propriétaires des outils interrogés n'apprécient pas trop ce principe qui cachent aux utilisateurs les bandeaux publicitaires, source unique de revenus.
La plupart du temps, on peut régler le temps maximum (time out) passé pour chaque question.
Le traitement des résultats est très variable : listing brut, classement par outils source, fusion avec élimination des doublons pour certains.
 

3.1    Intérêts

3.2    Inconvenients

On distingue deux types de méta-moteurs

 retour à la table des matieres:

4.    Les méta-moteurs en ligne

 
Le méta-moteur est sur un serveur distant dans ce cas.

4.1     Debriefing

http://www.debriefing.com/france/

Debriefing, d'origine canadienne, utilise actuellement AltaVista, Yahoo, Infoseek, Excite, Webcrawler, Lycos et Hotbot.
En mode de recherche avancée, on a la possibilité d'interroger aussi  Yahoo France, PagesWeb, Ecila, Infoseek France, Excite France et Lokace.
Debriefing envoie des requêtes en parallèle à ces outils. Les moteurs de recherche utilisés ayant des temps de réponses très variables, afin de fournir un temps de réponse acceptable pour l'utilisateur, Debriefing utilise une valeur d'expiration ou timeout. En mode avancé, l'utilisateur a un contrôle total sur la durée de la recherche. En mode basique, la valeur du timeout est automatiquement ajustée en fonction des temps de réponse des requêtes précédentes. Debriefing s'adapte donc à la congestion réseau.
Après récupèration des différents résultats, il les trie, élimine les pages dupliquées et donne le domaine le plus significatif pour la recherche. Les résultats sont classés par pertinence et indique le(s) moteur(s) utilisés.
 
 

4.2    DogPile

  dogpile
http://www.dogpile.com/
Lancé en 1997, ce méta-moteur supporte jusqu'à 25 outils de recherche. Il offre le choix entre une recherche de :
documents web : Yahoo!, Lycos' A2Z, Excite Guide, World Wide Web Worm, WWW Yellow Pages , PlanetSearch, What U Seek, Lycos, WebCrawler, InfoSeek, OpenText, AltaVista, Excite & HotBot messages des News (Usenet) : Hotbot News, Reference.com, Dejanews, Infoseek News, Altavista, Dejanews' old Database
fichiers : Filez, FTP Search et Snoopie!  et dépèches d'agences de presse. On peut utiliser les opérateurs booléens et de proximité AND, OR, NEAR et NOT pour combiner des mots et des phrases. NEAR esr remplacé par AND pour les outils ne le gérant pas. L'opérateur NOT et les mots suivants sont supprimés pour les outils ne le gérant pas. L'opérateur AND est implicite. On peut utiliser les parenthèses et les guillemets. Il faut indiquer un temps maximum de recherche. Le résultat est classé uniquement par outil de recherche sans recherche de doublons.
 

4.3    Highway61

 
http://www.highway61.com/
Une interface plaisante permet de préciser la combinaison des termes, le temps maximum et le volume de résultats désirés. Les résultats sont intégrés et classés.

4.4    IxQuick

 
http://www.ixquick.com/
IxQuick transforme la question dans la syntaxe adaptée à chaque outil interrogé. Il permet l’entrée de question en langage naturel ou au moyen d’équations de recherche complexes. Support des expressions, troncatures, parenthèses, plus (+), moins (-), MAJ/min, recherche dans un champ, proximité NEAR car Ixquick
sait quel outil supporte telle syntaxe. Ixquick élimine les doublons et donne les "top 10" resultants de chaque outil.

4.5    The BigHub

http://www.isleuth.com/
Lancé debut 95, le site recense plus de 3000 moteurs de recherche, bases de données, et répertoires rangés dans 21 catégories principales et de nombreuses sous catégories. On peut interroger un index constitué des mots des titres, descriptions et URL de toutes les bases de données et moteurs de recherche listés par The Internet Sleuth ou utiliser le méta-moteur. Dans ce cas, on choisit le type d'outils ou de documents grâce à 6 formulaires. Il faut ensuite indiquer de 1 à 6 outils et un temps de recherche maximum. Les résultats sont classés par outils de recherche avec leurs caractéristiques propres comme l'option Translate d'AltaVista.
 

4.6    MetaCrawler

 

http://www.metacrawler.com/

C'est le premier outil de ce type, développé à l'Université de Washington par Erik Selberg et Oren Etzioni. MetaCrawler est un outil permettant d'interroger en une fois plusieurs index. Il organise les résultats en une liste unique après avoir éliminé les URL en double. Actuellement les services interrogés sont Lycos, Yahoo, InfoSeek, Excite, HotBot, WebCrawler et EINet Galaxy.
On peut choisir entre une recherche de mots composés (phrase), un et (all) et un ou (any).
La recherche avancée Power Search donne en plus la limitation géographique et permet d'imposer un temps de recherche maximum. Les résultats sont dédoublonnés et triés par pertinence. 
Metaspy Exposed donne la liste des questions en train d'être posées à MetaCrawler, actualisée toutes les 15 s.
 

4.7    MetaEureka

http://www.metaeureka.com
Recherche dans le web, les dépêches, les groupes de News, la musique en MP3, les images, les encyclopédies.
La recherche booléenne utilise les opérateurs AND, OR, AND NOT et les parenthèses.
 

4.8    ProFusion


http://www.profusion.com/

 Ce méta-index est le travail d’étudiants de l’Université du Kansas. Il a été acheté par Intelliseek.
Il interroge les moteurs de recherche suivants Alta Vista, Excite, DirectHit, InfoSeek, Lycos, Yahoo, About, LookSmart et Britannica.
L’utilisateur peut en choisir trois (les 3 meilleures ou les 3 plus rapides) ou laisser ProFusion choisir à sa place.
Important, les doublons repérés dans le résultat sont supprimés et les liens peuvent être vérifiés.
 
.
 

4.9    Search.com

http://www.search.com/
SavvySearch a été acheté par CNET. Search.com utilise la technologie de SavvySearch. Recherche parmi plus de  700 outils.
 

4.10    SurfWax


http://www.surfwax.com
La syntaxe utilise le +, +, “”
Indique les pages d’accueil.
 
retour à la table des matieres

5.    Les méta-moteurs clients

De nombreux logiciels à installer sur son poste de travail permettent de localiser des documents répondant à une question. Des logiciels « aspirateurs » complètent l’opération en télédéchargeant le contenu des sites de manière plus ou moins complète sur son disque dur pour les consulter ensuite hors ligne.
Cette famille de logiciels est en plein essor et les produits nouveaux sont nombreux. En voici quelques uns :
 

5.1    BullsEye

http://www.intelliseek.com/
Ce logiciel très élaboré intégre l'interrogation thématique de plusieurs moteurs, mais aussi de bases de données (pour acheter, s'informer, trouver des logiciels ou des livres etc). Les recherches se font par étapes successives et sont expliquées pas à pas. Elles peuvent faire l'objet d'une veille systématique (de même que les signets ou les favoris de l'utilisateur). Pour améliorer l'analyse des pages, Bulls Eye a acheté la technologie Search 97 de Verity permettant des résumés automatiques. Version essai de 30 jours, V 1 à 49 $, V pro à 149 $.
 

5.2    Copernic

http://www.copernic.com
Les recherches sont lancées simultanément sur de nombreux moteurs de recherche et annuaires. Il affiche les résultats au fur et à mesure qu'il les trouve. Pour chacun apparaît le titre, une description, l'URL, le nombre d'occurrences, la date de la recherche, "trouvé par", ainsi que l'état (accessible, inaccessible, nouveau...). Ils sont classés par ordre de pertinence, les doublons et les liens périmés étant automatiquement éliminés. Une fonction de recherche par mots-clés sur les résultats obtenus est disponible. Pour la consultation hors ligne, il
est possible de téléchargement tout ou partie des documents trouvés. Un historique détaillé des résultats, classés dans des dossiers, peut être crée et mis à jour au fur et à mesure. (Copernic 2000 gratuit)
 

5.3    Hurricane Websearch

http://www.gatecomm.com/
Ce nouveau méta-moteur de recherche interroge 12 outils (Hot Bot, Altavista,...). Son interface est compacte. Il permet de règler le temps de recherche, le nombre de liens à récupérer et surtout, il accepte soit une recherche sur une combinaison de mots (booléen), soit sur plusieurs (multiple search). Un code de couleurs informe de l'avancée des explorations. Le choix des pages à afficher se fait avec la souris à partir d'un historique des aspirations. Disponible pour Win 95 et NT (2,3 Mo), en deux versions ("light" gratuite, licence à 14,95 $)
 

5.4    LexiBot

http://www.thewebtools.com/
LexiBot version 1.02 permet de lancer une requête sur 142 moteurs de recherche simultanément. Le nombre de moteurs à lancer est paramétrable, soit par catégories pré-configurées, soit en se constituant ses propres groupes de moteurs en fonction des thèmes de recherche. Une option de "recherche locale" permettrait en outre de chercher une information dans une liste de sites donnée. Les résultats sont triés par pertinence. LexiBot fonctionne sous Windows NT4/95/98, et coûte 90 $. Version d'essai de 30 jours.
 

5.5    NetAttaché Pro

http://www.tympani.com/products/NetAttache.html
NetAttaché offre des capacités d’archivage d’informations trouvées sur le web ; il effectue des comparaisons pour signaler les mises à jour sur les sites qu’il doit surveiller en fonction d’un calendrier et de critères de filtrage. Vendu 50 $, une version d'évaluation peut être télédéchargée.
 

5.6    Umap

http://www.umap.com/
Umap est développé par la société française Trivium. Il interroge 16 moteurs de recherche, élimine les doublons et cartographie les réponses. La "carte dynamique" permet de visualiser la nature, le contexte et la cohérence d’un ensemble de textes. Elle requiert l'intervention active de l'utilisateur pour la hiérarchisation des mots significatifs contenus dans les textes. En effet, au fur et à mesure de la recherche sur le Web, le logiciel se constitue un dictionnaire de mots-clés. L'utilisateur peut sélectionner les mots qui se rapprochent de sa recherche et obtient une  nouvelle carte de réponses. Vendu 320 F ht, une version d'évaluation peut être télédéchargée.

5.7    Web Compass

http://www.qdeck.com/
Développé par Quarterdeck, Webcompass 2.0 vous donne accès à plus de 35 sources de recherche. On peut même ajouter des sources. Dès que WebCompass trouve une référence, il analyse le document en entier pour créer un résumé compréhensible. Pour cela, il prend note de la fréquence d'utilisation des mots-clés et analyse
le contexte dans lequel ils sont utilisés. On peut programmer la mise à jour des informations. Vendu 190 F ht.
 

5.8    Web Seeker

http://www.bluesquirrel.com/products/seeker/webseeker.html
C'est un méta-moteur installé sur son poste de travail. On peut choisir les annuaires et moteurs de recherche à interroger. La question est une liste de mots combinés par un ET ou un OU. Il présente donc les limites de ce type d'outils. Les résultats ne sont pas triés. Son intérêt particulier réside dans la possibilité d’établir un planning de télédéchargement en indiquant jours et heures (la nuit par exemple).  50 $.
 
 retour à la table des matieres

 6.    Les aspirateurs de sites

 

6.1    Ecatch

http://www.ecatch.com/
eCatch est un navigateur hors ligne et un logiciel de veille. Il permet d'optimiser rapidement l’utilisation d'Internet : téléchargement hors ligne, capture de sites, veille sur les nouveautés, recherche évoluée dans les pages chargées, annotations. eCatch 3.0 est disponible en 2 versions : gratuite et payante (30 $).

 

6.2    MemoWeb

http://www.memoweb.com/fr/indexfr.htm
Développé par GOTO Software, il permet la capture de pages web au sens large (images, applets, VRML, FTP), la gestion complète de la connexion (déconnexion automatique, proxies), les captures configurables (Filtres d’inclusion/exclusion, choix de profondeur, choix des types de fichiers ou de domaines) ainsi que l'intégration dans l’environnement 95/NT (accessible depuis le browser par le menu contextuel, raccourcis des captures sur le bureau). Vendu249 F ht, une version d'essai gratuite peut être téléchargée sur le site.        
        
 

6.3    WebZIP

http://www.spidersoft.com/webzip/home.htm
 

6.4    Web Whacker

http://www.ffg.com/
 
 
 retour à la table des matieres

7.    Conclusion

Les méta-moteurs en ligne présentent un intérêt limité : dégrossir une question, identifier un outil. Au contraire les méta-moteurs intsallés sur son poste de travail permettent d’envisager un travail de veille avec la gestion de profils et l’établissement de calendriers.

 retour à la table des matieres
 Cliquer ici pour nous contacter