
Les
méta-moteurs
1. Présentation du web
-
Le World Wide Web : Client/serveur, URL, HTML
-
Les sites/les pages, les portails
-
Le web invisible
- Les types de documents diffusés sur le web:jar
retour à la table des matieres
2. Types d'outils de
recherche
2.1 Les annuaires :
-
à couverture mondiale : Yahoo, Galaxy, Magellan
-
à couverture francophone : Nomade, Yahoo France
2.2 Les moteurs de recherche
-
à couverture mondiale : AltaVista, HotBot, Google, Lycos,
Voila, Excite
-
à couverture francophone : Voila, Ecila, Lokace
retour à la table des matieres
3. Les
méta-moteurs
Les outils de recherche sur le web ont de nombreuses faiblesses :
-
Couverture insuffisante,
-
problème de la mise à jour des bases
de données,
-
problème des liens morts,
-
méthodes de tri des résultats peu
pertinentes,
-
difficultés à lutter contre le
spamming.
-
interfaces utilisateur peu claires,
Les méta-moteurs interrogent en une fois
différents outils de recherche pour fournir la réponse la plus exhaustive à une
question. Le problème n’est pas simple car chaque outil de recherche a ses particularités.
D'autre part les propriétaires des outils interrogés
n'apprécient pas trop ce principe qui cachent aux utilisateurs les bandeaux publicitaires, source unique de
revenus.
La plupart du temps, on peut régler le temps maximum (time
out) passé pour chaque question.
Le traitement des résultats est très variable :
listing brut, classement par outils source, fusion avec élimination des doublons pour
certains.
3.1 Intérêts
- Recherche rapide
- Utile pour repérer l’outil le plus fourni sur un
sujet
-
Utile pour la veille
3.2 Inconvenients
-
On ne bénéficie pas des particularités
de chaque outil
-
Le temps consacré à la recherche est
limité (Time out)
-
Souvent trop « bavard »
On distingue deux types de méta-moteurs
retour à la table des matieres:
4. Les méta-moteurs en ligne
Le méta-moteur est sur un serveur distant dans ce cas.
4.1 Debriefing
http://www.debriefing.com/france/
Debriefing, d'origine canadienne, utilise actuellement AltaVista,
Yahoo, Infoseek, Excite, Webcrawler, Lycos et Hotbot.
En mode de recherche avancée, on a la possibilité
d'interroger aussi Yahoo France, PagesWeb, Ecila, Infoseek France, Excite France et Lokace.
Debriefing envoie des requêtes en parallèle
à ces outils. Les moteurs de recherche utilisés ayant des temps de réponses
très variables, afin de fournir un temps de réponse acceptable pour l'utilisateur,
Debriefing utilise une valeur d'expiration ou timeout. En mode avancé, l'utilisateur a un
contrôle total sur la durée de la recherche. En mode basique, la valeur du
timeout est automatiquement ajustée en fonction des temps de
réponse des requêtes précédentes. Debriefing s'adapte donc
à la congestion réseau.
Après récupèration des
différents résultats, il les trie,
élimine les pages dupliquées et donne le domaine le plus significatif pour la
recherche. Les résultats sont classés par pertinence et indique
le(s) moteur(s) utilisés.
4.2 DogPile
http://www.dogpile.com/
Lancé en 1997, ce méta-moteur supporte
jusqu'à 25 outils de recherche. Il offre le choix entre une recherche de :
documents web : Yahoo!, Lycos' A2Z, Excite Guide, World Wide Web Worm,
WWW Yellow Pages , PlanetSearch, What U Seek, Lycos, WebCrawler, InfoSeek,
OpenText, AltaVista, Excite & HotBot messages des News (Usenet) : Hotbot News, Reference.com, Dejanews,
Infoseek News, Altavista, Dejanews' old Database
fichiers : Filez, FTP Search et Snoopie! et
dépèches d'agences de presse. On peut utiliser les opérateurs booléens et de
proximité AND, OR, NEAR et NOT pour combiner des mots et des phrases. NEAR esr remplacé par
AND pour les outils ne le gérant pas. L'opérateur NOT et les mots
suivants sont supprimés pour les outils ne le gérant pas. L'opérateur AND est
implicite. On peut utiliser les parenthèses et les guillemets. Il faut indiquer un temps
maximum de recherche. Le résultat est classé uniquement par outil de
recherche sans recherche de doublons.
4.3 Highway61
http://www.highway61.com/
Une interface plaisante permet de préciser la combinaison
des termes, le temps maximum et le volume de résultats
désirés. Les résultats sont
intégrés et classés.
4.4 IxQuick
http://www.ixquick.com/
IxQuick transforme la question dans la syntaxe adaptée
à chaque outil interrogé. Il permet l’entrée de question en langage naturel
ou au moyen d’équations de recherche complexes. Support des expressions, troncatures,
parenthèses, plus (+), moins (-), MAJ/min, recherche dans un champ, proximité
NEAR car Ixquick
sait quel outil supporte telle syntaxe. Ixquick élimine les
doublons et donne les "top 10" resultants de chaque outil.
4.5 The BigHub
http://www.isleuth.com/
Lancé debut 95, le site recense plus de 3000 moteurs de
recherche, bases de données, et répertoires rangés dans 21
catégories principales et de nombreuses sous catégories. On peut interroger un index
constitué des mots des titres, descriptions et URL de toutes les bases de données et
moteurs de recherche listés par The Internet Sleuth ou utiliser le
méta-moteur. Dans ce cas, on choisit le type d'outils ou de documents grâce à 6
formulaires. Il faut ensuite indiquer de 1 à 6 outils et un temps de recherche maximum.
Les résultats sont classés par outils de recherche avec leurs
caractéristiques propres comme l'option Translate d'AltaVista.
4.6 MetaCrawler
http://www.metacrawler.com/
C'est le premier outil de ce type, développé
à l'Université de Washington par Erik Selberg et Oren Etzioni. MetaCrawler est un outil permettant
d'interroger en une fois plusieurs index. Il organise les résultats en
une liste unique après avoir éliminé les URL en double. Actuellement les
services interrogés sont Lycos, Yahoo, InfoSeek, Excite, HotBot, WebCrawler et EINet Galaxy.
On peut choisir entre une recherche de mots composés
(phrase), un et (all) et un ou (any).
La recherche avancée Power Search donne en plus la
limitation géographique et permet d'imposer un temps de recherche maximum. Les
résultats sont dédoublonnés et triés par pertinence.
Metaspy Exposed donne la liste des questions en train d'être
posées à MetaCrawler, actualisée toutes les 15 s.
4.7 MetaEureka
http://www.metaeureka.com
Recherche dans le web, les dépêches, les groupes
de News, la musique en MP3, les images, les encyclopédies.
La recherche booléenne utilise les opérateurs
AND, OR, AND NOT et les parenthèses.
4.8 ProFusion
http://www.profusion.com/
Ce méta-index est le travail
d’étudiants de l’Université
du Kansas. Il a été acheté par Intelliseek.
Il interroge les moteurs de recherche suivants Alta Vista, Excite,
DirectHit, InfoSeek, Lycos, Yahoo, About, LookSmart et Britannica.
L’utilisateur peut en choisir trois (les 3 meilleures ou les
3 plus rapides) ou laisser ProFusion choisir à sa place.
Important, les doublons repérés dans le
résultat sont supprimés et les liens peuvent être vérifiés.
.
4.9 Search.com
http://www.search.com/
SavvySearch a été acheté par CNET.
Search.com utilise la technologie de SavvySearch. Recherche parmi plus de 700 outils.
4.10 SurfWax
http://www.surfwax.com
La syntaxe utilise le +, +, “”
Indique les pages d’accueil.
retour à la table des matieres
5. Les
méta-moteurs clients
De nombreux logiciels à installer sur son poste de travail
permettent de localiser des documents répondant à une question.
Des logiciels « aspirateurs » complètent l’opération en
télédéchargeant le contenu des sites
de manière plus ou moins complète sur son disque dur pour les consulter
ensuite hors ligne.
Cette famille de logiciels est en plein essor et les produits nouveaux
sont nombreux. En voici quelques uns :
5.1 BullsEye
http://www.intelliseek.com/
Ce logiciel très élaboré
intégre l'interrogation thématique de plusieurs moteurs, mais aussi de bases de données (pour acheter,
s'informer, trouver des logiciels ou des livres etc). Les recherches se font par
étapes successives et sont expliquées pas à pas. Elles peuvent faire
l'objet d'une veille systématique (de même que les signets ou les favoris de l'utilisateur).
Pour améliorer l'analyse des pages, Bulls Eye a acheté la technologie
Search 97 de Verity permettant des résumés automatiques. Version
essai de 30 jours, V 1 à 49 $, V pro à 149 $.
5.2 Copernic
http://www.copernic.com
Les recherches sont lancées simultanément sur de
nombreux moteurs de recherche et annuaires. Il affiche les résultats au fur et
à mesure qu'il les trouve. Pour chacun apparaît le titre, une description, l'URL, le nombre
d'occurrences, la date de la recherche, "trouvé par", ainsi que
l'état (accessible, inaccessible, nouveau...). Ils sont classés par ordre de pertinence, les
doublons et les liens périmés étant automatiquement
éliminés. Une fonction de recherche par
mots-clés sur les résultats obtenus est disponible. Pour la
consultation hors ligne, il
est possible de téléchargement tout ou partie des
documents trouvés. Un historique détaillé des résultats,
classés dans des dossiers, peut être
crée et mis à jour au fur et à mesure. (Copernic 2000
gratuit)
5.3 Hurricane Websearch
http://www.gatecomm.com/
Ce nouveau méta-moteur de recherche interroge 12 outils (Hot
Bot, Altavista,...). Son interface est compacte. Il permet de
règler le temps de recherche, le nombre de liens à
récupérer et surtout, il accepte soit une recherche sur une combinaison de mots (booléen), soit sur
plusieurs (multiple search). Un code de couleurs informe de l'avancée des
explorations. Le choix des pages à afficher se fait avec la souris à partir
d'un historique des aspirations. Disponible pour Win 95 et NT (2,3 Mo), en deux versions
("light" gratuite, licence à 14,95 $)
5.4 LexiBot
http://www.thewebtools.com/
LexiBot version 1.02 permet de lancer une requête sur 142
moteurs de recherche simultanément. Le nombre de moteurs à lancer est
paramétrable, soit par catégories pré-configurées, soit en se
constituant ses propres groupes de moteurs en fonction des thèmes de recherche. Une option de
"recherche locale" permettrait en outre de chercher une information dans une liste de
sites donnée. Les résultats sont triés par pertinence. LexiBot
fonctionne sous Windows NT4/95/98, et coûte 90 $. Version d'essai de 30 jours.
5.5 NetAttaché Pro
http://www.tympani.com/products/NetAttache.html
NetAttaché offre des capacités
d’archivage d’informations trouvées sur
le web ; il effectue des comparaisons pour signaler les mises à jour
sur les sites qu’il doit surveiller en fonction d’un calendrier et de
critères de filtrage. Vendu 50 $, une version d'évaluation peut être
télédéchargée.
5.6 Umap
http://www.umap.com/
Umap est développé par la
société française Trivium. Il
interroge 16 moteurs de recherche, élimine les doublons et cartographie les
réponses. La "carte dynamique" permet de visualiser la nature, le contexte et la
cohérence d’un ensemble de textes. Elle requiert l'intervention active de
l'utilisateur pour la hiérarchisation des mots significatifs contenus dans les
textes. En effet, au fur et à mesure de la recherche sur le Web, le logiciel se
constitue un dictionnaire de mots-clés. L'utilisateur peut
sélectionner les mots qui se rapprochent de sa recherche et obtient une nouvelle carte de
réponses. Vendu 320 F ht, une version d'évaluation peut être
télédéchargée.
5.7 Web Compass
http://www.qdeck.com/
Développé par Quarterdeck, Webcompass 2.0 vous
donne accès à plus de 35 sources de recherche. On peut même ajouter des sources.
Dès que WebCompass trouve une référence, il analyse le document en entier pour
créer un résumé
compréhensible. Pour cela, il prend note de la fréquence d'utilisation des
mots-clés et analyse
le contexte dans lequel ils sont utilisés. On peut
programmer la mise à jour des informations. Vendu 190 F ht.
5.8 Web Seeker
http://www.bluesquirrel.com/products/seeker/webseeker.html
C'est un méta-moteur installé sur son poste de
travail. On peut choisir les annuaires et moteurs de recherche à interroger. La question
est une liste de mots combinés par un ET ou un OU. Il présente
donc les limites de ce type d'outils. Les résultats ne sont pas triés. Son
intérêt particulier réside dans la possibilité d’établir un planning de
télédéchargement en indiquant jours et
heures (la nuit par exemple). 50 $.
retour à la table des matieres
6. Les aspirateurs de sites
6.1 Ecatch
http://www.ecatch.com/
eCatch est un navigateur hors ligne et un logiciel de veille. Il permet
d'optimiser rapidement l’utilisation d'Internet :
téléchargement hors ligne, capture de sites, veille sur les nouveautés, recherche
évoluée dans les pages chargées, annotations. eCatch 3.0 est disponible en 2
versions : gratuite et payante (30 $).
6.2 MemoWeb
http://www.memoweb.com/fr/indexfr.htm
Développé par GOTO
Software, il permet la capture
de pages web au sens large (images, applets, VRML, FTP), la gestion
complète de la
connexion (déconnexion automatique, proxies), les captures
configurables (Filtres d’inclusion/exclusion, choix de
profondeur, choix des types
de fichiers ou de domaines) ainsi que l'intégration dans
l’environnement 95/NT (accessible depuis le browser par le menu
contextuel, raccourcis des captures sur le
bureau). Vendu249 F ht, une version d'essai gratuite peut être
téléchargée sur le
site.
6.3 WebZIP
http://www.spidersoft.com/webzip/home.htm
6.4 Web Whacker
http://www.ffg.com/
retour à la table des matieres
7. Conclusion
Les méta-moteurs en ligne présentent un
intérêt limité : dégrossir
une question, identifier un outil. Au contraire les méta-moteurs intsallés sur son
poste de travail permettent d’envisager un travail de veille avec la gestion de profils
et l’établissement de calendriers.
retour à la table des matieres
Cliquer ici pour nous contacter 