Cette page n'a pas encore d'étiquettes.
Apportez votre aide…

Ceci est une ancienne révision du document !



Moteurs de recherches

Un moteur de recherche est une application permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains sites Web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même.

Décentralisés

Libres:

Non libre :

Centralisés

Profit company

  • Wikia Search (site) (source)
  • OpenWebSpider ( site ) Open Source multi-thread Web Spider (robot à chenilles) et moteur de recherche avec beaucoup de fonctionnalités intéressantes
  • ex-crawler ( site )

Participatifs

  • via des marque pages : delicious
  • via des boutons sur les pages et les articles : digg

Pour les cartes

  • Local Lucene ( site )
  • Nutch (wiki)
  • Xapian (site)
  • OSS Open Search Server ( site )
  • CLucene - a C++ search engine ( site )
  • Jumper 2.0 Collaborative Search Engine (site)
  • Compass semantic/java (site)
  • regain ( site )
  • Phraseanet (site) : pour le multimedia

Optimisation pour les moteurs de recherche ou SEO ( search engine optimisation).

  • SEO Panel - A control panel for SEO (site)
  • SEO Tools (site)

Robot.txt

Robots.txt, ou le fichier d'exclusion des robots, est une ressource de format texte qui peut être placée à la racine d'un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d'indexation des moteurs de recherche. ( voir aussi Spider trap )

Exemple pour bloquer un indexer spécifique :

User-agent: googlebot
Disallow: /

Un générateur de robot.txt

Contributeurs : Psychederic, …

  • moteur_de_recherche.1284557576.txt.gz
  • Dernière modification: Le 18/04/2011, 14:41
  • (modification externe)