Ceci est une ancienne révision du document !
Moteurs de recherches
Un moteur de recherche est une application permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains sites Web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même
- Outil de recherche sur le Web constitué
- de « robots », encore appelés bots, spiders, crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur chaque page atteinte. Chaque page identifiée est alors indexée dans une base de données, accessible ensuite par les internautes à partir de mots-clés.
Pour les fichiers locaux
- Tracker : installé par défaut sur ubuntu
Pour le web
Liste de moteur de recherche web, en fonctionnement et libre. Différencier projets fait par "non profit" ou profit company : voir sun et oracle, une opa peut être fait sur une entreprise, du libre.
Décentralisés
Centralisés
Profit company
- Wikia Search (site) (source)
Pour les cartes
- Local Lucene ( site )
Pour un intranet
- Jumper 2.0 Collaborative Search Engine (site)
Pour un site
SEO - Optimisation pour les moteurs de recherche
Optimisation pour les moteurs de recherche ou SEO ( search engine optimisation).
blocage des moteurs de recherches qui indexes vos sites
Robot.txt
Robots.txt, ou le fichier d'exclusion des robots, est une ressource de format texte qui peut être placée à la racine d'un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d'indexation des moteurs de recherche. ( voir aussi Spider trap )
Exemple pour bloquer un indexer spécifique :
User-agent: googlebot Disallow: /
Voir aussi
Liens internes
- Intelligence artificielle, web sémantique, et langage sémantique.
Liens externes
Liste des logiciels en rapport
Contributeurs : Psychederic, …