Aspirer des sites / Eric Pichon.

capture - navigation hors-ligne - archivage du web

Si vous souhaitez recopier sur votre disque dur le contenu de tout un site ou de toute une partie d'un site en conservant les liens entre les pages, afin de pouvoir le consulter sans être connecté à internet, utilisez un "aspirateur de site".

Le principe est le même que celui des robots qui parcourent le web pour les moteurs de recherche : l' "aspirateur" se déplace de lien en lien et recopie sur votre disque dur les pages et documents rencontrés.

Ex : Memoweb, eCatch,
mais aussi le menu "organiser les favoris" de IE 5+ qui offre la possibilité de "rendre disponible hors-connexion" un site favori.

A l'heure actuelle, les sites dynamiques* ne sont pas aspirables ; les pages n' "existent pas" sur le serveur, mais sont créées à la demande par assemblage d'éléments figurant dans une base de données.

Capture

Vous disposer en général des fonctionnalités suivantes :

Sélection du périmètre d'aspiration

qui vous permet de définir jusqu'à quel niveau de lien aspirer les pages (par ex. afin d'exclure les liens vers les sites extérieurs)

"L'adresse initiale est le point de départ de l'exploration. Elle a un niveau de profondeur d'exploration interne de 0.
Un lien est dit interne lorsqu'il appartient au même site web que l'adresse initiale. (...) Les pages pointées par la page initiale auront donc un niveau 1. Les pages pointées par celle de niveau 1 auront un niveau 2, etc. Vous pouvez limiter l'exploration en fixant le nombre de niveaux internes (...)

Un lien est dit externe lorsqu'il appartient à un site différent de celui contenant l'adresse initiale de capture. (...) Les sites pointés par le site de départ auront donc un niveau 1. Les sites pointés par ceux de niveau 1 auront un niveau 2, etc. "

(d'après l'aide de Memoweb)

Sélection du type de document récupéré

afin de récupérer par ex. un site sans les images ; ou uniquement les animations figurant sur un site, etc.

"Le type MIME permet de connaître le type d'information contenue dans le fichier (il n'est pas possible de se baser sur l'extension du fichier contenue dans la requête, car celle-ci peut varier d'un système à un autre). Par exemple, les pages HTML sont de type text/html et les fichiers image au format gif sont de type image/gif." (aide de Memoweb)

Navigation hors-ligne

Les sites capturés sont placés dans un répertoire de votre disque dur, ce qui permet de les consulter sans être connecté.

Certains aspirateurs offrent la possibilité de synchroniser le site capturé avec le site original : régulièrement ou à la demande, les pages de votre copie sont remplacées ou complétées par celles mises à jour ou ajoutées sur le serveur.

En outre, le site capturé peut-être analysé plus finement : par exemple, Memoweb vous permet de regrouper toutes les images d'un site, tous les documents compressés qu'ils contient, etc.

Attention : les sites capturés peuvent tenir beaucoup de place.

L'archivage du web

L'aspiration automatique et régulière pourrait théoriquement permettre un archivage du web ; cf The Wayback Machine http://web.archive.org

En France, " la BNF et l'Ina, les deux organismes désignés pour cette tâche d'archivage, devront « aspirer » les sites internet français, y compris les pages personnelles."
[LSI : les organismes chargés d'"aspirer" le web français se préparent
http://news.zdnet.fr/story/0,,t118-s2089163,00.html]

échanger

Creative Commons License. Attribution : ce site peut être reproduit et distribué à condition que l'auteur initial, eric pichon, soit cité.- Non commercial : aucune adaptation, reproduction ou utilisation de ce site ne peut être faite à des fins commerciales, sans accord de l'offrant ('licensor') - Partage à l'identique : des adaptations de ce site ne peuvent être diffusées que sous une autorisation identique.

// "Aspirer" des sites _____

Capture

Sélection du périmètre d'aspiration

Sélection du type de document récupéré

Navigation hors-ligne

L'archivage du web