Scrapping d'une bibliothèque en ligne

Scrapping d'une bibliothèque en ligne
19 septembre 2021

Technologies: Python, BeautifulSoup

Explorer le code sur GitHub

Réalisé par:
  • photo de Anaïs Gatard Anaïs Gatard
Suivre les prix des livres d'occasion sur des sites web : l'objectif est de récupérer automatiquement des données sur un site web afin de les exploiter.

Enjeu et solution :

Le suivi manuel des prix des livres d'occasion sur les sites concurrents était trop fastidieux : trop de livres, trop de sites. Cet outil permet de récupérer automatiquement les données dans des documents au format .csv ainsi que les images des couvertures qui sont stockées dans un dossier.

Dans notre outil :

Le projet mené ici va chercher les informations sur ce site https://books.toscrape.com

Les données récupérées pour chaque livre sont les suivante :

  • l'url de la page produit
  • le titre,
  • les prix HT et TTC
  • la quantité disponible
  • la description du produit
  • la catégorie
  • évaluation
  • url de l'image

Ces données sont stockées dans un fichier .csv qu'il est possible d'utiliser tel quel grâce à d'autres scripts ou d'ouvrir dans des tableurs.