Scraping des annonces immobilières Seloger
Sur Internet, il y a une diversité de données. Ces dernières peuvent être extraites et utilisées. Pour cela, il est important de suivre des étapes et de savoir s’y prendre. Sur le site SeLoger, vous trouverez une diversité d’annonces immobilières. Les data disponibles sur le site peuvent être d’une grande utilité. Comment analyser correctement le site SeLoger afin d’y récupérer des données ? Découvrez dans cet article quelques éléments de réponse.
Table des matières
Quels sont les 3 différents types de site qui existent dans le cadre du web scraping ?
Lorsque vous souhaitez vous former à la récupération de données sur les sites web comme SeLoger.com, le premier réflexe à avoir est de vous focaliser sur les outils à utiliser. Il en existe une grande diversité. Certains sont payants alors que d’autres sont gratuits. Toutefois, vous ne devez pas brûler les étapes. Votre première impression vis à vis du web scraping ne doit pas consister en cela.
Plusieurs personnes cherchent à comprendre comment récupérer de la data avant même d’avoir compris comment cette dernière est générée sur le site web. Il s’agit donc d’une procédure à sens inverse. Vous devez suivre la bonne méthodologie pour faire du scraping sur des sites web comme SeLoger.com. il faut faire l’analyse préalable dans le cadre d’une opération de web scraping.
Toutes les fois que vous êtes en face d’un site web avec des données susceptibles de vous intéresser, utiliser la bonne méthode vous permettra de cerner comment la data est générée. Ainsi, vous pourrez aisément les récupérer.
Avant tout, il convient de savoir qu’il existe dans le cadre du web scraping 3 types distincts de site web. Il s’agit des sites disposant d’une API, des sites n’ayant pas d’Api et qui chargent leurs données côté serveur (back) et des sites ne disposant pas d’Api et chargeant leurs données côté navigateur (front). La méthode idéale consiste à définir la catégorie à laquelle appartient le site sur lequel vous souhaitez récupérer de la donnée. Il s’agit ici du site SeLoger.
À propos des données provenant d’une API
Pour commencer, vous devez vous demander si le site SeLoger dispose d’une API. Pour cela, il est important d’utiliser les outils de développement de votre navigateur. Vous pouvez vous servir de Mozilla Firefox dans ce cadre. Toutefois, il est tout à fait possible de faire la même chose avec Google Chrome. Après cela, il faut accéder au site SeLoger en question avant d’appuyer sur F12 pour l’activation de l’affichage de la console de développement.
Dans la console, il faut accéder à l’onglet « Réseau ». Il s’agit d’un menu qui vous donne des informations relatives à toutes les ressources chargées par le site à travers le navigateur. Par défaut, toutes ces ressources sans distinction sont affichées par la console.
L’étape suivante consiste à filtrer en appuyant sur le bouton de filtre « XHR ». Dans le cas où rien ne s’affiche, vous devez penser à actualiser les pages. Il n’est pas nécessaire de rentrer dans les détails en ce qui concerne l’objet XHR. Toutefois, vous devez savoir que c’est ici que vous retrouverez les appels effectués en direction d’une API si possible. C’est ici que vous devez faire un effort supplémentaire.
Pour ceux qui le savent, cette partie de l’analyse exige que vous fouillez sans repère particulier. Pour commencer, il faut cliquer sur le premier élément, et dans la partie de la droite qui donne des informations relatives à l’appel que vous avez sélectionné, vous devez accéder à l’onglet « Réponse ».
Après cela, les données retournées par l’appel sélectionné vont s’afficher. Vous devez donc faire défiler les différents appels sur la gauche de la console. Il faut aussi regarder à chaque fois dans la partie droite de la console (sous l’onglet « Réponse ») s’il y a des informations relatives aux données que vous cherchez à scraper.
Vous l’aurez compris, il s’agit d’une méthodologie qui nécessite de l’improvisation. Cependant, le web scraping n’est pas une science exacte. L’essentiel est de trouver ce que vous cherchez. Dans la colonne à droite, il y a les appels effectués qui renvoient une liste d’information concernant des annonces de logement affichées sur la page. Après avoir mis le doigt sur cet appel, il faut cliquer dans la colonne de droite, sur l’onglet « En-têtes ». La toute première information accessible ici est l’URL de la requête.
À partir de là, vous accédez à l’URL de l’API vers laquelle le site effectue ses appels pour charger la donnée que vous voyez affichée sur la page. Vous pouvez d’abord arrêter le diagnostic à ce niveau. Cela vous permet de savoir désormais que le site sur lequel vous êtes appartient à la première catégorie des 3 types de sites énumérés plus haut.
Quid de la data générée côté navigateur ou côté serveur ?
Si vous ne trouvez pas de trace d’une API après avoir effectué l’étape précédente, cela veut dire que vous devez savoir à laquelle des deux catégories restantes le site web appartient. Cela ne doit pas être très compliqué. Il est très facile de distinguer les sites chargeant leurs données côté serveur de ceux qui les chargent côté navigateur.
Sur le site en ligne que vous analysez, il faut consulter le code source. Si vous y trouvez des informations qui vous intéressent, cela signifie que ces données n’ont pas été générées par le navigateur. Elles étaient déjà présentes dans le code initial reçu. Vous comprendrez aisément qu’elles ont été générées côté serveur.
Dans le nouvel onglet qui contient la source, vous pouvez faire une recherche textuelle sur une des informations qui vous intéressent. Cela vous permettra de savoir si les données qui vous intéressent sont générées côté navigateur ou serveur compte tenu de cette observation.
Les pistes envisageables
Il est maintenant possible de classifier le site que vous avez analysé. Vous devez nécessairement savoir pourquoi il faut avoir une idée du type auquel appartient le site. Il s’agit d’une information capitale. En effet, en fonction de ce type, les moyens qui doivent être mis en œuvre pour faire le scraping le plus approprié diffèrent.
Pour les sites web qui disposent d’une API, lorsque l’API n’est pas soumise à un système de sécurité, il est possible de récupérer de la data sans avoir à coder. Vous pouvez le faire par le navigateur, le logiciel postman ou encore des outils en ligne simples d’utilisation.
Pour les sites internet qui n’ont pas d’Api et qui chargent leurs données côté serveur, vous pouvez récupérer de la data sans même coder via l’extension Google Chrome « Web Scraper » dans certains cas. Il faut simplement suivre les bonnes étapes.
Il en est de même pour les sites web ne disposant pas d’API et chargeant leurs données côté navigateur (front). Il est possible de scraper de la donnée sans avoir à coder via l’extension Google Chrome « Web Scraper » dans certains cas et dans une certaine mesure.
Pour les personnes qui ont des compétences en développement web ou qui maîtrisent un outil de web scraper, le diagnostic leur permet de savoir comment s’y prendre.
Si vous avez l’habitude de contacter des prestataires pour des missions de web scraping, cette analyse vous permet d’avoir une meilleure compréhension du travail qu’ils feront. Cela vous permettra de mieux cerner leurs explications lors de vos échanges.
Faire le scraping page par page
Vous souhaitez collecter toutes les annonces de location des appartements à Paris afin de comparer leurs prix en fonction de la superficie, de l’arrondissement, de l’agence ou encore du nombre de chambres ? Vous pouvez le faire en accédant au site SeLoger et en copiant manuellement page par page les détails de chaque offre. Il s’agit d’un travail susceptible de prendre des heures car il y a des milliers d’annonces à parcourir.
Toutefois, il y a les ordinateurs qui exécutent bien les tâches répétitives. Pour commencer, il faut créer une liste des pages à consulter. Sur le site, les résultats de recherche d’appartements à Paris s’affichent sur plusieurs pages. Sur chaque page, il y a 20 annonces. Les adresses des premières pages sont quasiment identiques.
Pour obtenir une liste des pages web à consulter, vous devez simplement modifier le dernier chiffre qui indique le numéro de la page. Après avoir obtenu la liste des pages web, il faut accéder à chaque page. Vous pouvez le faire facilement en python.
Toutes ces étapes vous permettront de recueillir des informations sur le site SeLoger.com. Il suffit de les suivre scrupuleusement, et le tour est joué.
p