Je me suis arrêté à 260 %, mais ça pourrait être bien plus.
L’idée :
Google utilise un moteur de langage naturel BERT pour comprendre tes recherches (https://sortvoices.fr/blog/quest-ce-que-le-nlp-et-a-quoi-sert-il/). Ce moteur interprète tes requêtes pour te proposer les résultats qu’il pense les plus adaptés.
Intuitivement, je me suis dit qu’il devrait prendre en compte l’ordre des mots pour sélectionner les résultats. Ce qui semble logique lorsqu’on fait une recherche « normale ».
« Vol oiseau » et « oiseau vol » ne donnent pas du tout les mêmes résultats.
Par contre, lorsqu’on source, on est à la recherche des mots clé, peu importe l’ordre.
En alternant la position des mots-clés, on pourrait alors avoir d’autres résultats.
Sur un XRay de LinkedIn cela voudrait dire : pour une même requête plus de profils différents.
On pourrait enfin dépasser la limite de 315 résultats imposée par Google.
J’ai voulu voir.
Le test :
J’ai testé un Xray LinkedIn avec 2, 3 puis 4 mots-clés.
À chaque fois, j’ai scrapé l’ensemble des résultats et isolé les profils uniques.
- Avec 2 termes : 666 profils scrapés, 462 uniques
- Avec 3 termes : 1912 profils scrapés, 694 uniques
- Avec 4 termes : 7580 profils scrapés, 1136 uniques
Résultat: Entre 46% et 260% de profils uniques pour un même XRay. 🔥
La compléxité :
La complexité, c’est le nombre d’arrangements possible. Les arrangements, c’est un concept mathématique lié aux probabilités. (http://mathsv.univ-lyon1.fr/app/cours/?theme=proba&chap=1)
2 éléments (a et b) –> 2 arrangements possibles (ab, ba)
3 éléments (a,b et c) –> 6 arrangements possibles (abc,acb,bac,bca,cab,cba)
4 éléments (a,b,c et d) –> 24 arrangements possibles (je ne les liste pas, tu as compris le principe)
Ces arrangements représentent le nombre de requêtes différentes à faire pour couvrir toutes les possibilités.
Il faut donc être ordonné.
La méthode : Les préréquis
Avant de rentrer dans le vif du sujet et d’expliquer comment faire, il y a 4 prérequis :
- Savoir ce qu’est un XRay,
- Savoir configurer Google pour obtenir 100 résultats par page,
- Avoir installé Instant Data Scraper (alias la Pokeball)
- Avoir installé Multi URL Opener
Le reste je te le montre dans l’article.
On y va.
- XRAY:
Faire un XRay: c’est utiliser l’opérateur google « site: » qui permet de limiter les résultats à un nom de domaine.
site :.be limite les résultats aux domaines .be (belge)
site :linkedin.com limite les résultats à LinkedIn
site :linkedin.com/in limite les résultats aux profils LinkedIn
- Configurer Google pour obtenir 100 résultats par page :
Connecte-toi à ton compte gmail sur Google et fais une recherche quelconque.
Une fois les résultats affichés, clique sur l’engrenage (en haut à gauche)
Sélectionne tous les paramètres.
Tu verras « résultats par page » – Glisse le curseur à 100 et sauvegarde.
- Addon Chrome: Instant Data Scraper (aka la Pokeball)
Cet un addon chrome permet de scraper des pages web.
Il est disponible sur le Chrome Store : https://chrome.google.com/webstore/detail/instant-data-scraper/ofaokhiedipichpaobibbnahnkdoiiah
- Addon Chrome: MultiURL Opener
Cet addon chrome permet d’ouvrir une liste URL avec une option de temporisation
Disponible sur le Chrome Store : https://chrome.google.com/webstore/detail/multiple-url-opener/lompiehpjobkhelnjlhjiedhddijiekg?hl=en
Les bases sont posées.
La méthode : en action
Faisons l’essai avec les termes Java, UML et Python.
A. Les arrangements
Pour trouver toutes les combinaisons direction 👉 https://www.dcode.fr/arrangements
K & N doivent avoir la valeur du nombre de termes. Ici ce sera donc 3.
Il faut sélectionner « Prendre une liste d’éléments personnalisée » et générer les arrangements.
Il faut ensuite ouvrir un googlesheet copy/paste ces arrangements dans la colonne A.
Puis, automatiquement créer les requêtes en utilisant la formule =CONCATENATE("https://www.google.com/search?q=site%3Alinkedin.com%2Fin"," ",A1)
PS: Si ton compte google est configuré en français remplace les , par des ;
B. Ouvrir les requêtes
Il s’agit ensuite d’ouvrir ces requêtes les unes à la suite des autres.
Comment? 👉 MultiURL Opener
Il faut faire un COPY des requêtes nouvellement crées et un PASTE dans MultiURL Opener. Je conseille une temporisation de 7 secondes.
On a maintenant 6 onglets d’ouvert avec nos 6 recherches correspondant aux 6 arrangements possibles + un googlesheet. Tout d’abord ouvrir un nouvel onglet dans le Googlesheet. On va y stocker les résultats des 6 XRay.
C. Scraper les résultats
Par onglet (par requête), on va utiliser la Pokeball. Voici la procédure à suivre sur chaque onglet.
1. Aller sur l’onglet en question
2. Cliquer sur la Pokeball – vérifier qu’il sélectionne bien l’ensemble des résultats (sinon try another table)
3. Scroller jusqu’en, cliquer sur localiser le bouton next et le sélectionner.
4. Puis « Start Crawling »
5. Il faut ensuite sélectionner (dans la fenêtre d’Instant Data Scraper) la colonne contenant les URL
6. Faire un copy/paste vers le nouvel onglet
7. On recommence avec l’arrangement suivant et on rajoute les résultats à la suite les uns des autres.
D. Isoler les résultats uniques
Dans l’onglet où tu viens de stocker toutes les URL LinkedIn, clique sur une cellule vide à côté rentre la formule suivante. =UNIQUE(A2:A7581)
A2 représente la cellule où commence la liste.
A7581 la dernière cellule de la liste
Mets les valeurs qui correspondent pour toi et appuie sur Entrée.
E. Résultats
La liste des URL uniques apparaît.
Et voilà !
Enjoy.
PS: La vidéo explicative va suivre.