Quantcast
Channel: expression régulière – C'éclair!
Viewing all articles
Browse latest Browse all 6

Comment trier une liste de blogs selon leur indice de popularité Technorati?

$
0
0

Dans le précédent article, nous avons appris à nous servir du logiciel gratuit XScrape, qui permet d’extraire des données du web. Nous allons l’utiliser aujourd’hui dans un exemple pratique : le triage d’une liste de blogs selon leur indice Technorati.

L’indice de popularité d’un blog, au sens de Technorati, correspond au nombre de blogs différents qui lient vers ce blog. Ce n’est pas forcément un indice de qualité mais un indicateur de l’influence du blog dans la blogosphère, qui peut être lié aussi aux capacités de l’auteur à promouvoir son blog. Il est donc logique de s’y intéresser afin d’étudier les méthodes des blogueurs qui ont réussi à faire leur trou.

Pour consulter l’indice de Technorati d’un blog, rien de plus simple : il suffit de consulter la page http://www.technorati.com/blogs/{adresse_du_blog_voulu}. En conséquence, il semble aisé d’automatiser la récupération de l’indice de Technorati de plusieurs blogs grâce à XScrape.

Afin de rendre notre entreprise intéressante, nous allons nous pencher sur la liste de blogs de développement personnel de Priscilla Palmer (eh oui, je ne m’en lasse pas;). Le triage de la liste de Priscilla se déroulera en 4 phases distinctes :

  1. Récupération automatique des liens des blogs de la page de Priscilla Palmer
  2. Transformation de ces liens en liens Technorati
  3. Récupération automatique des indices Technorati de tous les blogs
  4. Triage des informations obtenues

Récupération automatique des liens des blogs de la page de Priscilla Palmer

Pour récupérer les liens des blogs de la liste de Priscilla Palmer, il suffit d’exécuter XScrape avec les paramètres suivants :

URL : http://priscillapalmer.com/pdl.php/

Inclusive URLs : http://priscillapalmer.com/pdl.php/

Exclusive URLs : http://priscillapalmer.com/,http://www.priscillapalmer.com/

Regular Expression : <a[^<>]*href=”http[^<>]*target=”_blank”[^<>]*>[^<>]*</a>

Une rapide analyse de la page de Priscilla permet en effet de voir que tous les liens des blogs listés possèdent l’attribut target=”_blank”, ce qui permet de récupérer automatiquement les bons liens.

Transformation de ces liens en liens Technorati

Après avoir récupéré le résultat de XScrape dans un fichier texte, une simple opération de remplacement suffit à obtenir les liens Technorati :

  • Remplacer http:// par : http://www.technorati.com/blogs/

Pour l’instant, je n’ai pas encore trouvé le moyen d’analyser une page html sans utiliser une adresse http. J’ai donc mis cette page sur mon serveur local pour que XScrape puisse trouver le fichier. Cela donne une adresse du genre http://localhost/

Récupération automatique des indices Technorati de tous les blogs

Pour récupérer les indices de technorati des blogs de la liste de Priscilla Palmer, il suffit d’exécuter XScrape avec les paramètres suivants :

URL : http://localhost/lienstechnorati.html (la page qu’on a construit à l’étape précédente)

Inclusive URLs : http://www.technorati.com/blogs/

Exclusive URLs : http://www.technorati.com/blogs/tag/

Regular Expression : <a[^<>]*class=”links”[^<>]*href=”/search/[^<>]*title=”View[^<>]*blog[^<>]*reactions”>Authority: [^<>]*</a>[^<>]*</div>[^<>]*<div>[^<>]*<a[^<>]*class=”fav

Pour trouver la bonne expression régulière, il faut consulter le code source d’une page de blog Technorati. Ensuite en tatônnant un peu, on obtient finalement la bonne expression régulière.

Notons que cette méthode m’a permi de récupérer environ 80% des indices technorati, et ceci pour 3 raisons :

1/Certains liens ne correspondaient pas à la racine du blog
2/Certains liens n’ont pas encore d’indice car personne n’a encore lié à leur blog
3/Certains liens ne sont pas des blogs

Triage des informations obtenues

Avec un peu d’excel et un peu d’autohotkey, on peut faire des merveilles.

Voici comment j’ai procédé :

  • J’ai d’abord supprimé dans la sortie obtenue toutes les données inutiles
  • Puis j’ai transformé le fichier en format CSV par des remplacements successifs pour obtenir des lignes où les colonnes sont séparées par des points virgule, pour pouvoir l’importer dans Excel :

    http://www.threesixtyalliance.com/360-view;6
    http://www.todayisthatday.com/blog;314
    http://www.positiveselftalkguide.com;46
    etc.

  • Pour connaître les blogs dont on n’a pas pu avoir l’indice, il est intéressant aussi d’importer les données de la liste obtenue lors de l’étape 1 dans le même fichier excel afin de faire une comparaison.
  • Grâce à un script autohotkey, on peut ensuite facilement faire correspondre les colonnes et obtenir un résultat de ce genre :

    Fichier excel des blogs

    (il y a en tout 727 lignes)

  • On peut ensuite trier les lignes et exporter toutes ces données dans un fichier HTML pour obtenir la liste finale.

Conclusion

J’espère que grâce à cet article, vous aurez pu découvrir la puissance de XScrape. On remarquera qu’il est possible de faire la même chose en utilisant l’API de Technorati, mais la méthode présentée ici a l’avantage de ne nécessiter aucune connaissance en programmation.

Dans le prochain article, vous trouverez la liste complète des blogs de développement personnel de Priscilla Palmer triés selon leur indice Technorati.

L’article Comment trier une liste de blogs selon leur indice de popularité Technorati? est apparu en premier sur C'éclair!.


Viewing all articles
Browse latest Browse all 6

Latest Images





Latest Images