Publié par Pierrot le Chroniqueur

J'étais en train d'écrire un autre billet (mercredi dernier, ça commence à remonter) quand j'ai décider d'un coup d'un seul de ne pas le publier. Pas maintenant. D'une part, parce que je traverse une jolie crise de fainéantise et que le sujet est moins ludique que beaucoup d'autres, d'autre part, parce que. Par contre, je me suis un peu amusé à parcourir le net (et des blogs des collègues, entre autres), pour aller à la chass à l'inspiration.

L'une des choses qui m'a toujours fasciné sur Wikipédia - et pas que sur le célèbre site cité, pour être honnête - est l'importance accordée au regard de l'autre. Ce qui explique selon moi l'importance des statistiques que l'on peut sortir sur tel ou tel fait wikipédien, et également d'autres petites choses préjudiciables ou profitables au projet. Deux exemples récents et faciles me viennent. Le premier, vient directement de chez Popo le chien. qui nous apprend/rappelle qu'un utilisateur anglophone MZMcBride vient de proposer un outil très pratique pour savoir combien de personnes suivent une page donnée de Wikipedia (ou, d'ailleurs, d'un autre projet). Jusque là, je n'ai fait que recopier l'information fournie par Popo, en y ajoutant un peu d'information (les Wikimédiens aiment les statistiques et les chiffres, comme les autres gens au passage). C'est mal, on dirait presque du reblogging. Mais presque. Car je vais ajouter de l'information ô combien pertinente. Là, maintenant, tout de suite.



C'est-y pas beau ? Il s'agit du nombre de fois dont la page utilisateur est mise en suivi pour un certain nombre de blogueurs es wikipedia. On remarque immédiatement qu'il n'y a aucune corrélation entre la fréquence de publication du blog, par exemple, et le suivi de la page utilisateur. Sinon, Popo serait sans doute en tête sur ce graphique, avec David Monniaux et Darkoneko. Mais en tout cas, devant Serein (qui multiplie plus les blogs que les billets, en fait). Et il n'y a pas non plus de rapport avec le centrage autour de Wikipédia (nombre de billets parlant de Wikipédia par rapport au nombre de billets du blog, un autre indice). En gros, rien à en tirer.

Tout ça pour faire le lien avec le billet de Darkoneko sur les "100 articles les plus lus", et ses deux conclusions très rapides (trop, disons-le tout de suite) à la lecture du graphe concernant Wikipédia francophone ce qui d'ailleurs lui a été signalé. Il est important - toujours selon moi - de faire extrêmement attention pour comparer ce qui est comparable, sans omettre quelques facteurs externes d'importance. Première chose signalée par Esby, l'existence ou non de liens interwikis entre catégories de différentes versions de Wikipédia. Mais ça, c'est de la cuisine interne. Deuxième chose, toujours en cuisine interne : que recouvrent exactement les catégories utilisées ? On ne parle pas de la même chose quand on parle de - au hasard bien choisi pour les robots d'indexation qui passeront par ici - sexualité et de pornographie. Qui peuvent toutes deux être mises dans une catégorie "sexe". Mais le but initial d'une recherche n'est sans doute pas le même ... Donc deux points de cuisine interne qui faussent les résultats annoncés. Et ne parlons pas des facteurs externes (comme la fameuse indexation Google). Et chose étonnante, en plus, on ne parle pas non plus de la durée sur laquelle les données indiquées sont établies. Ce qui est pour le moins critiquable.

Pour résumer : les chiffres c'est bien, mais il ne faut pas trop extrapoler à partir de données "brutes" sans contextualisation. Parce que ça devient vite n'importe quoi.

Commenter cet article

Darkoneko 14/09/2009 09:28

Non justement, pas polyglotte, comme je dis plus haut :Par exemple pour le wiki mandarin (zh), il regardes un  article, et pour savoir ce que c'est regardes sur quelle page mène l'interwiki anglais ; rien de bien sorcier

Pierrot le Chroniqueur 14/09/2009 10:06



D'expérience, le recouvrement des termes n'est pas forcément total et réciproque. Ce qui est normal dans une langue par rapport à une autre. Donc ... méfiance. Surtout quand ces langues n'ont pas
la même racine.



Darkoneko 13/09/2009 15:27

En fait, si ça avait été fait d'une manière automatique a partir des catéogries, ils auraient probablement pris un evantail plus large, genre 1000 articles.

Pierrot le Chroniqueur 14/09/2009 09:17



Pas sûr non plus. . Tu es déjà en train d'interpréter la méthode de construction du graphique sur laquelle, en fait,
nous n'avons pas d'information.



Darkoneko 13/09/2009 13:10

Bof. La remarque d'esby ne vaut *que* si le truc s'est effectivement basé sur les catégories des articles.Mais ça ne s'est fait sur sur 100 articles pour chaque wiki, ce qui m'incite a penser que ça a été fait à la main. Et pour savoir de quoi parle un article d'une autre langue, on suis ses interwikis à lui, pas ceux d'une soit disant catégorie.Par contre, les noms sont illisibles sur ton schéma =_=

Pierrot le Chroniqueur 14/09/2009 09:16



Pas sûr du tout de ton interprétation.
D'autant plus que je ne suis pas persuadé du tout que Mister Wales s'y amuse, à faire ses statistiques à la main, d'autant plus que cela nécessiterait d'être vraiment polyglotte.



Popo le Chien 13/09/2009 11:59

T'as oublié Coyau, et j'ignorais que Gribeco et Dereckson avaient un blog (je n'ai pas vu d'adresse non plus dans ta liste blogosphérienne mais j'ai pas vraiment cherché non plus).Bon sinon en comparant blogueurs et suivi des pages de discussion, tu me fais l'impression de vouloir comparer poires et pommes: le fait d'avoir une PdD en suivi reflète surtout la pratique de beaucoup qui consiste à poursuivre une discussion là où elle a commencé - l'insertion dans la liste de suivi compense l'absence de bandeau orange.A mon avis on devrait donc regarder ces chiffres (que tu as j'espère gardés) en fonction (i) de l'ancienneté du contributeur et, plus encore, (ii) de son statut d'admin (car si c'est un admin il augmente ses chances d'avoir quelqu'un qui vient se plaindre ou demander une action administrative, et donc d'avoir une discussion suivie). C'est en tout cas comme ça que j'interprète la différence de suivi entre ma page et celle de Poulpy, qui a ouvert son compte 1 mois avant moi. A vérifier.

Pierrot le Chroniqueur 14/09/2009 09:14



Comme je le disais en réponse à Esby : c'est fait exprès. Justement pour que l'on puisse se rendre compte que la corrélation entre deux séries de données n'est pas forcément pertinente, et si
elle l'est, bien interprétée.
Alors Coyau me pardonnera



esby 13/09/2009 11:33

Tu parles un peu vite en disant ces chiffres.C'est évident qu'il n'y aucune corrélation apparente:* Les personnes n'ont pas forcément le même nom d'utilisateur sur le blog et sur la PU. (ex: moi.).* le blog n'est pas forcément centré sur Wikipédia... (je parle plutôt de Commons sur mon blog.)* il n'est pas forcément ancien.* la PU d'une personne n'est pas nécessairement le point d'entrée pour causer du blog de quelqu'un. * Elle dépend du nombre de messages et de la facon de répondre de la personne. Si la personne répond par défaut sur la PU d'en face, alors la mise en suivie est non utile. Ensuite il est évident qu'elle reflête le statut de la personne. Pour darkoneko, il y a le fait qu'il est : un chat, la depuis longtemps, stewart , admin , contributeur actif sur des projets, dresseur de bot joue pas mal ;) ..Enfin bon, trouvez des correlations sur des choses qui n'ont pas forcément avoir est un peu délicat. Maintenant je comprendrai une correlation entre les stats de consultation d'un article ou d'une image et un blog y faisant référence.

Pierrot le Chroniqueur 14/09/2009 09:12


(Désolé pour le retard à la réponse, tout d'abord).

En fait, c'est fait exprès. J'ai choisi des blogueurs parce que ça m'arrangeait, et les PU parce que c'était facile. Il va de soit que le fait que la page utilisateur de Darkoneko soit amplement
fréquentée ne m'étonne pas du tout, et est sans doute indépendant de son blog.
J'ai voulu montrer, indirectement, que chercher des chiffres pour chercher des chiffres et les mettre en relation avec une autre série de chiffres sans rapport immédiat était risqué. Et surtout
peu significatif. Il va de soit que, dans ma pseudo-étude, des faits importants sont ignorés, comme le centrage autour de Wikipédia (le blog de Théoliane est, par exemple, encore plus éloigné du
sujet), le statut au sein de Wikipédia, etc. Trop de faits pouvant biaiser la chose. Et en plus, ce qui serait plus significatif n'est pas tant la page utilisateur que la page de discussion
associée ...