Observons Wikipedia : le blog de Pierrot le Chroniqueur

Impressions, révélations et gribouillages sur Wikipédia et autres projets Wikimédia

Wikipédia : Persiflages ...

Je me promenais sur la blogosphère wikipédienne - c'est toujours sympathique pour se réveiller (et le premier qui dit que je suis un geek n'a peut-être pas tort - quand je suis tombé sur le dernier billet de Poulpy. Il y fait le rapport entre nombre d'"articles" et nombre de pages dites "méta" (tout ce qui n'est pas dans l'espace principal). Et il faudra aller le voir pour comprendre ce billet (respect du droit du poulpe).

Quelques remarques :
  • Poulpy compte dans "articles" toutes les pages de l'espace principal. On ne peut pas l'en blâmer (trier les "dumps", c'est casse-pieds et il y a une différence entre affectation à un espace et le contenu dudit espace), mais il y a fort à parier que si l'on retire tout ce qui ne devrait pas y être (non-encyclopédiques, violation de droits d'auteurs, erreurs, etc.), le taux chute. Disons de 20 %, si l'on est optimiste.
  • Dans la suite de la première : pas de prise en compte de la taille (pas le nombre, mais la taille en octets, par exemple). Si l'on pense à la taille des pages du Bistro sur Wikipédia francophone, on peut raisonnablement penser que le rapport est encore plus défavorable. Cela reste bien sûr à prouver, mais quand même.
  • En prenant l'estimation de Poulpy telle quelle (sans introduire de correction), aucune des Wikipedia à langue internationale (officielle pour plus d'un pays) ne dépasse les 30 % de pages appartenant à l'espace principal - si je ne me trompe pas. Bien sûr, les germanophones sont premiers des poids lourds, avec 35 % (échelle poulpe). La deuxième des "grosses" étant celle en portugais (25,23 %). La francophone est troisième (24,76 %). Les hispanophones tombent à moins de 24 %, lles arabophones à moins de 19 %, les anglophones à moins de 17 % ... Je n'aborde pas le cas particulier des "sinophones" (complexe).
  • Conséquence de la précédente : la WMF dépense beaucoup de pognon pour la conservation d'une floppée de pages qui, dans l'absolu, ne sont pas nécessaires à l'objectif de Wikipédia sur le long terme (à court terme, peut-être). On en revient à la nécessité de séparer le traitement des espaces les uns des autres. Si c'est possible (du point de vue licence). Mais on complexifie le machin.
Et autres.

Première conclusion (même après ça) : il serait plus opportun de copier les germanophones que de chercher les solutions à mettre en oeuvre du côté des anglophones. Ceci dit, les anglophones sont aussi désavantagés par le cosmopolitisme de l'anglais, lingua franca du moment.
Partager cet article
Repost0
Pour être informé des derniers articles, inscrivez vous :
Commenter cet article
X
<br /> Il semblerait que poulpy nous ait lu http://poulpy.blogspot.com/2010/03/espaces-de-noms.html<br /> <br /> <br />
Répondre
P
<br /> <br /> Oui, j'ai vu. En gros, 70 % des pages de fr ne genèrent que très peu de requêtes. Ce qui, d'un côté, me soulage, mais de l'autre, me fait dire que 70 % des pages de WP fr sont peu utiles (je<br /> sais, j'exagère).<br /> <br /> <br /> <br />
D
<br /> Il me semble que la première des "grosses" n'est pas de, mais le polonais:<br /> <br /> pl: 679 903 articles, 1 197 899 pages, 56,76% donc.<br /> <br /> Bon, bien sûr, ça dépend de la définition de grosse. 'me semble que 6 chiffres pour le nombre d'articles, c'est assez imposant. <br /> <br /> <br />
Répondre
P
<br /> <br /> Je désigne par "les grosses" les projets dont la langue est parlée (officiellement) dans plus de deux pays. Je peux me tromper, mais je pense que ce n'est pas le cas pour le polonais. Ce qui<br /> n'enlève rien à la pertinence de ton information.<br /> <br /> <br /> <br />
G
<br /> Ça demanderait des recherches plus poussées, mais mon impression est que les frais d'infrastructure les plus importants ne proviennent pas du stockage, mais du réseau et du traitement des requêtes<br /> : bande passante, serveurs etc. Autrement dit, le point critique est les ressources nécessaires pour répondre à l'affluence de lecteurs, davantage que celles liées à la taille du site.<br /> <br /> <br />
Répondre
P
<br /> <br /> {{refnec}} .<br /> Blague à part, si tu as des docs, n'hésite pas.<br /> <br /> <br /> <br />
G
<br /> « La WMF dépense beaucoup de pognon pour la conservation d'une floppée de pages [...] »<br /> <br /> Euh, {{référence nécessaire}} ?<br /> <br /> <br />
Répondre
P
<br /> <br /> Stockage des données, serveurs ... Si ça ne coûte rien, pourquoi les campagnes de dons ? (ok, c'est un troll).<br /> <br /> <br /> <br />
X
<br /> Y a qu'à comparer http://stats.grok.se/fr/200909/Jeu_de_go http://stats.grok.se/fr/200909/Discussion:Jeu_de_go c'est un facteur 100 bien sur ce n'est pas représentatif mais en attendant que<br /> quelqu'un nous fasse des stats par espace de nom je pense que ca donne une bonne idée.<br /> <br /> <br />
Répondre
P
<br /> <br /> Euh, jeu de go, sans vouloir être méchant, ce n'est pas à la mode ou polémique . Faudrait faire une moyenne ...<br /> <br /> <br /> <br />
X
<br /> Tu dis que la vocation de wikipedia n'est pas de financer un facebook II. Mais quand est-il des coûts réels. Je pense que les coûts notamment en bande passante sont plus accaparés par les articles<br /> réels que par les pages Meta.<br /> <br /> <br />
Répondre
P
<br /> <br /> J'espère. Je n'en suis pas persuadé. Mais alors pas du tout.<br /> <br /> <br /> <br />
L
<br /> Une bonne partie de l'explication me semble être (au pifomètre, sans aucun élément probant) la plus grande activité des robots sur les Wikipédias en langues très parlées.<br /> <br /> Une collection de robots pour aller poser des bandeaux d'évaluation sur toutes les pages de discussion d'articles, même des où aucun humain ne passera jamais et hop, la proportion d'articles est<br /> déjà descendue au dessous de 50 %. Un autre robot pour aller coller un {{bienvenue}} sur les pages de nouveaux utilisateurs, et hop ça descend encore. Or typiquement ces bandeaux {{bienvenue}} ne<br /> fondent en effet pas franchement des pages d'encyclopédie, mais même s'ils ne font pas de bien peuvent difficilement faire du mal. Où est le problème ?<br /> <br /> <br />
Répondre
P
<br /> <br /> Je n'en suis pas persuadé.<br /> Et le problème est, si on y pense, le fait qu'il faut stocker tout un tas de trucs qui ne sont pas franchement des pages d'encyclopédie. Et donc financer ce stockage d'une activité assez sociale<br /> (en gros, facebook II) lors des levées de dons.<br /> <br /> <br /> <br />
R
<br /> Donc 33% articles, 33 % discussion d'articles, 33 % méta ?<br /> <br /> <br />
Répondre
P
<br /> <br /> 45 % articles, 45 % discussions, 10 % méta, plutôt.<br /> <br /> <br /> <br />
R
<br /> Ton analyse semble assimiler un peu tous les espaces hors article au Mal... Bon... En tout cas l'exsistence de tels espaces et leur importance peut aussi montrer un niveau de maturité des projets.<br /> Par exemple, tout article évalué, ou seulement à évaluer d'ailleurs, a une page de discussion. Sans prendre partie sur l'opportunité d'évaluer les articles, plus un projet avance dans l'évaluation,<br /> plus il réduit son taux d'articles... Ce n'est qu'un exemple, l'évaluation n'est pas vraiment le sujet...<br /> <br /> <br />
Répondre
P
<br /> <br /> Non, je ne suis pas manichéen à ce point. Même pour rire.<br /> Par contre, j'ai du mal à comprendre ton exemple. Il suffit d'imaginer que - par exemple - l'évaluation d'un article puisse se faire sur une page centralisée d'un projet. Ca réduit fortement le<br /> nombre de pages qui sont consacrés à ça. Non ?<br /> Sinon, je ne pense pas que la maturité d'un projet (Wikipédia, pas les projets internes) puissent se mesurer par une sur-représentation des espaces non-encyclopédiques.<br /> Tiens, disons-le : pour moi, si tout se passait dans l'idéal pour Wikipédia, le nombre de pages de discussion devraient être le même que celui des articles et le nombre de pages méta à peine<br /> supérieur (j'inclus les projets, les catégories et les pages utilisateurs). Les pages documents étant sur Commons.<br /> <br /> <br /> <br />
S
<br /> Bof. Poulpy me semble avoir fait un tableau avec une stat un peu bidon sans en tirer de conclusion, justement parce qu'il n'y a rien à en tirer. Vu de ma fenêtre, ce sont juste des chiffres, comme<br /> ça, sans grand intérêt par eux-mêmes. Il en faudrait beaucoup d'autres pour pouvoir commencer à en faire une analyse comme tu le fait.<br /> <br /> <br />
Répondre
P
<br /> <br /> Pas d'accord, justement. Quand tu as une centaine de chiffres, tu commences à avoir une tendance.<br /> Ceci dit, ce n'est pas une analyse "profonde". Juste des remarques. Après, on en fait ce qu'on en veut ... même si je pense que ça pourrait provoquer quelques questionnements.<br /> <br /> <br /> <br />