Publié par Pierrot le Chroniqueur

Je me promenais sur la blogosphère wikipédienne - c'est toujours sympathique pour se réveiller (et le premier qui dit que je suis un geek n'a peut-être pas tort - quand je suis tombé sur le dernier billet de Poulpy. Il y fait le rapport entre nombre d'"articles" et nombre de pages dites "méta" (tout ce qui n'est pas dans l'espace principal). Et il faudra aller le voir pour comprendre ce billet (respect du droit du poulpe).

Quelques remarques :
  • Poulpy compte dans "articles" toutes les pages de l'espace principal. On ne peut pas l'en blâmer (trier les "dumps", c'est casse-pieds et il y a une différence entre affectation à un espace et le contenu dudit espace), mais il y a fort à parier que si l'on retire tout ce qui ne devrait pas y être (non-encyclopédiques, violation de droits d'auteurs, erreurs, etc.), le taux chute. Disons de 20 %, si l'on est optimiste.
  • Dans la suite de la première : pas de prise en compte de la taille (pas le nombre, mais la taille en octets, par exemple). Si l'on pense à la taille des pages du Bistro sur Wikipédia francophone, on peut raisonnablement penser que le rapport est encore plus défavorable. Cela reste bien sûr à prouver, mais quand même.
  • En prenant l'estimation de Poulpy telle quelle (sans introduire de correction), aucune des Wikipedia à langue internationale (officielle pour plus d'un pays) ne dépasse les 30 % de pages appartenant à l'espace principal - si je ne me trompe pas. Bien sûr, les germanophones sont premiers des poids lourds, avec 35 % (échelle poulpe). La deuxième des "grosses" étant celle en portugais (25,23 %). La francophone est troisième (24,76 %). Les hispanophones tombent à moins de 24 %, lles arabophones à moins de 19 %, les anglophones à moins de 17 % ... Je n'aborde pas le cas particulier des "sinophones" (complexe).
  • Conséquence de la précédente : la WMF dépense beaucoup de pognon pour la conservation d'une floppée de pages qui, dans l'absolu, ne sont pas nécessaires à l'objectif de Wikipédia sur le long terme (à court terme, peut-être). On en revient à la nécessité de séparer le traitement des espaces les uns des autres. Si c'est possible (du point de vue licence). Mais on complexifie le machin.
Et autres.

Première conclusion (même après ça) : il serait plus opportun de copier les germanophones que de chercher les solutions à mettre en oeuvre du côté des anglophones. Ceci dit, les anglophones sont aussi désavantagés par le cosmopolitisme de l'anglais, lingua franca du moment.

Commenter cet article

Xavier Combelle 09/03/2010 15:14


Il semblerait que poulpy nous ait lu http://poulpy.blogspot.com/2010/03/espaces-de-noms.html


Pierrot le Chroniqueur 09/03/2010 18:30



Oui, j'ai vu. En gros, 70 % des pages de fr ne genèrent que très peu de requêtes. Ce qui, d'un côté, me soulage, mais de l'autre, me fait dire que 70 % des pages de WP fr sont peu utiles (je
sais, j'exagère).



DainDwarf 09/03/2010 11:19


Il me semble que la première des "grosses" n'est pas de, mais le polonais:

pl: 679 903 articles, 1 197 899 pages, 56,76% donc.

Bon, bien sûr, ça dépend de la définition de grosse. 'me semble que 6 chiffres pour le nombre d'articles, c'est assez imposant. 


Pierrot le Chroniqueur 09/03/2010 18:28



Je désigne par "les grosses" les projets dont la langue est parlée (officiellement) dans plus de deux pays. Je peux me tromper, mais je pense que ce n'est pas le cas pour le polonais. Ce qui
n'enlève rien à la pertinence de ton information.



Guillaume Paumier 06/03/2010 18:43


Ça demanderait des recherches plus poussées, mais mon impression est que les frais d'infrastructure les plus importants ne proviennent pas du stockage, mais du réseau et du traitement des requêtes
: bande passante, serveurs etc. Autrement dit, le point critique est les ressources nécessaires pour répondre à l'affluence de lecteurs, davantage que celles liées à la taille du site.


Pierrot le Chroniqueur 08/03/2010 08:48



{{refnec}} .
Blague à part, si tu as des docs, n'hésite pas.



Guillaume Paumier 06/03/2010 00:48


« La WMF dépense beaucoup de pognon pour la conservation d'une floppée de pages [...] »

Euh, {{référence nécessaire}} ?


Pierrot le Chroniqueur 06/03/2010 18:34



Stockage des données, serveurs ... Si ça ne coûte rien, pourquoi les campagnes de dons ? (ok, c'est un troll).



Xavier Combelle 05/03/2010 15:57


Y a qu'à comparer http://stats.grok.se/fr/200909/Jeu_de_go http://stats.grok.se/fr/200909/Discussion:Jeu_de_go c'est un facteur 100 bien sur ce n'est pas représentatif mais en attendant que
quelqu'un nous fasse des stats par espace de nom je pense que ca donne une bonne idée.


Pierrot le Chroniqueur 06/03/2010 18:34



Euh, jeu de go, sans vouloir être méchant, ce n'est pas à la mode ou polémique . Faudrait faire une moyenne ...



Xavier Combelle 05/03/2010 12:52


Tu dis que la vocation de wikipedia n'est pas de financer un facebook II. Mais quand est-il des coûts réels. Je pense que les coûts notamment en bande passante sont plus accaparés par les articles
réels que par les pages Meta.


Pierrot le Chroniqueur 05/03/2010 13:22



J'espère. Je n'en suis pas persuadé. Mais alors pas du tout.



Le concombre masqué 04/03/2010 13:14


Une bonne partie de l'explication me semble être (au pifomètre, sans aucun élément probant) la plus grande activité des robots sur les Wikipédias en langues très parlées.

Une collection de robots pour aller poser des bandeaux d'évaluation sur toutes les pages de discussion d'articles, même des où aucun humain ne passera jamais et hop, la proportion d'articles est
déjà descendue au dessous de 50 %. Un autre robot pour aller coller un {{bienvenue}} sur les pages de nouveaux utilisateurs, et hop ça descend encore. Or typiquement ces bandeaux {{bienvenue}} ne
fondent en effet pas franchement des pages d'encyclopédie, mais même s'ils ne font pas de bien peuvent difficilement faire du mal. Où est le problème ?


Pierrot le Chroniqueur 04/03/2010 14:01



Je n'en suis pas persuadé.
Et le problème est, si on y pense, le fait qu'il faut stocker tout un tas de trucs qui ne sont pas franchement des pages d'encyclopédie. Et donc financer ce stockage d'une activité assez sociale
(en gros, facebook II) lors des levées de dons.



Raynald Boulay 04/03/2010 12:21


Donc 33% articles, 33 % discussion d'articles, 33 % méta ?


Pierrot le Chroniqueur 04/03/2010 13:59



45 % articles, 45 % discussions, 10 % méta, plutôt.



Raynald Boulay 04/03/2010 11:47


Ton analyse semble assimiler un peu tous les espaces hors article au Mal... Bon... En tout cas l'exsistence de tels espaces et leur importance peut aussi montrer un niveau de maturité des projets.
Par exemple, tout article évalué, ou seulement à évaluer d'ailleurs, a une page de discussion. Sans prendre partie sur l'opportunité d'évaluer les articles, plus un projet avance dans l'évaluation,
plus il réduit son taux d'articles... Ce n'est qu'un exemple, l'évaluation n'est pas vraiment le sujet...


Pierrot le Chroniqueur 04/03/2010 12:02



Non, je ne suis pas manichéen à ce point. Même pour rire.
Par contre, j'ai du mal à comprendre ton exemple. Il suffit d'imaginer que - par exemple - l'évaluation d'un article puisse se faire sur une page centralisée d'un projet. Ca réduit fortement le
nombre de pages qui sont consacrés à ça. Non ?
Sinon, je ne pense pas que la maturité d'un projet (Wikipédia, pas les projets internes) puissent se mesurer par une sur-représentation des espaces non-encyclopédiques.
Tiens, disons-le : pour moi, si tout se passait dans l'idéal pour Wikipédia, le nombre de pages de discussion devraient être le même que celui des articles et le nombre de pages méta à peine
supérieur (j'inclus les projets, les catégories et les pages utilisateurs). Les pages documents étant sur Commons.



stanlekub 04/03/2010 11:25


Bof. Poulpy me semble avoir fait un tableau avec une stat un peu bidon sans en tirer de conclusion, justement parce qu'il n'y a rien à en tirer. Vu de ma fenêtre, ce sont juste des chiffres, comme
ça, sans grand intérêt par eux-mêmes. Il en faudrait beaucoup d'autres pour pouvoir commencer à en faire une analyse comme tu le fait.


Pierrot le Chroniqueur 04/03/2010 11:33



Pas d'accord, justement. Quand tu as une centaine de chiffres, tu commences à avoir une tendance.
Ceci dit, ce n'est pas une analyse "profonde". Juste des remarques. Après, on en fait ce qu'on en veut ... même si je pense que ça pourrait provoquer quelques questionnements.