Publié par Argos42

Je l'avais promis en commentaire d'un autre billet, voici donc quelques stats sur les IP pour enfin répondre à la question : la majorité des modifications sous IP sont elles des vandalismes ? Comme les billets trop longs ne sont pas lus, et Pierrot le sait bien, je vais rapidement vous balancer les stats, ceux qui voudront décortiquer iront lire plus loin. Les statistiques sont basées sur les modifications, et le nombre de reverts de ces modifications (un revert est considéré comme un signalement de vandalisme1) :

 

  • La majorité des modifications sous  IP sont des vandalismes : faux. Seulement 9% de ces modifications sont annulées
  • La majorité des vandalismes sont réalisés par des IP : vrai. Sur la période observée, 55% des vandalismes sont effectués par les utilisateurs non enregistrés2.
  • Le taux de vandalisme est plus élevé chez les IPs que chez les enregistrés : vrai. 9% contre 1%.
  • Les modifications sous IP qui ne sont pas des vandalismes représentent une part infime des contributions : faux. Ça représente tout de même 15% de l'ensemble des modifications.

 

Pour ceux qui veulent aller plus loin, quelques explications sur les stats : toutes les modifications ont été observées sur une période d'un peu plus d'une semaine (287 855 modifications). Les modifications dont le commentaire contient un des mots : "rv, revert, vandalisme, LiveRC, etc." marquent la précédente modification du même article comme étant revertée. De nombreux parasites peuvent donc entrer en jeu, par exemple un vandalisme peut passer inaperçu  pendant la durée de l'observation, et ne sera donc pas décompté comme modification annulée. Les usernames ne sont pas stockés, je ne peux donc pas faire de stats sur le nombre de vandalisme moyen par IP par exemple, ou le nombre d'IP vandales. Je n'ai pas non plus la possibilité de dissocier autoconfirmed/pas autoconfirmed. Les modifications sont récupérées depuis le channel IRC dont j'ai perdu le nom, via un VandalFighter bidouillé.

 

 

Voici les stats en vrac (sauf si Pierrot met ça en forme tout beau avec des graphiques3) :

 

  • Nombre de modifications observées : 287 855.
  • Nombre de reverts : 7 734 (soit 3% du total).
  • Nombre de modifications sous IP : 46 975 (soit 16% du total).
  • Nombre de reverts de modifications par IP : 4 260 (soit 9% des modifs sous IP et 55% du total des reverts).
  • Nombre de modifications sous User : 240 880 (soit 84% du total).
  • Nombre de reverts de modifications par User : 3 474 (soit 1% des modifis User, 45% du total des reverts).

 

Je vous laisse vous-même tirer les conclusions que vous souhaitez de ce billet, vous pouvez aussi retourner voir les jolies stats de Gribeco si ça vous branche. De toute manière, le plus gros vandale restera toujours l'IP 127.0.0.1.

 

 

Note : (Le titre fait référence à ceci).

 

 

1. C'est abusif, certes.

2. Ce qui veut dire qu'en sélectionnant "IP seulement sur LiveRC vous laissez passer les 45% de vandalismes restants (sauf si la majorité de ceux-ci sont réalisés par des "nouveaux" et que vous sélectionnez "IP+new").

3. Note de Pierrot : hé bien, ce sera en vrac.

Commenter cet article

Exploser 06/05/2011 22:19



L'écrasante majorité des vandalismes sont annulés dans la journée, comme le rappelle Argos. On ne peut donc pas dire que cela fausse les stats, comme semble le croire Pierrot.


Ni non plus, comme semble encore le penser Pierrot, que le mécanisme de filtres fausse les stats, comparées avec votre ressenti. Les stats ne prennent en compte que les vandalismes effectifs.
Mais votre ressenti, basé sur vos patrouilles, aussi...


Si les stats ne correspondent pas à votre ressenti, Pierrot, il faudra trouver d'autres explications à cette différence...


 


Mais, comme dit dans un commentaire d'un billet précédent :


- toutes les annuls ne correspondent pas à des vandalismes. Les stats sont donc sur ce point très surévaluées.


- un vandale mettra moins de temps à faire 99 vandalisme qu'un IP constructif à écrire un article intéressant de quelques milliers d'octets. Dans un tel cas, il est donc mathématiquement vrai,
mais un peu court, de déclarer que 99 % des modifications sous IP seraient des vandalismes. Une contribution d'un vandale n'est pas égale à une contribution d'un IP de bonne volonté. Ce que les
stats ne prennent pas non plus en compte, surpondérant l'importance des vandalismes par rapport aux contributions constructives.


- et il y a certainement encore d'autres biais...



Pierrot le Chroniqueur 07/05/2011 19:46



"L'écrasante majorité des vandalismes sont annulés dans la journée" est une affirmation invérifiable. Probablement vraie mais invérifiable : par pure logique, des vandalismes passés inaperçus
n'entrent pas dans ces statistiques en tant que tels.


 


Si, les filtres ont une influence puisque Argos42 précise bien que les modifcations bloquées par des filtres n'entrent pas en compte dans son étude. Pourtant, il s'agit bien de vandalismes, ou en
tout cas de tentatives de vandalisme. Et il ne faut pas oublier que la majorité des vandalisme provient d'IPs. Je crois donc que, malgré mon impression initiale, je me suis efforcé de tenir
compte de ces résultats et que, ici, c'est toi qui fais quelques erreurs, involontaires, de raisonnement. Mais je ne suis pas infaillible non plus.


 


Sinon, oui, une pondération inverse est que toutes les révocations ne concernent pas des reverts de vandalismes, c'est une réalité. En revanche, je ne comprends pas très bien ce que le temps mis
à écrire un article nous est utile. Je suis désolé, j'ai beau chercher, je ne vois pas le rapport. Dire qu'un vandalisme n'est pas numériquement égal à une contribution positive me semble
absurde, au moins mathématiquement. Sur le plan moral, oui, mais c'est ici inopérant.



gede 06/05/2011 01:03



Cette étude correspond à ma percepetion personnelle de patrouilleur. Comme je le disais à Pierrot, il ne faut pas confondre les propositions "la plupart des vandales sont des IP" (vraie) avec "la
plupart des IP sont des vandales" (fausse). A ce qu'il parait une série d'études de psychologie cognitive ont établi que notre cerveaux a tendance à faire ce type de fausses inférences... C'est
du moins ce qu'explique N.N. Taleb dans son best seller  The Black Swan. 


 


La plupart des commentaires qui sont critiques face à cette étude mettent en avant des biais susceptibles de réduire la prise en compte des vandalismes d'IP. En tant que vieux patrouilleur, je
pense, au contraire, que nous sous-évaluons les vandalismes de comptes enregistrés : quand on patrouille on cherche le vandale, et on le cherche là où il est plus probable de le trouver : chez
les IP.


 


Quand il y a beaucoup de modifications, on a tendance à négliger les comptes, et à se concentrer sur les IP. Bref, les IP font l'objet d'une attention par les patrouilleurs qui est beaucoup plus
forte que les comptes.



Pierrot le Chroniqueur 06/05/2011 21:18



Je ne pense pas qu'il s'agisse d'un biais mais bel et bien d'une perception nourrie par des faits, après à chaque patrouilleur sa perception. Argos42 a très bien défini ci-dessus les limites de
sa propre étude. Même si je concède que la proportion d'IPs vandales est sans doute moindre que ce que je redoutais de par mes impressions. Mais je vais développer tout cela prochainement. Une
remarque intéressante est que, effectivement, peut-être aussi par manque de temps immédiat (si les RC défilent vite), la majorité des patrouilleurs se focalise sur les IPs au détriment des
comptes enregistrés, même (et surtout) nouveaux. Il ne faut pas non plus oublier que tous les vandalismes ne sont pas révoqués. De manière générale, je pense quun certain nombre de vandalismes
passe chaque jour, hélas, entre les mailles du filet, la patrouille n'étant pas effectuée 24 heures sur 24. Surtout que, en aval, beaucoup d'articles ne sont pas suivis, ou ne le sont qu'en
théorie (les contributeurs les ayant en suivi n'étant plus là, ou ne vérifiant pas leurs listes).



argos 05/05/2011 20:28



J'avais dit que je n'interprêtais pas les résultats pour vous laisser libres de votre propre interprétation. C'est assez marrant, certains voient le verre plein, d'autres le verre vide. Si on
reprend les chiffres, 9% des modifications effectuées sous IP sont annulées, on peut donc dire :


seulement 9 modifications sur 100 sont des "vandalismes"

presque 1 modification sur 10 est un "vandalisme"



Les politiciens connaissent bien ça...


Maintenant, imaginons que l'on interdise aux IP de contribuer, ça ne supprimera pas pour autant les 55% des vandalismes totaux, car une partie de ces IP s'enregistrera pour effectuer ses méfaits.


Pour répondre à ceux qui parlent des filtres et autres : dans les stats actuelles sont comptés les reverts de Salebot. Mais pas les filtres. La question à laquelle les chiffres répondent est donc
la suivante : parmi les modifications qui sont réellement effectuées (pas bloquées par un filtre, ni bloquées par un blocage de l'IP), combien de celles-ci sont révoquées ? Ils
ne répondent pas à la question : parmi les populations d'IP/User, laquelle contient le plus de vandales ? (Dans ce cas il faudrait compter les vandales arretés
par blocages et ceux arretés par les filtres).


 


Merci à tous pour vos commentaires.



Addacat 05/05/2011 18:01



@ Ludo : oui, et c'est l'éternel dilemme.



Pierrot le Chroniqueur 05/05/2011 18:52



Exactement.



Ludo 05/05/2011 12:11



Oui merci à Argos pour cette petite étude. Les résultats sont intéressants et me surprennent assez peu. Moi aussi je serai assez interessé par avoir des chiffres concernant ce que
Grimlock relève ; la part des filtres dans le total des modifications sous IP. Il est clair que les filtres diminuent les vandalismes issues des IP et cela influe les chiffres d'Argos.


On a aujourd'hui des outils pour se prémunir d'une partie des vandalismes. Les contributions sous IP apportent du bon et du mauvais. Mais à la vue des chiffres montrés par Argos je pense
qu'interdir la contribution sous IP (parce que c'est bien l'idée présente ici) est une très mauvaise piste. La part de ce qu'elles apportent de positif est trop important par rapport à ce
qu'elles apportent de négatifs.


Il y a deux ou trois semaines j'ai vu une IP faire des modifications sur des articles concernant des montagnes des Alpes suisses. Il y avait du bon mais aussi des choses ne correspodant pas à nos
habitudes. J'ai discuté et depuis on a gagné un
contributeur. Interdire la contribution aux IP c'est ça aussi : perdre de nouveaux contributeurs.



Pierrot le Chroniqueur 05/05/2011 18:52



Oui, les filtres et les bots influent clairement sur la perception du vandalisme d'IPs, comme le relève ci-dessus Darkoneko. D'où, en partie, la différence entre la réalité et le
ressenti. En tout cas, ces chiffres sont évidemment à prendre en compte pour savoir, comme tu le dis, si c'est une bonne idée ou non d'interdire l'édition aux IPs. Mais je ne développe pas plus
que ça, je vais en parler dans les prochains jours dans mon billet commentant cette étude de Argos42. Ton exemple est très intéressant, et, heureusement, pas unique.



Darkoneko 05/05/2011 03:53



Je pense que le décalage du perçu est aussi du aux editions de bots (21% du nombre total d'éditions sur frwiki) selon qu'elles sont prises en comptes ou pas dans les calculs de stats ; et le fait
qu'il soit possible de les cacher dans la liste de suivi/WP:RC/etc



Pierrot le Chroniqueur 05/05/2011 18:49



Ah, très judicieuse remarque ! Il faudra que Argos42 nous dise s'il a pris en compte les bots ou non. A priori, oui, il me semble.



Elfix 04/05/2011 19:36



Ewps. Les liens ne fonctionnent pas :/


 


http://fr.wikipedia.org/w/index.php?title=Sp%C3%A9cial:Journal&type=block&page=Utilisateur%3A127.0.0.1 et
http://fr.wikipedia.org/w/index.php?title=Sp%E9cial%3AJournal&type=block&user=&page=Utilisateur%3A0.0.0.0


 


Pfff, ma boutade tombe à l'eau maintenant... :(



Pierrot le Chroniqueur 05/05/2011 18:48



.



Elfix 04/05/2011 19:33



Sinon, pour répondre à la question posée dans le titre de ce post : je confirme que 127.0.0.1 et 0.0.0.0 sont
effectivement des vandales ;)



Anonymous 04/05/2011 13:01



Ces chiffres semblent cohérents avec les études similaires (et publiées) menées sur en.wiki (cf. http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Vandalism_studies).



Pierrot le Chroniqueur 05/05/2011 18:47



Ok, il faudra que je regarde cela en détails.



Arkanosis 04/05/2011 12:01



Excellent, merci Argos :-)


Ça correspond beaucoup plus à ma perception des choses que ce qu'avançait Pierrot… mais il faut noter néanmoins que si — bien sûr — certains vandalismes ne sont pas pris en compte par la méthode
utilisée (pas revertés, revertés avec un message non évident), il y a surtout une bonne partie de ces reverts qui ne concernent pas des vandalismes mais des maladresses (normal si on est nouveau,
même de bonne volonté), des problèmes de pertinence (idem), des problèmes de syntaxe wiki (idem), etc. Donc des contributions pleines de bonne volonté de contributeurs que l'on voudrait
certainement garder pour qu'ils deviennent des CdQ (contributeurs de qualité).


Je pense donc que le taux réel de vandalisme par IP est encore inférieur aux statitistiques dont ont dispose désormais. Cela établit néanmoins une borne supérieure, ce qui est une très bonne
chose. Merci encore :-)



Pierrot le Chroniqueur 04/05/2011 12:37



J'aurais plutôt tendance, hélas, à partager le point de vue de Grimlock (plus haut) que le tien.



Grimlock 04/05/2011 10:23



@Serein : en fait, tu oublies quelques petites choses sur les IP :


- les filtres existent, qui ne nécessitent plus de revert (grande avancée).


- les IP scolaires ou partagées sont bloquées dès la récidive pour une longue période (et c'est tant mieux). Bloquer une connection estampillée rectorat de xxx donne une certaine paix par la
suite.


Plus embêtant, effectivement (et Pierrot le relève j'ai l'impression) : il n'y a aucune équivalence stricte entre revert et vandalisme. Une IP peut être revertée de bonne foi, et pour avoir
patrouillé pendant longtemps, il y a un moment où forcément, tu ne peux être au four et au moulin, et on laisse passer (ce qui biaise les statistiques d'Argos). Par contre, que la majorité des
vandalismes soient estampillés IP n'est pas une découverte, malgré les affirmations que l'on peut lire ça et là et qu'incidemment nous manquons de patrouilleurs (certains étant plus occupés à
scruter les modifications d'autres pour trouver des prétextes bidons à blocages, au hasard ).


Ah j'oubliais : merci à Argos pour ce travail intéressant. Je te toucherais deux mots pour savoir si on peut affiner ta recherche pour se débarasser des filtres.



Pierrot le Chroniqueur 04/05/2011 12:36



J'aurais plutôt tendance, hélas, à partager ton point de vue que celui d'Arkanosis (plus bas).



Léna 04/05/2011 10:12



Beaucoup de modificiations sous IP sont des corrections orthographiques, des mises à jour d'informations mouvantes (nombre de sélection d'un sportif en équipe nationale, titre des épisodes d'une
série télé en cours, nouveau maire de Trifouillis-lès-oliviers, chiffre d'affaire d'une entreprise de petite cuillères en bois...)



Pierrot le Chroniqueur 04/05/2011 12:36



Oui, donc des modifications de type "bot".



Serein 04/05/2011 01:28



@Argos : merci pour ces stats très intéressantes !


@Pierrot : tu t'étonnes du faible nombre de reverts d'IP, en te demandant si du coup les vandalismes passeraient au travers, mais peut-être tout simplement qu'il n'y a pas tant de vandalismes que
ça ? Qu'il y ait un pourcentage certain de modifications à reprendre, remettre en forme etc, ok, mais de vandalismes purs et durs nécessitant des reverts, probablement pas tant que ça. Du coup
les stats seraient cohérentes. Je ne fais plus autant de patrouille qu'auparavant, mais quand ça m'arrive, ou simplement quotidiennement en surveillant ma (longue) liste de suivi, je pense que ce
ration de - 5% de vandalisme se tient à peu près. 


 



Pierrot le Chroniqueur 04/05/2011 12:35



Question : ta liste de suivi étant essentiellement jansénistophile, comment des IP peuvent-ils savoir que ça existe (sauf à supposer une contre-attaque jésuitophile ?).



argos 04/05/2011 00:32



De rien, merci à toi pour le support et la mise en forme.


Si tu vas sur les stats de Gribeco, il y a un graphique qui montre combien de temps un vandalisme reste en place : http://toolserver.org/~gribeco/delai.png


Je cite "Ainsi, 50% des révocations se font en moins de deux minutes, et 90% en moins d'un jour." Donc sur mes données basées sur une observation de 8-9 jours, on peut considérer que 90% des
reverts ont été effectués (un vrai matheux me contredira surement).


Je pense qu'il serait assez facile de rajouter un petit module dans LiveRC pour donner des stats au patrouilleur : "nombre de modifs IP vérifiées, nombre de modif IP annulées". Si quelqu'un veut
vérifier in situ l'ordre de grandeur.


 



Pierrot le Chroniqueur 04/05/2011 12:34



Pas de quoi (malgré le manque de graphiques).



Pierrot le Chroniqueur 03/05/2011 23:55



Merci beaucoup pour ton billet et ton travail.  J'avoue être surpris par le taux, assez faible, de modifications
d'IPs revertées. Est-ce que les IPs ne sont pas globalement des vandales, ou est-ce que beaucoup de vandalismes passent au travers ? Ces statistiques ne permettent pas d'y répondre, évidemment,
mais elles sont une très bonne base pour analyse. Je pense que je ferai dans les prochains jours un billet pour les commenter.