Jump to content

Moderator Tools/Automoderator/Testing/nl

From mediawiki.org
This page is a translated version of the page Moderator Tools/Automoderator/Testing and the translation is 100% complete.
Diagram met het besluitvormingsproces van Automoderator

Om gemeenschappen te helpen de nauwkeurigheid van Automoderator te testen en te evalueren, stellen we een testspreadsheet beschikbaar met gegevens over eerdere bewerkingen en of Automoderator deze zou hebben teruggedraaid of niet.

De beslissingen van Automoderator zijn het gevolg van een mix van een machine learning model score en interne instellingen. Hoewel het model met de tijd beter zal worden door ervaring en leren, willen we ook de nauwkeurigheid verbeteren door een aantal extra interne regels te definiëren. We hebben bijvoorbeeld gezien dat Automoderator gebruikers misidentificeert als vandalisme als die gebruikers hun eigen bewerkingen terugdraaien. Om te verbeteren, zoeken we vergelijkbare voorbeelden en we waarderen uw hulp bij het identificeren daarvan.

Let op dat deze test niet noodzakelijkerwijs de definitieve vorm van Automoderator weerspiegelt - we zullen de resultaten van deze test gebruiken om het beter te maken!

Het testen van Automoderator

Schermafdruk van het spreadsheet, met voorbeelden van antwoorden ingevuld.
  • Als u een Google-account heeft:
    1. Gebruik de onderstaande link 'Google Sheet' en maak er een kopie van
      • U kunt dit doen door te klikken op Bestand > Een kopie maken... na het openen van de link.
    2. Nadat uw kopie is geladen, klikt u op Delen in de bovenste hoek, en geeft u dan toegang tot swalton@wikimedia.org (laat 'Notify' aangevinkt), zodat we uw antwoorden kunnen aggregeren om gegevens te verzamelen over de juistheid van Automoderator.
      • U kunt ook de 'Algemene toegang' wijzigen in 'Iedereen met de link' en een link rechtstreeks of op de wiki met ons delen.
  • U kunt ook de link naar het .ods bestand gebruiken om het bestand naar uw computer te downloaden.
    • Stuur ons na het invullen het bestand terug op swalton@wikimedia.org, zodat we uw antwoorden kunnen aggregeren om gegevens te verzamelen over de nauwkeurigheid van Automoderator.

Na toegang tot het spreadsheet...

  1. Volg de instructies in het blad om een willekeurige dataset te selecteren, 30 bewerkingen te bekijken en ontdek vervolgens welke beslissingen Automoderator zou nemen voor elke bewerking.
    • Voel u vrij om de volledige gegevens te verkennen in het tabblad 'Edit data & scores'.
    • Als u een andere dataset wilt bekijken, moet u een nieuwe kopie van het blad maken om tegenstrijdige gegevens te voorkomen.
  2. Discussieer mee op de overlegpagina.

Als alternatief kunt u gewoon in de individuele project tabbladen duiken en de gegevens direct onderzoeken.


Wij ontvangen graag vertalingen van dit blad - indien u een vertaling wilt indienen, kunt u een kopie maken, de teksten in het tabblad 'String translations' vertalen en deze terugsturen aan ons op swalton@wikimedia.org.

Als u wilt dat we gegevens van een andere Wikipedia toevoegen, laat het ons dan weten, we doen het graag.

Over Automoderator

Het model van Automoderator wordt uitsluitend opgeleid op de belangrijkste namespace pagina's van Wikipedia, waarbij de dataset wordt beperkt tot bewerkingen van Wikipedia-artikelen. Meer informatie vindt u hieronder:

Interne configuratie

In de huidige versie van het spreadsheet neemt Automoderator naar de modelscore kijkend, geen maatregelen tegen:

  • Bewerkingen gedaan door beheerders
  • Wijzigingen gedaan door bots
  • Wijzigingen die terugdraaiingen zijn door de bewerker zelf
  • Aanmaken nieuwe pagina's

De gegevenssets bevatten bewerkingen die aan deze criteria voldoen, maar Automoderator mag nooit zeggen dat het deze zal terugdraaien. Dit gedrag en de bovenstaande lijst zullen worden bijgewerkt naarmate de tests vorderen als we nieuwe uitsluitingen of configuratie toevoegen.

Voorzichtigheid

In deze test heeft Automoderator vijf 'voorzichtigheidsniveaus', die de probabiliteitsdrempel definiëren boven welke Automoderator een bewerking zal terugdraaien.

  • Automoderator moet zeer zelfverzekerd zijn om een bewerking terug te draaien. Dit betekent dat het minder bewerkingen in het algemeen ongedaan zal maken, maar dit met een hogere nauwkeurigheid gebeurt.
  • Bij lage voorzichtigheid zal Automoderator minder streng zijn met betrekking tot zijn vertrouwensniveau. Het zal meer bewerkingen terugdraaien, maar het zal minder nauwkeurig zijn.

De voorzichtigheidsniveaus in deze test zijn vastgesteld door het team van Moderator Tools op basis van onze waarnemingen van de nauwkeurigheid en dekking van de modellen. Voor een illustratie van het aantal keren terugdraaien dat bij verschillende waarschuwingsniveaus wordt verwacht, zie hieronder:

Dagelijkse bewerkingen Dagelijkse aantal terugdraai acties Gemiddelde aantal keer terugdraaien door Automoderator per dag
Heel voorzichtig .

>0,99

Voorzichtig

>0,985

Beetje voorzichtig .

>0,98

Minder voorzichtig

>0,975

Niet voorzichtig

>0,97

Engelstalige Wikipedia 140.000 14.600 152 350 680 1.077 1.509
Franstalige Wikipedia 23.200 1.400 24 40 66 98 136
Duitse Wikipedia 23.000 1.670 14 25 43 65 89
Spaanstalige Wikipedia 18.500 3.100 57 118 215 327 445
Russische Wikipedia 16.500 2.000 34 57 88 128 175
Japanse Wikipedia 14.500 1.000 27 37 48 61 79
Chinese Wikipedia 13.600 890 9 16 25 37 53
Italiaanse Wikipedia 13.400 1.600 40 61 99 151 211
Poolse Wikipedia 5.900 530 10 16 25 35 45
Portugese Wikipedia 5.700 440 2 7 14 21 30
Hebreeuwse Wikipedia 5.400 710 16 22 30 38 48
Perzische Wikipedia 5.200 900 13 26 44 67 92
Koreaanse Wikipedia 4.300 430 12 17 23 30 39
Indonesische Wikipedia 3.900 340 7 11 18 29 42
Turkse Wikipedia 3.800 510 4 7 12 17 24
Arabische Wikipedia 3.600 670 8 12 18 24 31
Tjechische Wikipedia 2.800 250 5 8 11 15 20
Roemeense Wikipedia 1.300 110 2 2 4 6 9
Kroatische Wikipedia 500 50 1 2 2 3 4
... ... ... ... ... ... ... ...
Alle Wikipedia projecten 538 984 1.683 2.533 3.483

Deze gegevens kunnen worden bekeken voor andere Wikimedia-projecten hier.

Score van een bepaalde bewerking

Als u dit gebruikers script invoert, krijgt u in het menu Hulpmiddelen een knop om de kans op terugdraaien van een bepaalde bewerking op te vragen.

We hebben een eenvoudig gebruikersscript gemaakt om de kans op terugdraaien van een bepaalde bewerking op te vragen. Importeer gewoon User:JSherman (WMF)/revertrisk.js in uw commons.js met mw.loader.load( 'https://en.wikipedia.org/wiki/User:JSherman_(WMF)/revertrisk.js?action=raw&ctype=text/javascript' );

U moet dan een 'Get revert risk score' zien staan in het menu Hulpmiddelen in de zijbalk. Let op dat dit alleen de modelscore weergeeft en niet rekening houdt met de interne configuraties van Automoderator zoals hierboven beschreven. Zie bovenstaande tabel voor de scores boven welke we de vals positieve snelheid van Automoderator onderzoeken.

Eerste resultaten

Kwantitatief

We hebben 22 spreadsheets om te testen terugontvangen, er waren meer dan 600 bewerkingen van 6 Wikimedia-projecten beoordeeld. We hebben de gegevens samengevoegd om te analyseren hoe nauwkeurig Automoderator zou zijn op verschillende waarschuwingsniveaus:

Niet voorzichtig (0.97) Minder voorzichtig (0.975) Beetje voorzichtig . (0.98) Voorzichtig (0.985) Heel voorzichtig . (0.99)
75% 82% 93% 95% 100%

In onze Moderator Tools/Automoderator/Measurement plan/nl zeiden we dat we wilden dat de meest tolerante optie waarop Automoderator kon worden ingesteld een nauwkeurigheid van 90% zou hebben. De niveaus 'Niet voorzichtig' en 'Minder voorzichtig' liggen hier duidelijk onder, wat niet verrassend is omdat we geen duidelijke gegevens hadden om deze eerste drempels te selecteren. We zullen de drempel 'Niet voorzichtig' verwijderen, omdat een foutcijfer van 25% duidelijk te laag is voor gemeenschappen. We zullen voorlopig 'Minder voorzichtig' behouden en monitoren hoe de nauwkeurigheid verandert naarmate er verbeteringen in het model en de Automoderator plaatsvinden. We willen het zekere voor het onzekere nemen als Automoderator slechte bewerkingen niet verwijdert, dus dit is een prioriteit voor ons om door te gaan met beoordelen.

Als we de echte nauwkeurigheid van de gegevens van de pilot van Automoderator hebben, kunnen we dit verder onderzoeken en de beschikbare drempels verder veranderen.

Kwalitatief

Op deze overlegpagina en elders ontvingen we ook kwalitatieve gedachten van patrollers.

De algemene feedback over de nauwkeurigheid van Automoderator was positief, waarbij redacteuren zich op verschillende drempels comfortabel voelden, waaronder sommige aan het onderkant van de schaal.

Sommige redacteurs hebben hun zorgen geuit over het aantal bewerkingen dat Automoderator zou terugdraaien relatief laag is. Dit is iets waar we verder over zullen praten met de gemeenschappen. Uit onze analyse (T341857#9054727) ontdekten we dat Automoderator zou werken met een enigszins vergelijkbare capaciteit als bestaande anti-vandalismebots die door vrijwilligers zijn ontwikkeld, maar we zullen doorgaan met het onderzoeken van manieren om de dekking van Automoderator te vergroten en tegelijkertijd valse positieven te minimaliseren.

Volgende stappen

Op basis van de bovenstaande resultaten hebben we vertrouwen in de nauwkeurigheid van het model en zijn we van plan ons werk aan Automoderator voort te zetten. We gaan nu aan de slag met het technische werk aan de software, terwijl we de ontwerpen voor de gebruikersinterface bekijken. We verwachten dat de volgende update die we delen configuratie van wireframes voor feedback zal bevatten.

Voel u zich in de tussentijd vrij om Automoderator via het bovenstaande proces te blijven testen. Meer gegevens en inzichten zullen een positieve impact blijven hebben op dit project.