Moderator Tools/Automoderator/Testing/nl

This page is a translated version of the page Moderator Tools/Automoderator/Testing and the translation is 100% complete.

Om gemeenschappen te helpen de nauwkeurigheid van Automoderator te testen en te evalueren, stellen we een testspreadsheet beschikbaar met gegevens over eerdere bewerkingen en of Automoderator deze zou hebben teruggedraaid of niet.

De beslissingen van Automoderator zijn het gevolg van een mix van een machine learning model score en interne instellingen. Hoewel het model met de tijd beter zal worden door ervaring en leren, willen we ook de nauwkeurigheid verbeteren door een aantal extra interne regels te definiëren. We hebben bijvoorbeeld gezien dat Automoderator gebruikers misidentificeert als vandalisme als die gebruikers hun eigen bewerkingen terugdraaien. Om te verbeteren, zoeken we vergelijkbare voorbeelden en we waarderen uw hulp bij het identificeren daarvan.

Let op dat deze test niet noodzakelijkerwijs de definitieve vorm van Automoderator weerspiegelt - we zullen de resultaten van deze test gebruiken om het beter te maken!

Het testen van Automoderator

Als u een Google-account heeft:
1. Gebruik de onderstaande link 'Google Sheet' en maak er een kopie van
  - U kunt dit doen door te klikken op Bestand > Een kopie maken... na het openen van de link.
2. Nadat uw kopie is geladen, klikt u op Delen in de bovenste hoek, en geeft u dan toegang tot swaltonwikimedia.org (laat 'Notify' aangevinkt), zodat we uw antwoorden kunnen aggregeren om gegevens te verzamelen over de juistheid van Automoderator.
  - U kunt ook de 'Algemene toegang' wijzigen in 'Iedereen met de link' en een link rechtstreeks of op de wiki met ons delen.
U kunt ook de link naar het .ods bestand gebruiken om het bestand naar uw computer te downloaden.
- Stuur ons na het invullen het bestand terug op swaltonwikimedia.org, zodat we uw antwoorden kunnen aggregeren om gegevens te verzamelen over de nauwkeurigheid van Automoderator.

Na toegang tot het spreadsheet...

Volg de instructies in het blad om een willekeurige dataset te selecteren, 30 bewerkingen te bekijken en ontdek vervolgens welke beslissingen Automoderator zou nemen voor elke bewerking.
- Voel u vrij om de volledige gegevens te verkennen in het tabblad 'Edit data & scores'.
- Als u een andere dataset wilt bekijken, moet u een nieuwe kopie van het blad maken om tegenstrijdige gegevens te voorkomen.
Discussieer mee op de overlegpagina.

Als alternatief kunt u gewoon in de individuele project tabbladen duiken en de gegevens direct onderzoeken.

Google Sheet .ods bestand (download)

Wij ontvangen graag vertalingen van dit blad - indien u een vertaling wilt indienen, kunt u een kopie maken, de teksten in het tabblad 'String translations' vertalen en deze terugsturen aan ons op swaltonwikimedia.org.

Als u wilt dat we gegevens van een andere Wikipedia toevoegen, laat het ons dan weten, we doen het graag.

Over Automoderator

Het model van Automoderator wordt uitsluitend opgeleid op de belangrijkste namespace pagina's van Wikipedia, waarbij de dataset wordt beperkt tot bewerkingen van Wikipedia-artikelen. Meer informatie vindt u hieronder:

Interne configuratie

In de huidige versie van het spreadsheet neemt Automoderator naar de modelscore kijkend, geen maatregelen tegen:

Bewerkingen gedaan door beheerders
Wijzigingen gedaan door bots
Wijzigingen die terugdraaiingen zijn door de bewerker zelf
Aanmaken nieuwe pagina's

De gegevenssets bevatten bewerkingen die aan deze criteria voldoen, maar Automoderator mag nooit zeggen dat het deze zal terugdraaien. Dit gedrag en de bovenstaande lijst zullen worden bijgewerkt naarmate de tests vorderen als we nieuwe uitsluitingen of configuratie toevoegen.

Voorzichtigheid

In deze test heeft Automoderator vijf 'voorzichtigheidsniveaus', die de probabiliteitsdrempel definiëren boven welke Automoderator een bewerking zal terugdraaien.

Automoderator moet zeer zelfverzekerd zijn om een bewerking terug te draaien. Dit betekent dat het minder bewerkingen in het algemeen ongedaan zal maken, maar dit met een hogere nauwkeurigheid gebeurt.

Bij lage voorzichtigheid zal Automoderator minder streng zijn met betrekking tot zijn vertrouwensniveau. Het zal meer bewerkingen terugdraaien, maar het zal minder nauwkeurig zijn.

De voorzichtigheidsniveaus in deze test zijn vastgesteld door het team van Moderator Tools op basis van onze waarnemingen van de nauwkeurigheid en dekking van de modellen. Voor een illustratie van het aantal keren terugdraaien dat bij verschillende waarschuwingsniveaus wordt verwacht, zie hieronder:


	Dagelijkse bewerkingen	Dagelijkse aantal terugdraai acties	Gemiddelde aantal keer terugdraaien door Automoderator per dag
	Dagelijkse bewerkingen	Dagelijkse aantal terugdraai acties	Heel voorzichtig . >0,99	Voorzichtig >0,985	Beetje voorzichtig . >0,98	Minder voorzichtig >0,975	Niet voorzichtig >0,97
Engelstalige Wikipedia	140.000	14.600	152	350	680	1.077	1.509
Franstalige Wikipedia	23.200	1.400	24	40	66	98	136
Duitse Wikipedia	23.000	1.670	14	25	43	65	89
Spaanstalige Wikipedia	18.500	3.100	57	118	215	327	445
Russische Wikipedia	16.500	2.000	34	57	88	128	175
Japanse Wikipedia	14.500	1.000	27	37	48	61	79
Chinese Wikipedia	13.600	890	9	16	25	37	53
Italiaanse Wikipedia	13.400	1.600	40	61	99	151	211
Poolse Wikipedia	5.900	530	10	16	25	35	45
Portugese Wikipedia	5.700	440	2	7	14	21	30
Hebreeuwse Wikipedia	5.400	710	16	22	30	38	48
Perzische Wikipedia	5.200	900	13	26	44	67	92
Koreaanse Wikipedia	4.300	430	12	17	23	30	39
Indonesische Wikipedia	3.900	340	7	11	18	29	42
Turkse Wikipedia	3.800	510	4	7	12	17	24
Arabische Wikipedia	3.600	670	8	12	18	24	31
Tjechische Wikipedia	2.800	250	5	8	11	15	20
Roemeense Wikipedia	1.300	110	2	2	4	6	9
Kroatische Wikipedia	500	50	1	2	2	3	4
...	...	...	...	...	...	...	...
Alle Wikipedia projecten			538	984	1.683	2.533	3.483

Deze gegevens kunnen worden bekeken voor andere Wikimedia-projecten hier.

Score van een bepaalde bewerking

We hebben een eenvoudig gebruikersscript gemaakt om de kans op terugdraaien van een bepaalde bewerking op te vragen. Importeer gewoon User:JSherman (WMF)/revertrisk.js in uw commons.js met mw.loader.load( 'https://en.wikipedia.org/wiki/User:JSherman_(WMF)/revertrisk.js?action=raw&ctype=text/javascript' );

U moet dan een 'Get revert risk score' zien staan in het menu Hulpmiddelen in de zijbalk. Let op dat dit alleen de modelscore weergeeft en niet rekening houdt met de interne configuraties van Automoderator zoals hierboven beschreven. Zie bovenstaande tabel voor de scores boven welke we de vals positieve snelheid van Automoderator onderzoeken.

Eerste resultaten

Kwantitatief

We hebben 22 spreadsheets om te testen terugontvangen, er waren meer dan 600 bewerkingen van 6 Wikimedia-projecten beoordeeld. We hebben de gegevens samengevoegd om te analyseren hoe nauwkeurig Automoderator zou zijn op verschillende waarschuwingsniveaus:

Niet voorzichtig (0.97)	Minder voorzichtig (0.975)	Beetje voorzichtig . (0.98)	Voorzichtig (0.985)	Heel voorzichtig . (0.99)
75%	82%	93%	95%	100%

In onze Moderator Tools/Automoderator/Measurement plan/nl zeiden we dat we wilden dat de meest tolerante optie waarop Automoderator kon worden ingesteld een nauwkeurigheid van 90% zou hebben. De niveaus 'Niet voorzichtig' en 'Minder voorzichtig' liggen hier duidelijk onder, wat niet verrassend is omdat we geen duidelijke gegevens hadden om deze eerste drempels te selecteren. We zullen de drempel 'Niet voorzichtig' verwijderen, omdat een foutcijfer van 25% duidelijk te laag is voor gemeenschappen. We zullen voorlopig 'Minder voorzichtig' behouden en monitoren hoe de nauwkeurigheid verandert naarmate er verbeteringen in het model en de Automoderator plaatsvinden. We willen het zekere voor het onzekere nemen als Automoderator slechte bewerkingen niet verwijdert, dus dit is een prioriteit voor ons om door te gaan met beoordelen.

Als we de echte nauwkeurigheid van de gegevens van de pilot van Automoderator hebben, kunnen we dit verder onderzoeken en de beschikbare drempels verder veranderen.

Kwalitatief

Op deze overlegpagina en elders ontvingen we ook kwalitatieve gedachten van patrollers.

De algemene feedback over de nauwkeurigheid van Automoderator was positief, waarbij redacteuren zich op verschillende drempels comfortabel voelden, waaronder sommige aan het onderkant van de schaal.

Sommige redacteurs hebben hun zorgen geuit over het aantal bewerkingen dat Automoderator zou terugdraaien relatief laag is. Dit is iets waar we verder over zullen praten met de gemeenschappen. Uit onze analyse (T341857#9054727) ontdekten we dat Automoderator zou werken met een enigszins vergelijkbare capaciteit als bestaande anti-vandalismebots die door vrijwilligers zijn ontwikkeld, maar we zullen doorgaan met het onderzoeken van manieren om de dekking van Automoderator te vergroten en tegelijkertijd valse positieven te minimaliseren.

Volgende stappen

Op basis van de bovenstaande resultaten hebben we vertrouwen in de nauwkeurigheid van het model en zijn we van plan ons werk aan Automoderator voort te zetten. We gaan nu aan de slag met het technische werk aan de software, terwijl we de ontwerpen voor de gebruikersinterface bekijken. We verwachten dat de volgende update die we delen configuratie van wireframes voor feedback zal bevatten.

Voel u zich in de tussentijd vrij om Automoderator via het bovenstaande proces te blijven testen. Meer gegevens en inzichten zullen een positieve impact blijven hebben op dit project.