MinT
MinT (Machine in Translation) is een machine vertaaldienst gebaseerd op open source neurale machine vertaalmodellen. De dienst wordt gehost in de infrastructuur van de Wikimedia Foundation en draait vertaalmodellen die zijn vrijgegeven door andere organisaties onder een open source-licentie. Een open machine vertalingsdienst kan een belangrijke onderdeel zijn van de essentiële infrastructuur van het ecosysteem van vrije kennis. Deze pagina bevat de initiatieven om de schaalbaarheid van de dienst te vergroten en deze infrastructuur breder beschikbaar te maken.
U kunt MinT proberen via projecten zoals Inhoud Vertaling en translatewiki.net, of direct in een testomgeving.
Overview of MinT initiatives
Machine translation can be useful in different contexts. As more products make use of MinT for different purposes, it is useful to differentiate those different contexts. In this way, when users report a bug it is more clear where it needs to be fixed.
- MinT Service. The backend service running open-source neural machine translation models.
- MinT test instance. A basic interface to try the different translation models.
- MinT for Translators. Initiative to integrate the MinT Service with tools that support other machine translaiton services such as Content Translation and the Translate Extension.
- MinT Client for Content Translation. Client exposing the MinT Service as one of the machine translation services available in Content Translation.
- MinT Client for Translate extension. Client exposing the MinT Service as one of the machine translation services available in the Translate extension.
- MinT for Wiki Readers. Product to enable readers to use machine translation to read contents from other languages on a wiki.
You can read more below about each of the MinT initiatives.
Doe mee
U kunt terugkoppeling delen op de overlegpagina. Geplande verbeteringen worden vastgelegd in Phabricator (meer informatie), waar u problemen kunt melden, voorstellen voor uitbreidingen kunt doen, de vorderingen van elke taak kunt volgen en uw perspectief erover kunt delen. Voor het afgeronde werk kunt u hier onder de voortgang volgen.
MinT Service
De service MinT is ontworpen om vertalingen van meerdere machinevertalingsmodellen aan te bieden. Er wordt gebruik gemaakt van de volgende modellen:
- NLLB-200. Het laatste model van het project No Language Left Behind van een onderzoeksteam bij Meta. Dit model ondersteunt vertaling in 200 talen, waaronder veel die niet door andere leveranciers worden ondersteund.
- OpusMT.. Het project OPUS (Open Parallel Corpus) van de Universiteit van Helsinki maakt meertalige inhoud beschikbaar, samen met een gratis licentie om de OpusMT-vertaalmodellen te trainen. Iedereen kan gemakkelijk bijdragen aan de verbetering van de vertaalkwaliteit door deel te nemen aan de verschillende projecten die gegevens bijwerken voor OPUS. Bijvoorbeeld, wanneer u Content translation gebruikt om vertalingen van Wikipedia-artikelen te maken, wordt de data over gepubliceerde vertalingen opgenomen als een nieuwe bron om de vertalingskwaliteit voor de volgende versie van het model te verbeteren. Een andere snelle manier om bij te dragen is door met Tatoeba zinnenvertalingen te verstrekken.
- IndicTrans2. Het IndicTrans2 project biedt vertaalmodellen aan voor meer dan 20 Indo-Arische talen. Deze modellen zijn ontwikkeld door AI4Bharat@IIT Madras, een onderzoeksgroep van het Indian Institute of Technology Madras.
- Softcatalà. Softcatalà is een non-profit organisatie die zich richt op het verbeteren van het gebruik van het Catalaans in digitale producten. Als onderdeel van het Softcatalà Translation project zijn vertaalmodellen beschikbaar die in hun vertaaldienst worden gebruikt om 10 talen naar en van het Catalaans te vertalen.
- MADLAD-400. MADLAD-400 is a multilingual machine translation model by Google Research that supports 419 languages.
MinT ondersteunt meer dan 200 talen, met meer dan 70 talen die niet worden ondersteund door andere diensten (waaronder 27 talen waarvoor nog geen Wikipedia is). U kunt meer lezen over de eerste release van MinT en de lijst met veelgestelde vragen bekijken op de samenvattingspagina.
Technische details
De vertalingsmodellen zijn geoptimaliseerd voor prestaties met behulp van de OpenNMT Ctranslate2 bibliotheek om de behoefte aan GPU-versnelling te vermijden. Dit maakt het voor organisaties en individuen gemakkelijker om hun eigen instanties op te bouwen en te draaien. Voor meer details kunt u de bekijken:
MinT biedt een platform om meerdere vertaalmodellen uit te voeren. Om verschillende initiatieven te ondersteunen, zijn aspecten zoals zinsegmentatie, taalherkenning, voor- en na-verwerking van inhoud en ondersteuning voor opgemaakte inhoud bovenop de modellen gebaseerd op platte tekst, ontwikkeld.
Test instance
The MinT test instance is a basic interface to try the different translation models. It allow to translate contents across the selected language pairs and select the preferred translation model when multiple are available. This allows different communities to check how well the models support their language. This instance is intended for testing, so performance and availability may be reduced compared to other MinT-based products. You can check the availability status of the MinT test instance.
MinT voor vertalers
Vertaling is een veel voorkomende manier om bij te dragen aan het Wikimedia-ecosysteem voor meertalige gebruikers. Machinevertaling kan een nuttige eerste vertaling bieden voor vertalers om te bekijken en te verbeteren. Het taalteam heeft hulpmiddelen ontwikkeld om vertalingen in hun werkstromen te ondersteunen die verschillende machinevertalingsdiensten kunnen integreren om hun processen te versnellen. Zodra MinT beschikbaar was, was de integratie ervan met deze hulpmiddelen een logische volgende stap om hun impact te versterken. MinT is beschikbaar in de volgende projecten:
- Content Translation. Content Translation biedt begeleiding om een vertaling van een Wikipedia-artikel in een andere taal te maken. Content Translation integreert verschillende vertaaldiensten om een eerste vertaling te leveren. You can check which languages supported by MinT are available in Content Translation
- Localisatie-infrastructuur. De extensie Translate biedt de infrastructuur die wordt gebruikt om onze software en meertalige pagina's te vertalen. De meeste vertalers gebruiken het op Translatewiki.net, Wikimedia Meta-wiki, MediaWiki.org en op andere plaatsen.
MinT voor wiki-lezers
Het aantal onderwerpen en de hoeveelheid informatie die een lezer kan leren van Wikipedia en andere wiki's, hangt af van de talen die de lezer beheerst. Machinevertaling kan mensen helpen meer te lezen over voor hun van belang zijnde onderwerpen wanneer dat artikel niet in hun taal beschikbaar is.
Dit initiatief onderzoekt hoe de machinevertalingsondersteuning van MinT in Wikipedia-artikelen op een manier te worden opgevoerd die:
- Lezers in staat stellen meer te lezen over hun onderwerpen in andere talen.
- Er is duidelijk een verschil tussen automatisch gegenereerde inhoud en door de gemeenschap gemaakte inhoud.
- Moedigt aan om bij te dragen aan (en te lezen van) door de gemeenschap gecreëerde inhoud waar mogelijk.
Op dit moment werkt het taalteam aan de eerste implementaties voor dit initiatief op basis van het onderzoek en de ontwerpen. Lessen op basis van gegevens en input van de gemeenschap zullen de volgende stappen voor het initiatief bepalen.
MinT breder beschikbaar
De werkzaamheden op de voorgaande initiatieven zullen bijdragen tot het verfijnen en versterken van het systeem. Voorlopig is de MinT API alleen beschikbaar voor Wikimedia-producten. Als het systeem klaar is, overwegen we een bredere beschikbaarheid. Het leveren van een service die op innovatieve manieren door een gemeenschap kan worden gebruikt, kan een zeer krachtig hulpmiddel zijn. In de toekomst zullen nieuwe initiatieven worden opgenomen om MinT breder beschikbaar te maken. In de tussentijd kunt u uw eigen MinT-instantie configureren om er mee te experimenteren.
Disclaimer
- Accuracy of MinT’s Translations: The accuracy of translations generated by MinT may vary. Translations may not be entirely accurate or may not always convey the intended meaning or context of the original content. Wikimedia makes no representations or warranties regarding the accuracy or adequacy of the automatically translated content.
- Limitation of Liability: Wikimedia, its affiliates, and employees are not liable for any direct, indirect, incidental, punitive, or consequential damages, including but not limited to damages for goodwill, use, data, or any other intangible losses arising out of or in connection with the use of MinT or translations generated with MinT.
- Creative Commons Compliance: Translations generated with MinT are considered derivative works under the applicable Creative Commons license governing the original content. Users shall comply with the terms of the applicable Creative Commons license when using translated content.
- Terms of Use and Privacy Policy: Use of MinT is subject to Wikimedia's Terms of Use and Privacy Policy.
Status updates
februari 2024
- Aangepaste vertaallimieten voor Punjabi na verzoek van de gemeenschap om ze minder streng te maken vanwege de verbeterde kwaliteit van de machinevertaling.
- Het onderzoek naar MinT voor Wikipedia-lezers is afgerond. Twee rapporten zijn gepubliceerd op de onderzoekspagina
- multi-model ondersteuning voor de MinT test-instantie. Het is mogelijk om een bepaalde gemeenschap meerdere vertaalmodellen te laten proberen, dit om de kwaliteit te evalueren om te bepalen welke het beste werkt.
januari 2024
- Infrastructuur updates om te profiteren van nieuwere Python-versies.
december 2023
- Er is een nieuwe, grotere instantie gemaakt voor de MinT. Het geheugenquotum is verhoogd om tegemoet te komen aan de behoeften van MinT naarmate het gebruik en de beschikbare modellen toenemen.
- Op basis van de input uit het eerste onderzoek zijn nieuwe ontwerpconcepten gemaakt voor het laten gebruiken van MinT door Wikipedia-lezers op basis van de input van het eerste onderzoek. De meertalige prototypes zijn bijgewerkt om in de volgende onderzoeksronde te leren van de nieuwe concepten.
- Tonen van MinT in de extensie aangepast naar vermijd het tonen van vertaalsuggesties voor inhoud met wikitext opmaak
november 2023
- Better wikitext support by improving error handling when MinT processes wikitext.
- Completed Research plan is complete and started research sessions.
- Explored New advanced API for sentence segmentation to support needs for EditCheck use case and others.
- Improved responsiveness of the MinT test instance by avoiding some translation requests to get stuck.
- MinT was set as the default translation service in Content Translation for Kurdish (ku) and Sesotho (st), languages where it is optional but frequently used.
- A new larger instance has been created for the MinT. Memory quota has been increased to accommodate the needs for MinT as the usage and models available increase.
- New design concepts for exposing MinT to Wikipedia readers have been created based on input from the initial round of research.
- Published report analyzing usage of machine translation services
oktober 2023
- MinT is now supported in Content Translation for Fon, a Wikipedia that graduated recently from incubator.
- Announced sentencex library: sentencex: Empowering NLP with Multilingual Sentence Extraction - A python and js library to meet the needs of sentence segmentation for all the languages we support.
- Proposed model card for language identification as part of the creation of a LiftWing service to provide those capabilities for MinT and others.
- The new sentence segmentation approach has been exposed in Content and Section Translation to validate it with real contents. Resolved community-reported issues such as the problems translating court cases.
- MinT test instance provides consistent language names with Wikipedia by using Wikipedia APIs instead of the limited browser localization capabilities.
- Launched the Language Identification service to automatically detect in which language is written a given text. The service supports the detection of 201 languages, and anyone can access the API to use the service or read the model card for more details. Machine Learning team completed the last checks after deploying to LiftWing and evaluating that the service can "easily withstand a high amount of traffic".
- Basic support for rich text translation by supporting transferring of markup to apply styling such as words in bold from the source text into the equivalent ones in the machine translation (which lacks format since translation models operate with plain-text).
- Completed the process to enable MinT for languages with no Wikipedia yet . Translation models in MinT support 25 languages for which there is no Wikipedia. These can be tested in MinT's test instance for speakers of those languages to assess quality, and ensures that translation tools are well-equipped once wikis are created for those languages (as it has been the case with the recent graduation of Fon Wikipedia out of incubator).
- Completed the process to enable MinT for closely-related languages based on Community input . For some languages where machine translation is not available, Wikipedia editors have asked to have access to machine translation in Content Translation using a related language instead of having no support at all. With this enablement translators of Gan (gan) Wikipedia will have machine translation based on the traditional script variant of Chinese as a starting point.
- Analysis of translation activity on 55 languages for which MinT provides machine translation for the first time shows how (a) translations have increased 2X since MinT is available, and (b) deletion rates have not increased. Activity levels for these 55 wikis changed from ~500 translations/month, to 1K+ translations/month after MinT was enabled. For example, a recent peak of 2.15K translations were published in August 2023 when MinT was available for those languages, which is a significant increase from 225 translations in August 2022 when MinT was not available for them.
- Better visibility of translation quality by including a tag in translations where unedited machine translation is close to the limits. This will facilitate analysis about translation quality and limits.
- Created prototypes for upcoming research illustrating 5 concepts on how MinT can be used by Wikipedia readers and supporting the 4 languages we will conduct research in: Hindi, Chattisgarhi, Awadhi, and Korean.
- Improvements for MinT to process more predictably contents with new lines in them.
september 2023
- Een voltooide initiële ontwerp exploratie om 5 concepten te illustreren hoe machine-vertaalde inhoud uit andere talen voor Wikipedia-artikelen eruit kan zien.
- Voltooid mogelijkheden van MinT in Content Translation voor Lingurian, waar de gemeenschap verdere verduidelijkingen over MinT verlangde, en de laatste set van 14 talen die met het NLLB-200-model ondersteund konden worden.
- De MinT voor vertaalbare pagina's is ingeschakeld op de test wiki
- Uitgebreid gebruik van MinT voor Content Translation mobiele en desktop ervaringen als standaard in 7 ondersteunde talen (Cherokee, Tongaans, Hongaars, Kazachs, Kirgizisch, Minangkabau en Sardijns).
- De validatie voltooid voor alle talen die worden ondersteund door de vertaalmodellen die door MinT worden gebruikt als onderdeel van de uiteindelijke QA voor het inschakelen van de nieuwe vertaalservice.
- Santhosh gepresenteerd op de 10e workshop over Aziatische vertaling benadrukte de noodzaak van machinevertaling om universeel, gratis en beschikbaar te zijn in meer talen. Een bericht goed ontvangen door de deelnemers.
- De onderzoeksplanning begon met een eerste versie van de onderzoeksopdracht voor MinT op Wikipedia
- Voortdurende technische verkenningen voor het toepassen van machinevertaling buiten platte tekst (wat onderliggende modellen bieden) om de Wikipedia-context te ondersteunen: een nieuwe verbeterde aanpak voor zinssegmentatie (met een demopagina om te proberen) die een nauwkeurigere manier biedt om te identificeren wanneer een zin eindigt in verschillende talen, en met een voorkeur om splitsing in geval van twijfel te voorkomen (bij voorkeur in de context van machinevertaling om fragmentatie van de context van een vertaling te voorkomen, bijvoorbeeld het verkeerd interpreteren van de punt van een afkorting als een fullstop).
augustus 2023
- Succesvolle niet-exploratie voor het gebruik van MinT om gestructureerde formaten te vertalen zoals HTML, SVG en markdown.
- Voltooid, het verwijderen van Youdao, een externe vertaaldienst die al lang niet werkte.
- Op basis van nieuwe en bijgewerkte werkstromen het geven van feedback.
- Talen geïdentificeerd die het meeste kunnen profiteren van nieuwe OpusMT-modellen.
- Voor Zulu is MinT de standaard vertaalservice gemaakt voor Content Translation
juli 2023
- Machine vertaling met MinT (en communiceren met gemeenschappen) is ingeschakeld voor 75 nieuwe talen: 62 talen waar de mobiele vertalingservaring beschikbaar is, en 13 talen waar de vertalingskwaliteit van andere diensten misschien niet ideaal is op basis van het MT-gebruikersrapport gegevens en / of feedback van de gemeenschap.
̈* Validering van eerdere mogelijkheden: er zijn problemen geïdentificeerd met Bhojpuri en met Lets waar MinT niet beschikbaar was vanwege ongelijke taalcodes die worden gebruikt in Wikipedia, MinT en de onderliggende vertaalmodellen.
- Initiële ontwerpprocessen en prototypes over manieren om MinT in Wikipedia te integreren
- Verbeterde naverwerking van de Mint-vertaling om talen met behulp van het Arabische script beter te ondersteunen door extra stappen na fullstops te vermijden.
- Voltooide integratie van het IndicTrans2-model door het inschakelen van alle 23 ondersteunde talen te verifiëren.
- Initiële analyse van activiteit voor Wikipedia-gemeenschappen die voor het eerst worden ondersteund met MinT om potentiële pilot-wiki's te identificeren voor toekomstig onderzoek en als vroege adopters.
- Enabilisatie van MinT op translatewiki.net voor gebruik in de lokalisatie van Wikimedia en andere open projecten.