MinT
MinT (Machine in Translation - „Překladatelský nástroj”) je služba, založená na open-source neurálních překladatelských modelech, která překladatelům nabízí strojový překlad. Je hostována v rámci infrastruktury Wikimedia Foundation a pracuje překlady, které vyprodukovaly jiné organizace pod některou z otevřených open source licencí. Strojový překlad, který staví na textech bez licenčního omezení, tak může být klíčovým prvkem základní infrastruktury ekosystému pro svobodné šíření znalostí. Tato stránka zahrnuje iniciativy, které mají vést k rozšíření této služby a její infrastruktury tak, aby mohla být dostupná v nejširším měřítku.
MinT je už součástí různých projektů, jako např. Překlad obsahu (Content translation), či translatewiki.net, kde si můžete vyzkoušet jak se s ním pracuje. Ale také si ho můžete vyzkoušet přes testovací stránku.
Overview of MinT initiatives
Machine translation can be useful in different contexts. As more products make use of MinT for different purposes, it is useful to differentiate those different contexts. In this way, when users report a bug it is more clear where it needs to be fixed.
- MinT Service. The backend service running open-source neural machine translation models.
- MinT test instance. A basic interface to try the different translation models.
- MinT for Translators. Initiative to integrate the MinT Service with tools that support other machine translaiton services such as Content Translation and the Translate Extension.
- MinT Client for Content Translation. Client exposing the MinT Service as one of the machine translation services available in Content Translation.
- MinT Client for Translate extension. Client exposing the MinT Service as one of the machine translation services available in the Translate extension.
- MinT for Wiki Readers. Product to enable readers to use machine translation to read contents from other languages on a wiki.
You can read more below about each of the MinT initiatives.
Zapojte se
Neváhejte se podělit o jakoukoli zpětnou vazbu na stránce diskuze. Plánovaná vylepšení jsou zachycena ve Phabricatoru (více informací nejdete zde), můžete nahlásit špatné chování nebo navrhnout vylepšení funkcí, sledovat průběh jakéhokoli úkolu a sdílet svůj pohled na něj. Pro dokončenou práci můžete také zkontrolovat aktualizace stavu níže.
Služba MinT
Služba MinT je navržena tak, aby nabízela překlady, které jsou výsledkem zpracování několika modelů strojového překladu. V současné době používá následující modely:
- NLLB-200. Je nejnovější model strojového překladu. Jeho základem je [1] vývojářského týmu z Meta wiki. Tento model podporuje překládat texty mezi 200 jazyky, mezi nimiž je i řada jazyků, které nikdo jiný nepodporuje.
- OpusMT. Jeho základem se stal [2] univerzity v Helsinkách. Obsah multijazyčných stránek, publikovaných pod svobodnou licencí, se využívá ke trénování modelu OpusMT. Každý tak může snadno být nápomocen při zlepšování kvality překladu tím, že zpřístupní své projekty, a tak přispěje k dalšímu rozšíření databáze se kterou pracuje OPUS. Takovým způsobem se například využijí překlady článků Wikipedie, které se tak stanou novým zdrojem dat, co umožní zlepšit kvalitu překladu u následujících verzí tohoto modelu díky tomu, že do něj začlení data, založená na publikovaných překladech. Velice rychle a efektivně můžete přispět také tím, že nahrajete své překlady vět na server [3].
- IndicTrans2. Projekt IndicTrans2 nabízí modely, které podporují překlad mezi více než 20 jazyků, z těch co se jimi hovoří v Indii. Za jeho vývojem je výzkumná skupina AI4Bharat@IIT z Indian Institute of Technology v Madrase.
- Softcatalà. Je nezisková organizace, jejíž cílem je implementace katalánštiny do různých digitálních produktů. V rámci jejich projektu s názvem Softcatalà Translation, vytvořili překladové modely, které umožňují v rámci jejich překladatelské služby využívat překladu z a do katalánštiny pro dalších 10 jazyků.
- MADLAD-400. MADLAD-400 is a multilingual machine translation model by Google Research that supports 419 languages.
MinT podporuje více než 200 jazyků, včetně více než 70 jazyků, které žádné jiné služby nepodporují. A 27 z nich nemá zatím ani vlastní instanci Wikipedie. Podrobnější informace naleznete v článku věnovaném počátečnímu vydání MinT, a na stránce věnované této službě, kde naleznete také sekci, ve které jsou odpovědi i na několik často kladených otázek.
Technické podrobnosti
Překladové modely byly optimalizovány pro výkon pomocí OpenNMT Ctranslate2 knihovny, aby se vyhnulo potřebě akcelerace GPU. To usnadňuje organizacím a jednotlivcům vytvářet a provozovat vlastní instance. Pro více podrobností můžete zkontrolovat následující:
MinT poskytuje platformu pro provozování více překladatelských modelů. Za účelem podpory různých iniciativ byly nad modely založené na prostém textu vyvinuty aspekty jako větná segmentace, detekce jazyka, před/po zpracování obsahu a podpora bohatého formátu.
Test instance
The MinT test instance is a basic interface to try the different translation models. It allow to translate contents across the selected language pairs and select the preferred translation model when multiple are available. This allows different communities to check how well the models support their language. This instance is intended for testing, so performance and availability may be reduced compared to other MinT-based products. You can check the availability status of the MinT test instance.
MinT pro překladatele
Překlad je běžný způsob, jak přispívat do ekosystému Wikimedie pro vícejazyčné uživatele. Strojový překlad může uživatelům poskytnout užitečný počáteční překlad ke kontrole a vylepšení. Jazykový tým vyvinul nástroje na podporu překladů ve svých pracovních postupech, které mohou integrovat různé služby strojového překladu a urychlit jejich procesy. Jakmile byl MinT dostupný, jeho integrace s těmito nástroji byla dalším logickým krokem k zesílení jejich dopadu. MinT je k dispozici v následujících projektech:
- Překlad obsahu. Překlad obsahu poskytuje návod, jak vytvořit překlad článku na Wikipedii do jiného jazyka. Překlad obsahu integruje několik překladatelských služeb a poskytuje počáteční překlad. You can check which languages supported by MinT are available in Content Translation
- Lokalizační infrastruktura. Rozšíření Translate poskytuje infrastrukturu používanou k překladu našeho softwaru a vícejazyčných stránek. Komunity překladatelů jej používají na Translatewiki.net, Wikimedia Meta-wiki, MediaWiki.org a dalších.
MinT pro čtenáře wiki
Počet témat a množství informací, o kterých se čtenář může z Wikipedie a jiných wikin dozvědět, závisí na jazycích, kterými mluví. Strojový překlad může lidem pomoci dozvědět se více o tématech, která je zajímají, když obsah není dostupný v jejich jazyce.
Tato iniciativa zkoumá, jak zpřístupnit podporu strojového překladu od MinT v článcích Wikipedie způsobem, který:
- Umožňuje čtenářům dozvědět se více o tématech zájmu z jiných jazyků
- Jasně odlišuje automaticky generovaný obsah od obsahu vytvořeného komunitou.
- Pokud je to možné, vybízí k přístupu k obsahu vytvořenému komunitou a přispívání k němu.
V současné době jazykový tým pracuje na počáteční implementace pro tuto iniciativu na základě výzkumu a návrhů. Poznatky založené na datech a vstupu komunity určí další kroky iniciativy.
MinT dostupnější
Práce na předchozích iniciativách pomůže vylepšit a zpevnit systém. Prozatím je MinT API dostupné pouze pro produkty Wikimedie. Až se systém připraví, zvážíme širší expozici. Poskytování služby, kterou mohou komunity využívat inovativním způsobem, může být velmi mocným nástrojem. V budoucnu zde budou zachyceny nové iniciativy k širší dostupnosti MinT. Mezitím si můžete nakonfigurovat vlastní instanci MinT a experimentovat s ní.
Disclaimer
- Accuracy of MinT’s Translations: The accuracy of translations generated by MinT may vary. Translations may not be entirely accurate or may not always convey the intended meaning or context of the original content. Wikimedia makes no representations or warranties regarding the accuracy or adequacy of the automatically translated content.
- Limitation of Liability: Wikimedia, its affiliates, and employees are not liable for any direct, indirect, incidental, punitive, or consequential damages, including but not limited to damages for goodwill, use, data, or any other intangible losses arising out of or in connection with the use of MinT or translations generated with MinT.
- Creative Commons Compliance: Translations generated with MinT are considered derivative works under the applicable Creative Commons license governing the original content. Users shall comply with the terms of the applicable Creative Commons license when using translated content.
- Terms of Use and Privacy Policy: Use of MinT is subject to Wikimedia's Terms of Use and Privacy Policy.
Aktualizace stavu
února 2024
- Upravené limity překladu pro pandžábštinu na žádost komunity, aby byly méně přísné kvůli lepší kvalitě strojového překladu.
- Výzkum MinT pro čtenáře Wikipedie je dokončen. Dvě zprávy byly zveřejněny na stránce výzkumu
- podpora více modelů pro testovací instanci MinT. Komunitám podporovaným více modely překladů umožníte vyzkoušet, porovnat a posoudit kvalitu a určit, který z nich funguje nejlépe.
ledna 2024
- Infrastruktura aktualizace pro užitek z novějších verzí Pythonu.
prosince 2023
- Pro MinT byla vytvořena nová větší instance. Kvóta paměti byla zvýšena, aby vyhovovala potřebám MinT, protože využití a dostupné modely rostou.
- Byly vytvořeny nové designové koncepty pro vystavení MinT čtenářům Wikipedie na základě vstupních informací z počátečního výzkumu. Vícejazyčné prototypy byly aktualizovány, aby se v dalším kole výzkumu poučily z nových konceptů.
- Upravená expozice MinT v rozšíření překladu na nezobrazování návrhů překladu obsahu s označením wikitext
listopadu 2023
- Better wikitext support by improving error handling when MinT processes wikitext.
- Completed Research plan is complete and started research sessions.
- Explored New advanced API for sentence segmentation to support needs for EditCheck use case and others.
- Improved responsiveness of the MinT test instance by avoiding some translation requests to get stuck.
- MinT was set as the default translation service in Content Translation for Kurdish (ku) and Sesotho (st), languages where it is optional but frequently used.
- A new larger instance has been created for the MinT. Memory quota has been increased to accommodate the needs for MinT as the usage and models available increase.
- New design concepts for exposing MinT to Wikipedia readers have been created based on input from the initial round of research.
- Published report analyzing usage of machine translation services
října 2023
- MinT is now supported in Content Translation for Fon, a Wikipedia that graduated recently from incubator.
- Announced sentencex library: sentencex: Empowering NLP with Multilingual Sentence Extraction - A python and js library to meet the needs of sentence segmentation for all the languages we support.
- Proposed model card for language identification as part of the creation of a LiftWing service to provide those capabilities for MinT and others.
- The new sentence segmentation approach has been exposed in Content and Section Translation to validate it with real contents. Resolved community-reported issues such as the problems translating court cases.
- MinT test instance provides consistent language names with Wikipedia by using Wikipedia APIs instead of the limited browser localization capabilities.
- Launched the Language Identification service to automatically detect in which language is written a given text. The service supports the detection of 201 languages, and anyone can access the API to use the service or read the model card for more details. Machine Learning team completed the last checks after deploying to LiftWing and evaluating that the service can "easily withstand a high amount of traffic".
- Basic support for rich text translation by supporting transferring of markup to apply styling such as words in bold from the source text into the equivalent ones in the machine translation (which lacks format since translation models operate with plain-text).
- Completed the process to enable MinT for languages with no Wikipedia yet . Translation models in MinT support 25 languages for which there is no Wikipedia. These can be tested in MinT's test instance for speakers of those languages to assess quality, and ensures that translation tools are well-equipped once wikis are created for those languages (as it has been the case with the recent graduation of Fon Wikipedia out of incubator).
- Completed the process to enable MinT for closely-related languages based on Community input . For some languages where machine translation is not available, Wikipedia editors have asked to have access to machine translation in Content Translation using a related language instead of having no support at all. With this enablement translators of Gan (gan) Wikipedia will have machine translation based on the traditional script variant of Chinese as a starting point.
- Analysis of translation activity on 55 languages for which MinT provides machine translation for the first time shows how (a) translations have increased 2X since MinT is available, and (b) deletion rates have not increased. Activity levels for these 55 wikis changed from ~500 translations/month, to 1K+ translations/month after MinT was enabled. For example, a recent peak of 2.15K translations were published in August 2023 when MinT was available for those languages, which is a significant increase from 225 translations in August 2022 when MinT was not available for them.
- Better visibility of translation quality by including a tag in translations where unedited machine translation is close to the limits. This will facilitate analysis about translation quality and limits.
- Created prototypes for upcoming research illustrating 5 concepts on how MinT can be used by Wikipedia readers and supporting the 4 languages we will conduct research in: Hindi, Chattisgarhi, Awadhi, and Korean.
- Improvements for MinT to process more predictably contents with new lines in them.
září 2023
- Dokončen počáteční průzkum designu pro ilustraci 5 konceptů, jak zobrazit strojově přeložený obsah z jiných jazyků pro články na Wikipedii
- Dokončeno povolení MinT v překladu obsahu pro Lingurian, kde komunita požadovala další vysvětlení ohledně MinT, a poslední sada 14 jazyků, které by mohly být podporovány modelem NLLB-200.
- Povoleno MinT pro přeložitelné stránky na testovací wiki
- Rozšířená expozice MinT s umožněním překladu obsahu pro mobilní zařízení a počítače jako výchozí v 7 Wikipediích podporovaných MinT (čerokézština, tonžština, maďarština, kazašština, kyrgyzština, minangkabau a sardinština).
- Dokončeno ověření pro všechny jazyky podporované překladatelskými modely používanými MinT jako součást finálního QA pro aktivaci nové překladatelské služby.
- Santhosh prezentovaný na 10. workshopu o asijském překladu, zdůrazňující nutnost, aby strojový překlad byl univerzální, bezplatný a dostupný ve více jazycích. Zpráva dobře přijata účastníky.
- Plánování výzkumu začalo počátečním návrhem výzkumného zadání pro MinT na Wikipedii
- Pokračující technické zkoumání aplikace strojového překladu mimo prostý text (co poskytují základní modely) na podporu kontextu Wikipedie: Nový vylepšený přístup pro segmentaci vět (s ukázkovou stránkou k vyzkoušení), který poskytuje přesnější způsob identifikace, kdy věta končí v různých jazycích, a přednostně se vyvarovat rozdělení v případě pochybností (upřednostňuje se v kontextu strojového překladu, aby se zabránilo fragmentaci kontextu překladu, například nesprávná interpretace tečky zkratky jako tečky ).
srpna 2023
- Úspěšný průzkum použití MinT k překladu strukturovaných formátů, jako jsou HTML, SVG a markdown.
- Dokončeno ukončení podpory Youdao, externí překladatelské služby, která dlouhou dobu selhávala.
- Pokračující průzkum vývoje pro MinT na Wikipedii s novými a aktualizovanými pracovními postupy na základě zpětné vazby.
- Identifikované jazyky, které mohou nejvíce těžit z nových modelů OpusMT
- Vytvořeno MinT jako výchozí překladatelská služba pro Zulu v Content Translation
července 2023
- Povolen strojový překlad s MinT (a komunikace s komunitami) pro 75 nových jazyků: 62 jazyků, kde je k dispozici mobilní překlad, a 13 jazyků, kde kvalita překladu z jiných služeb nemusí být ideální na základě údajů zprávy o použití MT anebo zpětné vazby komunity.
- Ověření předchozích aktivací: Identifikované problémy s Bhojpuri a s lotyštinou, kdy MinT nebyl k dispozici kvůli neshodám s jazykovými kódy používanými Wikipediemi, MinT a základními překladatelskými modely.
- Počáteční průzkumy designu a prototypy o způsobech, jak bychom mohli integrovat MinT do Wikipedie
- Vylepšené následné zpracování překladu Mint pro lepší podporu jazyků používajících arabské písmo tím, že se vyhnete dalším krokům po tečkách.
- Dokončení integrace modelu IndicTrans2 ověřením aktivace všech jejich 23 podporovaných jazyků.
- Počáteční analýza aktivity pro komunity Wikipedie, které jsou poprvé podporovány MinT, aby se identifikovaly potenciální pilotní wikiny pro budoucí výzkum a jako první uživatelé.
- Povolení MinT na translatewiki.net pro použití při lokalizaci Wikimedie a dalších otevřených projektů.