Jump to content

User:TJones (WMF)/Notes/Crimean Tatar Transliteration

From mediawiki.org

May-July 2017 — See TJones_(WMF)/Notes for other projects. See also T23582.

Implementation

[edit]

I picked up the phabricator ticket (T23582) for Crimean Tatar transliteration in May 2017 and worked on it at the Vienna Hackathon, and as part of my 10% time since then. I've been working on re-implementing a not-quite-working transliteration module for Crimean Tatar (Latin to Cyrillic and Cyrillic to Latin) from 2010.

Part of the original implementation included a lot of exceptions (including names, acronyms, and few general patterns). There were about 200 Cyrillic to Latin (C2L) exceptions, and about 300 Latin to Cyrillic (L2C) exceptions, though most included three variants, lowercase, UPPERCASE, and Capitalized, and many were present in both directions. I consolidated the exceptions into a list of bi-directional mappings, and refactored out the lower/UPPER/Caps variation; this is a bit less computationally efficient, but much easier on the human who has to maintain the exception list.

There are also a number of fairly complicated regexes for converting common prefixes and suffixes, and dealing with certain more difficult context-dependent characters in both directions. I consolidated the simple prefixes and suffixes into bi-directional mappings, and again applied the automatic lower/UPPER/Caps variation, and created unidirectional mappings for the more complex context-dependent regexes.

For L2C, there were also a number of additional "clean up" regexes that apply after the transliteration is done, mostly to remove unneeded soft signs (Ь/ь) and make some adjustments to multi-word representations of numbers.

What is Subject to Transliteration

[edit]

One of the design decisions I made was that only words that "look like" Crimean Tatar words can be transliterated. That is, words that have Cyrillic or Latin letters in them that are not part of the Crimean Tatar Cyrillic or Latin alphabets are not transliterated. If they were, they would come out in a mixed alphabet.

  • For example, "Waterfront" (from the movie On the Waterfront, in the article about Elia Kazan, would be transliterated into Cyrillic as "Wатерфронт", with the English/Latin W still present.
  • Similarly, "Фернґейм" (the Ukrainian name for Ferngeym) would be transliterated into Latin as "Fernґyeym", with the Ukrainian/Cyrillic ґ still present.

This still isn't a perfect solution. In the case of the article on Aşğabat, the Persian version of the name is given in Latin characters as "Aşq-ābād". Since hyphens separate tokens, this would be transliterated to Cyrillic as "Ашкъ-ābād", as the first half, "Aşq", doesn't have any non-Crimean-Tatar letters in it.

Roman numerals are also not subject to transliteration. This may or may not be desirable as could affect some initials (I, V, X, C, D, M)—but it seems to be present in some of the other transliteration modules, too.

Ideally, pronunciations, foreign titles of books or movies, names of people and places, etc, would be marked as -{not-for-transliteration}- anyway, so this shouldn't come up too often.

Testing

[edit]

Once I got it working, being the big nerd that I am, I had to systematically test it on real data, of course.

On Types and Tokens

[edit]

A lot of my analysis looks at types and tokens, and it's important to distinguish the two. Tokens refer to individual words, counted each time they appear. Types count all instances of a word as one thing. So, in the sentence, The brown dog jumped and the grey dog jumped., there are nine tokens (usually more or less "words"), but only six types (the, brown, dog, jumped, and, grey).

Parallel Corpora

[edit]

I was fortunate to find parallel Cyrillic and Latin corpora online, which is perfect for testing the effectiveness of the transliteration. I tokenized a relatively large sample text and reviewed the tokens to ensure alignment. There were 23,630 tokens (total words in the corpus), and 8,816 types (distinct words in the corpus).

I loaded up the list of parallel words (types) in Latin and Cyrillic, and applied the transliteration to them. I was then able to compare the automatically transliterated form with form from the parallel corpus. (Unfortunately, I don't know whether the parallel forms there were transliterated automatically or manually, but it's a corpus of literature, so I assume there was some form of review to check for errors.)

This corpus primarily for automated review, with problem cases to be extracted for speaker review.

Wikipedia Corpus

[edit]

I also extracted the text of 500 Crimean Tatar Wikipedia articles and tokenized them. There were 13,920 tokens (individual words) and 5,685 types (distinct words). As I understand it, the Crimean Tatar Wikipedia is currently generally written in the Latin alphabet, so most of the words are in the Latin script, though there are also various words in Greek, Cyrillic, Georgian, Armenian, Arabic, Devanagari, and Chinese.

I assume that at least some of the Cyrillic words are not Crimean Tatar, so if the transliteration is enabled, they will need to be marked as -{not-for-transliteration}-.

This corpus is primarily for speaker review.

Cyrillic to Latin (C2L) vs Parallel Corpus

[edit]

Errors: After the C2L transformation, there were a small number of mismatches in the tokens extracted from the parallel corpus: 72 tokens / 55 types (out of 23,630 tokens / 8,816 types), so the transformation is generally very accurate (>99%).

  • 72/23,630 tokens = 0.30% of the text is transliterated incorrectly.
  • 55/8,816 types = 0.62% of individual words are transliterated incorrectly.
  • There is a higher percentage of types than tokens transliterated incorrectly because the more common types are done correctly.

Exceptions: The exception list matched 52 types and 187 tokens. The most common of the exceptions, кой/köy, appeared 24 times, putting it just barely in the top 100 most common words in the corpus. So, it seems the exception list is useful.

Exceptions as Errors: A few exceptions on the list also showed up as C2L parallel transliteration errors. Possible reasons include errors in the parallel corpus (which may have been partially automatically generated), and errors in the exception list.

Speaker review notes: in the table below, what is the correct Latin transliteration of the Cyrillic?

Cyrillic Exception List Parallel Corpus
мевджут mevcüt mevcut
Ильич İlyiç İliç
юзбашы yüzbaşı yuzbaşı

These should be reviewed by a speaker and corrected if needed.

Correct forms are marked bold. Don Alessandro (talk) 12:39, 25 August 2017 (UTC)

Patterns of Errors: Of the 55 types that had transliteration errors, all of them involve ü/u, ö/o, or y. Clearly those are the hard letters to transliterate to.

Freq Transliterated Parallel
24 u ü
21 ö o
10 o ö
6 ü u
4 oñyu öñü
3 y
2 uyu üyü
1 utöku ütökü
1 yu ü

The list of exceptions is below. Parallel Cyrillic/Latin are the words as found in the parallel texts. Transliterated Latin is the Cyrillic automatically transliterated.

Speaker review notes: in the table below, what is the correct Latin transliteration of the Cyrillic? Are there any obvious general patterns we are not taking advantage of?

freq Parallel Cyrillic Transliterated Latin Parallel Latin
10 суретте surette sürette
3 мевджут mevcüt mevcut
2 Дарульмуаллиминде Darulmualliminde Darülmualliminde
2 Коккозьге Kokközge Kökközge
2 бугуньки bugunki bugünki
2 гонъюлли goñyulli göñülli
2 джонедим conedim cönedim
2 офицери öfitseri ofitseri
2 офицерлер öfitserler ofitserler
1 Большевиклер Bölşevikler Bolşevikler
1 Бугуннинъ Bugunniñ Bugünniñ
1 Бугуньден Bugunden Bugünden
1 Ильич İlyiç İliç
1 Коккозьде Kokközde Kökközde
1 Коккозьдеки Kokközdeki Kökközdeki
1 Коккозьден Kokközden Kökközden
1 Коридорда Köridorda Koridorda
1 Озюнъе Özüñye Özüñe
1 Сурет Suret Süret
1 Суреттен Suretten Süretten
1 Устюрткъа Üstürtqa Üsturtqa
1 алчакъгонъюлли alçaqgoñyulli alçaqgoñülli
1 большевиклерге bölşeviklerge bolşeviklerge
1 буюген buyugen büyügen
1 буюй buyuy büyüy
1 гонъюлини goñyulini göñülini
1 гонъюллилер goñyulliler göñülliler
1 госпиталинде göspitalinde gospitalinde
1 госпитальге göspitalge gospitalge
1 госпитальде göspitalde gospitalde
1 дарульмуаллиминде darulmualliminde darülmualliminde
1 дарульмуаллимининде darulmuallimininde darülmuallimininde
1 дарульмуаллиминнинъ darulmualliminniñ darülmualliminniñ
1 джонегенлерини conegenlerini cönegenlerini
1 джонейлер coneyler cöneyler
1 джурьатсызлыгъына curatsızlığına cüratsızlığına
1 кокатларны kokatlarnı kökatlarnı
1 кокюсинъе köküsiñye köküsiñe
1 комиссарлар kömissarlar komissarlar
1 комиссарлары kömissarları komissarları
1 комитетининъ kömitetiniñ komitetiniñ
1 костюми köstümi kostümi
1 нумюнеси numünesi nümünesi
1 офицерим öfitserim ofitserim
1 повидло pövidlo povidlo
1 полис pölis polis
1 полициясы pölitsiyası politsiyası
1 помещик pömeşçik pomeşçik
1 потюк pötük potük
1 потюклеринен pötüklerinen potüklerinen
1 суретке suretke süretke
1 суретни suretni süretni
1 утёкунь utökun ütökün
1 юзбашы yüzbaşı yuzbaşı

Speaker review of the errors for corrections, a list of exceptions, or a better transliteration rule would be helpful.

Correct forms are marked bold.
For алчакъгонъюлли both are incorrect, correct Latin spelling is alçaqgöñülli. Don Alessandro (talk) 12:39, 25 August 2017 (UTC)

Latin to Cyrillic (L2C) vs Parallel Corpus

[edit]

Unfortunately, Latin to Cyrillic seems to be considerably more difficult.

Errors: After the L2C transformation, there were significantly more mismatches than with C2L in the tokens extracted from the parallel corpus: 1811 tokens / 704 types (out of 23,630 tokens / 8,816 types), so the transformation is generally moderately accurate (>90%).

  • 1,811/23,630 tokens = 7.66% of the text is transliterated incorrectly.
  • 704/8,816 types = 7.99% of individual words are transliterated incorrectly.
  • There is a higher percentage of types than tokens transliterated incorrectly because the more common types are done correctly.
  • Getting definitive transliteration answers for the top 28 words (with ≥ 10 occurrences) would reduce the number of type errors by 28 (to 7.67%), but the number of token errors by 710 (to 4.66%).

Exceptions: The exception list matched 53 types and 263 tokens. The most common of the exceptions, İsmail/Исмаил/Исмаиль, appeared 73 times, and appears to be incorrect! It is the 23rd most common word in the corpus; presumably İsmail is a character in the story, and its frequency does not reflect general text. The next most common exception is кой/köy, with 24 occurrences, as in the C2L case. The exception list still seems useful, though we need to get the transliteration of İsmail. worked out.

Exceptions as Errors: A few exceptions on the list also showed up as L2C parallel transliteration errors. Possible reasons include errors in the parallel corpus (which may have been partially automatically generated), and errors in the exception list.

Speaker review notes: in the table below, what is the correct Cyrillic transliteration of the Latin?

Cyrillic Exception List Parallel Corpus
Исмаиль Исмаил İsmail
юзь юз yüz
Юзь Юз Yüz
устьке устке üstke
Correct forms are marked bold.
NB: The word "yüz" makes a problem. In fact, there are two homonyms - yüz - "face", and yüz - "hundred". Both are pronounced equally and are spelled "yüz" in Latin script. In Cyrillic "face" is spelled "юзь", and hundred is spelled "юз" just to mark semantic difference. That is why it is impossible to transliterate "yüz" to Cyrilllic 100% correct. In my script I tried to consider some words and frazes, where "yüz" definitely means "100" (e.g. yüz biñ - юз бинъ - one hundred thousand). Don Alessandro (talk) 12:39, 25 August 2017 (UTC)

These should be reviewed by a speaker and corrected if needed.

Patterns of Errors: Of the 704 types that had transliteration errors, most of them involve ю/у, ё/о, э/е, or ь. A smaller number involve ц/тс, щ/шч, and ъ/ь. Clearly those are the hard letters to transliterate to.

Freq Transliterated Parallel
1109 ю у
159 ё о
146 ь Yüz
115 тю ьту
67 юшю ушу
55 э е
28 ьдю ду
24 ютю уту
15 юрлю урлу
12 ёзю озу
10 юкю уку
8 ёкю оку
7 Ильич ь
7 ть ьт
7 юбю убу
5 ц тс
5 ёрдю орду
4 юркю урку
4 юрю уру
4 ёндю онду
2 лю ьлу
2 тс ц
2 щ шч
2 югю угу
2 юйрю уйру
1 ъ ь
1 юдю уду
1 юзетю узету
1 юмбю умбу
1 юпсю упсу
1 ёгю огу
1 ёкунь окун
1 ёллю оллу
1 ёрю ору
1 ёткю отку

The list of exceptions is below. Parallel Cyrillic/Latin are the words as found in the parallel texts. Transliterated Cyrillic is the Cyrillic automatically transliterated.

Speaker review notes: in the table below, what is the correct Cyrillic transliteration of the Latin? Are there any obvious general patterns we are not taking advantage of?

Freq Parallel Cyrillic Transliterated Cyrillic Parallel Latin
136 ичюн ичун içün
73 Исмаиль Исмаил İsmail
53 Саабэ Саабе Saabe
49 устюнде усьтунде üstünde
41 озю озу özü
28 мумкюн мумкун mümkün
24 озюм озум özüm
23 чюнки чунки çünki
22 устюне усьтуне üstüne
21 тютюн тутун tütün
18 дюльгер дульгер dülger
17 дёрт дорт dört
15 куню куну künü
15 ничюн ничун niçün
15 озюнинъ озунинъ özüniñ
15 тюрлю турлу türlü
14 кулюмсиреди кулумсиреди külümsiredi
14 сёз соз söz
13 Чюнки Чунки Çünki
13 бутюн бутун bütün
13 устюндеки усьтундеки üstündeki
12 кучьлю кучьлу küçlü
12 кучюк кучук küçük
12 сёзлерни созлерни sözlerni
11 Ничюн Ничун Niçün
11 тюшюндим тушундим tüşündim
10 корюнди корунди köründi
10 огюнде огунде ögünde
9 Дюльгер Дульгер Dülger
9 Махульдюрге Махулдурге Mahuldürge
9 Озю Озу Özü
9 сёзлерини созлерини sözlerini
9 тюшти тушти tüşti
8 Махульдюрде Махулдурде Mahuldürde
8 Озюм Озум Özüm
8 Тюневин Туневин Tünevin
8 дюльбер дульбер dülber
8 тюшюнди тушунди tüşündi
8 укюмет укумет ükümet
7 Лютфи Лутфи Lütfi
7 Озюнъиз Озунъиз Özüñiz
7 сёзлеримни созлеримни sözlerimni
7 тюше туше tüşe
7 тёшек тошек töşek
7 укюмети укумети ükümeti
6 огюндеки огундеки ögündeki
6 тюфек туфек tüfek
6 юзь юз yüz
5 Лёман Ломан Löman
5 койлюлер койлулер köylüler
5 корюнип корунип körünip
5 корюнмеди корунмеди körünmedi
5 куньдюз куньдуз kündüz
5 кунюнде кунунде kününde
5 курьсю курьсу kürsü
5 мемнюн мемнун memnün
5 озюнде озунде özünde
5 озюне озуне özüne
5 сёйледи сойледи söyledi
5 тюрк турк türk
5 устю усьту üstü
5 устюнден усьтунден üstünden
4 Бутюн Бутун Bütün
4 Куньдюз Куньдуз Kündüz
4 Кучюк Кучук Küçük
4 Сюйрен Суйрен Süyren
4 Укюмет Укумет Ükümet
4 Устюнде Усьтунде Üstünde
4 волость волост volost
4 дюльгернинъ дульгернинъ dülgerniñ
4 корюне коруне körüne
4 корюнмей корунмей körünmey
4 малюм малум malüm
4 озюни озуни özüni
4 омюр омур ömür
4 сюкюнет сукунет sükünet
4 сёзлер созлер sözler
4 сёзюни созуни sözüni
4 тюкяны тукяны tükânı
4 тюшкен тушкен tüşken
4 тюшюне тушуне tüşüne
4 тюшюнип тушунип tüşünip
4 тёпеге топеге töpege
4 юзю юзу yüzü
3 Дюльгернинъ Дульгернинъ Dülgerniñ
3 Махульдюрден Махулдурден Mahuldürden
3 берювден берувден berüvden
3 джесюр джесур cesür
3 козюме козуме közüme
3 кокюси кокуси köküsi
3 корюшип корушип körüşip
3 кулюмсиреп кулумсиреп külümsirep
3 мемнюним мемнуним memnünim
3 мумкюнми мумкунми mümkünmi
3 мушкюль мушкуль müşkül
3 огюмде огумде ögümde
3 огюнден огунден ögünden
3 озюме озуме özüme
3 озюмни озумни özümni
3 озюмнинъ озумнинъ özümniñ
3 сёзлери созлери sözleri
3 сёзлерине созлерине sözlerine
3 сёзю созу sözü
3 телюкели телукели telükeli
3 тешеккюр тешеккур teşekkür
3 тюбюнде тубунде tübünde
3 тюркнинъ туркнинъ türkniñ
3 тюшем тушем tüşem
3 тюшип тушип tüşip
3 тюшмек тушмек tüşmek
3 тюшюнген тушунген tüşüngen
3 тюшюнджели тушунджели tüşünceli
3 тёкюльди токульди töküldi
3 тёпели топели töpeli
3 тёшели тошели töşeli
3 укюмран укумран ükümran
3 юзюнде юзунде yüzünde
2 Баарьде Баарде Baarde
2 Волость Волост Volost
2 Дюнья Дунья Dünya
2 Койлюлер Койлулер Köylüler
2 Лютфиге Лутфиге Lütfige
2 Махульдюрдеки Махулдурдеки Mahuldürdeki
2 Мелитопольге Мелитополге Melitopolge
2 Мумкюн Мумкун Mümkün
2 Озюмнинъ Озумнинъ Özümniñ
2 Озюни Озуни Özüni
2 Саабэнинъ Саабенинъ Saabeniñ
2 Ставропольге Ставрополге Stavropolge
2 Сёйленъиз Сойленъиз Söyleñiz
2 Тешеккюр Тешеккур Teşekkür
2 Тютюн Тутун Tütün
2 Тюшюнмеге Тушунмеге Tüşünmege
2 Юзю Юзу Yüzü
2 Юртю Юрьту Yürtü
2 Юртюге Юрьтуге Yürtüge
2 Юртюнинъ Юрьтунинъ Yürtüniñ
2 Юрюнъиз Юрунъиз Yürüñiz
2 аньанели ананели ananeli
2 бугуньки бугунки bugünki
2 гонъюлли гонъулли göñülli
2 гугюмлери гугумлери gügümleri
2 гурюльдештилер гурульдештилер gürüldeştiler
2 гурюльтили гурультили gürültili
2 дюльгерни дульгерни dülgerni
2 дюньявий дуньявий dünyaviy
2 дёрдюнджи дордунджи dördünci
2 князь княз knâz
2 козьлю козьлу közlü
2 козю козу közü
2 козюнъни козунъни közüñni
2 койлюлерни койлулерни köylülerni
2 койлюлернинъ койлулернинъ köylülerniñ
2 кокюс кокус köküs
2 копюр копур köpür
2 копюри копури köpüri
2 корюв корув körüv
2 корюнъиз корунъиз körüñiz
2 корюшкен корушкен körüşken
2 корюшкенде корушкенде körüşkende
2 корюштик коруштик körüştik
2 костекли косьтекли köstekli
2 кулюмсиредим кулумсиредим külümsiredim
2 кулюштилер кулуштилер külüştiler
2 кунюмде кунумде künümde
2 курьсюге курьсуге kürsüge
2 къальпли къалпли qalpli
2 малюмат малумат malümat
2 мектюп мектуп mektüp
2 ничюндир ничундир niçündir
2 огю огу ögü
2 огюме огуме ögüme
2 огюне огуне ögüne
2 озюмизнинъки озумизнинъки özümizniñki
2 ольдюрип ольдурип öldürip
2 олюм олум ölüm
2 олюмден олумден ölümden
2 офицери офитсери ofitseri
2 офицерлер офитсерлер ofitserler
2 пальтосыны палтосыны paltosını
2 сюйрю суйру süyrü
2 сюрди сурди sürdi
2 сют сут süt
2 сёзлеринде созлеринде sözlerinde
2 сёзлернинъ созлернинъ sözlerniñ
2 тебессюм тебессум tebessüm
2 тенеффюс тенеффус teneffüs
2 тешеббюсим тешеббусим teşebbüsim
2 тешеккюрлер тешеккурлер teşekkürler
2 тюбю тубу tübü
2 тюбюндеки тубундеки tübündeki
2 тюз туз tüz
2 тюкян тукян tükân
2 тюкянында тукянында tükânında
2 тюневин туневин tünevin
2 тюневинки туневинки tünevinki
2 тюркю турку türkü
2 тюрттинъиз турттинъиз türttiñiz
2 тютемекте тутемекте tütemekte
2 тюфегини туфегини tüfegini
2 тюшсе тушсе tüşse
2 тюштик туштик tüştik
2 тюштинъиз туштинъиз tüştiñiz
2 тюшювден тушувден tüşüvden
2 тюшюнджеге тушунджеге tüşüncege
2 тюшюнмеге тушунмеге tüşünmege
2 тюшюрди тушурди tüşürdi
2 тёкюльген токульген tökülgen
2 тёшегине тошегине töşegine
2 уджюм уджум ücüm
2 удюр удур üdür
2 укюметнинъ укуметнинъ ükümetniñ
2 улькюн улькун ülkün
2 устьлерине усьтлерине üstlerine
2 уфюрди уфурди üfürdi
2 учюмиз учумиз üçümiz
2 шукюр шукур şükür
2 юзлернен юзьлернен yüzlernen
2 юзюм юзум yüzüm
2 юзюме юзуме yüzüme
2 юзюни юзуни yüzüni
1 Аньанелеримиз Ананелеримиз Ananelerimiz
1 Большевиклер Болшевиклер Bolşevikler
1 Бугуньден Бугунден Bugünden
1 Гугюмлер Гугумлер Gügümler
1 Дюльгерге Дульгерге Dülgerge
1 Дюмен Думен Dümen
1 Дюмени Думени Dümeni
1 Дюньяда Дуньяда Dünyada
1 Дёрдю Дорду Dördü
1 Дёрдюнджи Дордунджи Dördünci
1 Дёрт Дорт Dört
1 Ильич Илич İliç
1 Кетювлеринънинъ Кетувлеринънинъ Ketüvleriñniñ
1 Корюнмейсинъиз Корунмейсинъиз Körünmeysiñiz
1 Корюшювде Корушувде Körüşüvde
1 Кулькюсининъ Кулькусининъ Külküsiniñ
1 Кулюшинде Кулушинде Külüşinde
1 Курькчю Куркчю Kürkçü
1 Курьсюге Курьсуге Kürsüge
1 Курючтен Куручтен Kürüçten
1 Кучьлю Кучьлу Küçlü
1 Кучюджик Кучуджик Küçücik
1 Къальбимни Къалбимни Qalbimni
1 Львованынъ Лвованынъ Lvovanıñ
1 Лютфини Лутфини Lütfini
1 Махульдюрли Махулдурли Mahuldürli
1 Махульдюрлилер Махулдурлилер Mahuldürliler
1 Махульдюрми Махулдурми Mahuldürmi
1 Махульдюрни Махулдурни Mahuldürni
1 Ничюндир Ничундир Niçündir
1 Огю Огу Ögü
1 Огюмдеки Огумдеки Ögümdeki
1 Огюмизде Огумизде Ögümizde
1 Озюнинъ Озунинъ Özüniñ
1 Озюнъ Озунъ Özüñ
1 Озюнъе Озунъе Özüñe
1 Озюнъиздеки Озунъиздеки Özüñizdeki
1 Озюнъни Озунъни Özüñni
1 Севастопольнинъ Севастополнинъ Sevastopolniñ
1 Сулькевич Сулкевич Sulkeviç
1 Сюйренге Суйренге Süyrenge
1 Сюйренде Суйренде Süyrende
1 Сюкюнет Сукунет Sükünet
1 Сюкют Сукут Süküt
1 Сюрюльмеген Сурульмеген Sürülmegen
1 Сют Сут Süt
1 Сёз Соз Söz
1 Сёзлери Созлери Sözleri
1 Сёзю Созу Sözü
1 Тенеффюс Тенеффус Teneffüs
1 Тенеффюслер Тенеффуслер Teneffüsler
1 Теэссюф Теэссуф Teessüf
1 Тюзетмеге Тузетмеге Tüzetmege
1 Тюрк Турк Türk
1 Тюрклернинъ Турклернинъ Türklerniñ
1 Тюшеджексинъми Тушеджексинъми Tüşeceksiñmi
1 Тюшмеси Тушмеси Tüşmesi
1 Тёле Толе Töle
1 Тёрде Торде Törde
1 Тёшек Тошек Töşek
1 Тёшекни Тошекни Töşekni
1 Укюметке Укуметке Ükümetke
1 Укюметкеми Укуметкеми Ükümetkemi
1 Укюметми Укуметми Ükümetmi
1 Укюметнинъ Укуметнинъ Ükümetniñ
1 Укюметтен Укуметтен Ükümetten
1 Умютсизден Умутсизден Ümütsizden
1 Устьлеринде Усьтлеринде Üstlerinde
1 Устьлерине Усьтлерине Üstlerine
1 Устю Усьту Üstü
1 Устюмде Усьтумде Üstümde
1 Устюндеки Усьтундеки Üstündeki
1 Устюрткъа Усьтурткъа Üsturtqa
1 Учю Учу Üçü
1 Учюнджи Учунджи Üçünci
1 Учюнджисининъ Учунджисининъ Üçüncisiniñ
1 Харьковдаки Харковдаки Harkovdaki
1 Харьковдан Харковдан Harkovdan
1 Чюрюк Чурук Çürük
1 Чёль Чоль Çöl
1 Чёльде Чольде Çölde
1 Юзь Юз Yüz
1 Юртюде Юрьтуде Yürtüde
1 Юрюши Юруши Yürüşi
1 аджизленювинъиз аджизленувинъиз acizlenüviñiz
1 акъщам акъшчам aqşçam
1 алчакъгонъюлли алчакъгонъулли alçaqgoñülli
1 аль ал al
1 аньанелер ананелер ananeler
1 аньанелеримизден ананелеримизден ananelerimizden
1 аньанелеримизни ананелеримизни ananelerimizni
1 асфальтке асфалтке asfaltke
1 баарьде баарде baarde
1 бахтсыз бахцыз bahtsız
1 берилюви берилуви berilüvi
1 берювни берувни berüvni
1 большевиклерге болшевиклерге bolşeviklerge
1 болюк болук bölük
1 болюнген болунген bölüngen
1 болюнгенини болунгенини bölüngenini
1 болюшип болушип bölüşip
1 букюльген букульген bükülgen
1 букюльди букульди büküldi
1 буллюр буллур büllür
1 бурюмчик бурумчик bürümçik
1 бурюнген бурунген bürüngen
1 бутюнлей бутунлей bütünley
1 волостьларгъа волостларгъа volostlarğa
1 гонъюлини гонъулини göñülini
1 гонъюллилер гонъуллилер göñülliler
1 госпитальге госпиталге gospitalge
1 госпитальде госпиталде gospitalde
1 гренадёр гренадор grenadör
1 гугюм гугум gügüm
1 гугюмлерини гугумлерини gügümlerini
1 гурьсюльди гурьсульди gürsüldi
1 гурюльти гурульти gürülti
1 гурюльтисидир гурультисидир gürültisidir
1 декабрьде декабрде dekabrde
1 денъишюв денъишув deñişüv
1 дертлешювге дертлешувге dertleşüvge
1 джесюране джесуране cesürane
1 джесюрликлерини джесурликлерини cesürliklerini
1 джурьатсызлыгъына джуратсызлыгъына cüratsızlığına
1 дюгюнлер дугунлер dügünler
1 дюгюнлерле дугунлерле dügünlerle
1 дюдюк дудук düdük
1 дюльбери дульбери dülberi
1 дюльберлер дульберлер dülberler
1 дюльберлернинъ дульберлернинъ dülberlerniñ
1 дюльгерлернинъки дульгерлернинъки dülgerlerniñki
1 дюмбюрдетти думбурдетти dümbürdetti
1 дюмени думени dümeni
1 дюнья дунья dünya
1 дюньяда дуньяда dünyada
1 дюньяларгъа дуньяларгъа dünyalarğa
1 дюньяларда дуньяларда dünyalarda
1 дюньяны дуньяны dünyanı
1 дюньянынъ дуньянынъ dünyanıñ
1 дюньясы дуньясы dünyası
1 дёгюльген догульген dögülgen
1 дёндюрилип дондурилип döndürilip
1 дёнермиз донермиз dönermiz
1 дёнмектелер донмектелер dönmekteler
1 дёрдюмиз дордумиз dördümiz
1 ельаякълылар елаякълылар yelayaqlılar
1 елькъуваны елкъуваны yelquvanı
1 ичюнми ичунми içünmi
1 камасъясындам камасьясындам kamasyasındam
1 келюви келуви kelüvi
1 келювини келувини kelüvini
1 келювинъизде келувинъизде kelüviñizde
1 келювни келувни kelüvni
1 кемирювлер кемирувлер kemirüvler
1 кесювде кесувде kesüvde
1 кетюв кетув ketüv
1 кетювге кетувге ketüvge
1 кетюви кетуви ketüvi
1 кетювимни кетувимни ketüvimni
1 кетювлер кетувлер ketüvler
1 кетювлери кетувлери ketüvleri
1 кетювнинъ кетувнинъ ketüvniñ
1 кирюв кирув kirüv
1 козькъапакъларыны козкъапакъларыны közqapaqlarını
1 козюнде козунде közünde
1 козюне козуне közüne
1 козюнен козунен közünen
1 козюнинъ козунинъ közüniñ
1 койлюде койлуде köylüde
1 койлюлерде койлулерде köylülerde
1 койлюнинъ койлунинъ köylüniñ
1 кокюсим кокусим köküsim
1 кокюсиме кокусиме köküsime
1 кокюсинъе кокусинъе köküsiñe
1 концлагерь концлагер kontslager
1 копьмеди копмеди köpmedi
1 копьти копти köpti
1 копюрге копурге köpürge
1 копюрден копурден köpürden
1 копюрнинъ копурнинъ köpürniñ
1 корьсюн корьсун körsün
1 корюльген корульген körülgen
1 корюндинъ корундинъ köründiñ
1 корюнмеген корунмеген körünmegen
1 корюнмедилер корунмедилер körünmediler
1 корюнмекте корунмекте körünmekte
1 корюнмектелер корунмектелер körünmekteler
1 корюше коруше körüşe
1 корюшеджекмиз корушеджекмиз körüşecekmiz
1 корюшим корушим körüşim
1 корюширмиз коруширмиз körüşirmiz
1 корюшмеге корушмеге körüşmege
1 корюшмегенимиз корушмегенимиз körüşmegenimiz
1 корюштим коруштим körüştim
1 корюшюв корушув körüşüv
1 корюшювден корушувден körüşüvden
1 корюшюви корушуви körüşüvi
1 корюшювимден корушувимден körüşüvimden
1 корюшювимизге корушувимизге körüşüvimizge
1 корюшювимизден корушувимизден körüşüvimizden
1 костюми костуми kostümi
1 кузю кузу küzü
1 кулькюден кулькуден külküden
1 кулькюнинъ кулькунинъ külküniñ
1 кулю кулу külü
1 кулюмсиреген кулумсиреген külümsiregen
1 кулюмсирей кулумсирей külümsirey
1 кулюмсирейим кулумсирейим külümsireyim
1 кулюни кулуни külüni
1 кулюнчли кулунчли külünçli
1 кумюш кумуш kümüş
1 куньдюзлери куньдузлери kündüzleri
1 куньлюк куньлук künlük
1 кунюндеми кунундеми künündemi
1 кунюнъ кунунъ künüñ
1 курьсюлер курьсулер kürsüler
1 кутюклерни кутуклерни kütüklerni
1 кутюкли кутукли kütükli
1 кучьлюклер кучьлуклер küçlükler
1 кучьсюнмезсинъ кучьсунмезсинъ küçsünmezsiñ
1 кучюджик кучуджик küçücik
1 кучюм кучум küçüm
1 кучюмле кучумле küçümle
1 кучюнден кучунден küçünden
1 кучюни кучуни küçüni
1 къаарьлене къаарлене qaarlene
1 къаарьли къаарли qaarli
1 къальбим къалбим qalbim
1 къальбинде къалбинде qalbinde
1 къальптен къалптен qalpten
1 къалюбелядан къалубелядан qalübelâdan
1 къулюбенъде къулубенъде qulübeñde
1 мазюн мазун mazün
1 махлюкъаттан махлукъаттан mahlüqattan
1 махлюкътан махлукътан mahlüqtan
1 махульдюрлилер махулдурлилер mahuldürliler
1 махульдюрлилермиз махулдурлилермиз mahuldürlilermiz
1 мезкюр мезкур mezkür
1 мектюпни мектупни mektüpni
1 мектюпте мектупте mektüpte
1 мемнюниетле мемнуниетле memnüniyetle
1 мемнюнмиз мемнунмиз memnünmiz
1 менсюп менсуп mensüp
1 мешгъульмиз мешгъулмиз meşğulmiz
1 мулькюни мулькуни mülküni
1 мусульманлар мусулманлар musulmanlar
1 мусульманлармы мусулманлармы musulmanlarmı
1 мухкемлендирюв мухкемлендирув mühkemlendirüv
1 нумюнеси нумунеси nümünesi
1 огюз огуз ögüz
1 огюмизге огумизге ögümizge
1 огюмизде огумизде ögümizde
1 огюмиздеки огумиздеки ögümizdeki
1 огюмни огумни ögümni
1 огюндекиси огундекиси ögündekisi
1 огюнъизде огунъизде ögüñizde
1 огютини огутини ögütini
1 огютлерини огутлерини ögütlerini
1 озюмден озумден özümden
1 озюмизни озумизни özümizni
1 озюмизнинъ озумизнинъ özümizniñ
1 озюмнен озумнен özümnen
1 озюнден озунден özünden
1 озюнен озунен özünen
1 озюнинъкими озунинъкими özüniñkimi
1 озюнъ озунъ özüñ
1 озюнъиз озунъиз özüñiz
1 оксюз оксуз öksüz
1 окюндим окундим ökündim
1 ольдюрмек ольдурмек öldürmek
1 ольдюрювде ольдурувде öldürüvde
1 ольчюде ольчуде ölçüde
1 олюмлер олумлер ölümler
1 омюрге омурге ömürge
1 омюри омури ömüri
1 опькеленюв опькеленув öpkelenüv
1 орьтилюви орьтилуви örtilüvi
1 орьтюли орьтули örtüli
1 орюли орули örüli
1 орюлип орулип örülip
1 осюв осув ösüv
1 осюмлик осумлик ösümlik
1 отькерювни отькерувни ötkerüvni
1 отькюр отькур ötkür
1 офицерим офитсерим ofitserim
1 пальтосынынъ палтосынынъ paltosınıñ
1 пекинюв пекинув pekinüv
1 пекитювнинъ пекитувнинъ pekitüvniñ
1 пиширюв пиширув pişirüv
1 помещик помешчик pomeşçik
1 потюк потук potük
1 потюклеринен потуклеринен potüklerinen
1 пулемёт пулемот pülemöt
1 пулемётларны пулемотларны pülemötlarnı
1 режиссёр режиссор rejissör
1 ролюнде ролунде rolünde
1 сентябрьнинъ сентябрнинъ sentâbrniñ
1 сергюзешт сергузешт sergüzeşt
1 сергюзештлерни сергузештлерни sergüzeştlerni
1 сурьат сурат surat
1 суфлёр суфлор suflör
1 сюеги суеги süyegi
1 сюеклерге суеклерге süyeklerge
1 сюйрекледи суйрекледи süyrekledi
1 сюйреле суйреле süyrele
1 сюйреп суйреп süyrep
1 сюкюнети сукунети süküneti
1 сюкюнетте сукунетте sükünette
1 сюкют сукут süküt
1 сюляле суляле sülâle
1 сюрген сурген sürgen
1 сюрмеди сурмеди sürmedi
1 сёгди согди sögdi
1 сёзлерим созлерим sözlerim
1 сёзлеримден созлеримден sözlerimden
1 сёзлериме созлериме sözlerime
1 сёзлеримнинъ созлеримнинъ sözlerimniñ
1 сёзлерининъ созлерининъ sözleriniñ
1 сёзлеринъиз созлеринъиз sözleriñiz
1 сёзлеринъизни созлеринъизни sözleriñizni
1 сёзлернен созлернен sözlernen
1 сёзнен сознен söznen
1 сёзни созни sözni
1 сёзчиклер созчиклер sözçikler
1 сёзчиклерден созчиклерден sözçiklerden
1 сёзюмен созумен sözümen
1 сёзюмнинъ созумнинъ sözümniñ
1 сёзюне созуне sözüne
1 сёзюнинъ созунинъ sözüniñ
1 сёйле сойле söyle
1 сёйлегенде сойлегенде söylegende
1 сёйлегенлеринден сойлегенлеринден söylegenlerinden
1 сёйлей сойлей söyley
1 сёйленди сойленди söylendi
1 сёйленмеге сойленмеге söylenmege
1 сёйленмекте сойленмекте söylenmekte
1 сёнген сонген söngen
1 сёнди сонди söndi
1 сёндюрди сондурди söndürdi
1 сёндюрильген сондурильген söndürilgen
1 сёндюрип сондурип söndürip
1 телюке телуке telüke
1 теэссюф теэссуф teessüf
1 тюзельгенге тузельгенге tüzelgenge
1 тюзельтмек тузельтмек tüzeltmek
1 тюземликлер туземликлер tüzemlikler
1 тюзетип тузетип tüzetip
1 тюзетирим тузетирим tüzetirim
1 тюзеткен тузеткен tüzetken
1 тюзетмеге тузетмеге tüzetmege
1 тюзетмесенъ тузетмесенъ tüzetmeseñ
1 тюзетти тузетти tüzetti
1 тюзетюв тузетув tüzetüv
1 тюкенмез тукенмез tükenmez
1 тюкюриктен тукуриктен tükürikten
1 тюм тум tüm
1 тюпсюз тупсуз tüpsüz
1 тюркче туркче türkçe
1 тюркюлерини туркулерини türkülerini
1 тюркюнинъ туркунинъ türküniñ
1 тюртип туртип türtip
1 тютюнджи тутунджи tütünci
1 тюфеги туфеги tüfegi
1 тюфеклеринен туфеклеринен tüfeklerinen
1 тюфеклернен туфеклернен tüfeklernen
1 тюфеклерни туфеклерни tüfeklerni
1 тюфекнен туфекнен tüfeknen
1 тюфексиз туфексиз tüfeksiz
1 тюш туш tüş
1 тюшеджек тушеджек tüşecek
1 тюшкенде тушкенде tüşkende
1 тюшкенлер тушкенлер tüşkenler
1 тюшмеге тушмеге tüşmege
1 тюшмейим тушмейим tüşmeyim
1 тюшмейлер тушмейлер tüşmeyler
1 тюшмекте тушмекте tüşmekte
1 тюштилер туштилер tüştiler
1 тюштими туштими tüştimi
1 тюшюджек тушуджек tüşücek
1 тюшюнгендже тушунгендже tüşüngence
1 тюшюндже тушундже tüşünce
1 тюшюнджелер тушунджелер tüşünceler
1 тюшюнджелери тушунджелери tüşünceleri
1 тюшюнджелерим тушунджелерим tüşüncelerim
1 тюшюнджеси тушунджеси tüşüncesi
1 тюшюнелер тушунелер tüşüneler
1 тюшюнесинъиз тушунесинъиз tüşünesiñiz
1 тюшюнмезсинъ тушунмезсинъ tüşünmezsiñ
1 тюшюнмей тушунмей tüşünmey
1 тюшюнмемек тушунмемек tüşünmemek
1 тюшюргенлер тушургенлер tüşürgenler
1 тюшюрдик тушурдик tüşürdik
1 тюшюре тушуре tüşüre
1 тюшюрип тушурип tüşürip
1 тюшюрмек тушурмек tüşürmek
1 тёкип токип tökip
1 тёкти токти tökti
1 тёкюндиси токундиси tökündisi
1 тёледим толедим töledim
1 тёпелери топелери töpeleri
1 тёпелерине топелерине töpelerine
1 тёпеси топеси töpesi
1 тёпесинден топесинден töpesinden
1 тёпесини топесини töpesini
1 тёрге торге törge
1 тёрдеки тордеки tördeki
1 тёрюне торуне törüne
1 тёшегинден тошегинден töşeginden
1 тёшектен тошектен töşekten
1 тёшемек тошемек töşemek
1 тёшеп тошеп töşep
1 узюле узуле üzüle
1 узюлип узулип üzülip
1 узюльгенини узульгенини üzülgenini
1 узюльди узульди üzüldi
1 уйрюлип уйрулип üyrülip
1 укюметими укуметими ükümetimi
1 укюметимиз укуметимиз ükümetimiz
1 укюметини укуметини ükümetini
1 укюметининъ укуметининъ ükümetiniñ
1 укюметке укуметке ükümetke
1 укюметми укуметми ükümetmi
1 укюметтен укуметтен ükümetten
1 умюдим умудим ümüdim
1 умют умут ümüt
1 умютлери умутлери ümütleri
1 умютсизден умутсизден ümütsizden
1 усть усьт üst
1 устьке устке üstke
1 устьлериндеки усьтлериндеки üstlerindeki
1 устьлерини усьтлерини üstlerini
1 устюмдеки усьтумдеки üstümdeki
1 устюме усьтуме üstüme
1 устюндемиз усьтундемиз üstündemiz
1 устюни усьтуни üstüni
1 устюнлик усьтунлик üstünlik
1 устюнъизге усьтунъизге üstüñizge
1 усьнюхаткъа усьнухаткъа üsnühatqa
1 усьнюхаты усьнухаты üsnühatı
1 утёкунь утокун ütökün
1 учюн учун üçün
1 учюнджи учунджи üçünci
1 ушюй ушуй üşüy
1 ушюмез ушумез üşümez
1 ушюмезсинъ ушумезсинъ üşümezsiñ
1 факультетинде факултетинде fakultetinde
1 факультетине факултетине fakultetine
1 февральнинъ февралнинъ fevralniñ
1 чюрюди чуруди çürüdi
1 чёкти чокти çökti
1 чёкюрли чокурли çökürli
1 чёкюч чокуч çöküç
1 чёллюкке чоллукке çöllükke
1 чёльмек чольмек çölmek
1 чёткю чотку çötkü
1 чёчамийлер чочамийлер çöçamiyler
1 шукюрлер шукурлер şükürler
1 этюв этув etüv
1 этювден этувден etüvden
1 этюви этуви etüvi
1 этюдлар этудлар etüdlar
1 юзден юзьден yüzden
1 юзлеп юзьлеп yüzlep
1 юзлерини юзьлерини yüzlerini
1 юзлюги юзьлуги yüzlügi
1 юзлюкке юзьлукке yüzlükke
1 юзюмен юзумен yüzümen
1 юзюмни юзумни yüzümni
1 юзюнинъ юзунинъ yüzüniñ
1 юзюнъ юзунъ yüzüñ
1 юзюнъизге юзунъизге yüzüñizge
1 юклю юклу yüklü
1 юксельтюв юксельтув yükseltüv
1 юньлю юньлу yünlü
1 юньлюдже юньлудже yünlüce
1 юртсеверлик юрцеверлик yurtseverlik
1 юрюльсе юрульсе yürülse
1 юрюш юруш yürüş
1 юрюши юруши yürüşi
1 юрюшим юрушим yürüşim
1 юрюшини юрушини yürüşini
1 юрюшнен юрушнен yürüşnen
1 юрюшни юрушни yürüşni

Speaker review of the errors for corrections, a list of exceptions, or a better transliteration rule would be helpful.

I have marked correct forms bold.
For some words both forms are wrong, correct ones are below:
  • üst усть
  • üstü усьтю
  • üstüne усьтюне
  • üstünde усьтюнде
  • üstündeki усьтюндеки
  • Yürtü Юрьтю
  • Yürtüge Юрьтюге
  • Yürtüniñ Юрьтюнинъ
  • Üstü Усьтю
  • Üstümde Усьтюмде
  • Üstündeki Усьтюндеки
  • üstümdeki усьтюмдеки
  • üstüme усьтюме
  • üstündemiz усьтюндемиз
  • üstüni усьтюни
  • üstünlik усьтюнлик
  • üstüñizge усьтюнъизге
  • aqşçam is misspelling of "aqşam", Cyrillic form is "акъшам"
  • alçaqgoñülli is misspelling of "alçaqgöñülli", Cyrillic form is "алчакъгонъюлли"
Don Alessandro (talk) 12:39, 25 August 2017 (UTC)

Parallel Corpora, Round 2

[edit]

After incorporating Don Alessandro's correction above, I pulled another 25,566 words (tokens) and 10,313 distinct words (types) from parallel corpora. (This time, from shorter works by 9 distinct authors rather than one long work.)

In the Cyrillic-to-Latin conversion, there were mismatches on 76 types (103 tokens), for an overall accuracy of 99.6% (compare to 99.7% in the previous test—no real change). All words occurred fewer than 10 times, and most (60/76) only occurred once.

In the Latin-to-Cyrillic conversion, there were mismatches on 506 types (653 tokens), for an overall accuracy of 97.4% (compare to 92.34% in the previous test—significant improvement!). All words occurred fewer than 10 times, and most (415/506) only occurred once.

For comparison, the five most common words in the text occurred 585, 441, 245, 237, and 178 times, so most of the improperly converted words were relatively rare—most less than 100x as common as the most common words.

I can post the mismatch details for review, but I think ~2.5% error rate is much more tolerable than a ~7.5% error rate.

Conclusions and Next Steps

[edit]

Next steps include:

  • The immediate next step is to get some speaker review of the inconsistencies in the transliteration of the parallel texts, make improvements, and see where to go from there. (Done! Thanks, Don Alessandro!)
  • Process more parallel texts to add to the parallel corpus. I processed one long story (~20K words, ~8800 unique words). I could add several more and try to get the total corpus up to ~100K words. It's a semi-manual process, but it's less tedious that looking at all the Wiki tokens. Done—see "Parallel Corpora, Round 2" above (though the corpus was smaller than I had hoped, as I'd randomly chosen the longest individual work the first time).
  • Get speaker review of CRH Wikipedia tokens. This list is all manual review, but it should be more representative of words in Wikipedia. Skipped. (I don't think this is necessary right now, as the accuracy is good.)
  • I put the improved version of the transliteration in a patch for review. There were some technical/programming issues, which the reviewers kindly pointed out and which have been addressed. Done—the patch has been merged.
  • The transliteration needs to be enabled ([1]) and it would be nice if the pretty "short URLs" were enabled ([2]) as well. In progress. (short URL config for the beta cluster was enabled; it doesn't do anything, but the config didn't cause problems for other beta wiki using the language converter.)