Jump to content

Помощь:Перевод содержания/Перевод/Качество перевода

From mediawiki.org
This page is a translated version of the page Help:Content translation/Translating/Translation quality and the translation is 93% complete.
PD Примечание: Редактируя эту страницу, вы соглашаетесь на передачу своего вклада по лицензии CC0.
Подробнее — в проекте Помощь с общественным достоянием.
PD

При создании перевода необходимо проверить содержание перед публикацией. Необходимо быть уверенным, что переведенный текст не искажает содержание оригинала, а также написан доступно и понятно на Вашем языке. Предоставленный первоначальный машинный перевод помогает ускорить процесс перевода с помощью полезной отправной точки, но инструмент поощряет пользователей просматривать и значительно редактировать исходное содержимое.

Различные механизмы гарантируют, что переводчики редактируют исходные переводы соответствующим образом. Редактор перевода отслеживает, насколько первоначальный перевод был изменен пользователем, и определяет различные ограничения, чтобы либо предотвратить публикацию, либо предупредить пользователей, чтобы поощрить их к дальнейшему просмотру содержимого.

Таким образом, этот инструмент позволяет пользователям использовать машинный перевод если они используют его хорошо, и в то же время предотвращает создание плохопроверенных переводов низкого качества. Более подробно о том, как работают эти ограничения, как они могут быть изменены в соответствии с потребностями каждого языка и как измерить качество контента, создаваемого с помощью этого инструмента, рассказывается ниже.

Ограничения для поощрения просмотра перевода

Перевод содержания инструмент измеряет процент модификаций, которые пользователи вносят в первоначальный предоставленный автоматический перевод. Таким образом, система знает, сколько слов было добавлено, удалено или изменено по сравнению с первоначальным переводом. Измерения проводятся на двух разных уровнях: для каждого абзаца и для всего перевода. На каждом уровне применяются свои ограничения, о чем подробнее говорится ниже.

Ограничения для всего перевода

Ошибка, возникающая при попытке опубликовать перевод, содержащий слишком много немодифицированного машинного перевода. Этот порог был скорректирован для индонезийского языка на основе отзывов их редакторов.

Публикация блокируется, если 95% или более от всего документа состоит из не модифицированного, переведенного машиной содержимого. Это ограничение позволяет предотвратить практически "сырой" машинный перевод и обойти явный вандализм. Это также не позволяет пользователям просто добавлять контент, не редактируя часть машинного перевода. Как показано ниже, этот лимит может быть скорректирован для каждого языка.

Ограничения для каждого параграфа

Предупреждение выдается для конкретного абзаца, в котором немодифицированный машинный перевод превышает установленные ограничения.

Для каждого параграфа также измеряется процент пользовательских модификаций. Абзац считается проблемным, если он содержит более 85% исходного машинного перевода (или, при копировании содержимого из исходного документа, более 60% не модифицированного содержимого).

Редактор перевода покажет предупреждение для каждого абзаца, который считается проблемным, поощряя дальнейшее редактирование пользователем. В некоторых случаях пользователи по-прежнему могут публиковать переводы, но полученная страница может быть добавлена в категорию отслеживания потенциально не рецензируемых переводов для ознакомления с ними сообщества. В других случаях пользователям может быть вообще запрещено публиковать информацию.

Ниже перечислены некоторые факторы, учитываемые при определении того, разрешать или нет пользователям публикацию (некоторые из них еще находятся в стадии разработки):

  • Количество проблемных абзацев. Пользователям запрещено публиковать переводы, содержащие 50 и более проблемных абзацев. Публикация переводов, содержащих менее 50 проблемных абзацев, разрешается, однако переводы, содержащие от 10 до 49 проблемных абзацев, будут добавляться в категорию отслеживания потенциально не прошедших рецензирование переводов для рассмотрения сообществом.
  • Предыдущие удаленные переводы. Для предотвращения повторных проблем инструмент выявляет пользователей, чьи опубликованные переводы были удалены за последние 30 дней, и устанавливает гораздо более жесткие ограничения на их последующие переводы. Для пользователей этого класса переводы, содержащие 10 и более проблемных абзацев, не допускаются к публикации, а переводы с 9 и менее проблемными абзацами добавляются в категорию отслеживания потенциально не рецензируемых переводов, которые могут быть рассмотрены сообществом.
  • Подтверждение пользователя. Менее строгий порог рассматривается для абзацев, которые пользователь отмечает как решённые — это сигнал о том, что пользователь просмотрел и подтвердил статус перевода. Для абзацев, в которых отображается предупреждение о не модифицированном содержимом, но пользователь отмечает его как решенное, применяется менее строгий порог (принимается 95% машинного перевода или 75% исходного содержимого). Это позволит учесть случаи, когда автоматический перевод был исключительно качественным, но при этом избежать потенциального злоупотребления функцией (т.е. не следовать слепо за подтверждением пользователя).

Содержание, на которое не распространяются ограничения

Предполагается, что некоторые материалы не будут подвергаться существенному редактированию и поэтому не учитываются при применении описанных выше ограничений. Очень короткие названия разделов, цитаты или список литературы исключаются из рассмотрения. В противном случае пользователи могут получать вводящие в заблуждение предупреждения о переводе контента, которого не должно быть, например, названий книг, встречающихся в ссылках, или других собственных существительных.

Limits on the mobile experience

For the mobile experience the initial set of limits follow a simpler approach. At the moment, only the overall percentage of unmodified machine translation for the whole translation is considered. On mobile, the whole translation consist of just one section of the article.

In particular, a warning is shown when the percentage of unmodified machine translation is over 85% for the whole section, and publishing is prevented when the percentage of unmodified machine translation is over 95%.

Feedback on how the limits system work on the mobile context would be very useful to determine how to evolve this initial approach.

Publication of fast unreviewed translations

Campaigns and contests can result in spikes of translations where some user unfamiliar with the community policies may focus on making many translations and not pay enough attention to review their contents. In order to emphasize quality over quantity, a mechanism has been defined to limit the publication of fast unreviewed translations.

After a user translates a large article, the next translation can only be started after some time has passed. The waiting period estimation considers 1 minute per paragraph up to 10 minutes. That is:

  • For articles with 10 paragraphs or less, we want to make sure that users spent translating it at least N minutes (one minute per paragraph)
  • For articles with more than 10 paragraphs we want to make sure that users spent translating it at least 10 minutes.


This has been applied on mobile initially since it is a space with less activity, and after measuring the impact we'll consider expanding it to desktop too.


Настройка ограничений

Описанные выше ограничения представляют собой набор общих механизмов, однако они могут нуждаться в корректировке в зависимости от конкретных потребностей каждой вики. По результатам первоначальной оценки, объем модификаций, необходимых для первоначального машинного перевода, может составлять от 10% до 70% в зависимости от языковой пары. В некоторых вики-проектах установленные по умолчанию ограничения могут быть слишком строгими, создавая ненужный шум или не позволяя публиковать вполне корректные переводы. В других вики-проектах ограничения могут быть недостаточно строгими, что позволяет публиковать переводы, которые не были достаточно отредактированы.

Настройка различных пороговых значений позволяет каждой вики настроить ограничения инструмента в соответствии со своими конкретными потребностями. Обратная связь с носителями языка очень важна для правильной корректировки установленных ограничений. Если текущие ограничения кажутся вам не совсем подходящими, исходя из вашего опыта создания или проверки переводов, пожалуйста, поделитесь своим мнением, и мы сможем изучить, как лучше их скорректировать.

При предоставлении отзывов о настройке пороговых значений мы рекомендуем сначала создать несколько примеров переводов (обязательно отметьте опции публикации, если ваш тест не предназначен для публикации в качестве обычного контента). При проверке того, как работают ограничения для вашего языка, полезно иметь в виду следующее:

  • Проверьте оба варианта. Обязательно проверьте, как работают ограничения для обоих вариантов: для переводов, в которых контент недостаточно отредактирован, и для переводов, в которых он достаточно отредактирован. Таким образом, можно легче найти оптимальный баланс предельных возможностей инструмента. Проверка только одного типа проблем может привести к слишком большому смещению пороговых значений в противоположную сторону.
  • Проверьте различное содержание. Содержимое наших вики-сайтов очень разнообразно, и машинный перевод в одних случаях может работать гораздо лучше, чем в других. Например, контент, содержащий большое количество числовых данных или технических названий, может потребовать от пользователей меньшего объема редактирования, чем контент с более описательным текстом. Обязательно проводите тестирование, переводя статьи разных типов, разной длины, с разным содержанием.
  • Приготовьтесь к итерациям. Корректировка пороговых значений является итерационным процессом. Возможно, потребуется внести коррективы в пороговые значения или усовершенствовать общий подход. В любом случае, после каждого изменения может потребоваться дополнительное тестирование для проверки внесенных улучшений.

Корректировка лимитов в сотрудничестве с редакторами доказала свою эффективность. Например, первые результаты показывают, что индонезийское сообщество смогло значительно сократить количество получаемых проблемных переводов, ограничив публикацию переводов, более чем на 70% состоящих из не модифицированного машинного перевода. Аналогичные корректировки были сделаны для вики-проектов на языках телугу и ассамском. Не существует безошибочного автоматического инструмента, и эти ограничения не исключение.

Процесс рецензирования контента сообществом по-прежнему важен, но эти ограничения дают сообществам инструмент для уменьшения количества переводов, на которые они должны обратить внимание, что делает процесс рецензирования гораздо более эффективным. Пожалуйста, поделитесь своим мнением, и мы сможем понять, как лучше их настроить.

Отслеживание потенциально не рецензируемых переводов

Категория мониторинга с названием «cx-unreviewed-translation-category» предназначена для того, чтобы сообщества могли легко находить статьи, содержание которых превысило рекомендуемые пределы.

Эту категорию можно найти в списке категорий отслеживания в каждой вики. С его помощью можно отследить статьи, которые прошли лимиты, препятствующие публикации, но в которых все же остались абзацы, отредактированные меньше, чем предполагалось. Например, категория индонезийской Википедии включает статьи, в которых машинный перевод в целом составляет менее 40%, но в которых некоторые абзацы имеют более 80% не модифицированного машинного перевода.

Измерение качества перевода

Автоматическое оценивание качества контента не является тривиальной задачей. Коэффициент удаления дает возможность оценить, насколько созданный контент был достаточно хорош для того, чтобы участники сообщества не удаляли его. Анализ коэффициентов удаления показывает, что вероятность удаления статей, созданных как переводы, меньше, чем статей, созданных с нуля. Это говорит о том, что, возможно, нецелесообразно устанавливать для участия в проекте через перевод гораздо более высокие границы, чем для других способов создания статей.

Найти опубликованные переводы

Перевод содержимого добавляет к опубликованным переводам тег редактирования контентперевод. Это позволяет сообществам использовать "Последние изменения" и другие аналогичные инструменты, чтобы сосредоточиться на страницах, созданных с помощью инструмента перевода. Кроме того, данные об опубликованных переводах и статистика использования машинного перевода доступны для анализа всем желающим.

Проверка конкретного перевода

Пример отладчика переводов

Отладчик переводов — это инструмент, позволяющий проверить некоторые метаданные для данного перевода, в том числе процент машинного перевода, использованный для всего документа, и сервис перевода, использованный для каждого абзаца. For specific types of content such as templates, the Content Translation Server API can be queried to check how templates will be transferred across languages.

Другие ограничения, основанные на опыте пользователя

Ошибка, показывающая ограничение на публикацию на основе опыта пользователя. Этот пример основан на решении сообщества английской Википедии ограничить публикацию непосредственно в основном пространстве только для расширенных автоподтвержденных пользователей.

В некоторых вики-проектах для уменьшения количества некачественных переводов введены другие ограничения на перевод, основанные на правах пользователя. Например, английская Википедия требует от пользователей расширенного подтверждения, что означает, что они должны сделать 500 правок в английской Википедии, прежде чем им будет разрешено опубликовать перевод в виде статьи. Новые редакторы по-прежнему могут публиковать переведенные статьи в пространствах имен User: или Черновик: пространства имен, а затем переместить статью в основное пространство.

Это ограничение было создано до появления системы ограничений, описанной на этой странице, и не является рекомендуемым подходом для стимулирования создания качественных переводов.

Прежде чем добавлять ограничения, не учитывающие созданный контент, рассмотрите процесс настройки ограничений на не модифицированный контент, как описано выше. Ограничения могут быть настолько жёсткими, насколько это необходимо для предотвращения некачественных переводов, и в то же время позволять публикацию редакторам, делающим хорошие переводы.