Демо переводчик на черкесский язык

Это демо-версия переводчика на черкесский язык. Переводы могут быть неправильными. Узнать больше

Примеры

  • Мы живем на родине
  • Дети играют во дворе
  • Луна вращается вокруг Земли
  • We live in a big house
  • Bugün güzel bir gün
  • Tu es une bonne personne.
  • أين تعيش؟
  • Πού ζεις;
  • איפה אתה גר?
  • – Если я его отпущу, то ты вовек не сможешь его поймать, – заявил Сосруко.
  • Как только старик ушел, Сатаней пошла к Саусырыко.
  • 我永远不会放弃你。
  • 우리는 소치에 살고 있습니다.
  • あなたの名前は何ですか?
  • Zij zijn goede mensen.
  • آنها افراد خوبی هستند
  • El cielo es azul.
  • Eu gosto de aprender línguas!
  • Das Leben ist schön.
  • Il mondo è un libro, e chi non viaggia legge solo una pagina

Часто задаваемые вопросы

Что это?

Это демо-версия русско-черкесского переводчика. Он работает на основе модели машинного обучения, обученной на русско-черкесских парах предложений, а также может выполнять переводы с более чем 100 других языков, хотя точность может варьироваться. Цель этого демо - показать, что благодаря последним достижениям в области машинного обучения стало возможным создание переводчика для черкесского языка, и привлечь всех желающих принять участие в его разработке.

Переводы неправильные!

Эта первая версия модели, обученная всего на ~44 тыс. пар предложений. По мере увеличения объема данных для обучения точность переводов будет только расти. Если вы хотите помочь улучшить точность модели, вы можете присоединиться к работе по сбору материала для ее улучшения.

Почему переводчик только на кабардинском диалекте?

Языковая модель была обучена на русско-кабардинских парах предложений из-за доступности данных. Она может быть легко адаптирована для перевода на другие черкесские диалекты при наличии достаточного количества данных для обучения. Основной задачей является сбор достаточного количества текстов на этих диалектах для эффективного обучения модели. Если вы заинтересованы в том, чтобы помочь собрать больше текста и улучшить точность модели, вы можете присоединиться к работе по сбору материала.

Технические детали

В этом демо используется доработанная (fine-tuned) версия модели facebook/m2m100_418M. Модель была обучена на наборе данных "ru-kbd", который состоит из ~44 тыс. предложений, собранных из книг, учебников, словарей и т.д. Доработанная модель достигла оценки BLEU в 22.389 баллов. Более подробную информацию о модели и наборе данных можно найти по следующим ссылкам:

Базовая модель m2m100_418M:
https://huggingface.co/facebook/m2m100_418M
Модель ru-kbd: https://huggingface.co/anzorq/m2m100_418M_ft_ru-kbd_44 тыс.
Научная статья: https://arxiv.org/abs/2010.11125
Набор данных: https://huggingface.co/datasets/anzorq/kbd-ru

Синтез речи
Для синтеза речи используется доработанная (fine-tuned) версия модели VITS, обученная на ~16 тысячах коротких текстов, озвученных носителем языка.

Как я могу помочь?

Короткий ответ: присоединяйтесь к нашему Discord-серверу или помогите в оценке существующих переводов.

Развернутый ответ: Качество переводов прямо пропорционально количеству текста, на котором обучена модель. Текущая версия модели была обучена на минимальном количестве пар предложений - ~44 тыс. Для достижения хороших результатов перевода требуется гораздо больше данных. Вы можете помочь повысить точность перевода, помогая собирать больше данных для обучения. Например, одноязычный текст на любом черкесском диалекте или двуязычный текст, например, книга, написанная на черкесском языке и переведенная на другой язык или наоборот, и т.д. Текст может быть в виде обычного текста, PDF или ссылок на веб-страницы, содержащие текст. Вы также можете помочь со сканированием книг на черкесском языке и/или преобразованием отсканированных документов в текст (OCR). Если вы заинтересованы в участии в этом проекте, присоединяйтесь к нашему Discord-серверу или помогите в оценке существующих переводов.