.
| В документах на разных
языках нередко отдельные фрагменты текста располагаются по-разному – это
не помешает задать правильное соответствие предложений в результирующей
базе | Преодоление языковых барьеров
становится первостепенной проблемой в глобализованном мире. Программы и
сервисы автоматического перевода широко используются, когда необходимо
быстро понять смысл документа или веб-страницы на иностранном языке,
однако задачи бизнеса требуют совершенно иного уровня качества выходящих
документов, соответствия стиля и лексики заданным стандартам. Современные
технологии автоматизированного перевода можно принципиально разделить
на два класса: МП (машинный перевод), при котором для получения связного
выходного текста используются лингвистические алгоритмы анализа и
синтеза, и TM (Translation Memory, память переводов), работающую по
принципу накопления и повторного использования переводов фрагментов (как
правило, при обработке типовой документации). В контексте данного
обзора речь идет именно о последней. Основой технологии TM
является база параллельных текстов – при обработке нового входящего
документа система разбивает его на сегменты (обычно – предложения,
однако иногда используются иные способы сегментации) и сравнивает их с
уже хранящимися в базе данных эталонами. При нахождении полного или
частичного совпадения используется сохраненный текст, а отличающиеся
слова помечаются для последующего редактирования вручную либо
автоматически за счет интеграции с МП. Таким образом, результирующий
документ, как из мозаики, собирается из готовых фрагментов. К
несомненным достоинствам данной технологии относятся высокая скорость
обработки, гарантированное качество переведенных документов, единство
стиля, используемой терминологии (что особенно актуально при работе со
специализированными текстами), а также обеспечение непрерывности
рабочего процесса при привлечении новых сотрудников. Однако
действительно эффективным применение систем TM оказывается лишь при
достаточно высоком (не менее 75%) уровне совпадений – в противном случае
их немалая стоимость совершенно не оправдывается. Таким
образом, успех TM напрямую зависит от объема и качества базы эталонных
переводов по нужным тематикам и областям деятельности – их придется либо
покупать, либо создавать самостоятельно. Именно по этой причине этап
внедрения TM может быть достаточно долгим и потребовать от ведущих
специалистов-переводчиков существенных дополнительных трудозатрат,
связанных с наполнением TM. В то же время практически каждая компания,
как правило, имеет архив готовых документов на исходном и целевом
языках, которые могут стать основой такой БД, но для них нужны
специальная обработка и сегментация. Кроме того, даже в крупных
переводческих агентствах, уже применяющих системы ТМ, всегда есть
определенная доля заказов, которые в силу разных причин (нестандартный
формат, перегруженный макет, особые требования переводчика,
специализирующегося на данной узкой тематике) невозможно или
нецелесообразно обрабатывать автоматически, что дает постоянный (пусть и
не слишком значительный) источник новых материалов для добавления в БД,
но заниматься этим вручную довольно дорого. | Отсутствие небольших
фрагментов в целом не сказывается на качестве формирования БД |
Автоматизировать все упомянутые процессы как раз и поможет новый
продукт ABBYY Aligner. Функционирует он чрезвычайно просто: задаются
документ на исходном языке и его переведенный аналог, а после обработки
программа выдает базу параллельных предложений (или абзацев, что можно
настроить отдельно). Продукт работает в Microsoft Windows XP, Vista и
Windows 7, системные требования совершенно скромные, но надо понимать,
что от доступных аппаратных ресурсов в значительной степени зависит
производительность. Программа понимает основные форматы документов (TXT,
RTF, PDF, HTML, XML, а также Microsoft Office, в том числе и последней
версии) и умеет работать с текстами на десяти языках (английский,
немецкий, французский, испанский, итальянский, польский, португальский,
турецкий, украинский, русский). Результат можно сохранить в RTF,
внутреннем формате программы ATA либо в TMX, который поддерживается
большинством систем TM (Trados, Déjà Vu X, Transit, открытая OmegaT,
встраиваемая в Microsoft Office Metatexis и пр.) и фактически является
стандартом для обмена базами переводов. Для массовой обработки имеющихся
в распоряжении документов Aligner предлагает специальный пакетный режим
(в этом случае размер каждого файла не должен превышать 10 МБ). Естественно,
механическое сопоставление по порядку предложений в исходном и
переведенном текстах не способствует созданию качественной БД
параллельных фрагментов – разные языки имеют свои особенности. ABBYY
Aligner использует словарные базы и сравнивает сегменты исходного и
переведенного текстов, что позволяет повысить качество. По результатам
экспресс-тестирования на достаточно больших текстовых документах
(руководства пользователя размером свыше 150 страниц на английском,
польском и русском языках), можно сделать заключение, что программа
действительно выявляет отсутствующие или неточно совпадающие сегменты в
пределах одного-двух абзацев и правильно находит соответствия. Хотя,
конечно, если в одном из входящих документов пропустить страницу-другую,
вряд ли стоит рассчитывать на отсутствие ошибок. Имеется и еще один
нюанс – иногда приложение принимает точки в сокращениях (т. е., пр.) как
окончание предложения и, соответственно, неверно выделяет сегмент.
Чтобы избежать ошибок подобного рода, в окне настроек для каждого
используемого языка можно задать собственный список сокращений. Впрочем,
даже если этого не сделать, программа сама просигнализирует о некоторых
неточностях или «сомнениях» – не полностью (по мнению Aligner)
совпадающие сегменты выделяются в окне редактора подцветкой, как и
пустые строки и орфографические ошибки. Дополнительные инструменты
редактора позволяют разбивать или объединять сегменты текста, перемещать
их, выполнять сопоставление вручную и, естественно, править
обнаруженные ошибки. В заключение отметим, что для небольших
проектов и персональных пользователей на веб-сайте ABBYY предлагается
бесплатный сервис Aligner online, который, правда, имеет ограничения по
размеру файлов, не поддерживает пакетный режим, не допускает
редактирования и работает не со всеми форматами. Впрочем, для
большинства персональных пользователей систем МП с поддержкой элементов
TM, например, профессиональных редакций ПРОМТ, сервиса может оказаться
вполне достаточно.
|