Перевод PDF с английского на японский с помощью API

Технические проблемы API для перевода PDF

Программный перевод документов через API, особенно в случае PDF-файлов,
создает множество сложных проблем. Это больше, чем просто извлечение и замена текста.
Разработчикам необходимо решать сложные взаимодействия кодировок, макетов и структур файлов,
чтобы сохранить визуальную целостность исходного документа.

Первым серьезным препятствием является кодировка символов.
Английский текст обычно использует ASCII или UTF-8, в то время как
японский использует различные кодировки, такие как Shift-JIS, EUC-JP и UTF-8.
Если API не обрабатывает эти кодировки правильно,
это может привести к появлению искаженных символов (mojibake) или повреждению данных.
Это недопустимо для технических или юридических документов.

Еще одна серьезная проблема — сохранение макета.
PDF — это статический формат, содержащий текст, изображения, векторную графику,
таблицы и многоколоночные макеты.
Замена английского текста более многословным японским текстом
может привести к переполнению текста, смещению колонок и наложению изображений.
Хороший API для перевода PDF с английского на японский
должен интеллектуально перестраивать содержимое,
чтобы сохранить целостность исходного макета.

Кроме того, обработка шрифтов чрезвычайно сложна.
PDF-файлы часто содержат встроенные шрифты,
которые могут не поддерживать японский набор символов.
API должен интеллектуально заменять или встраивать подходящие японские шрифты,
чтобы переведенный документ был читаемым и
выглядел профессионально.
Если пренебречь этим шагом, текст может отображаться в виде нечитаемых квадратов.

Представляем API для перевода PDF от Doctranslate

API Doctranslate специально разработан для решения этих проблем.
Это надежный RESTful-сервис, который позволяет разработчикам легко интегрировать перевод PDF
с английского на японский в свои приложения.
Наш API специализируется на анализе сложных структур PDF,
точном переводе текста и восстановлении файла
с сохранением исходного макета.

API работает со стандартными методами HTTP,
используя предсказуемые ответы в формате JSON.
Это облегчает интеграцию с любым языком программирования, таким как Python, JavaScript, Java или Ruby.
Разработчики могут отправить файл, отследить статус задания на перевод
и загрузить готовый документ
всего несколькими строками кода.
Это значительно упрощает процесс разработки.

Одной из выдающихся особенностей Doctranslate является
его усовершенствованный механизм восстановления макета.
В отличие от других сервисов, которые полагаются на простую замену текста,
наша технология понимает структурные элементы PDF.
Она распознает таблицы, верхние и нижние колонтитулы, многоколоночный текст
и расположение изображений, обеспечивая, чтобы переведенное японское содержимое
бесшовно вписывалось в визуальный контекст
исходного документа.
Эта функция устраняет необходимость в трудоемкой ручной постобработке.

Безопасность и масштабируемость также являются основой нашей платформы.
Все передачи данных шифруются с помощью SSL,
и файлы безопасно удаляются с наших серверов после обработки.
Наша инфраструктура создана для обработки больших объемов запросов,
от одного документа до пакетных заданий, содержащих тысячи файлов,
что гарантирует надежную производительность для предприятий любого размера.

Пошаговое руководство: Интеграция API для перевода PDF с английского на японский

Интеграция API Doctranslate проста.
В этом руководстве мы покажем вам процесс загрузки PDF-документа на английском языке,
его перевода на японский и
загрузки результата с использованием Python.
Перед началом убедитесь, что вы получили
API-ключ на портале разработчиков Doctranslate.

Шаг 1: Настройка окружения

Сначала убедитесь, что у вас установлены необходимые библиотеки
для вашего проекта.
В этом примере мы будем использовать библиотеку `requests` для выполнения HTTP-запросов.
Если вы еще не установили ее, вы можете сделать это с помощью pip.
Выполните `pip install requests` в вашем терминале.
Эта библиотека упрощает взаимодействие с конечными точками API.

Шаг 2: Загрузка документа и начало перевода

Первый вызов API заключается в загрузке вашего PDF-файла и
запуске процесса перевода.
Вы отправите POST-запрос на конечную точку `/v3/documents`.
Тело запроса должно содержать файл, исходный язык (`en`)
и целевой язык (`ja`).


import requests
import time
import os

# Задайте свой API-ключ и путь к файлу
API_KEY = "YOUR_API_KEY"  # Замените на ваш API-ключ
FILE_PATH = "path/to/your/document.pdf" # Замените на путь к вашему файлу
API_URL = "https://developer.doctranslate.io"

# Подготовьте заголовки и данные для запроса
headers = {
    "Authorization": f"Bearer {API_KEY}"
}

files = {
    'file': (os.path.basename(FILE_PATH), open(FILE_PATH, 'rb'), 'application/pdf'),
    'source_language': (None, 'en'),
    'target_language': (None, 'ja'),
}

# Загрузите документ и начните перевод
print("Загрузка документа...")
response = requests.post(f"{API_URL}/v3/documents", headers=headers, files=files)

if response.status_code == 201:
    data = response.json()
    document_id = data['id']
    print(f"Успешно. ID документа: {document_id}")
else:
    print(f"Ошибка: {response.status_code} - {response.text}")
    exit()

# Логика проверки статуса и загрузки следует далее

Шаг 3: Опрос статуса перевода

После загрузки документа API немедленно возвращает ответ, но
перевод выполняется асинхронно.
Чтобы проверить, завершен ли перевод,
вам нужно периодически опрашивать конечную точку `/v3/documents/{id}`,
используя `document_id`, полученный на предыдущем шаге.
Продолжайте проверять, пока статус не станет `done`.


# Проверьте статус перевода
status_url = f"{API_URL}/v3/documents/{document_id}"

while True:
    status_response = requests.get(status_url, headers=headers)
    if status_response.status_code == 200:
        status_data = status_response.json()
        current_status = status_data['status']
        print(f"Текущий статус: {current_status}")
        if current_status == 'done':
            print("Перевод завершен.")
            break
        elif current_status == 'error':
            print("Произошла ошибка во время перевода.")
            exit()
    else:
        print(f"Не удалось получить статус: {status_response.status_code}")
        exit()
    time.sleep(5)  # Подождите 5 секунд перед следующей проверкой

Шаг 4: Загрузка переведенного документа

Как только статус станет `done`, последний шаг —
загрузить переведенный файл.
Отправьте GET-запрос на конечную точку `/v3/documents/{id}/result`,
чтобы получить содержимое файла.
Сохраните это содержимое в локальный PDF-файл,
чтобы завершить процесс.


# Загрузите переведенный файл
result_url = f"{API_URL}/v3/documents/{document_id}/result"
result_response = requests.get(result_url, headers=headers)

if result_response.status_code == 200:
    # Создайте новое имя файла
    base, ext = os.path.splitext(FILE_PATH)
    translated_file_path = f"{base}_ja{ext}"
    
    with open(translated_file_path, 'wb') as f:
        f.write(result_response.content)
    print(f"Переведенный файл сохранен в {translated_file_path}.")
else:
    print(f"Не удалось загрузить: {result_response.status_code} - {result_response.text}")

Основные соображения по переводу на японский язык

При автоматизации перевода с английского на японский с помощью API
важно учитывать несколько лингвистических нюансов,
чтобы обеспечить высокое качество результатов.
Эти факторы влияют как на техническую реализацию,
так и на качество конечного продукта.

Во-первых, учтите, что японский текст может быть написан как горизонтально (yokogaki), так и вертикально (tategaki).
Хотя в большинстве технических и деловых документов используется горизонтальное письмо,
в литературных произведениях и некоторых дизайнерских макетах используется вертикальное.
Важно убедиться, что API может правильно определять и
сохранять ориентацию текста исходного документа.
Это обеспечивает читабельность.

Во-вторых, это сложность символов и совместимость шрифтов.
Японский язык использует три системы письма — хирагану, катакану и кандзи,
состоящие из тысяч символов.
Крайне важно, чтобы шрифт, используемый API, поддерживал
полный набор глифов, охватывающий все необходимые символы.
Использование несовместимого шрифта может привести к явлению «тофу»,
когда символы отображаются некорректно.

Наконец, рассмотрим длину предложений и переносы строк.
Японские предложения, как правило, длиннее своих английских аналогов.
Это влияет на макет, особенно в колонках и ячейках таблиц с фиксированной шириной.
Хороший API для перевода должен интеллектуально переносить текст,
чтобы избежать переполнения текста и неэстетичных разрывов строк.
API Doctranslate разработан для автоматической обработки этих корректировок макета.

В заключение, API Doctranslate предоставляет
мощное и надежное решение для разработчиков, желающих интегрировать перевод PDF с английского на японский
в свои приложения.
Автоматически решая общие проблемы, такие как кодировка, макет и шрифты,
он позволяет разработчикам добиваться высококачественных переводов без ручного вмешательства.
Следуя простым шагам, изложенным в этом руководстве,
вы можете быстро реализовать надежный рабочий процесс перевода документов.
Для оптимизированного процесса, который сохраняет макеты и таблицы в неизменном виде, вы можете мгновенно перевести свой PDF-документ здесь.
Для получения более расширенных функций и возможностей настройки
обратитесь к официальной документации API.

Перевод PDF с английского на японский с помощью API | Сохранение макета