ບັນຫາທາງດ້ານເຕັກນິກຂອງ PDF Translation API
ການແປເອກະສານຜ່ານ API ໂດຍໃຊ້ໂປຣແກຣມ, ໂດຍສະເພາະໄຟລ໌ PDF,
ນຳສະເໜີສິ່ງທ້າທາຍທີ່ຊັບຊ້ອນຫຼາຍຢ່າງ. ມັນເປັນຫຼາຍກວ່າການສະກັດ ແລະ ແທນທີ່ຂໍ້ຄວາມທຳມະດາ.
ນັກພັດທະນາຕ້ອງຮັບມືກັບການໂຕ້ຕອບທີ່ຊັບຊ້ອນຂອງການເຂົ້າລະຫັດ, ໂຄງຮ່າງ, ແລະ ໂຄງສ້າງຂອງໄຟລ໌
ເພື່ອຮັກສາຄວາມສົມບູນທາງດ້ານສາຍຕາຂອງເອກະສານຕົ້ນສະບັບ.
ອຸປະສັກໃຫຍ່ອັນທຳອິດແມ່ນການເຂົ້າລະຫັດຕົວອັກສອນ.
ຂໍ້ຄວາມພາສາອັງກິດມັກຈະໃຊ້ ASCII ຫຼື UTF-8,
ແຕ່ພາສາຍີ່ປຸ່ນໃຊ້ການເຂົ້າລະຫັດທີ່ຫຼາກຫຼາຍເຊັ່ນ Shift-JIS, EUC-JP, ແລະ UTF-8.
ຖ້າ API ບໍ່ສາມາດຈັດການກັບການເຂົ້າລະຫັດເຫຼົ່ານີ້ໄດ້ຢ່າງຖືກຕ້ອງ,
ມັນອາດຈະນຳໄປສູ່ການສະແດງຜົນຕົວອັກສອນທີ່ຜິດພາດ (mojibake) ຫຼື ຂໍ້ມູນເສຍຫາຍ.
ສິ່ງນີ້ເປັນສິ່ງທີ່ຍອມຮັບບໍ່ໄດ້ໃນເອກະສານທາງດ້ານເຕັກນິກ ຫຼື ທາງກົດໝາຍ.
ສິ່ງທ້າທາຍໃຫຍ່ອີກຢ່າງໜຶ່ງແມ່ນການຮັກສາໂຄງຮ່າງ.
PDF ເປັນຮູບແບບຄົງທີ່ເຊິ່ງລວມມີຂໍ້ຄວາມ, ຮູບພາບ, vector graphics,
ຕາຕະລາງ, ແລະ ໂຄງຮ່າງແບບຫຼາຍຖັນ.
ເມື່ອແທນທີ່ຂໍ້ຄວາມພາສາອັງກິດດ້ວຍຂໍ້ຄວາມພາສາຍີ່ປຸ່ນທີ່ມີລາຍລະອຽດຫຼາຍກວ່າ,
ມັນອາດຈະເຮັດໃຫ້ຂໍ້ຄວາມລົ້ນ, ຖັນບໍ່ກົງກັນ, ຫຼື ຮູບພາບຊ້ອນກັນ.
API ແປ PDF ຈາກພາສາອັງກິດເປັນພາສາຍີ່ປຸ່ນ ທີ່ດີເລີດ
ຄວນຈະສາມາດຈັດວາງເນື້ອຫາຄືນໃໝ່ຢ່າງສະຫຼາດ
ເພື່ອຮັກສາຄວາມສົມບູນຂອງໂຄງຮ່າງເດີມ.
ນອກຈາກນີ້, ການຈັດການກັບຟອນແມ່ນມີຄວາມຊັບຊ້ອນຫຼາຍ.
PDF ມັກຈະມີຟອນທີ່ຖືກຝັງໄວ້,
ເຊິ່ງອາດຈະບໍ່ຮອງຮັບຊຸດຕົວອັກສອນພາສາຍີ່ປຸ່ນ.
API ຕ້ອງສາມາດແທນທີ່ ຫຼື ຝັງຟອນພາສາຍີ່ປຸ່ນທີ່ເໝາະສົມໄດ້ຢ່າງສະຫຼາດ,
ເພື່ອໃຫ້ແນ່ໃຈວ່າເອກະສານທີ່ແປແລ້ວສາມາດອ່ານໄດ້ງ່າຍ
ແລະ ເບິ່ງເປັນມືອາຊີບ.
ຖ້າລະເລີຍຂັ້ນຕອນນີ້, ຂໍ້ຄວາມອາດຈະສະແດງເປັນກ່ອງທີ່ບໍ່ສາມາດອ່ານໄດ້.
ແນະນຳ Doctranslate PDF Translation API
Doctranslate API ຖືກອອກແບບມາເປັນພິເສດເພື່ອແກ້ໄຂບັນຫາເຫຼົ່ານີ້ໂດຍກົງ.
ມັນເປັນບໍລິການ RESTful ທີ່ແຂງແກ່ນທີ່ຊ່ວຍໃຫ້ນັກພັດທະນາສາມາດປະສົມປະສານການແປ PDF ຈາກພາສາອັງກິດເປັນພາສາຍີ່ປຸ່ນ
ເຂົ້າໃນແອັບພລິເຄຊັນຂອງພວກເຂົາໄດ້ຢ່າງລຽບງ່າຍ.
API ຂອງພວກເຮົາຊ່ຽວຊານໃນການວິເຄາະໂຄງສ້າງ PDF ທີ່ຊັບຊ້ອນ,
ແປຂໍ້ຄວາມຢ່າງຖືກຕ້ອງ, ແລະ ສ້າງໄຟລ໌ຄືນໃໝ່
ໃນຂະນະທີ່ຮັກສາໂຄງຮ່າງເດີມ.
API ເຮັດວຽກກັບເມທອດ HTTP ມາດຕະຖານ,
ໂດຍໃຊ້ການຕອບສະໜອງ JSON ທີ່ຄາດເດົາໄດ້.
ນີ້ເຮັດໃຫ້ການເຊື່ອມໂຍງກັບພາສາການຂຽນໂປຣແກຣມໃດກໍໄດ້ງ່າຍຂຶ້ນ, ເຊັ່ນ Python, JavaScript, Java, ແລະ Ruby.
ນັກພັດທະນາສາມາດສົ່ງໄຟລ໌, ຕິດຕາມສະຖານະຂອງວຽກການແປ,
ແລະ ດາວໂຫຼດເອກະສານທີ່ສຳເລັດແລ້ວໄດ້ດ້ວຍໂຄດພຽງບໍ່ເທົ່າໃດແຖວ.
ນີ້ເຮັດໃຫ້ຂະບວນການພັດທະນາງ່າຍຂຶ້ນຢ່າງຫຼວງຫຼາຍ.
ໜຶ່ງໃນຄຸນສົມບັດທີ່ໂດດເດັ່ນຂອງ Doctranslate ແມ່ນ
ເຄື່ອງມືການຟື້ນຟູໂຄງຮ່າງຂັ້ນສູງຂອງພວກເຮົາ.
ບໍ່ຄືກັບບໍລິການອື່ນໆທີ່ອີງໃສ່ການແທນທີ່ຂໍ້ຄວາມແບບງ່າຍໆ,
ເຕັກໂນໂລຢີຂອງພວກເຮົາເຂົ້າໃຈອົງປະກອບໂຄງສ້າງຂອງ PDF.
ມັນຮັບຮູ້ຕາຕະລາງ, ຫົວຂໍ້, ທ້າຍຂໍ້, ຂໍ້ຄວາມຫຼາຍຖັນ,
ແລະ ການຈັດວາງຮູບພາບ, ຮັບປະກັນວ່າເນື້ອຫາພາສາຍີ່ປຸ່ນທີ່ແປແລ້ວ
ຈະເຂົ້າກັນໄດ້ຢ່າງລຽບງ່າຍພາຍໃນບໍລິບົດທາງສາຍຕາຂອງເອກະສານຕົ້ນສະບັບ.
ຄຸນສົມບັດນີ້ກຳຈັດຄວາມຕ້ອງການໃນການແກ້ໄຂດ້ວຍມືທີ່ໃຊ້ເວລາດົນຫຼັງຈາກການແປ.
ຄວາມປອດໄພ ແລະ ຄວາມສາມາດໃນການຂະຫຍາຍກໍເປັນຫຼັກຂອງແພລດຟອມຂອງພວກເຮົາ.
ການໂອນຂໍ້ມູນທັງໝົດຖືກເຂົ້າລະຫັດດ້ວຍ SSL,
ແລະ ໄຟລ໌ຈະຖືກລຶບອອກຈາກເຊີບເວີຂອງພວກເຮົາຢ່າງປອດໄພຫຼັງຈາກການປະມວນຜົນ.
ໂຄງສ້າງພື້ນຖານຂອງພວກເຮົາຖືກສ້າງຂຶ້ນເພື່ອຈັດການກັບປະລິມານການຮ້ອງຂໍທີ່ສູງ,
ຕັ້ງແຕ່ເອກະສານດຽວໄປຈົນເຖິງວຽກເປັນຊຸດທີ່ບັນຈຸຫຼາຍພັນໄຟລ໌,
ຮັບປະກັນປະສິດທິພາບທີ່ໜ້າເຊື່ອຖືສໍາລັບທຸລະກິດທຸກຂະໜາດ.
ຄູ່ມືຂັ້ນຕອນຕໍ່ຂັ້ນຕອນ: ການເຊື່ອມໂຍງ API ແປ PDF ຈາກພາສາອັງກິດເປັນພາສາຍີ່ປຸ່ນ
ການເຊື່ອມໂຍງ Doctranslate API ແມ່ນງ່າຍດາຍ.
ຄູ່ມືນີ້ຈະນຳພາທ່ານຜ່ານຂະບວນການອັບໂຫຼດເອກະສານ PDF ພາສາອັງກິດໂດຍໃຊ້ Python,
ແປເປັນພາສາຍີ່ປຸ່ນ,
ແລະ ດາວໂຫຼດຜົນລັບ.
ກ່ອນທີ່ທ່ານຈະເລີ່ມ, ໃຫ້ແນ່ໃຈວ່າທ່ານໄດ້ຮັບ API key ຂອງທ່ານຈາກ Doctranslate developer portal.
ຂັ້ນຕອນທີ 1: ການຕັ້ງຄ່າສະພາບແວດລ້ອມ
ທຳອິດ, ໃຫ້ແນ່ໃຈວ່າທ່ານໄດ້ຕິດຕັ້ງไลบຣາຣີທີ່ຈຳເປັນສຳລັບໂຄງການຂອງທ່ານ.
ໃນຕົວຢ່າງນີ້, ພວກເຮົາຈະໃຊ້ไลบຣາຣີ `requests` ເພື່ອເຮັດການຮ້ອງຂໍ HTTP.
ຖ້າທ່ານຍັງບໍ່ໄດ້ຕິດຕັ້ງມັນ, ທ່ານສາມາດຕິດຕັ້ງມັນໄດ້ໂດຍໃຊ້ pip.
ໃຫ້ແລ່ນ `pip install requests` ໃນ terminal ຂອງທ່ານ.
ไลบຣາຣີນີ້ຈະຊ່ວຍໃຫ້ການສື່ສານກັບ API endpoints ງ່າຍຂຶ້ນ.
ຂັ້ນຕອນທີ 2: ອັບໂຫຼດເອກະສານ ແລະ ເລີ່ມການແປ
ການເອີ້ນ API ຄັ້ງທຳອິດແມ່ນເພື່ອອັບໂຫຼດໄຟລ໌ PDF ຂອງທ່ານ
ແລະ ເລີ່ມຂະບວນການແປ.
ທ່ານຈະສົ່ງຄຳຮ້ອງຂໍ POST ໄປທີ່ `/v3/documents` endpoint.
ສ່ວນເນື້ອໃນຂອງຄຳຮ້ອງຂໍຄວນປະກອບມີໄຟລ໌, ພາສາຕົ້ນສະບັບ (`en`),
ແລະ ພາສາເປົ້າໝາຍ (`ja`).
import requests import time import os # ຕັ້ງຄ່າ API key ແລະ ທີ່ຢູ່ຂອງໄຟລ໌ API_KEY = "YOUR_API_KEY" # ແທນທີ່ດ້ວຍ API key ຂອງທ່ານ FILE_PATH = "path/to/your/document.pdf" # ແທນທີ່ດ້ວຍທີ່ຢູ່ຂອງໄຟລ໌ຂອງທ່ານ API_URL = "https://developer.doctranslate.io" # ກະກຽມ headers ແລະ data ສໍາລັບການຮ້ອງຂໍ headers = { "Authorization": f"Bearer {API_KEY}" } files = { 'file': (os.path.basename(FILE_PATH), open(FILE_PATH, 'rb'), 'application/pdf'), 'source_language': (None, 'en'), 'target_language': (None, 'ja'), } # ອັບໂຫຼດເອກະສານ ແລະ ເລີ່ມການແປ print("ກຳລັງອັບໂຫຼດເອກະສານ...") response = requests.post(f"{API_URL}/v3/documents", headers=headers, files=files) if response.status_code == 201: data = response.json() document_id = data['id'] print(f"ສຳເລັດ. Document ID: {document_id}") else: print(f"ຜິດພາດ: {response.status_code} - {response.text}") exit() # ໂລຈິກການກວດສອບສະຖານະ ແລະ ການດາວໂຫຼດຈະຢູ່ຕໍ່ໄປຂັ້ນຕອນທີ 3: ການກວດສອບສະຖານະການແປ (Polling)
ເມື່ອທ່ານອັບໂຫຼດເອກະສານ, API ຈະຕອບກັບທັນທີ,
ແຕ່ການແປຈະດຳເນີນການແບບ asynchronous.
ເພື່ອตรวจสอบວ່າການແປສຳເລັດແລ້ວຫຼືບໍ່,
ທ່ານຈໍາເປັນຕ້ອງກວດສອບ `/v3/documents/{id}` endpoint ເປັນໄລຍະໆ
ໂດຍໃຊ້ `document_id` ທີ່ໄດ້ຮັບໃນຂັ້ນຕອນກ່ອນໜ້ານີ້.
ສືບຕໍ່ກວດສອບຈົນກວ່າສະຖານະຈະກາຍເປັນ `done`.# ກວດສອບສະຖານະການແປ status_url = f"{API_URL}/v3/documents/{document_id}" while True: status_response = requests.get(status_url, headers=headers) if status_response.status_code == 200: status_data = status_response.json() current_status = status_data['status'] print(f"ສະຖານະປັດຈຸບັນ: {current_status}") if current_status == 'done': print("ການແປສຳເລັດແລ້ວ.") break elif current_status == 'error': print("ເກີດຂໍ້ຜິດພາດໃນລະຫວ່າງການແປ.") exit() else: print(f"ການດຶງຂໍ້ມູນສະຖານະລົ້ມເຫຼວ: {status_response.status_code}") exit() time.sleep(5) # ລໍຖ້າ 5 ວິນາທີກ່ອນຈະກວດສອບອີກຄັ້ງຂັ້ນຕອນທີ 4: ດາວໂຫຼດເອກະສານທີ່ແປແລ້ວ
ເມື່ອສະຖານະເປັນ `done`, ຂັ້ນຕອນສຸດທ້າຍແມ່ນ
ການດາວໂຫຼດໄຟລ໌ທີ່ແປແລ້ວ.
ສົ່ງຄຳຮ້ອງຂໍ GET ໄປທີ່ `/v3/documents/{id}/result` endpoint
ເພື່ອເອົາເນື້ອຫາຂອງໄຟລ໌.
ບັນທຶກເນື້ອຫານີ້ໃສ່ໄຟລ໌ PDF ໃນເຄື່ອງຂອງທ່ານ
ເພື່ອສຳເລັດຂະບວນການ.# ດາວໂຫຼດໄຟລ໌ທີ່ແປແລ້ວ result_url = f"{API_URL}/v3/documents/{document_id}/result" result_response = requests.get(result_url, headers=headers) if result_response.status_code == 200: # ສ້າງຊື່ໄຟລ໌ໃໝ່ base, ext = os.path.splitext(FILE_PATH) translated_file_path = f"{base}_ja{ext}" with open(translated_file_path, 'wb') as f: f.write(result_response.content) print(f"ໄຟລ໌ທີ່ແປແລ້ວຖືກບັນທຶກໄວ້ທີ່ {translated_file_path}.") else: print(f"ການດາວໂຫຼດລົ້ມເຫຼວ: {result_response.status_code} - {result_response.text}")ຂໍ້ຄວນພິຈາລະນາຫຼັກກ່ຽວກັບການແປພາສາຍີ່ປຸ່ນ
ເມື່ອເຮັດການແປຈາກພາສາອັງກິດເປັນພາສາຍີ່ປຸ່ນໂດຍອັດຕະໂນມັດດ້ວຍ API,
ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະຕ້ອງພິຈາລະນາຄວາມແຕກຕ່າງເລັກນ້ອຍທີ່ເປັນເອກະລັກຂອງພາສາເພື່ອໃຫ້ໄດ້ຜົນລັບທີ່ມີຄຸນນະພາບສູງ.
ປັດໄຈເຫຼົ່ານີ້ສົ່ງຜົນກະທົບຕໍ່ທັງການຈັດຕັ້ງປະຕິບັດທາງດ້ານເຕັກນິກ
ແລະຄຸນນະພາບຂອງຜົນຜະລິດສຸດທ້າຍ.ທຳອິດ, ໃຫ້ພິຈາລະນາວ່າຂໍ້ຄວາມພາສາຍີ່ປຸ່ນສາມາດຂຽນໄດ້ທັງແນວນອນ (yokogaki) ແລະ ແນວຕັ້ງ (tategaki).
ເຖິງແມ່ນວ່າເອກະສານທາງດ້ານເຕັກນິກແລະທຸລະກິດສ່ວນຫຼາຍຈະໃຊ້ການຂຽນແນວນອນ,
ແຕ່ວຽກງານວັນນະກຳແລະໂຄງຮ່າງທີ່ເນັ້ນການອອກແບບບາງຢ່າງກໍໃຊການຂຽນແນວຕັ້ງ.
ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະຕ້ອງແນ່ໃຈວ່າ API ສາມາດລະບຸ
ແລະ ຮັກສາທິດທາງຂອງຂໍ້ຄວາມໃນເອກະສານຕົ້ນສະບັບໄດ້ຢ່າງຖືກຕ້ອງ.
ນີ້ຈະຊ່ວຍຮັກສາຄວາມສາມາດໃນການອ່ານ.ຕໍ່ໄປ, ແມ່ນຄວາມຊັບຊ້ອນຂອງຕົວອັກສອນ ແລະ ຄວາມເຂົ້າກັນໄດ້ຂອງຟອນ.
ພາສາຍີ່ປຸ່ນໃຊ້ລະບົບການຂຽນສາມແບບຄື: ຮິຣະງະນະ, ຄະຕະຄະນະ, ແລະ ຄັນຈິ,
ເຊິ່ງປະກອບດ້ວຍຕົວອັກສອນຫຼາຍພັນຕົວ.
ມັນເປັນສິ່ງຈໍາເປັນທີ່ຈະຕ້ອງຮັບປະກັນວ່າຟອນທີ່ API ໃຊ້
ຮອງຮັບຊຸດ glyph ທີ່ຄົບຖ້ວນເຊິ່ງລວມມີຕົວອັກສອນທີ່ຕ້ອງການທັງໝົດ.
ການໃຊ້ຟອນທີ່ບໍ່ເຂົ້າກັນອາດຈະເຮັດໃຫ້ເກີດປາກົດການ “tofu”,
ເຊິ່ງຕົວອັກສອນຈະສະແດງຜົນບໍ່ຖືກຕ້ອງ.ສຸດທ້າຍ, ໃຫ້ພິຈາລະນາຄວາມຍາວຂອງປະໂຫຍກ ແລະ ການຂຶ້ນແຖວໃໝ່.
ປະໂຫຍກພາສາຍີ່ປຸ່ນມັກຈະຍາວກວ່າປະໂຫຍກພາສາອັງກິດ.
ນີ້ສົ່ງຜົນກະທົບຕໍ່ໂຄງຮ່າງ, ໂດຍສະເພາະໃນຖັນທີ່ມີຄວາມກວ້າງຄົງທີ່ ຫຼື ຊ່ອງຕາຕະລາງ.
API ການແປທີ່ດີຄວນຈະສາມາດຂຶ້ນແຖວໃໝ່ໃຫ້ຂໍ້ຄວາມຢ່າງສະຫຼາດ
ເພື່ອຫຼີກລ່ຽງຂໍ້ຄວາມລົ້ນ ຫຼື ການຂຶ້ນແຖວໃໝ່ທີ່ບໍ່ສວຍງາມ.
Doctranslate API ຖືກອອກແບບມາເພື່ອຈັດການການປັບປ່ຽນໂຄງຮ່າງເຫຼົ່ານີ້ໂດຍອັດຕະໂນມັດ.ໂດຍສະຫຼຸບ, Doctranslate API ສະເໜີ
ວິທີແກ້ໄຂທີ່ມີປະສິດທິພາບແລະເຊື່ອຖືໄດ້ສໍາລັບນັກພັດທະນາເພື່ອປະສົມປະສານການແປ PDF ຈາກພາສາອັງກິດເປັນພາສາຍີ່ປຸ່ນ
ເຂົ້າໃນແອັບພລິເຄຊັນຂອງພວກເຂົາ.
ໂດຍການຈັດການກັບສິ່ງທ້າທາຍທົ່ວໄປເຊັ່ນ: ການເຂົ້າລະຫັດ, ໂຄງຮ່າງ, ແລະ ຟອນໂດຍອັດຕະໂນມັດ,
ນັກພັດທະນາສາມາດບັນລຸການແປທີ່ມີຄຸນນະພາບສູງໂດຍບໍ່ຈໍາເປັນຕ້ອງແກ້ໄຂດ້ວຍມື.
ໂດຍການປະຕິບັດຕາມຂັ້ນຕອນງ່າຍໆທີ່ໄດ້ອະທິບາຍໄວ້ໃນຄູ່ມືນີ້,
ທ່ານສາມາດຈັດຕັ້ງປະຕິບັດຂະບວນການແປເອກະສານທີ່ແຂງແກ່ນໄດ້ຢ່າງວ່ອງໄວ.
ສຳລັບຂະບວນການທີ່ລຽບງ່າຍທີ່ຮັກສາໂຄງຮ່າງແລະຕາຕະລາງໄວ້ຄືເກົ່າ, ທ່ານສາມາດແປເອກະສານ PDF ຂອງທ່ານໄດ້ທັນທີທີ່ນີ້.
ສໍາລັບຄຸນສົມບັດຂັ້ນສູງເພີ່ມເຕີມ ແລະ ຕົວເລືອກການປັບແຕ່ງ,
ກະລຸນາເບິ່ງເອກະສານ API ຢ່າງເປັນທາງການ.


ປະກອບຄໍາເຫັນ