ຄວາມທ້າທາຍທີ່ເປັນເອກະລັກຂອງການແປພາສາ PDF ຜ່ານ API
ການແປເອກະສານແບບໂປຣແກຣມແມ່ນຄວາມຕ້ອງການທົ່ວໄປສຳລັບແອັບພລິເຄຊັນທົ່ວໂລກ, ແຕ່ຮູບແບບ PDF ມີຄວາມທ້າທາຍທີ່ເປັນເອກະລັກ ແລະ ຍິ່ງໃຫຍ່. ບໍ່ຄືກັບຂໍ້ຄວາມທຳມະດາ ຫຼື HTML, PDF ເປັນຮູບແບບການສະແດງຜົນສຸດທ້າຍ, ບໍ່ໄດ້ອອກແບບມາເພື່ອການແກ້ໄຂ ຫຼື ສະກັດເນື້ອຫາໄດ້ງ່າຍ.
ຄວາມຊັບຊ້ອນນີ້ເຮັດໃຫ້ API ແປພາສາ PDF ຈາກພາສາອັງກິດເປັນພາສາຍີ່ປຸ່ນ ທີ່ຊ່ຽວຊານບໍ່ພຽງແຕ່ເປັນຄວາມສະດວກ, ແຕ່ເປັນສິ່ງຈຳເປັນຢ່າງຍິ່ງເພື່ອໃຫ້ໄດ້ຜົນລັບທີ່ຖືກຕ້ອງ ແລະ ມີຄຸນນະພາບສູງໂດຍບໍ່ຕ້ອງມີການແຊກແຊງດ້ວຍມື.
ນັກພັດທະນາທີ່ພະຍາຍາມສ້າງໂຊລູຊັນຂອງຕົນເອງມັກຈະພົບກັບອຸປະສັກທີ່ສຳຄັນທີ່ສາມາດເຮັດໃຫ້ໂຄງການລົ້ມເຫຼວ ແລະ ນຳໄປສູ່ປະສົບການທີ່ບໍ່ດີຂອງຜູ້ໃຊ້. ບັນຫາເຫຼົ່ານີ້ເກີດຂຶ້ນຈາກລັກສະນະຂອງໂຄງສ້າງໄຟລ໌ PDF ເອງ, ເຊິ່ງໃຫ້ຄວາມສຳຄັນກັບຄວາມສອດຄ່ອງທາງສາຍຕາຫຼາຍກວ່າການເຂົ້າເຖິງເນື້ອຫາ.
ການເຂົ້າໃຈຄວາມຫຍຸ້ງຍາກຫຼັກເຫຼົ່ານີ້ເນັ້ນໃຫ້ເຫັນເຖິງຄຸນຄ່າຂອງ API ທີ່ສ້າງຂຶ້ນໂດຍສະເພາະເພື່ອແກ້ໄຂບັນຫາເຫຼົ່ານັ້ນ.
ໃຫ້ເຮົາມາສຳຫຼວດອຸປະສັກຫຼັກສາມຢ່າງຄື: ໂຄງສ້າງໄຟລ໌ທີ່ຊັບຊ້ອນ, ການຮັກສາໂຄງຮ່າງ, ແລະ ການເຂົ້າລະຫັດຕົວອັກສອນ.
ການຖອດລະຫັດໂຄງສ້າງໄຟລ໌ PDF ທີ່ຊັບຊ້ອນ
ໂດຍພື້ນຖານແລ້ວ, PDF ບໍ່ແມ່ນເອກະສານທຳມະດາ ແຕ່ເປັນໄຟລ໌ໄບນາຣີທີ່ອີງໃສ່ວັດຖຸທີ່ຊັບຊ້ອນ.
ໂຄງສ້າງຂອງມັນປະກອບດ້ວຍອົງປະກອບຕ່າງໆເຊັ່ນ streams, dictionaries, ແລະ cross-reference tables ທີ່ກຳນົດວິທີການເກັບຮັກສາ ແລະ ສະແດງເນື້ອຫາ.
ການສະກັດຂໍ້ຄວາມຕາມລຳດັບການອ່ານທີ່ຖືກຕ້ອງເປັນວຽກທີ່ບໍ່ງ່າຍ, ເນື່ອງຈາກຊິ້ນສ່ວນຂອງຂໍ້ຄວາມສາມາດກະຈາຍຢູ່ທົ່ວໄຟລ໌ ແລະ ບໍ່ໄດ້ເກັບໄວ້ເປັນລຳດັບ.
ນອກຈາກນັ້ນ, PDF ສາມາດມີເນື້ອຫາຫຼາຍປະເພດປະສົມກັນ, ລວມທັງຮູບພາບ vector, ຮູບພາບ raster, ແລະ ຊ່ອງຂໍ້ມູນແບບໂຕ້ຕອບ, ທັງໝົດຊ້ອນກັນຢູ່.
ຂະບວນການແປພາສາອັດຕະໂນມັດໃດໆກໍຕາມຕ້ອງມີຄວາມສະຫຼາດພໍທີ່ຈະລະບຸ ແລະ ແຍກສະເພາະເນື້ອຫາຂໍ້ຄວາມທີ່ແປໄດ້ ໃນຂະນະທີ່ບໍ່ແຕະຕ້ອງອົງປະກອບໂຄງສ້າງ ແລະ ກຣາບຟິກ.
ການບໍ່ເຮັດແນວນັ້ນສາມາດເຮັດໃຫ້ໄຟລ໌ເສຍຫາຍ ຫຼື ການແປທີ່ບໍ່ສົມບູນເຊິ່ງຂາດຂໍ້ມູນສຳຄັນທີ່ຝັງຢູ່ໃນຄຳນິຍາມຂອງວັດຖຸທີ່ຊັບຊ້ອນ.
ຝັນຮ້າຍຂອງການຮັກສາໂຄງຮ່າງ
ບາງທີຄວາມທ້າທາຍທີ່ສຳຄັນທີ່ສຸດຄືການຮັກສາໂຄງຮ່າງ ແລະ ການຈັດຮູບແບບຂອງເອກະສານຕົ້ນສະບັບ. PDF ໃຊ້ລະບົບພິກັດທີ່แม่นยำເພື່ອວາງທຸກຕົວອັກສອນ, ເສັ້ນ, ແລະ ຮູບພາບໃນໜ້າ, ເພື່ອໃຫ້ແນ່ໃຈວ່າມັນເບິ່ງຄືກັນໃນທຸກອຸປະກອນ.
ເມື່ອຂໍ້ຄວາມພາສາອັງກິດຖືກແທນທີ່ດ້ວຍພາສາຍີ່ປຸ່ນ, ເຊິ່ງມັກຈະມີຄວາມກວ້າງຂອງຕົວອັກສອນ ແລະ ໂຄງສ້າງປະໂຫຍກທີ່ແຕກຕ່າງກັນ, ໂຄງຮ່າງທີ່แม่นยำນີ້ສາມາດເສຍຫາຍໄດ້ງ່າຍ.
ການແທນທີ່ຂໍ້ຄວາມແບບງ່າຍໆເກືອບແນ່ນອນຈະນຳໄປສູ່ການລົ້ນຂອງຂໍ້ຄວາມ, ອົງປະກອບຊ້ອນກັນ, ແລະ ຕາຕະລາງທີ່ແຕກຫັກ.
ລະບົບການແປທີ່ຊັບຊ້ອນຕ້ອງເຮັດຫຼາຍກວ່າການປ່ຽນຄຳສັບ; ມັນຕ້ອງການເຄື່ອງຈັກສ້າງໂຄງຮ່າງຄືນໃໝ່. ເຄື່ອງຈັກນີ້ຕ້ອງວິເຄາະໂຄງສ້າງຂອງເອກະສານຕົ້ນສະບັບ, ລວມທັງຄໍລຳ, ຕາຕະລາງ, ຫົວຂໍ້, ແລະ ທ້າຍໜ້າ.
ຫຼັງຈາກການແປ, ມັນຕ້ອງຈັດວາງຂໍ້ຄວາມພາສາຍີ່ປຸ່ນໃໝ່ເຂົ້າໄປໃນໂຄງສ້າງເຫຼົ່ານີ້ຢ່າງສະຫຼາດ, ປັບຂະໜາດຟອນ ແລະ ໄລຍະຫ່າງແບບເຄື່ອນໄຫວເພື່ອຮັກສາຄວາມສົມບູນທາງສາຍຕາ.
ຂະບວນການນີ້ໃຊ້ພະລັງງານການຄິດໄລ່ສູງ ແລະ ຕ້ອງການຄວາມເຂົ້າໃຈຢ່າງເລິກເຊິ່ງທັງໃນການວິເຄາະເອກະສານ ແລະ ການຈັດພິມ.
ອຸປະສັກດ້ານຟອນ ແລະ ການເຂົ້າລະຫັດຕົວອັກສອນ
ຟອນ ແລະ ການເຂົ້າລະຫັດຕົວອັກສອນເປັນອຸປະສັກທີ່ສຳຄັນອີກຢ່າງໜຶ່ງ, ໂດຍສະເພາະເມື່ອແປລະຫວ່າງພາສາທີ່ມີຕົວຂຽນທີ່ແຕກຕ່າງກັນຫຼາຍເຊັ່ນພາສາອັງກິດ ແລະ ພາສາຍີ່ປຸ່ນ.
PDF ມັກຈະຝັງພຽງແຕ່ຊຸດຍ່ອຍຂອງຕົວອັກສອນຈາກຟອນທີ່ໃຊ້ໃນເອກະສານເພື່ອຫຼຸດຂະໜາດໄຟລ໌.
ເມື່ອແປເປັນພາສາຍີ່ປຸ່ນ, ຕົວອັກສອນໃໝ່ (Kanji, Hiragana, Katakana) ເກືອບແນ່ນອນຈະບໍ່ມີຢູ່ໃນຟອນພາສາອັງກິດທີ່ຝັງໄວ້ໃນຕົ້ນສະບັບ.
ດັ່ງນັ້ນ, API ທີ່ມີປະສິດທິພາບຕ້ອງຈັດການການແທນທີ່ ແລະ ການຝັງຟອນຢ່າງລຽບງ່າຍ. ມັນຕ້ອງແທນທີ່ຟອນຕົ້ນສະບັບດ້ວຍຟອນທີ່ຮອງຮັບ glyphs ພາສາຍີ່ປຸ່ນຄົບຖ້ວນ ໃນຂະນະທີ່ຮັກສາຮູບແບບໃຫ້ຄືກັບຕົ້ນສະບັບຫຼາຍທີ່ສຸດເທົ່າທີ່ຈະເປັນໄປໄດ້.
ນອກຈາກນີ້, ມັນຕ້ອງຈັດການການເຂົ້າລະຫັດຕົວອັກສອນຢ່າງຖືກຕ້ອງ, ຮັບປະກັນວ່າຂໍ້ຄວາມທັງໝົດຖືກຈັດການເປັນ UTF-8 ຕະຫຼອດຂະບວນການເພື່ອປ້ອງກັນ mojibake (ຂໍ້ຄວາມຜິດພ້ຽນ) ໃນເອກະສານຜົນລັບສຸດທ້າຍ.
ຂໍແນະນຳ Doctranslate API: ທາງອອກຂອງທ່ານສຳລັບການແປ PDF ພາສາອັງກິດເປັນພາສາຍີ່ປຸ່ນ
Doctranslate API ຖືກອອກແບບມາໂດຍສະເພາະເພື່ອແກ້ໄຂຄວາມທ້າທາຍທີ່ຊັບຊ້ອນຂອງການແປເອກະສານ, ໃຫ້ເຄື່ອງມືທີ່ມີປະສິດທິພາບແຕ່ງ່າຍດາຍແກ່ນັກພັດທະນາເພື່ອເຊື່ອມໂຍງການແປ PDF ຈາກພາສາອັງກິດເປັນພາສາຍີ່ປຸ່ນທີ່ມີຄຸນນະພາບສູງ.
ມັນຊ່ວຍກຳຈັດຄວາມຫຍຸ້ງຍາກໃນການວິເຄາະໂຄງສ້າງໄຟລ໌, ການຈັດການໂຄງຮ່າງ, ແລະ ການຈັດການຟອນ, ເຮັດໃຫ້ທ່ານສາມາດສຸມໃສ່ກັບເຫດຜົນຫຼັກຂອງແອັບພລິເຄຊັນຂອງທ່ານ.
ໂດຍການໃຊ້ປະໂຫຍດຈາກໂຄງສ້າງພື້ນຖານທີ່ແຂງແກ່ນ ແລະ ສາມາດຂະຫຍາຍໄດ້, API ຂອງພວກເຮົາໃຫ້ການແປທີ່ໄວ, ຖືກຕ້ອງ, ແລະ ຮັກສາຮູບແບບຜ່ານອິນເຕີເຟດທີ່ສະອາດ ແລະ ທັນສະໄໝ.
ອິນເຕີເຟດ RESTful ທີ່ງ່າຍດາຍ
ພວກເຮົາອອກແບບ Doctranslate API ໂດຍອີງໃສ່ຫຼັກການຂອງ REST, ເພື່ອຮັບປະກັນປະສົບການທີ່ຄາດເດົາໄດ້ ແລະ ເປັນມິດກັບນັກພັດທະນາ. ທ່ານສາມາດໂຕ້ຕອບກັບບໍລິການໂດຍໃຊ້ວິທີການ HTTP ມາດຕະຖານເຊັ່ນ POST ແລະ GET, ເຮັດໃຫ້ງ່າຍຕໍ່ການເຊື່ອມໂຍງກັບພາສາການຂຽນໂປຣແກຣມ ຫຼື ແພລດຟອມໃດໆທີ່ສາມາດສົ່ງຄຳຂໍເວັບໄດ້.
Endpoints ຖືກຈັດໂຄງສ້າງຢ່າງມີເຫດຜົນ, ແລະ ຂະບວນການທັງໝົດແມ່ນງ່າຍດາຍ, ຕັ້ງແຕ່ການອັບໂຫລດເອກະສານຈົນເຖິງການດຶງເອົາຜົນການແປ.
ການຍຶດໝັ້ນໃນມາດຕະຖານເວັບນີ້ຊ່ວຍຫຼຸດຜ່ອນໄລຍະເວລາການຮຽນຮູ້ ແລະ ເລັ່ງເວລາການພັດທະນາຢ່າງຫຼວງຫຼາຍ.
ການປະມວນຜົນແບບ Asynchronous ເພື່ອຄວາມໜ້າເຊື່ອຖື ແລະ ການຂະຫຍາຍ
ການແປ PDF, ໂດຍສະເພາະສຳລັບໄຟລ໌ຂະໜາດໃຫຍ່ ແລະ ຊັບຊ້ອນ, ສາມາດເປັນຂະບວນການທີ່ໃຊ້ເວລາ. ເພື່ອຮັບປະກັນວ່າແອັບພລິເຄຊັນຂອງທ່ານຍັງຄົງຕອບສະໜອງ ແລະ ແຂງແກ່ນ, Doctranslate API ເຮັດວຽກໃນຮູບແບບ asynchronous.
ທ່ານສົ່ງວຽກການແປ ແລະ ໄດ້ຮັບການຕອບກັບທັນທີພ້ອມກັບ ID ເອກະສານທີ່ເປັນເອກະລັກ.
ຫຼັງຈາກນັ້ນ, ທ່ານສາມາດ poll endpoint ດ້ວຍ ID ນີ້ເພື່ອກວດສອບສະຖານະຂອງວຽກ, ເຮັດໃຫ້ລະບົບຂອງທ່ານສາມາດຈັດການວຽກອື່ນໆໄດ້ໂດຍບໍ່ຕ້ອງຖືກບລັອກໃນຂະນະທີ່ລໍຖ້າການແປສຳເລັດ.
ວິທີການ asynchronous ນີ້ແມ່ນສຳຄັນສຳລັບການສ້າງແອັບພລິເຄຊັນທີ່ສາມາດຂະຫຍາຍໄດ້ ເຊິ່ງຕ້ອງການຈັດການຄຳຂໍການແປຫຼາຍອັນພ້ອມກັນ. ມັນໃຫ້ຂະບວນການເຮັດວຽກທີ່ບໍ່ບລັອກ ເຊິ່ງປ້ອງກັນການໝົດເວລາ ແລະ ປັບປຸງຄວາມໜ້າເຊື່ອຖືໂດຍລວມຂອງບໍລິການຂອງທ່ານ.
ເມື່ອການແປສຳເລັດແລ້ວ, endpoint ສະຖານະຈະໃຫ້ URL ທີ່ປອດໄພເພື່ອດາວໂຫຼດ PDF ພາສາຍີ່ປຸ່ນທີ່ສຳເລັດແລ້ວ.
ການອອກແບບນີ້ເໝາະສົມສຳລັບການປະມວນຜົນເບື້ອງຫຼັງ, ວຽກແບບ batch, ແລະ ແອັບພລິເຄຊັນທີ່ຜູ້ໃຊ້ເຫັນໜ້າຕ່າງ ເຊິ່ງ UI ທີ່ຕອບສະໜອງໄດ້ໄວເປັນສິ່ງສຳຄັນທີ່ສຸດ.
ການຕອບກັບ JSON ທີ່ມີໂຄງສ້າງເພື່ອການເຊື່ອມໂຍງທີ່ງ່າຍດາຍ
ການສື່ສານທີ່ຊັດເຈນເປັນກຸນແຈສຳລັບການເຊື່ອມໂຍງ API ທີ່ປະສົບຜົນສຳເລັດ, ນັ້ນຄືເຫດຜົນທີ່ການຕອບກັບທັງໝົດຈາກ Doctranslate API ຖືກຈັດຮູບແບບເປັນ JSON ທີ່ສະອາດ ແລະ ຄາດເດົາໄດ້. ບໍ່ວ່າທ່ານຈະກຳລັງອັບໂຫລດເອກະສານ, ກວດສອບສະຖານະຂອງມັນ, ຫຼື ຈັດການຂໍ້ຜິດພາດ, ການຕອບກັບ JSON ຈະໃຫ້ຂໍ້ມູນທັງໝົດທີ່ທ່ານຕ້ອງການໃນຮູບແບບທີ່ມີໂຄງສ້າງ ແລະ ເຄື່ອງສາມາດອ່ານໄດ້.
ສິ່ງນີ້ເຮັດໃຫ້ງ່າຍຢ່າງບໍ່ໜ້າເຊື່ອໃນການວິເຄາະການຕອບກັບໃນໂຄດຂອງທ່ານ ແລະ ສ້າງເຫດຜົນຮອບສະຖານະ ແລະ ຜົນລັບທີ່ແຕກຕ່າງກັນ.
ຂໍ້ມູນສຳຄັນເຊັ່ນ `document_id`, `status`, ແລະ `download_url` ຖືກລະບຸດ້ວຍ key ຢ່າງຊັດເຈນ, ກຳຈັດຄວາມບໍ່ແນ່ນອນໃດໆ.
ຄູ່ມືຂັ້ນຕອນຕໍ່ຂັ້ນຕອນ: ການເຊື່ອມໂຍງ API ແປພາສາ PDF (ຕົວຢ່າງ Python)
ຄູ່ມືນີ້ຈະນຳພາທ່ານຜ່ານຂະບວນການທັງໝົດຂອງການໃຊ້ API ແປພາສາ PDF ຈາກພາສາອັງກິດເປັນພາສາຍີ່ປຸ່ນ ຂອງພວກເຮົາໂດຍໃຊ້ຕົວຢ່າງ Python ທີ່ໃຊ້ໄດ້ຈິງ. ພວກເຮົາຈະກວມເອົາການຢືນຢັນຄຳຂໍຂອງທ່ານ, ການອັບໂຫລດເອກະສານຕົ້ນສະບັບ, ການເລີ່ມວຽກການແປ, ແລະ ສຸດທ້າຍ, ການ poll ແລະ ດາວໂຫລດຜົນລັບ.
ວິທີການແບບຂັ້ນຕອນຕໍ່ຂັ້ນຕອນນີ້ສະແດງໃຫ້ເຫັນເຖິງຄວາມງ່າຍດາຍ ແລະ ພະລັງຂອງ API ໃນການເຮັດໃຫ້ຂະບວນການເອກະສານຂອງທ່ານເປັນອັດຕະໂນມັດ.
ທ່ານຈະຕ້ອງການ API key ຂອງ Doctranslate ທີ່ຖືກຕ້ອງເພື່ອດຳເນີນການຂັ້ນຕອນຕໍ່ໄປ.
ຂັ້ນຕອນທີ 1: ການຢືນຢັນ ແລະ ການຕັ້ງຄ່າ
ກ່ອນອື່ນ, ທ່ານຕ້ອງຕັ້ງຄ່າສະພາບແວດລ້ອມ Python ຂອງທ່ານ ແລະ ຈັດການການຢືນຢັນ. ຄຳຂໍທັງໝົດໄປຍັງ Doctranslate API ຕ້ອງຖືກຢືນຢັນໂດຍໃຊ້ API key ທີ່ສົ່ງໃນ headers ຂອງຄຳຂໍ.
ພວກເຮົາຈະໃຊ້ library `requests` ທີ່ນິຍົມເພື່ອຈັດການການສື່ສານ HTTP ແລະ library `time` ສຳລັບການ polling.
ໃຫ້ແນ່ໃຈວ່າທ່ານໄດ້ຕິດຕັ້ງ `requests` ໂດຍການໃຊ້ຄຳສັ່ງ `pip install requests` ໃນ terminal ຂອງທ່ານ.
API key ຂອງທ່ານຄວນຖືກເກັບຮັກສາຢ່າງປອດໄພ ແລະ ບໍ່ຄວນເປີດເຜີຍໃນໂຄດຝັ່ງ client.
ສຳລັບຕົວຢ່າງນີ້, ພວກເຮົາຈະສົ່ງມັນໃນ header `Authorization` ພ້ອມກັບ `Bearer` scheme.
ກ່ອງໂຄດຕໍ່ໄປນີ້ສະແດງການຕັ້ງຄ່າພື້ນຖານ, ລວມທັງການນຳເຂົ້າ libraries ແລະ ການກຳນົດຂໍ້ມູນປະຈຳຕົວຂອງທ່ານ ແລະ URL ພື້ນຖານສຳລັບ API.
import requests import time import os # --- ການຕັ້ງຄ່າ --- # ແນະນຳໃຫ້ໂຫລດ API key ຈາກຕົວແປສະພາບແວດລ້ອມເພື່ອຄວາມປອດໄພ. API_KEY = os.getenv("DOCTRANSLATE_API_KEY", "your_api_key_here") BASE_URL = "https://developer.doctranslate.io/v2" HEADERS = { "Authorization": f"Bearer {API_KEY}" }ຂັ້ນຕອນທີ 2: ການອັບໂຫລດ PDF ພາສາອັງກິດຂອງທ່ານ
ຂັ້ນຕອນທຳອິດໃນຂະບວນການແປແມ່ນການອັບໂຫລດເອກະສານຕົ້ນສະບັບຂອງທ່ານໄປຍັງ API. ນີ້ເຮັດໄດ້ໂດຍການສົ່ງຄຳຂໍ `POST` ໄປຍັງ endpoint `/document` ພ້ອມກັບໄຟລ໌ທີ່ແນບມາເປັນ multipart/form-data.
ທ່ານຕ້ອງລະບຸພາຣາມິເຕີ `source_lang` ແລະ `target_lang` ໃນສ່ວນ body ຂອງຄຳຂໍເພື່ອແຈ້ງໃຫ້ API ຮູ້ເຖິງຄູ່ພາສາທີ່ຕ້ອງການແປ.
ສຳລັບກໍລະນີຂອງພວກເຮົາ, ມັນຈະເປັນ ‘en’ ສຳລັບພາສາອັງກິດ ແລະ ‘ja’ ສຳລັບພາສາຍີ່ປຸ່ນ.ເມື່ອອັບໂຫລດສຳເລັດ, API ຈະຕອບກັບດ້ວຍ object JSON ທີ່ບັນຈຸ `document_id`.
ID ນີ້ແມ່ນຕົວລະບຸທີ່ເປັນເອກະລັກສຳລັບໄຟລ໌ຂອງທ່ານໃນລະບົບ Doctranslate ແລະ ເປັນສິ່ງຈຳເປັນສຳລັບທຸກຂັ້ນຕອນຕໍ່ໄປ.
ຟັງຊັນ Python ຕໍ່ໄປນີ້ລວບລວມເຫດຜົນນີ້, ໂດຍຮັບເອົາເສັ້ນທາງໄຟລ໌ເປັນ input ແລະ ສົ່ງຄືນ `document_id`.def upload_pdf(file_path): """ອັບໂຫລດເອກະສານ PDF ແລະ ສົ່ງຄືນ document_id ຂອງມັນ.""" print(f"ກຳລັງອັບໂຫລດໄຟລ໌: {file_path}...") url = f"{BASE_URL}/document" files = { 'file': (os.path.basename(file_path), open(file_path, 'rb'), 'application/pdf') } data = { 'source_lang': 'en', 'target_lang': 'ja' } try: response = requests.post(url, headers=HEADERS, files=files, data=data) response.raise_for_status() # ສົ່ງຂໍ້ຍົກເວັ້ນສຳລັບ status codes ທີ່ບໍ່ດີ (4xx ຫຼື 5xx) response_data = response.json() print(f"ອັບໂຫລດໄຟລ໌ສຳເລັດແລ້ວ. Document ID: {response_data['document_id']}") return response_data['document_id'] except requests.exceptions.RequestException as e: print(f"ເກີດຂໍ້ຜິດພາດໃນລະຫວ່າງການອັບໂຫລດ: {e}") return Noneຂັ້ນຕອນທີ 3: ການເລີ່ມວຽກການແປ
ເມື່ອເອກະສານຖືກອັບໂຫລດ ແລະ ທ່ານມີ `document_id` ແລ້ວ, ທ່ານສາມາດເລີ່ມຂະບວນການແປໄດ້.
ນີ້ເຮັດໄດ້ໂດຍການສົ່ງຄຳຂໍ `POST` ໄປຍັງ endpoint `/translate`, ລວມທັງ `document_id` ໃນ payload JSON.
ການກະທຳນີ້ຈະຈັດຄິວເອກະສານຂອງທ່ານເພື່ອການແປໂດຍເຄື່ອງຈັກທີ່ກ້າວໜ້າ ແລະ ຮັກສາໂຄງຮ່າງຂອງພວກເຮົາ.API ຈະຕອບກັບທັນທີພ້ອມກັບການຢືນຢັນວ່າວຽກໄດ້ເລີ່ມຕົ້ນແລ້ວ, ເຊິ່ງເປັນສ່ວນໜຶ່ງຂອງການອອກແບບ asynchronous.
ການແປຕົວຈິງເກີດຂຶ້ນໃນເບື້ອງຫຼັງ, ເຮັດໃຫ້ແອັບພລິເຄຊັນຂອງທ່ານສາມາດດຳເນີນການຕໍ່ໄປໄດ້ໂດຍບໍ່ຕ້ອງລໍຖ້າ.
ຟັງຊັນນີ້ສະແດງວິທີການເອີ້ນເພື່ອເລີ່ມການແປ.def start_translation(document_id): """ເລີ່ມຂະບວນການແປສຳລັບ document_id ທີ່ໃຫ້ມາ.""" if not document_id: return False print(f"ກຳລັງເລີ່ມການແປສຳລັບເອກະສານ: {document_id}...") url = f"{BASE_URL}/translate" payload = {'document_id': document_id} try: response = requests.post(url, headers=HEADERS, json=payload) response.raise_for_status() print("ເລີ່ມວຽກການແປສຳເລັດແລ້ວ.") return True except requests.exceptions.RequestException as e: print(f"ເກີດຂໍ້ຜິດພາດໃນຂະນະທີ່ເລີ່ມການແປ: {e}") return Falseຂັ້ນຕອນທີ 4: ການ Polling ເພື່ອຄວາມສຳເລັດ ແລະ ການດຶງເອົາຜົນລັບ
ຫຼັງຈາກເລີ່ມວຽກແລ້ວ, ທ່ານຕ້ອງກວດສອບສະຖານະຂອງມັນເປັນໄລຍະຈົນກວ່າມັນຈະສຳເລັດ.
ທ່ານສາມາດເຮັດສິ່ງນີ້ໄດ້ໂດຍການສົ່ງຄຳຂໍ `GET` ໄປຍັງ endpoint `/document/{document_id}`.
ການຕອບກັບຈະມີຊ່ອງ `status`, ເຊິ່ງຈະເປັນ ‘processing’ ໃນຂະນະທີ່ວຽກກຳລັງດຳເນີນການ ແລະ ‘done’ ເມື່ອມັນສຳເລັດແລ້ວ.ເມື່ອສະຖານະເປັນ ‘done’, ການຕອບກັບຈະລວມມີ `result_url` ທີ່ທ່ານສາມາດດາວໂຫຼດ PDF ພາສາຍີ່ປຸ່ນທີ່ແປແລ້ວສຸດທ້າຍ.
ຟັງຊັນຂ້າງລຸ່ມນີ້ປະຕິບັດກົນໄກ polling ທີ່ກວດສອບສະຖານະທຸກໆ 10 ວິນາທີ.
ເມື່ອການແປສຳເລັດ, ມັນຈະດາວໂຫລດໄຟລ໌ຜົນລັບ ແລະ ບັນທຶກໄວ້ໃນເຄື່ອງ.def check_and_download(document_id, output_path): """Poll ສະຖານະການແປ ແລະ ດາວໂຫລດຜົນລັບເມື່ອພ້ອມ.""" if not document_id: return status_url = f"{BASE_URL}/document/{document_id}" print("ກຳລັງ Polling ສະຖານະການແປ...") while True: try: response = requests.get(status_url, headers=HEADERS) response.raise_for_status() data = response.json() status = data.get('status') print(f"ສະຖານະປັດຈຸບັນ: {status}") if status == 'done': result_url = data.get('result_url') print(f"ການແປສຳເລັດແລ້ວ. ກຳລັງດາວໂຫລດຈາກ {result_url}") result_response = requests.get(result_url) result_response.raise_for_status() with open(output_path, 'wb') as f: f.write(result_response.content) print(f"ໄຟລ໌ທີ່ແປແລ້ວຖືກບັນທຶກໄປທີ່ {output_path}") break elif status == 'error': print("ເກີດຂໍ້ຜິດພາດໃນລະຫວ່າງການແປ.") break time.sleep(10) # ລໍຖ້າ 10 ວິນາທີກ່ອນຈະ polling ອີກຄັ້ງ except requests.exceptions.RequestException as e: print(f"ເກີດຂໍ້ຜິດພາດໃນຂະນະທີ່ polling: {e}") breakຂໍ້ຄວນພິຈາລະນາທີ່ສຳຄັນສຳລັບການແປພາສາຍີ່ປຸ່ນ
ການແປເນື້ອຫາເປັນພາສາຍີ່ປຸ່ນກ່ຽວຂ້ອງຫຼາຍກວ່າການປ່ຽນແປງທາງພາສາ; ມັນຕ້ອງການການຈັດການທາງເທັກນິກທີ່ລະມັດລະວັງຂອງຊຸດຕົວອັກສອນ, ທິດທາງຂໍ້ຄວາມ, ແລະ ການປ່ຽນແປງຂອງໂຄງຮ່າງທີ່ອາດເກີດຂຶ້ນ.
Doctranslate API ຖືກອອກແບບມາເພື່ອຈັດການຄວາມຊັບຊ້ອນເຫຼົ່ານີ້ໂດຍອັດຕະໂນມັດ, ແຕ່ໃນຖານະນັກພັດທະນາ, ການຮັບຮູ້ກ່ຽວກັບພວກມັນຊ່ວຍໃນການສ້າງການເຊື່ອມໂຍງທີ່ແຂງແກ່ນກວ່າ.
ຂໍ້ຄວນພິຈາລະນາເຫຼົ່ານີ້ແມ່ນສຳຄັນເພື່ອຮັບປະກັນວ່າເອກະສານສຸດທ້າຍບໍ່ພຽງແຕ່ຖືກຕ້ອງທາງພາສາເທົ່ານັ້ນ ແຕ່ຍັງເໝາະສົມທາງວັດທະນະທຳ ແລະ ສາຍຕາສຳລັບຜູ້ຊົມຊາວຍີ່ປຸ່ນອີກດ້ວຍ.ການຈັດການຊຸດຕົວອັກສອນ ແລະ ການເຂົ້າລະຫັດ
ພາສາຍີ່ປຸ່ນໃຊ້ລະບົບການຂຽນສາມຢ່າງປະສົມກັນ: Kanji (ຕົວອັກສອນ logographic ຈາກຈີນ), Hiragana (ພະຍາງສຽງ), ແລະ Katakana (ພະຍາງສຽງອີກອັນໜຶ່ງ, ມັກໃຊ້ກັບຄຳສັບຕ່າງປະເທດ).
ຊຸດຕົວອັກສອນທີ່ຫຼາກຫຼາຍນີ້ຕ້ອງການການເຂົ້າລະຫັດແບບ multi-byte ເພື່ອສະແດງອອກໃນຮູບແບບດິຈິຕອນ.
ມາດຕະຖານສາກົນສຳລັບສິ່ງນີ້ແມ່ນ UTF-8, ເຊິ່ງສາມາດສະແດງທຸກຕົວອັກສອນໃນມາດຕະຖານ Unicode ໄດ້.Doctranslate API ເຮັດວຽກກັບ UTF-8 ສະເພາະສຳລັບການປະມວນຜົນຂໍ້ຄວາມທັງໝົດເພື່ອຮັບປະກັນຄວາມສົມບູນຂອງຕົວອັກສອນທີ່ສົມບູນແບບ.
ເມື່ອເຊື່ອມໂຍງ, ທ່ານຄວນຮັບປະກັນວ່າ metadata ຫຼື ຂໍ້ຄວາມໃດໆທີ່ທ່ານສົ່ງໄປຫາ API ກໍຖືກເຂົ້າລະຫັດ UTF-8 ເຊັ່ນກັນ.
ເຊັ່ນດຽວກັນ, ເມື່ອວິເຄາະການຕອບກັບ JSON, HTTP client ຂອງທ່ານຄວນຖືກຕັ້ງຄ່າເພື່ອຕີຄວາມການຕອບກັບເປັນ UTF-8 ເພື່ອຫຼີກລ້ຽງການເສຍຫາຍຂອງຕົວອັກສອນໃນຝັ່ງຂອງທ່ານ.ຂໍ້ຄວາມແນວຕັ້ງ ແລະ ການປ່ຽນແປງຂອງໂຄງຮ່າງ
ລັກສະນະພິເສດຂອງພາສາຍີ່ປຸ່ນແມ່ນການຮອງຮັບທັງທິດທາງການຂຽນແນວນອນ (yokogaki) ແລະ ແນວຕັ້ງ (tategaki).
ໃນຂະນະທີ່ເອກະສານທາງເທັກນິກທີ່ທັນສະໄໝສ່ວນໃຫຍ່ໃຊ້ຂໍ້ຄວາມແນວນອນ, ຄວາມເປັນໄປໄດ້ຂອງການຂະຫຍາຍຂໍ້ຄວາມແມ່ນບັນຫາທີ່ສຳຄັນຂອງໂຄງຮ່າງ.
ປະໂຫຍກພາສາຍີ່ປຸ່ນສາມາດສັ້ນກວ່າ ຫຼື ຍາວກວ່າຄູ່ພາສາອັງກິດ, ເຊິ່ງສາມາດລົບກວນຄໍລຳ, ຕາຕະລາງ, ແລະ ໜ້າທີ່ຖືກອອກແບບຢ່າງລະມັດລະວັງ.ເຄື່ອງຈັກທີ່ກ້າວໜ້າຂອງພວກເຮົາຈັດການການຈັດວາງຂໍ້ຄວາມໃໝ່ຢ່າງສະຫຼາດເພື່ອຫຼຸດຜ່ອນບັນຫາເຫຼົ່ານີ້, ປັບໄລຍະຫ່າງ ແລະ ການຂຶ້ນແຖວໃໝ່ເພື່ອໃຫ້ເນື້ອຫາທີ່ແປແລ້ວພໍດີກັບຂອບເຂດຂອງໂຄງຮ່າງເດີມ.
ຄວາມສາມາດນີ້ເປັນພື້ນຖານໃນການສ້າງເອກະສານລະດັບມືອາຊີບ. ສຳລັບການສາທິດຕົວຈິງ, ທ່ານສາມາດ ແປ PDF ຂອງທ່ານໄດ້ທັນທີ ແລະ ເບິ່ງວ່າໂຄງຮ່າງເດີມ ແລະ ຕາຕະລາງຍັງຄົງຢູ່ຄືເກົ່າໄດ້ແນວໃດ, ເຊິ່ງເປັນຄຸນສົມບັດທີ່ສຳຄັນສຳລັບເອກະສານທຸລະກິດ ແລະ ເຕັກນິກ.
ເທັກໂນໂລຢີການຮັກສາໂຄງຮ່າງຂອງ API ຮັບປະກັນວ່າເຖິງແມ່ນຈະມີການປ່ຽນແປງທີ່ສຳຄັນໃນຄວາມຍາວຂອງຂໍ້ຄວາມ, ຮູບລັກສະນະທີ່ເປັນມືອາຊີບຂອງເອກະສານກໍຍັງຄົງຢູ່.Glyphs ຂອງຟອນ ແລະ ການສະແດງຜົນທີ່ເໝາະສົມ
ການສະແດງຂໍ້ຄວາມພາສາຍີ່ປຸ່ນຢ່າງຖືກຕ້ອງຕ້ອງການຟອນທີ່ບັນຈຸ glyphs ທີ່ຈຳເປັນສຳລັບຕົວອັກສອນຫຼາຍພັນຕົວ. ຖ້າ PDF ໃຊ້ຟອນສະເພາະພາສາອັງກິດ, ຂໍ້ຄວາມພາສາຍີ່ປຸ່ນທີ່ແປແລ້ວຈະບໍ່ສະແດງຜົນເລີຍ, ມັກຈະປະກົດເປັນກ່ອງ (tofu) ຫຼື ເຄື່ອງໝາຍຄຳຖາມ.
Doctranslate API ແກ້ໄຂບັນຫານີ້ໂດຍການວິເຄາະຮູບແບບຟອນຂອງເອກະສານຕົ້ນສະບັບໂດຍອັດຕະໂນມັດ.
ຫຼັງຈາກນັ້ນ, ມັນຈະແທນທີ່ ແລະ ຝັງຟອນພາສາຍີ່ປຸ່ນຄຸນນະພາບສູງທີ່ກົງກັບຮູບແບບເດີມ (ຕົວຢ່າງ, serif, sans-serif) ໃຫ້ໃກ້ຄຽງທີ່ສຸດເທົ່າທີ່ຈະເປັນໄປໄດ້.ການຈັດການຟອນແບບອັດຕະໂນມັດນີ້ຮັບປະກັນວ່າ PDF ຜົນລັບຈະສົມບູນໃນຕົວ ແລະ ຈະສະແດງຜົນຢ່າງຖືກຕ້ອງໃນທຸກອຸປະກອນ, ບໍ່ວ່າຜູ້ໃຊ້ສຸດທ້າຍຈະມີຟອນພາສາຍີ່ປຸ່ນຕິດຕັ້ງຢູ່ໃນລະບົບຂອງພວກເຂົາຫຼືບໍ່.
ນີ້ແມ່ນ ຄຸນສົມບັດທີ່ສຳຄັນສຳລັບການພົກພາ ແລະ ຄວາມສອດຄ່ອງຂອງເອກະສານ, ຮັບປະກັນຜົນລັບທີ່ເປັນມືອາຊີບ ແລະ ອ່ານງ່າຍທຸກຄັ້ງ.
ມັນຊ່ວຍຫຼຸດຜ່ອນພາລະທີ່ສຳຄັນຈາກນັກພັດທະນາ, ຜູ້ທີ່ຖ້າບໍ່ດັ່ງນັ້ນຈະຕ້ອງຈັດການ library ຟອນທີ່ຊັບຊ້ອນ ແລະ ເຫດຜົນການຝັງ.ສະຫຼຸບ ແລະ ຂັ້ນຕອນຕໍ່ໄປ
ການເຊື່ອມໂຍງ API ແປພາສາ PDF ຄຸນນະພາບສູງຈາກພາສາອັງກິດເປັນພາສາຍີ່ປຸ່ນ ບໍ່ແມ່ນຄວາມທ້າທາຍທາງວິສະວະກຳທີ່ໜ້າຢ້ານທີ່ຕ້ອງການການພັດທະນາເປັນເດືອນອີກຕໍ່ໄປ.
ໂດຍການໃຊ້ປະໂຫຍດຈາກ Doctranslate API, ທ່ານສາມາດເຮັດໃຫ້ຂະບວນການທີ່ຊັບຊ້ອນນີ້ເປັນອັດຕະໂນມັດດ້ວຍຄຳຂໍ HTTP ພຽງບໍ່ເທົ່າໃດຄັ້ງ, ຊ່ວຍປະຢັດເວລາ ແລະ ຊັບພະຍາກອນທີ່ມີຄ່າ.
ທາງອອກຂອງພວກເຮົາຈັດການລາຍລະອຽດທີ່ຊັບຊ້ອນຂອງການວິເຄາະ PDF, ການຮັກສາໂຄງຮ່າງ, ແລະ ການຈັດການຟອນ, ເຮັດໃຫ້ທ່ານສາມາດສົ່ງເອກະສານທີ່ມີຄຸນນະພາບສູງ ແລະ ຈັດຮູບແບບຢ່າງຖືກຕ້ອງໃຫ້ກັບຜູ້ໃຊ້ຂອງທ່ານ.ທ່ານໄດ້ເຫັນແລ້ວວ່າອິນເຕີເຟດ RESTful, ຂະບວນການເຮັດວຽກ asynchronous, ແລະ ການຕອບກັບ JSON ທີ່ຊັດເຈນຂອງພວກເຮົາສ້າງປະສົບການທີ່ລຽບງ່າຍສຳລັບນັກພັດທະນາ.
ດ້ວຍຕົວຢ່າງ Python ທີ່ໃຫ້ມາ, ທ່ານມີແຜນທີ່ທີ່ຊັດເຈນສຳລັບການເຊື່ອມໂຍງຟັງຊັນທີ່ມີປະສິດທິພາບນີ້ເຂົ້າໄປໃນແອັບພລິເຄຊັນຂອງທ່ານເອງ.
ສິ່ງນີ້ຊ່ວຍໃຫ້ທ່ານສາມາດຂະຫຍາຍບໍລິການຂອງທ່ານສຳລັບຜູ້ຊົມທົ່ວໂລກດ້ວຍຄວາມໝັ້ນໃຈ, ໂດຍຮູ້ວ່າເອກະສານທີ່ແປແລ້ວຈະມີຄຸນນະພາບສູງສຸດ.ຂັ້ນຕອນຕໍ່ໄປແມ່ນການນຳເອົາພະລັງນີ້ເຂົ້າໄປໃນໂຄງການຂອງທ່ານເອງ.
ພວກເຮົາຂໍແນະນຳໃຫ້ທ່ານລົງທະບຽນເພື່ອຮັບ API key ແລະ ສຳຫຼວດຄວາມສາມາດເຕັມຮູບແບບຂອງບໍລິການຂອງພວກເຮົາ.
ສຳລັບຕົວເລືອກທີ່ກ້າວໜ້າກວ່າ, ເຊັ່ນ: ຄຳສັບສະເພາະ, ການປັບສຽງ, ແລະ ຄູ່ພາສາເພີ່ມເຕີມ, ກະລຸນາເບິ່ງເອກະສານນັກພັດທະນາຢ່າງເປັນທາງການຂອງພວກເຮົາສຳລັບຄູ່ມືທີ່ຄົບຖ້ວນ ແລະ ການອ້າງອີງ endpoint.


Để lại bình luận