Doctranslate.io

Japanese to Korean Image Translation: Master Layout Preservation

Đăng bởi

vào

ການແປຄູ່ມືດ້ານເຕັກນິກ ຫຼື ເອກະສານການຕະຫຼາດຂອງຍີ່ປຸ່ນເປັນພາສາເກົາຫຼີສະເໜີຄວາມທ້າທາຍທີ່ເປັນເອກະລັກສະເພາະສຳລັບວິສາຫະກິດທົ່ວໂລກ.
ຄວາມສັບສົນຂອງຕົວໜັງສືຍີ່ປຸ່ນ, ລວມທັງ Kanji, Hiragana, ແລະ Katakana, ຮຽກຮ້ອງໃຫ້ມີເຕັກໂນໂລຊີການຮັບຮູ້ຕົວອັກສອນທາງສາຍຕາ (OCR) ທີ່ຊັບຊ້ອນສູງ.
ຖ້າບໍ່ມີເຄື່ອງມືທີ່ເໝາະສົມ, ທຸລະກິດມັກຈະປະເຊີນກັບຄວາມລ່າຊ້າຢ່າງຫຼວງຫຼາຍ ແລະ ຄ່າໃຊ້ຈ່າຍສູງເນື່ອງຈາກການປັບການຈັດວາງດ້ວຍຕົນເອງ.

ບໍລິການແປພາສາມາດຕະຖານຫຼາຍຢ່າງມີບັນຫາກັບຄວາມແຕກຕ່າງອັນລະອຽດລະຫວ່າງໂຄງສ້າງການເບິ່ງເຫັນຂອງຍີ່ປຸ່ນ ແລະ ເກົາຫຼີ.
ໃນຂະນະທີ່ທັງສອງພາສາມີຮາກເດີມປະຫວັດສາດບາງຢ່າງ, ຄວາມຕ້ອງການດ້ານການພິມດີດສະໄໝໃໝ່ຂອງເຂົາເຈົ້າແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍໃນຮູບແບບດິຈິຕອນ.
ການຮັບປະກັນຂັ້ນຕອນການແປຮູບພາບຈາກຍີ່ປຸ່ນເປັນເກົາຫຼີທີ່ມີຄຸນນະພາບສູງແມ່ນສິ່ງຈຳເປັນສຳລັບການຮັກສາຄວາມສົມບູນຂອງຍີ່ຫໍ້ ແລະ ຄວາມຖືກຕ້ອງທາງດ້ານເຕັກນິກ.

ເປັນຫຍັງໄຟລ໌ຮູບພາບຈຶ່ງມັກຈະເສຍຫາຍເມື່ອແປຈາກຍີ່ປຸ່ນເປັນເກົາຫຼີ

ໜຶ່ງໃນສາເຫດຫຼັກທີ່ໄຟລ໌ຮູບພາບເສຍຫາຍໃນລະຫວ່າງການແປແມ່ນການປ່ຽນທິດທາງຂໍ້ຄວາມ ແລະ ຄວາມໜາແໜ້ນຂອງຕົວອັກສອນ.
ຂໍ້ຄວາມພາສາຍີ່ປຸ່ນມັກຈະຖືກຂຽນຕາມແນວຕັ້ງໃນແຜນວາດ, ປ້າຍ, ແລະ ເອກະສານແບບດັ້ງເດີມ, ເຊິ່ງສັບສົນເຄື່ອງຈັກ OCR ທີ່ເປັນແນວນອນເທົ່ານັ້ນ.
ເມື່ອເຄື່ອງຈັກເຫຼົ່ານີ້ພະຍາຍາມບັງຄັບຂໍ້ຄວາມນີ້ເຂົ້າໃນການໄຫຼຂອງແນວນອນຂອງເກົາຫຼີ, ຕຳລາການຈັດວາງຕົ້ນສະບັບມັກຈະພັງທະລາຍລົງທັງໝົດ.

ນອກຈາກນັ້ນ, ພື້ນທີ່ທາງກາຍະພາບທີ່ກວມເອົາໂດຍ Hangul ຂອງເກົາຫຼີແມ່ນແຕກຕ່າງຈາກພື້ນທີ່ທີ່ຕ້ອງການສຳລັບ Kanji ຂອງຍີ່ປຸ່ນ.
ປະໂຍກພາສາເກົາຫຼີມັກຈະຂະຫຍາຍອອກໃນຄວາມຍາວເມື່ອປຽບທຽບກັບຄູ່ສົມທຽບພາສາຍີ່ປຸ່ນ, ເຊິ່ງນຳໄປສູ່ການໄຫຼອອກຂອງຂໍ້ຄວາມໃນພື້ນທີ່ຮູບພາບທີ່ຖືກຈຳກັດ.
ການຂະຫຍາຍນີ້ໄດ້ຊຸກດັນຂໍ້ຄວາມອອກຈາກປຸ່ມ, ກ່ອງ, ຫຼື ຟອງຄຳເວົ້າ, ເຮັດໃຫ້ຮູບພາບສຸດທ້າຍເບິ່ງບໍ່ເປັນມືອາຊີບ ຫຼື ອ່ານບໍ່ໄດ້.

ຄວາມແຕກຕ່າງທາງດ້ານເຕັກນິກໃນ metadata ແລະ layers ກໍມີບົດບາດສຳຄັນໃນການສໍ້ລາດບັງຫຼວງຂອງໄຟລ໌ໃນລະຫວ່າງຂັ້ນຕອນການປ່ຽນແປງ.
ເຄື່ອງມືອັດຕະໂນມັດສ່ວນໃຫຍ່ບໍ່ໄດ້ເຄົາລົບ layers ພື້ນຫຼັງຂອງຮູບພາບ, ມັກຈະຂຽນທັບອົງປະກອບການເບິ່ງເຫັນທີ່ສຳຄັນດ້ວຍບລັອກສີທຶບ.
ການຂາດຄວາມຮັບຮູ້ຕາມສະພາບການນີ້ເຮັດໃຫ້ເກີດຮູບແບບທີ່ “ເສຍຫາຍ” ເຊິ່ງບໍ່ສາມາດຕອບສະໜອງມາດຕະຖານຄຸນນະພາບລະດັບວິສາຫະກິດໄດ້.

ຄວາມທ້າທາຍຂອງການຮັບຮູ້ຕົວອັກສອນ ແລະ ການຈັບຄູ່ຕົວອັກສອນ

ຕົວອັກສອນຍີ່ປຸ່ມມັກຈະໃຊ້ລະບົບການເຂົ້າລະຫັດສະເພາະທີ່ບໍ່ເຂົ້າກັນກັບຫ້ອງສະໝຸດການພິມຂອງເກົາຫຼີໂດຍທຳມະຊາດ.
ເມື່ອລະບົບພະຍາຍາມຈັບຄູ່ glyph ຍີ່ປຸ່ນກັບຄູ່ຮ່ວມພາສາເກົາຫຼີ, ມັນອາດຈະກະຕຸ້ນຂໍ້ຜິດພາດການຕົກຄ້າງຂອງຕົວອັກສອນ (font fallback error).
ສິ່ງນີ້ສົ່ງຜົນໃຫ້ກ່ອງ “tofu” ທີ່ເປັນທີ່ຮູ້ຈັກກັນດີ ຫຼື ຂໍ້ຄວາມທີ່ສັບສົນທີ່ທຳລາຍຄຸນຄ່າຂໍ້ມູນຂອງຮູບພາບ.

ນອກຈາກນັ້ນ, ຄວາມໜາແໜ້ນຂອງເສັ້ນເລືອດຂອງ Kanji ທີ່ສັບສົນສາມາດນຳໄປສູ່ຂໍ້ຜິດພາດໃນການຮັບຮູ້ໃນຮູບພາບທີ່ມີຄວາມລະອຽດຕ່ຳ.
ຖ້າເຄື່ອງຈັກ OCR ຮັບຮູ້ຕົວອັກສອນຜິດໃນຕອນເລີ່ມຕົ້ນຂອງຂັ້ນຕອນ, ການແປພາສາຕໍ່ໄປນີ້ຈະມີຂໍ້ບົກພ່ອງພື້ນຖານ.
ວິສາຫະກິດຕ້ອງການລະບົບທີ່ລວມເອົາການຮຽນຮູ້ເລິກ (deep learning) ກັບບໍລິບົດທາງພາສາເພື່ອຮັບປະກັນຄວາມຖືກຕ້ອງຂອງຕົວອັກສອນ 100%.

ລາຍການບັນຫາທົ່ວໄປໃນຂັ້ນຕອນການເຮັດວຽກຂອງຮູບພາບຍີ່ປຸ່ນ-ເກົາຫຼີ

ຄວາມຜິດປົກກະຕິຂອງຕົວອັກສອນ, ເຊິ່ງມັກຖືກເອີ້ນວ່າ Mojibake, ຍັງຄົງເປັນຝັນຮ້າຍທີ່ຖາວອນສຳລັບທີມງານປັບພາສາທີ່ຈັດການພາສາ CJK.
ສິ່ງນີ້ເກີດຂຶ້ນເມື່ອຊອບແວร์ interpret ລຳດັບ byte ຂອງຕົວອັກສອນຍີ່ປຸ່ນໂດຍໃຊ້ການເຂົ້າລະຫັດຊຸດຕົວອັກສອນເກົາຫຼີ.
ຜົນໄດ້ຮັບແມ່ນຊຸດສັນຍາລັກທີ່ວຸ້ນວາຍທີ່ບໍ່ມີຈຸດປະສົງໃດໆສຳລັບຜູ້ໃຊ້ສຸດທ້າຍ ຫຼື ທຸລະກິດ.

ການຈັດຮຽງຕາຕະລາງໃໝ່ແມ່ນອີກບັນຫາໜຶ່ງທີ່ເກີດຂຶ້ນເລື້ອຍໆ ເຊິ່ງສ້າງຄວາມລຳບາກໃຫ້ກັບເອກະສານດ້ານເຕັກນິກ ແລະ ບົດລາຍງານການເງິນ.
ຕາຕະລາງຍີ່ປຸ່ນມັກຈະມີຈຸລັງທີ່ຖືກລວມ ແລະ ເລື່ອງຫົວຂໍ້ຕາມແນວຕັ້ງທີ່ຍາກຫຼາຍສຳລັບ AI ແບບດັ້ງເດີມທີ່ຈະເຮັດຊ້ຳໃນພາສາເກົາຫຼີ.
ເມື່ອຂໍ້ຄວາມຖືກແປ, ເສັ້ນຂອບຂອງຕາຕະລາງມັກຈະປ່ຽນ, ເຮັດໃຫ້ຂໍ້ມູນປາກົດຢູ່ໃນຄໍລຳ ຫຼື ແຖວທີ່ບໍ່ຖືກຕ້ອງ.

ການເຄື່ອນທີ່ຂອງຮູບພາບເກີດຂຶ້ນເມື່ອຊອບແວร์ການແປພາສາລົ້ມເຫລວໃນການຕິດຂໍ້ຄວາມໄວ້ໃນການປະສານງານເດີມ.
ໃນແຜນວາດທີ່ສັບສົນ, ປ້າຍຊື່ສຳລັບສ່ວນປະກອບກົນຈັກສະເພາະອາດຈະຍ້າຍອອກໄປຫຼາຍນິ້ວຈາກຕຳແໜ່ງທີ່ຕັ້ງໃຈ.
ການເຄື່ອນທີ່ນີ້ສາມາດນຳໄປສູ່ຄວາມເຂົ້າໃຈຜິດອັນຕະລາຍໃນຄູ່ມືຄວາມປອດໄພ ຫຼື ຄູ່ມືການດໍາເນີນງານສຳລັບເຄື່ອງຈັກໜັກ.

ການ分页 ແລະ ຂໍ້ຈຳກັດທາງພື້ນທີ່ໃນຮູບພາບທີ່ປັບພາສາ

ບັນຫາການ分页 ເກີດຂຶ້ນເມື່ອຊຸດຮູບພາບຫຼາຍໜ້າ ຫຼື ການສົ່ງອອກ PDF ເປັນຮູບພາບຖືກປະມວນຜົນໂດຍບໍ່ມີຕຳລາລຳດັບ.
ຖ້າປະໂຍກຍີ່ປຸ່ນສືບຕໍ່ຈາກຮູບພາບໜຶ່ງໄປຫາອີກຮູບພາບໜຶ່ງ, ເຄື່ອງມືມາດຕະຖານອາດຈະປະຕິບັດຕໍ່ເຂົາເຈົ້າເປັນສອງສ່ວນທີ່ບໍ່ກ່ຽວຂ້ອງກັນ.
ສິ່ງນີ້ທຳລາຍການໄຫຼທາງຄວາມໝາຍ ແລະ ສົ່ງຜົນໃຫ້ຜູ້ອ່ານປະສົບກັບປະສົບການພາສາເກົາຫຼີທີ່ບໍ່ເຊື່ອມຕໍ່ກັນ.

ວິສາຫະກິດຍັງມັກຈະຈັດການກັບຂໍ້ຄວາມ “hard-coded” ທີ່ຖືກເຮັດໃຫ້ຮາບພຽງເຂົ້າໄປໃນ pixels ຂອງຮູບພາບ.
ການລຶບຂໍ້ຄວາມນີ້ໃນຂະນະທີ່ຮັກສາພື້ນຜິວດ້ານຫຼັງຮຽກຮ້ອງໃຫ້ມີອັນລໍິທຶມ in-painting ທີ່ກ້າວໜ້າທີ່ເຄື່ອງມືຫຼາຍຢ່າງຂາດແຄນ.
ຖ້າບໍ່ມີ in-painting ທີ່ເໝາະສົມ, ຂໍ້ຄວາມພາສາເກົາຫຼີທີ່ປັບພາສາພຽງແຕ່ລອຍຢູ່ຢ່າງງຸ່ມງ່າມຢູ່ເທິງພື້ນຫຼັງຍີ່ປຸ່ນທີ່ເປິເປື້ອນ, ເຄິ່ງຖືກລຶບ.

Doctranslate ແກ້ໄຂບັນຫາເຫຼົ່ານີ້ແບບຖາວອນແນວໃດ

Doctranslate ໃຊ້ປະໂຫຍດຈາກການຮັກສາການຈັດວາງທີ່ขับเคลื่อนດ້ວຍ AI ລຸ້ນຫຼ້າສຸດ ເພື່ອຮັບປະກັນວ່າທຸກໆ pixel ຍັງຄົງຢູ່ໃນສະຖານທີ່ທີ່ຕັ້ງໃຈ.
ເຄື່ອງຈັກຂອງພວກເຮົາວິເຄາະການປະສານງານທາງພື້ນທີ່ຂອງຂໍ້ຄວາມຍີ່ປຸ່ນຕົ້ນສະບັບກ່ອນທີ່ຈະເລີ່ມຂັ້ນຕອນການແປ.
ສິ່ງນີ້ຮັບປະກັນວ່າຜົນຜະລິດພາສາເກົາຫຼີແມ່ນຖືກຈັດກາງ, ຈັດສາຍ, ແລະ ປັບຂະໜາດໃຫ້ເໝາະສົມກັບຂໍ້ຈຳກັດການອອກແບບເດີມຢ່າງສົມບູນ.

ພວກເຮົາແກ້ໄຂບັນຫາການຂະຫຍາຍໂດຍການໃຊ້ການປັບຂະໜາດຕົວອັກສອນແບບເຄື່ອນໄຫວ ແລະ ການປັບ kerning ອັດສະລິຍະ.
ຖ້າປະໂຍກພາສາເກົາຫຼີຍາວກວ່າວະລີພາສາຍີ່ປຸ່ນຕົ້ນສະບັບ, ລະບົບຈະປັບຂະໜາດຕົວອັກສອນໂດຍອັດຕະໂນມັດເພື່ອປ້ອງກັນການໄຫຼອອກ.
ການປັບປຸງອັດຕະໂນມັດນີ້ຊ່ວຍປະຢັດຊົ່ວໂມງຂອງວຽກອອກແບບດ້ວຍຕົນເອງສຳລັບທີມການຕະຫຼາດ ແລະ ວິສະວະກຳຂອງວິສາຫະກິດ.

ສຳລັບທຸລະກິດທີ່ຊອກຫາປະສິດທິພາບ, ຄວາມສາມາດໃນການ <a href=

Để lại bình luận

chat