ເປັນຫຍັງໄຟລ໌ຮູບພາບຈຶ່ງມັກຈະແຕກເມື່ອແປຈາກພາສາຮິນດິເປັນພາສາຍີ່ປຸ່ນ
ການເຂົ້າສູ່ຕະຫຼາດຍີ່ປຸ່ນຕ້ອງການຫຼາຍກວ່າການປ່ຽນຂໍ້ຄວາມຕາມຕົວອັກສອນສຳລັບວິສາຫະກິດທົ່ວໂລກ.
ເມື່ອປະຕິບັດການແປຮູບພາບຈາກພາສາຮິນດິເປັນພາສາຍີ່ປຸ່ນ, ບໍລິສັດມັກຈະປະສົບກັບຄວາມຂັດແຍ້ງທາງດ້ານເຕັກນິກຢ່າງຫຼວງຫຼາຍ.
ບັນຫາເຫຼົ່ານີ້ເກີດຂຶ້ນຍ້ອນວ່າພາສາຮິນດິໃຊ້ຕົວອັກສອນ Devanagari, ເຊິ່ງມີລັກສະນະໂດຍ shirorekha, ຫຼືເສັ້ນເທິງແນວນອນ.
ໃນຂະນະທີ່ພາສາຍີ່ປຸ່ນໃຊ້ການປະສົມທີ່ສັບສົນຂອງຕົວອັກສອນ Kanji, Hiragana, ແລະ Katakana ເຊິ່ງໃຊ້ພື້ນທີ່ຕັ້ງຫຼືສີ່ຫຼ່ຽມທີ່ແຕກຕ່າງກັນ.
ເຄື່ອງຈັກ OCR (Optical Character Recognition) ທົ່ວໄປມັກຈະປະສົບກັບຄວາມຫຍຸ້ງຍາກກັບຄວາມແຕກຕ່າງທາງໂຄງສ້າງລະຫວ່າງສອງກຸ່ມພາສາເຫຼົ່ານີ້.
ຕົວຢ່າງ, ປະໂຫຍກພາສາຮິນດິອາດຈະຍາວແລະໄຫຼລ່ຽນ, ໃນຂະນະທີ່ຄຳທີ່ທຽບເທົ່າພາສາຍີ່ປຸ່ນອາດຈະສັ້ນແຕ່ໜາແໜ້ນທາງສາຍຕາ.
ຄວາມບໍ່ສອດຄ່ອງນີ້ເຮັດໃຫ້ກ່ອງອ້ອມຮອບພາຍໃນຮູບພາບລົ້ນອອກມາ ຫຼືຫົດຕົວລົງໂດຍບໍ່ຄາດຄິດ.
ໂດຍບໍ່ມີເຄື່ອງຈັກຮັກສາຮູບແບບທີ່ຊັບຊ້ອນ, ຮູບພາບທີ່ແປແລ້ວຜົນໄດ້ຮັບມັກຈະເບິ່ງແອອັດແລະບໍ່ເປັນມືອາຊີບຕໍ່ຜູ້ຊົມຊາວຍີ່ປຸ່ນພື້ນເມືອງ.
ຍິ່ງໄປກວ່ານັ້ນ, metadata ທີ່ກ່ຽວຂ້ອງກັບການຈັດວາງຂໍ້ຄວາມໃນຮູບພາບມັກຈະສູນຫາຍໄປໃນລະຫວ່າງການແປພາສາພື້ນຖານ.
ເມື່ອຮູບພາບຖືກປະມວນຜົນ, ລະບົບຕ້ອງກໍານົດບໍ່ພຽງແຕ່ຂໍ້ຄວາມເທົ່ານັ້ນແຕ່ຍັງມີຂະໜາດຕົວອັກສອນ, ສີ, ແລະການວາງທິດທາງນໍາອີກ.
ຂໍ້ຄວາມພາສາຮິນດິມັກຈະມີຄວາມໜາດີຂອງເສັ້ນເລືອດທີ່ແຕກຕ່າງກັນ ເຊິ່ງບໍ່ໄດ້ປ່ຽນເປັນແບບອັກສອນ Mincho ຫຼື Gothic ມາດຕະຖານຂອງຍີ່ປຸ່ນໂດຍກົງ.
ການຂາດການຊິ້ງໂຄຣໄນເຊຊັນທາງດ້ານໄທໂປກຣາຟີນີ້ ນຳ ໄປສູ່ສິ່ງທີ່ຜູ້ຊ່ຽວຊານດ້ານເຕັກນິກເອີ້ນວ່າ ‘ການແຕກຫັກຂອງຮູບແບບ,’ ບ່ອນທີ່ບໍລິບົດທາງສາຍຕາຂອງເອກະສານຕົ້ນສະບັບຖືກທໍາລາຍ.
ລາຍການບັນຊີຂອງບັນຫາທົ່ວໄປໃນການແປຮູບພາບຈາກພາສາຮິນດິເປັນພາສາຍີ່ປຸ່ນ
ໜຶ່ງໃນບັນຫາທີ່ພົບເຫັນທີ່ສຸດໃນຄູ່ພາສານີ້ແມ່ນຄວາມເສຍຫາຍຂອງຕົວອັກສອນ, ເຊິ່ງມັກຖືກເອີ້ນວ່າ ‘Mojibake.’
ເມື່ອລະບົບຂາດການເຂົ້າລະຫັດຕົວອັກສອນທີ່ເໝາະສົມສຳລັບພາສາຍີ່ປຸ່ນ, ມັນອາດຈະປ່ຽນ Kanji ດ້ວຍສັນຍາລັກທີ່ອ່ານບໍ່ໄດ້ ຫຼືສີ່ຫຼ່ຽມ.
ນີ້ແມ່ນເລື່ອງທົ່ວໄປໂດຍສະເພາະເມື່ອການຍົກຍ້າຍຂໍ້ຄວາມຈາກການອອກແບບທີ່ອີງໃສ່ Devanagari ໄປເປັນຊຸດຕົວອັກສອນຂອງເອເຊຍຕາເວັນອອກ.
ວິສາຫະກິດບໍ່ສາມາດທີ່ຈະເຮັດຜິດພາດດັ່ງກ່າວໃນຄູ່ມືດ້ານວິຊາການ ຫຼືໂປຣໂມຊັນການຕະຫຼາດ, ເພາະວ່າມັນສະແດງເຖິງການຂາດການຄວບຄຸມຄຸນນະພາບ.
ຄວາມບໍ່ສອດຄ່ອງຂອງຕາຕະລາງແມ່ນອີກຈຸດທີ່ລົ້ມເຫຼວທີ່ສໍາຄັນສໍາລັບຮູບພາບເອກະສານທີ່ສັບສົນ.
ເອກະສານທຸລະກິດພາສາຮິນດິຈໍານວນຫຼາຍມີຕາຕະລາງ ຫຼື نمودທີ່ຖືກຝັງຢູ່ບ່ອນທີ່ຂໍ້ຄວາມຖືກບັນຈຸຢ່າງໃກ້ຊິດເຂົ້າໄປໃນແຕ່ລະຫ້ອງ.
ໃນລະຫວ່າງຂະບວນການແປພາສາ, ຂໍ້ຄວາມພາສາຍີ່ປຸ່ນອາດຈະຕ້ອງການພື້ນທີ່ຕັ້ງຫຼາຍຂຶ້ນ, ເຮັດໃຫ້ເສັ້ນຂອບຕາຕະລາງຍ້າຍ ຫຼືຊ້ອນກັນ.
ການຍົກຍ້າຍນີ້ເຮັດໃຫ້ຂໍ້ມູນບໍ່ສາມາດອ່ານໄດ້ ແລະຮຽກຮ້ອງໃຫ້ໃຊ້ເວລາຫຼາຍຊົ່ວໂມງໃນການແກ້ໄຂການອອກແບບກຣາຟິກດ້ວຍຕົນເອງ.
ການແຊກແຊງດ້ວຍຕົນເອງດັ່ງກ່າວເຮັດໃຫ້ຈຸດປະສົງຂອງການນໍາໃຊ້ເຄື່ອງມືແປພາສາອັດຕະໂນມັດໃນສະພາບແວດລ້ອມຂອງບໍລິສັດທີ່ເຄື່ອນໄຫວໄວເສຍໄປ.
ບັນຫາການຍົກຍ້າຍຮູບພາບແລະການແບ່ງໜ້າກໍສ້າງບັນຫາໃຫ້ກັບທໍ່ສົ່ງການແປຮູບພາບຈາກພາສາຮິນດິເປັນພາສາຍີ່ປຸ່ນ.
ເມື່ອຂໍ້ຄວາມຂະຫຍາຍອອກຫຼືຫົດຕົວ, ມັນສາມາດຍູ້ຮູບພາບທີ່ຢູ່ໃກ້ຄຽງອອກຈາກຕໍາແໜ່ງເດີມຂອງພວກເຂົາ.
ໃນເອກະສານຫຼາຍໜ້າທີ່ປ່ຽນເປັນຮູບພາບ, ນີ້ສາມາດນໍາໄປສູ່ເສັ້ນຂໍ້ຄວາມ ‘ກໍາພ້າ’ ຫຼືຮູບພາບທີ່ປາກົດຢູ່ໃນໜ້າທີ່ບໍ່ຖືກຕ້ອງ.
ອຸປະສັກທາງດ້ານເຕັກນິກເຫຼົ່ານີ້ບໍ່ແມ່ນພຽງແຕ່ບັນຫາດ້ານຄວາມງາມເທົ່ານັ້ນ; ພວກເຂົາສາມາດນໍາໄປສູ່ຄວາມເຂົ້າໃຈຜິດອັນຕະລາຍໃນຂະແນກຕ່າງໆເຊັ່ນການຜະລິດອຸປະກອນການແພດຫຼືການບໍລິການທາງກົດຫມາຍ.
ດັ່ງນັ້ນ, ການຮັບປະກັນຄວາມສົມบูรณ์ຂອງໂຄງສ້າງຈຶ່ງສໍາຄັນເທົ່າກັບການແປພາສາເອງ.
ຄວາມທ້າທາຍກັບການສະແດງ Devanagari ແລະ Kanji
ຕົວອັກສອນ Devanagari ແມ່ນອີງໃສ່ abugida, ຊຶ່ງໝາຍຄວາມວ່າແຕ່ລະຕົວອັກສອນເປັນຕົວແທນການປະສົມພະຍັນຊະນະ-ສະຫຼະ.
ນີ້ສ້າງການໄຫຼຕາມແນວນອນທີ່ແຕກຕ່າງຈາກລັກສະນະທີ່ເປັນກ້ອນຂອງຕົວອັກສອນຍີ່ປຸ່ນ.
ເມື່ອເຄື່ອງ OCR ສະກັດພາສາຮິນດິ, ມັນຕ້ອງຄຳນຶງເຖິງຕົວອັກສອນປະສົມແລະ diacritics.
ການແປເປັນພາສາຍີ່ປຸ່ນຮຽກຮ້ອງໃຫ້ເຄື່ອງຈັກຄາດຄະເນວ່າຈະຕ້ອງການພື້ນທີ່ຫວ່າງເທົ່າໃດເພື່ອຮັກສາຄວາມສາມາດໃນການອ່ານ.
ການບໍ່ປະຕິບັດຕາມນີ້ເຮັດໃຫ້ຂໍ້ຄວາມແອອັດທີ່ຍາກຕໍ່ການນໍາທາງສຳລັບຜູ້ມີສ່ວນໄດ້ສ່ວນເສຍຊາວຍີ່ປຸ່ນ.
Doctranslate ແກ້ໄຂບັນຫາເຫຼົ່ານີ້ຢ່າງຖາວອນແນວໃດ
Doctranslate ໃຊ້ເຄື່ອງຈັກຮັກສາຮູບແບບທີ່ຂັບເຄື່ອນດ້ວຍ AI ທີ່ກ້າວໜ້າ ເຊິ່ງອອກແບບສະເພາະສຳລັບຄວາມຕ້ອງການລະດັບວິສາຫະກິດ.
ແທນທີ່ຈະພຽງແຕ່ສະກັດຂໍ້ຄວາມ, ລະບົບຂອງພວກເຮົາວາງແຜນທີ່ການປະສານງານຂອງທຸກພິກເຊວເພື່ອຮັບປະກັນວ່າຂໍ້ຄວາມໃໝ່ຕັ້ງຢູ່ຢ່າງສົມບູນ.
ຂະບວນການນີ້ກ່ຽວຂ້ອງກັບ ‘Contextual OCR’ ເຊິ່ງເຂົ້າໃຈຄວາມສໍາພັນລະຫວ່າງຂໍ້ຄວາມແລະອົງປະກອບສາຍຕາອ້ອມຂ້າງ.
ໂດຍການນໍາໃຊ້ເຕັກໂນໂລຢີນີ້, ທ່ານສາມາດ <a href=

ປະກອບຄໍາເຫັນ