ການແປເອກະສານລະຫວ່າງພາສາຍີ່ປຸ່ນ ແລະ ເກົາຫຼີແມ່ນຄວາມຕ້ອງການທົ່ວໄປສຳລັບວິສາຫະກິດທົ່ວໂລກທີ່ດໍາເນີນງານຢູ່ໃນອາຊີຕາເວັນອອກ.
ເຖິງຢ່າງໃດກໍຕາມ, ຄວາມສັບສົນທາງດ້ານເຕັກນິກຂອງໂຄງສ້າງ PDF ມັກຈະນຳໄປສູ່ຂໍ້ຜິດພາດໃນການຈັດວາງຢ່າງຫຼວງຫຼາຍໃນລະຫວ່າງຂະບວນການປ່ຽນ.
ການຊອກຫາວິທີແກ້ໄຂການແປ PDF ຈາກຍີ່ປຸ່ນເປັນເກົາຫຼີທີ່ເຊື່ອຖືໄດ້ແມ່ນສິ່ງຈໍາເປັນສໍາລັບການຮັກສາມາດຕະຖານວິຊາຊີບໃນການສື່ສານທຸລະກິດ.
ເປັນຫຍັງໄຟລ໌ PDF ຈຶ່ງມັກຈະເສຍຫາຍເມື່ອແປຈາກຍີ່ປຸ່ນເປັນເກົາຫຼີ
ເຫດຜົນຫຼັກຂອງການແຕກຫັກຂອງການຈັດວາງແມ່ນຢູ່ໃນວິທີທີ່ໄຟລ໌ PDF ຈັດການກັບການເຂົ້າລະຫັດຕົວອັກສອນ ແລະ ພິກັດສະຖານທີ່.
ຕ່າງຈາກເອກະສານ Word, PDF ແມ່ນຮູບແບບການຈັດວາງທີ່ຕາຍຕົວເຊິ່ງກຳນົດຕຳແໜ່ງສະເພາະໃຫ້ແກ່ທຸກຕົວອັກສອນໃນໜ້າ.
ເມື່ອແປຈາກຍີ່ປຸ່ນເປັນເກົາຫຼີ, ການປ່ຽນແປງຄວາມກວ້າງຂອງຕົວອັກສອນ ແລະ ໂຄງສ້າງປະໂຄກຈະລົບກວນຕຳແໜ່ງທີ່ຕາຍຕົວເຫຼົ່ານີ້.
ພາສາຍີ່ປຸ່ນ ແລະ ເກົາຫຼີໃຊ້ຊຸດຕົວອັກສອນທີ່ແຕກຕ່າງກັນ, ຕັ້ງແຕ່ Kanji ແລະ Kana ຈົນເຖິງ Hangul ແລະ Hanja.
PDF ຍີ່ປຸ່ນແບບເກົ່າຫຼາຍແຫ່ງໃຊ້ການເຂົ້າລະຫັດຕົວອັກສອນສະເພາະທີ່ບໍ່ມີການຈັບຄູ່ໂດຍກົງໃນຫໍສະໝຸດຕົວອັກສອນເກົາຫຼີມາດຕະຖານ.
ຄວາມບໍ່ສອດຄ່ອງນີ້ມັກຈະສົ່ງຜົນໃຫ້ກ່ອງ “tofu” ທີ່ໜ້າຢ້ານ ຫຼື ຂໍ້ຄວາມທີ່ຜິດພຽນເຊິ່ງເຮັດໃຫ້ເອກະສານບໍ່ສາມາດອ່ານໄດ້.
ຍິ່ງໄປກວ່ານັ້ນ, ໂຄງສ້າງໄວຍາກອນຂອງພາສາຍີ່ປຸ່ນມັກຈະຕ້ອງການຊ່ອງຫວ່າງໃນແນວຕັ້ງ ແລະ ແນວນອນທີ່ແຕກຕ່າງກັນເມື່ອທຽບໃສ່ພາສາເກົາຫຼີ.
ເອກະສານທຸລະກິດຍີ່ປຸ່ນມັກຈະໃຊ້ກ່ອງຂໍ້ຄວາມໃນແນວຕັ້ງ ຫຼືຕາຂ່າຍໄຟຟ້າທີ່ໜາແໜ້ນເຊິ່ງເຄື່ອງມືແປພາສາທົ່ວໄປຍາກທີ່ຈະວິເຄາະ.
ໂດຍບໍ່ມີເຄື່ອງຈັກການຈັດວາງທີ່ຊັບຊ້ອນ, ຂະບວນການແປກໍ່ພຽງແຕ່ຂຽນທັບຂໍ້ຄວາມໃໝ່ໂດຍບໍ່ຄຳນຶງເຖິງອົງປະກອບທາງສາຍຕາທີ່ຢູ່ອ້ອມຂ້າງ.
ບົດບາດຂອງຊຸດຕົວອັກສອນຫຼາຍໄບต์ (Multi-Byte Character Sets)
ທັງພາສາຍີ່ປຸ່ນ ແລະ ເກົາຫຼີໃຊ້ຊຸດຕົວອັກສອນຫຼາຍໄບต์, ເຊິ່ງຕ້ອງການຫນ່ວຍຄວາມຈໍາຫຼາຍຂຶ້ນ ແລະ ເຫດຜົນການສະແດງຜົນສະເພາະຫຼາຍກວ່າຕົວໜັງສືລາຕິນ.
ເມື່ອເຄື່ອງຈັກແປພາສາປະມວນຜົນ PDF, ມັນຕ້ອງລະບຸຕົວອັກສອນທີ່ເປັນຄີ CID (CID-keyed fonts) ທີ່ໃຊ້ໃນໄຟລ໌ຍີ່ປຸ່ນຕົ້ນສະບັບ.
ການບໍ່ສາມາດຈັບຄູ່ສິ່ງເຫຼົ່ານີ້ກັບຕົວອັກສອນ CID ຂອງເກົາຫຼີທີ່ທຽບເທົ່າກັນເຮັດໃຫ້ຂໍ້ຄວາມຊ້ອນກັນ ຫຼື ຫາຍໄປໝົດ.
ເອກະສານຂອງວິສາຫະກິດມັກຈະມີຕົວອັກສອນທີ່ຝັງໄວ້ເຊິ່ງຖືກແຍກຍ່ອຍເພື່ອປະກອບມີພຽງແຕ່ຕົວອັກສອນທີ່ໃຊ້ໃນເອກະສານ.
ຖ້າການແປພາສາເກົາຫຼີຕ້ອງການຕົວອັກສອນທີ່ບໍ່ມີຢູ່ໃນສ່ວນຍ່ອຍເດີມ, ຕົວເບິ່ງ PDF ຈະບໍ່ສາມາດສະແດງຜົນໄດ້.
ອຸປະສັກທາງດ້ານເຕັກນິກນີ້ແມ່ນໜຶ່ງໃນເຫດຜົນທີ່ພົບເລື້ອຍທີ່ສຸດທີ່ເຄື່ອງມືແປພາສາພື້ນຖານລົ້ມເຫຼວສຳລັບວຽກການແປ PDF ຈາກຍີ່ປຸ່ນເປັນເກົາຫຼີແບບມືອາຊີບ.
ລາຍການບັນຊີບັນຫາທົ່ວໄປໃນການແປຈາກຍີ່ປຸ່ນເປັນເກົາຫຼີ
ຄວາມເສຍຫາຍຂອງຕົວອັກສອນ ແລະ ຂໍ້ຜິດພາດໃນການເຂົ້າລະຫັດຕົວອັກສອນ
ຄວາມເສຍຫາຍຂອງຕົວອັກສອນແມ່ນບັນຫາທີ່ຊັດເຈນທີ່ສຸດທີ່ຜູ້ໃຊ້ພົບເມື່ອປ່ຽນຄູ່ມືເຕັກນິກ ຫຼື ສັນຍາຂອງຍີ່ປຸ່ນເປັນພາສາເກົາຫຼີ.
ເນື່ອງຈາກເອກະສານຍີ່ປຸ່ນຫຼາຍແຫ່ງໃຊ້ຕົວອັກສອນທີ່ເປັນເຈົ້າຂອງເຊັ່ນ MS Mincho ຫຼື Gothic, ເຄື່ອງຈັກແປພາສາອາດຈະບໍ່ພົບຕົວອັກສອນເກົາຫຼີທີ່ກົງກັນ.
ນີ້ເຮັດໃຫ້ເກີດການນ້ຳໜັກ ແລະ ຂະໜາດຂອງຕົວອັກສອນທີ່ບໍ່ກົງກັນ ເຊິ່ງເຮັດໃຫ້ PDF ເກົາຫຼີສຸດທ້າຍເບິ່ງບໍ່ເປັນມືອາຊີບ ແລະ ຍາກທີ່ຈະກວດສອບ.
ຂໍ້ຜິດພາດໃນການເຂົ້າລະຫັດຕົວອັກສອນຍັງເກີດຂຶ້ນເມື່ອຂໍ້ມູນຊຸດຂໍ້ມູນພື້ນຖານຂອງ PDF ບໍ່ໄດ້ຖືກຈັດການຢ່າງຖືກຕ້ອງໃນລະຫວ່າງຂັ້ນຕອນການສະກັດ.
ຖ້າເຄື່ອງມືບໍ່ຮັບຮູ້ການເຂົ້າລະຫັດ shift-JIS ຫຼື UTF-8 ຂອງຂໍ້ຄວາມຍີ່ປຸ່ນ, ມັນອາດຈະຜະລິດຜົນລັບພາສາເກົາຫຼີທີ່ບໍ່ມີຄວາມໝາຍ.
ການຮັບປະກັນວ່າການເຂົ້າລະຫັດຍັງຄົງທີ່ຕະຫຼອດການເຮັດວຽກແມ່ນສິ່ງສໍາຄັນຕໍ່ການຮັກສາຄວາມສົມບູນຂອງຂໍ້ມູນ.
ການບໍ່ສອດຄ່ອງຂອງຕາຕະລາງ ແລະ ການບິດເບືອນຕາຂ່າຍ
ວັດທະນະທຳທຸລະກິດຂອງຍີ່ປຸ່ນອີງໃສ່ຕາຕະລາງທີ່ສັບສົນຫຼາຍເພື່ອສະເໜີຂໍ້ມູນ, ບົດລາຍງານການເງິນ, ແລະ ຂໍ້ມູນສະເພາະທາງດ້ານເຕັກນິກ.
ເມື່ອຕາຕະລາງເຫຼົ່ານີ້ຖືກແປເປັນພາສາເກົາຫຼີ, ການຂະຫຍາຍຂໍ້ຄວາມສາມາດເຮັດໃຫ້ຂອບຂອງຈຸລັງແຕກ ຫຼື ຂໍ້ຄວາມລົ້ນອອກ.
ການບໍ່ສອດຄ່ອງນີ້ເຮັດໃຫ້ເກືອບເປັນໄປບໍ່ໄດ້ທີ່ຈະປຽບທຽບຂໍ້ມູນຍີ່ປຸ່ນຕົ້ນສະບັບກັບສະບັບພາສາເກົາຫຼີທີ່ແປຢ່າງຖືກຕ້ອງ.
ນອກຈາກນັ້ນ, ຕາຕະລາງທີ່ຝັງຢູ່ໃນ PDF ແມ່ນເປັນທີ່ຮູ້ກັນວ່າຍາກສຳລັບເຄື່ອງຈັກ OCR ໃນການຮັບຮູ້ ແລະ ສ້າງໃໝ່.
ເຄື່ອງມືມາດຕະຖານມັກຈະເຮັດໃຫ້ຕາຕະລາງເຫຼົ່ານີ້ເປັນຂໍ້ຄວາມທຳມະດາ, ສູນເສຍໂຄງສ້າງລຳດັບຊັ້ນຂອງເອກະສານຕົ້ນສະບັບ.
ເມື່ອຈັດການກັບບົດລາຍງານຂອງບໍລິສັດທີ່ລະອຽດອ່ອນ, ທ່ານສາມາດ <a href=

Để lại bình luận