ການຍົກລະດັບ AI ເຮັດວຽກແນວໃດ

ການຂະຫຍາຍ AI ເຮັດວຽກແນວໃດ?

ຄຳຕອບສັ້ນໆ: ການຍົກລະດັບ AI ເຮັດວຽກໂດຍການຝຶກອົບຮົມແບບຈຳລອງໃນຮູບພາບທີ່ມີຄວາມລະອຽດຕ່ຳ ແລະ ສູງທີ່ຈັບຄູ່ກັນ, ຈາກນັ້ນໃຊ້ມັນເພື່ອຄາດເດົາພິກເຊວພິເສດທີ່ໜ້າເຊື່ອຖືໄດ້ໃນລະຫວ່າງການຍົກລະດັບ. ຖ້າແບບຈຳລອງໄດ້ເຫັນໂຄງສ້າງ ຫຼື ໃບໜ້າທີ່ຄ້າຍຄືກັນໃນການຝຶກອົບຮົມ, ມັນສາມາດເພີ່ມລາຍລະອຽດທີ່ໜ້າເຊື່ອຖືໄດ້; ຖ້າບໍ່, ມັນອາດຈະ "ເຮັດໃຫ້ເກີດພາບຫຼອນ" ເຊັ່ນ: ຮາໂລ, ຜິວໜັງທີ່ເປັນຂີ້ເຜີ້ງ, ຫຼື ການກະພິບໃນວິດີໂອ.

ບົດຮຽນຫຼັກ:

ການຄາດຄະເນ : ຮູບແບບສ້າງລາຍລະອຽດທີ່ເປັນໄປໄດ້, ບໍ່ແມ່ນການສ້າງຄວາມເປັນຈິງຄືນໃໝ່ທີ່ຮັບປະກັນ.

ການເລືອກຮູບແບບ : CNN ມັກຈະໝັ້ນຄົງກວ່າ; GAN ສາມາດເບິ່ງຄົມຊັດກວ່າ ແຕ່ມີຄວາມສ່ຽງທີ່ຈະປະດິດຄຸນສົມບັດຕ່າງໆຂຶ້ນມາ.

ການກວດສອບສິ່ງປະດິດ : ລະວັງຮາໂລ, ໂຄງສ້າງທີ່ຊ້ຳກັນ, "ເກືອບເປັນຕົວອັກສອນ", ແລະ ໃບໜ້າທີ່ເປັນພາດສະຕິກ.

ຄວາມໝັ້ນຄົງຂອງວິດີໂອ : ໃຊ້ວິທີການຊົ່ວຄາວ ຖ້າບໍ່ດັ່ງນັ້ນທ່ານຈະເຫັນແສງລະຍິບລະຍັບ ແລະ ລອຍໄປມາຈາກເຟຣມຫາເຟຣມ.

ການນຳໃຊ້ທີ່ມີຄວາມສ່ຽງສູງ : ຖ້າຄວາມຖືກຕ້ອງມີຄວາມສຳຄັນ, ໃຫ້ເປີດເຜີຍການປະມວນຜົນ ແລະ ປະຕິບັດຕໍ່ຜົນໄດ້ຮັບເປັນຕົວຢ່າງ.

ການຍົກລະດັບ AI ເຮັດວຽກແນວໃດ? ອິນໂຟກຣາຟິກ.

ເຈົ້າອາດຈະເຄີຍເຫັນມັນແລ້ວ: ຮູບພາບນ້ອຍໆທີ່ຄົມຊັດຈະກາຍເປັນສິ່ງທີ່ຄົມຊັດພຽງພໍທີ່ຈະພິມ, ສະຕຣີມ, ຫຼືວາງລົງໃນບົດນຳສະເໜີໂດຍບໍ່ມີການສັ່ນ. ມັນຮູ້ສຶກຄືກັບການໂກງ. ແລະ - ໃນທາງທີ່ດີທີ່ສຸດ - ມັນຄ້າຍຄືກັບການໂກງ 😅

ສະນັ້ນ, ວິທີການເຮັດວຽກຂອງ AI Upscaling ແມ່ນຂຶ້ນກັບບາງສິ່ງບາງຢ່າງທີ່ເຈາະຈົງກວ່າ “ຄອມພິວເຕີເສີມຂະຫຍາຍລາຍລະອຽດ” (ເປັນຄື້ນມື) ແລະໃກ້ຄຽງກັບ “ຮູບແບບຄາດຄະເນໂຄງສ້າງຄວາມລະອຽດສູງທີ່ເປັນໄປໄດ້ໂດຍອີງໃສ່ຮູບແບບທີ່ມັນໄດ້ຮຽນຮູ້ຈາກຕົວຢ່າງຫຼາຍຢ່າງ” ( ການຮຽນຮູ້ເລິກສຳລັບຮູບພາບ Super-resolution: ການສຳຫຼວດ ). ຂັ້ນຕອນການຄາດຄະເນນັ້ນແມ່ນເກມທັງໝົດ - ແລະມັນແມ່ນເຫດຜົນທີ່ AI upscaling ສາມາດເບິ່ງສວຍງາມ… ຫຼືພາດສະຕິກເລັກນ້ອຍ… ຫຼືຄືກັບໜວດໂບນັດທີ່ແມວຂອງເຈົ້າເຕີບໃຫຍ່ຂຶ້ນ.

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 ວິທີການເຮັດວຽກຂອງ AI
ຮຽນຮູ້ພື້ນຖານຂອງຮູບແບບ, ຂໍ້ມູນ ແລະ ການອະນຸມານໃນ AI.

🔗 ວິທີທີ່ AI ຮຽນຮູ້
ເບິ່ງວ່າຂໍ້ມູນການຝຶກອົບຮົມ ແລະ ຄຳຕິຊົມປັບປຸງປະສິດທິພາບຂອງຮູບແບບໄດ້ແນວໃດໃນໄລຍະເວລາ.

🔗 ວິທີທີ່ AI ກວດພົບຄວາມຜິດປົກກະຕິ
ເຂົ້າໃຈຮູບແບບພື້ນຖານຂອງຮູບແບບ ແລະ ວິທີທີ່ AI ລາຍງານພຶດຕິກຳທີ່ຜິດປົກກະຕິໄດ້ຢ່າງວ່ອງໄວ.

🔗 AI ຄາດຄະເນແນວໂນ້ມແນວໃດ
ສຳຫຼວດວິທີການຄາດຄະເນທີ່ກວດພົບສັນຍານ ແລະ ຄາດຄະເນຄວາມຕ້ອງການໃນອະນາຄົດ.


ວິທີການເຮັດວຽກຂອງ AI Upscaling: ແນວຄວາມຄິດຫຼັກ, ໃນຄຳສັບປະຈຳວັນ 🧩

ການຍົກລະດັບຂະໜາດໝາຍເຖິງການເພີ່ມຄວາມລະອຽດ: ພິກເຊວຫຼາຍຂຶ້ນ, ຮູບພາບໃຫຍ່ຂຶ້ນ. ການຍົກລະດັບຂະໜາດແບບດັ້ງເດີມ (ເຊັ່ນ: bicubic) ໂດຍພື້ນຖານແລ້ວຈະຍືດພິກເຊວ ແລະ ເຮັດໃຫ້ການຫັນປ່ຽນລຽບນຽນ ( Bicubic interpolation ). ມັນບໍ່ເປັນຫຍັງ, ແຕ່ມັນບໍ່ສາມາດປະດິດ ໃໝ່ - ມັນພຽງແຕ່ແຊກແຊງເທົ່ານັ້ນ.

ການຍົກລະດັບ AI ລອງໃຊ້ບາງສິ່ງບາງຢ່າງທີ່ກ້າຫານກວ່າ (ຫຼື "ຄວາມລະອຽດສູງ" ໃນໂລກການຄົ້ນຄວ້າ) ( ການຮຽນຮູ້ເລິກສຳລັບຮູບພາບຄວາມລະອຽດສູງ: ການສຳຫຼວດ ):

  • ມັນເບິ່ງການປ້ອນຂໍ້ມູນທີ່ມີຄວາມລະອຽດຕ່ຳ

  • ຮັບຮູ້ຮູບແບບ (ຂອບ, ໂຄງສ້າງ, ລັກສະນະໃບໜ້າ, ຮອຍຂໍ້ຄວາມ, ການທໍຜ້າ...)

  • ຄາດເດົາວ່າລຸ້ນທີ່ມີຄວາມລະອຽດສູງ ຄວນ ເປັນ

  • ສ້າງຂໍ້ມູນພິກເຊວພິເສດທີ່ເໝາະສົມກັບຮູບແບບເຫຼົ່ານັ້ນ

ບໍ່ແມ່ນ "ຟື້ນຟູຄວາມເປັນຈິງຢ່າງສົມບູນແບບ," ຄືກັບ "ຄາດເດົາໄດ້ຢ່າງໜ້າເຊື່ອຖືສູງ" ( ຮູບພາບຄວາມລະອຽດສູງໂດຍໃຊ້ເຄືອຂ່າຍ Deep Convolutional Networks (SRCNN) ). ຖ້າມັນຟັງແລ້ວໜ້າສົງໄສເລັກນ້ອຍ, ເຈົ້າກໍ່ບໍ່ຜິດ - ແຕ່ມັນກໍ່ເປັນເຫດຜົນທີ່ມັນເຮັດວຽກໄດ້ດີຫຼາຍ 😄

ແລະແມ່ນແລ້ວ, ນີ້ໝາຍຄວາມວ່າການຍົກລະດັບ AI ໂດຍພື້ນຖານແລ້ວແມ່ນການຄວບຄຸມພາບຫຼອນ… ແຕ່ໃນລັກສະນະທີ່ມີປະສິດທິພາບ ແລະ ເຄົາລົບພິກເຊວ.


ສິ່ງໃດທີ່ເຮັດໃຫ້ AI upscale ລຸ້ນທີ່ດີ? ✅🛠️

ຖ້າທ່ານກຳລັງຕັດສິນ AI upscaler (ຫຼືການຕັ້ງຄ່າທີ່ຕັ້ງໄວ້ລ່ວງໜ້າ), ນີ້ແມ່ນສິ່ງທີ່ມັກຈະສຳຄັນທີ່ສຸດ:

  • ການກູ້ຄືນລາຍລະອຽດໂດຍບໍ່ຕ້ອງປຸງແຕ່ງຫຼາຍເກີນໄປ
    ການຍົກລະດັບທີ່ດີເພີ່ມຄວາມກອບ ແລະ ໂຄງສ້າງ, ບໍ່ແມ່ນສຽງລົບກວນທີ່ກອບ ຫຼື ຮູຂຸມຂົນປອມ.

  • ລະບຽບວິໄນຂອງ
    ຂອບ ເສັ້ນທີ່ສະອາດຍັງຄົງສະອາດ. ຮູບແບບທີ່ບໍ່ດີເຮັດໃຫ້ຂອບສັ່ນໄຫວ ຫຼື ແຕກອອກເປັນວົງກົມ.

  • ຄວາມສົມຈິງຂອງໂຄງສ້າງ
    ຜົມບໍ່ຄວນກາຍເປັນຮອຍແປງທາສີ. ດິນຈີ່ບໍ່ຄວນກາຍເປັນປະທັບຕາລວດລາຍທີ່ຊ້ຳກັນ.

  • ການຈັດການສຽງລົບກວນ ແລະ ການບີບອັດ
    ຮູບພາບປະຈຳວັນຈຳນວນຫຼາຍຖືກ JPEG ທຳລາຍ. ຕົວຍົກລະດັບທີ່ດີບໍ່ໄດ້ເພີ່ມຄວາມເສຍຫາຍນັ້ນ ( Real-ESRGAN ).

  • ການຮັບຮູ້ໃບໜ້າ ແລະ ຂໍ້ຄວາມ
    ໃບໜ້າ ແລະ ຂໍ້ຄວາມແມ່ນບ່ອນທີ່ງ່າຍທີ່ສຸດທີ່ຈະສັງເກດເຫັນຂໍ້ຜິດພາດ. ຮູບແບບທີ່ດີປະຕິບັດຕໍ່ພວກມັນຢ່າງສຸພາບ (ຫຼື ມີຮູບແບບພິເສດ).

  • ຄວາມສອດຄ່ອງໃນທົ່ວເຟຣມຕ່າງໆ (ສຳລັບວິດີໂອ)
    ຖ້າລາຍລະອຽດກະພິບຈາກເຟຣມໜຶ່ງໄປຫາເຟຣມອື່ນ, ຕາຂອງທ່ານຈະຮ້ອງຂຶ້ນ. ການຍົກລະດັບວິດີໂອຈະຢູ່ລອດ ຫຼື ຕາຍຍ້ອນຄວາມໝັ້ນຄົງທາງດ້ານເວລາ ( BasicVSR (CVPR 2021) ).

  • ການຄວບຄຸມທີ່ເຂົ້າໃຈງ່າຍ
    ທ່ານຕ້ອງການຕົວເລື່ອນທີ່ເຊື່ອມໂຍງກັບຜົນໄດ້ຮັບທີ່ແທ້ຈິງ: ການຫຼຸດສຽງລົບກວນ, ການຫຼຸດຄວາມມົວ, ການກຳຈັດສິ່ງປອມ, ການຮັກສາເມັດພືດ, ການເຮັດໃຫ້ຄົມ... ສິ່ງທີ່ເປັນປະໂຫຍດ.

ກົດລະບຽບທີ່ງຽບໆທີ່ຍັງຄົງຢູ່ຄືເກົ່າ: ການຍົກລະດັບ "ດີທີ່ສຸດ" ມັກຈະເປັນສິ່ງທີ່ເຈົ້າສັງເກດເຫັນໜ້ອຍໜຶ່ງ. ມັນເບິ່ງຄືວ່າເຈົ້າມີກ້ອງທີ່ດີກວ່າຕັ້ງແຕ່ເລີ່ມຕົ້ນ 📷✨


ຕາຕະລາງປຽບທຽບ: ຕົວເລືອກການຍົກລະດັບ AI ທີ່ໄດ້ຮັບຄວາມນິຍົມ (ແລະສິ່ງທີ່ພວກມັນດີສຳລັບ) 📊🙂

ຂ້າງລຸ່ມນີ້ແມ່ນການປຽບທຽບທີ່ໃຊ້ໄດ້ຈິງ. ລາຄາແມ່ນບໍ່ແນ່ນອນເພາະວ່າເຄື່ອງມືແຕກຕ່າງກັນໄປຕາມໃບອະນຸຍາດ, ຊຸດ, ຄ່າໃຊ້ຈ່າຍໃນການຄິດໄລ່, ແລະສິ່ງທີ່ມ່ວນໆທັງໝົດ.

ເຄື່ອງມື / ວິທີການ ດີທີ່ສຸດສຳລັບ ບັນຍາກາດລາຄາ ເປັນຫຍັງມັນຈຶ່ງເຮັດວຽກ (ປະມານ)
ຕົວຍົກລະດັບໜ້າຈໍແບບ Topaz ( ຮູບພາບ Topaz , ວິດີໂອ Topaz ) ຮູບພາບ, ວິດີໂອ, ຂັ້ນຕອນການເຮັດວຽກງ່າຍໆ ແບບຈ່າຍເງິນ ຮູບແບບທົ່ວໄປທີ່ເຂັ້ມແຂງ + ການປັບແຕ່ງຫຼາຍໆ, ມັກຈະ "ເຮັດວຽກໄດ້" ... ສ່ວນຫຼາຍແມ່ນ
ຄຸນສົມບັດປະເພດ “Super Resolution” ຂອງ Adobe ( Adobe Enhance > Super Resolution ) ຊ່າງຖ່າຍຮູບຢູ່ໃນລະບົບນິເວດນັ້ນແລ້ວ ການສະໝັກໃຊ້-y ການສ້າງລາຍລະອຽດຄືນໃໝ່ທີ່ແຂງແກ່ນ, ໂດຍປົກກະຕິແລ້ວແມ່ນອະນຸລັກນິຍົມ (ມີລະຄອນໜ້ອຍລົງ)
ຕົວແປ Real-ESRGAN / ESRGAN ( Real-ESRGAN , ESRGAN ) DIY, ນັກພັດທະນາ, ວຽກເຮັດງານທຳແບບ batch ຟຣີ (ແຕ່ໃຊ້ເວລາຫຼາຍ) ດີຫຼາຍໃນລາຍລະອຽດຂອງໂຄງສ້າງ, ສາມາດເຜັດໃສ່ໃບໜ້າໄດ້ຖ້າທ່ານບໍ່ລະມັດລະວັງ
ຮູບແບບການຍົກລະດັບໂດຍອີງໃສ່ການແຜ່ກະຈາຍ ( SR3 ) ວຽກງານສ້າງສັນ, ຜົນໄດ້ຮັບທີ່ມີຮູບແບບ ປະສົມ ສາມາດສ້າງລາຍລະອຽດທີ່ສວຍງາມ - ຍັງສາມາດປະດິດສິ່ງໄຮ້ສາລະໄດ້, ສະນັ້ນ... ແມ່ນແລ້ວ
ຕົວຍົກລະດັບເກມ (ແບບ DLSS/FSR) ( Nvidia DLSS , AMD FSR 2 ) ການຫຼິ້ນເກມ ແລະ ການສະແດງຜົນແບບເວລາຈິງ ລວມເປັນຊຸດ ໃຊ້ຂໍ້ມູນການເຄື່ອນໄຫວ ແລະ ຂໍ້ມູນເບື້ອງຕົ້ນທີ່ໄດ້ຮຽນຮູ້ - ປະສິດທິພາບທີ່ລຽບງ່າຍຊະນະ 🕹️
ບໍລິການຍົກລະດັບຄລາວ ຄວາມສະດວກສະບາຍ, ໄຊຊະນະໄວ ຈ່າຍຕໍ່ການນຳໃຊ້ ໄວ + ສາມາດຂະຫຍາຍໄດ້, ແຕ່ເຈົ້າແລກປ່ຽນການຄວບຄຸມ ແລະ ບາງຄັ້ງກໍ່ມີຄວາມລະອຽດອ່ອນ
ຕົວຍົກລະດັບ AI ທີ່ເນັ້ນໃສ່ວິດີໂອ ( BasicVSR , Topaz Video ) ວິດີໂອເກົ່າ, ອະນິເມ, ເອກະສານເກັບມ້ຽນ ແບບຈ່າຍເງິນ ເຄັດລັບຊົ່ວຄາວເພື່ອຫຼຸດຜ່ອນການກະພິບ + ຮູບແບບວິດີໂອພິເສດ
ການຍົກລະດັບໂທລະສັບ/ຄັງຮູບພາບ “ສະຫຼາດ” ການນຳໃຊ້ທົ່ວໄປ ລວມມີ ຮຸ່ນນ້ຳໜັກເບົາທີ່ປັບແຕ່ງມາເພື່ອໃຫ້ໄດ້ຜົນຜະລິດທີ່ໜ້າພໍໃຈ, ບໍ່ແມ່ນຄວາມສົມບູນແບບ (ຍັງສະດວກໃນການໃຊ້ງານ)

ການສາລະພາບກ່ຽວກັບການຈັດຮູບແບບ quirk: “Paid-ish” ກຳລັງເຮັດວຽກຫຼາຍຢ່າງໃນຕາຕະລາງນັ້ນ. ແຕ່ເຈົ້າເຂົ້າໃຈແລ້ວ 😅


ຄວາມລັບອັນໃຫຍ່ຫຼວງ: ນາງແບບຮຽນຮູ້ການສ້າງແຜນທີ່ຈາກຄວາມລະອຽດຕ່ຳໄປຫາຄວາມລະອຽດສູງ 🧠➡️🖼️

ຫົວໃຈຂອງການຍົກລະດັບ AI ສ່ວນໃຫຍ່ແມ່ນການຕັ້ງຄ່າການຮຽນຮູ້ທີ່ມີການຊີ້ນຳ ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ):

  1. ເລີ່ມຕົ້ນດ້ວຍຮູບພາບທີ່ມີຄວາມລະອຽດສູງ ("ຄວາມຈິງ")

  2. ຫຼຸດຈຳນວນພວກມັນລົງເປັນລຸ້ນທີ່ມີຄວາມລະອຽດຕ່ຳ ("input")

  3. ຝຶກຊ້ອມຮູບແບບເພື່ອສ້າງຄວາມລະອຽດສູງຕົ້ນສະບັບຄືນໃໝ່ຈາກຄວາມລະອຽດຕ່ຳ

ເມື່ອເວລາຜ່ານໄປ, ແບບຈຳລອງຮຽນຮູ້ຄວາມສຳພັນເຊັ່ນ:

  • “ຄວາມມົວໆອ້ອມຮອບຕາແບບນີ້ມັກຈະເປັນຂອງຂົນຕາ”

  • "ກຸ່ມພິກເຊວນີ້ມັກຈະຊີ້ບອກເຖິງຂໍ້ຄວາມ serif"

  • "ການເລື່ອນຂອບນີ້ເບິ່ງຄືກັບເສັ້ນຫຼັງຄາ, ບໍ່ແມ່ນສຽງລົບກວນແບບສຸ່ມ"

ມັນບໍ່ແມ່ນການທ່ອງຈຳຮູບພາບສະເພາະ (ໃນຄວາມໝາຍງ່າຍໆ), ມັນແມ່ນການຮຽນຮູ້ໂຄງສ້າງທາງສະຖິຕິ ( ການຮຽນຮູ້ເລິກສຳລັບຄວາມລະອຽດສູງສຸດຂອງຮູບພາບ: ການສຳຫຼວດ ). ລອງຄິດເບິ່ງມັນຄືກັບການຮຽນຮູ້ໄວຍາກອນຂອງໂຄງສ້າງ ແລະ ຂອບ. ບໍ່ແມ່ນໄວຍາກອນບົດກະວີ, ຄ້າຍຄືກັບ... ໄວຍາກອນຄູ່ມື IKEA 🪑📦 (ຄຳປຽບທຽບທີ່ຫຍຸ້ງຍາກ, ແຕ່ໃກ້ຄຽງພໍສົມຄວນ).


ລາຍລະອຽດເພີ່ມເຕີມ: ສິ່ງທີ່ເກີດຂຶ້ນໃນລະຫວ່າງການອະນຸມານ (ເມື່ອທ່ານຍົກລະດັບ) ⚙️✨

ເມື່ອທ່ານປ້ອນຮູບພາບເຂົ້າໄປໃນຕົວຍົກລະດັບ AI, ໂດຍປົກກະຕິແລ້ວຈະມີທໍ່ສົ່ງແບບນີ້:

  • ການປະມວນຜົນລ່ວງໜ້າ

    • ປ່ຽນພື້ນທີ່ສີ (ບາງຄັ້ງ)

    • ປັບຄ່າພິກເຊວໃຫ້ເປັນມາດຕະຖານ

    • ແບ່ງຮູບພາບອອກເປັນສ່ວນໆຖ້າມັນໃຫຍ່ (ການກວດສອບຄວາມເປັນຈິງຂອງ VRAM 😭) ( Real-ESRGAN repo (ຕົວເລືອກກະເບື້ອງ) )

  • ການສະກັດເອົາຄຸນສົມບັດ

    • ຊັ້ນຕົ້ນໆກວດພົບຂອບ, ມຸມ, ແລະ ການໄລ່ສີ

    • ຊັ້ນທີ່ເລິກກວ່າຈະກວດພົບຮູບແບບຕ່າງໆ: ໂຄງສ້າງ, ຮູບຮ່າງ, ແລະ ອົງປະກອບຂອງໃບໜ້າ

  • ການກໍ່ສ້າງຄືນໃໝ່

    • ຮູບແບບສ້າງແຜນທີ່ຄຸນສົມບັດທີ່ມີຄວາມລະອຽດສູງ

    • ຫຼັງຈາກນັ້ນ, ປ່ຽນມັນໃຫ້ເປັນຜົນຜະລິດພິກເຊວຕົວຈິງ

  • ການປະມວນຜົນຫຼັງການປະມວນຜົນ

    • ການເຮັດໃຫ້ຄົມຊັດຂຶ້ນເປັນທາງເລືອກ

    • ການຫຼຸດສຽງລົບກວນທາງເລືອກ

    • ການສະກັດກັ້ນສິ່ງປະດິດທາງເລືອກ (ສຽງດັງ, ຮາໂລ, ການບລັອກ)

ລາຍລະອຽດທີ່ລະອຽດອ່ອນອັນໜຶ່ງ: ເຄື່ອງມືຫຼາຍຢ່າງທີ່ຍົກລະດັບກະເບື້ອງ, ຈາກນັ້ນປະສົມຮອຍຕໍ່. ເຄື່ອງມືທີ່ດີເລີດເຊື່ອງຂອບເຂດກະເບື້ອງ. ເຄື່ອງມືທີ່ບໍ່ສາມາດໃຊ້ງານໄດ້ປະໄວ້ຮອຍຕາຂ່າຍທີ່ຈາງໆຖ້າທ່ານຫຼຽວຕາ. ແລະແມ່ນແລ້ວ, ທ່ານຈະຫຼຽວຕາ, ເພາະວ່າມະນຸດມັກກວດສອບຂໍ້ບົກຜ່ອງເລັກນ້ອຍດ້ວຍການຊູມ 300% ຄືກັບສັດນ້ອຍ 🧌


ຄອບຄົວຮູບແບບຫຼັກທີ່ໃຊ້ສຳລັບການຍົກລະດັບ AI (ແລະເຫດຜົນທີ່ພວກມັນຮູ້ສຶກແຕກຕ່າງ) 🤖📚

1) ຄວາມລະອຽດສູງທີ່ອີງໃສ່ CNN (ເປັນຮູບແບບການເຮັດວຽກແບບຄລາສສິກ)

ເຄືອຂ່າຍປະສາດແບບ Convolutional ແມ່ນດີເລີດໃນຮູບແບບທ້ອງຖິ່ນ: ຂອບ, ໂຄງສ້າງ, ໂຄງສ້າງຂະໜາດນ້ອຍ ( ຮູບພາບທີ່ມີຄວາມລະອຽດສູງໂດຍໃຊ້ເຄືອຂ່າຍ Deep Convolutional Networks (SRCNN) ).

  • ຂໍ້ດີ: ໄວ, ໝັ້ນຄົງ, ໜ້ອຍລົງ, ບໍ່ແປກໃຈ

  • ຂໍ້ເສຍ: ສາມາດເບິ່ງຄືວ່າ "ປະມວນຜົນ" ໜ້ອຍໜຶ່ງຖ້າຖືກຍູ້ແຮງ

2) ການຍົກລະດັບໂດຍອີງໃສ່ GAN (ແບບ ESRGAN) 🎭

GANs (ເຄືອຂ່າຍຄູ່ແຂ່ງທີ່ສ້າງຂື້ນ) ຝຶກອົບຮົມເຄື່ອງກຳເນີດໄຟຟ້າໃຫ້ຜະລິດຮູບພາບຄວາມລະອຽດສູງທີ່ຕົວຈຳແນກບໍ່ສາມາດແຍກແຍະໄດ້ຈາກຮູບພາບທີ່ແທ້ຈິງ ( ເຄືອຂ່າຍຄູ່ແຂ່ງທີ່ສ້າງຂື້ນ ).

  • ຂໍ້ດີ: ລາຍລະອຽດທີ່ຄົມຊັດ, ໂຄງສ້າງທີ່ໜ້າປະທັບໃຈ

  • ຂໍ້ເສຍ: ສາມາດປະດິດລາຍລະອຽດທີ່ບໍ່ມີຢູ່ - ບາງຄັ້ງຜິດພາດ, ບາງຄັ້ງກໍ່ແປກປະຫຼາດ ( SRGAN , ESRGAN )

ຮູບ GAN ສາມາດໃຫ້ຄວາມຄົມຊັດທີ່ໜ້າຕື່ນເຕັ້ນໄດ້. ມັນຍັງສາມາດເຮັດໃຫ້ຮູບຄົນຂອງເຈົ້າມີຄິ້ວເພີ່ມເຕີມໄດ້. ສະນັ້ນ... ເລືອກການຕໍ່ສູ້ຂອງເຈົ້າ 😬

3) ການຍົກລະດັບໂດຍອີງໃສ່ການແຜ່ກະຈາຍ (ສັນຍາລັກສ້າງສັນ) 🌫️➡️🖼️

ຮູບແບບການແຜ່ກະຈາຍຈະຫຼຸດຜ່ອນສຽງລົບກວນໄປເທື່ອລະຂັ້ນຕອນ ແລະ ສາມາດນຳພາໃຫ້ຜະລິດລາຍລະອຽດທີ່ມີຄວາມລະອຽດສູງ ( SR3 ).

  • ຂໍ້ດີ: ສາມາດເກັ່ງຫຼາຍໃນລາຍລະອຽດທີ່ເປັນໄປໄດ້, ໂດຍສະເພາະສຳລັບວຽກງານສ້າງສັນ

  • ຂໍ້ເສຍ: ສາມາດຫຼົງທາງຈາກຕົວຕົນ/ໂຄງສ້າງເດີມໄດ້ ຖ້າການຕັ້ງຄ່າມີຄວາມຮຸກຮານ ( SR3 )

ນີ້ແມ່ນບ່ອນທີ່ "ການຍົກລະດັບຂະໜາດ" ເລີ່ມປະສົມປະສານເຂົ້າກັບ "ການຈິນຕະນາການຄືນໃໝ່." ບາງຄັ້ງນັ້ນແມ່ນສິ່ງທີ່ເຈົ້າຕ້ອງການ. ບາງຄັ້ງມັນບໍ່ແມ່ນ.

4) ການຍົກລະດັບວິດີໂອດ້ວຍຄວາມສອດຄ່ອງທາງດ້ານເວລາ 🎞️

ການຍົກລະດັບວິດີໂອມັກຈະເພີ່ມເຫດຜົນທີ່ຮັບຮູ້ການເຄື່ອນໄຫວ:

  • ໃຊ້ເຟຣມທີ່ຢູ່ຕິດກັນເພື່ອເຮັດໃຫ້ລາຍລະອຽດມີຄວາມໝັ້ນຄົງ ( BasicVSR (CVPR 2021) )

  • ພະຍາຍາມຫຼີກລ່ຽງການກະພິບ ແລະ ສິ່ງປະດິດທີ່ເລືອຄານ

  • ມັກຈະລວມເອົາຄວາມລະອຽດສູງກັບ denoise ແລະ deinterlacing ( ວິດີໂອ Topaz )

ຖ້າການຍົກລະດັບຮູບພາບຄືກັບການຟື້ນຟູຮູບແຕ້ມໜຶ່ງຮູບ, ການຍົກລະດັບວິດີໂອກໍຄືກັບການກູ້ຄືນປື້ມ flipbook ໂດຍບໍ່ເຮັດໃຫ້ດັງຂອງຕົວລະຄອນປ່ຽນຮູບຮ່າງໃນແຕ່ລະໜ້າ. ເຊິ່ງມັນ... ຍາກກວ່າທີ່ມັນຟັງ.


ເປັນຫຍັງການຍົກລະດັບ AI ບາງຄັ້ງຈຶ່ງເບິ່ງຄືວ່າປອມ (ແລະວິທີການສັງເກດມັນ) 👀🚩

ການຍົກລະດັບ AI ລົ້ມເຫຼວໃນວິທີທີ່ຮັບຮູ້ໄດ້. ເມື່ອທ່ານຮຽນຮູ້ຮູບແບບຕ່າງໆ, ທ່ານຈະເຫັນພວກມັນຢູ່ທົ່ວທຸກແຫ່ງ, ເຊັ່ນການຊື້ລົດໃໝ່ ແລະ ທັນໃດນັ້ນກໍ່ສັງເກດເຫັນຮຸ່ນນັ້ນຢູ່ທຸກໆຖະໜົນ 😵💫

ທົ່ວໄປບອກວ່າ:

  • ແວັກຊ໌ຜິວໜັງ ເທິງໃບໜ້າ (ຫຼຸດສຽງລົບກວນ + ເຮັດໃຫ້ລຽບເກີນໄປ)

  • ຮາໂລທີ່ຄົມເກີນໄປ ອ້ອມຮອບຂອບ (ພື້ນທີ່ "ເກີນຂອບເຂດ" ແບບຄລາສສິກ) ( ການແຊກແຊງສອງເທົ່າ )

  • ໂຄງສ້າງທີ່ຊ້ຳກັນ (ກຳແພງອິດກາຍເປັນຮູບແບບການຄັດລອກ-ວາງ)

  • ຄວາມຄົມຊັດຂະໜາດນ້ອຍທີ່ກົ້ມ ກົ້ມທີ່ຮ້ອງວ່າ "ອັລກໍຣິທຶມ"

  • ຂໍ້ຄວາມເສຍຫາຍ ຈົນຕົວອັກສອນກາຍເປັນຕົວອັກສອນເກືອບທັງໝົດ (ປະເພດທີ່ຮ້າຍແຮງທີ່ສຸດ)

  • ລາຍລະອຽດທີ່ເລື່ອນລອຍໄປ ບ່ອນທີ່ຄຸນສົມບັດນ້ອຍໆມີການປ່ຽນແປງຢ່າງລະອຽດອ່ອນ, ໂດຍສະເພາະໃນຂະບວນການເຮັດວຽກແບບແຜ່ກະຈາຍ ( SR3 )

ສ່ວນທີ່ຫຍຸ້ງຍາກ: ບາງຄັ້ງສິ່ງປະດິດເຫຼົ່ານີ້ເບິ່ງຄືວ່າ "ດີກວ່າ" ທັນທີທີ່ເຫັນ. ສະໝອງຂອງເຈົ້າມັກຄວາມຄົມຊັດ. ແຕ່ຫຼັງຈາກໄລຍະໜຶ່ງ, ມັນຮູ້ສຶກວ່າ... ບໍ່ຊັດເຈນ.

ຍຸດທະວິທີທີ່ດີຄືການຊູມອອກ ແລະ ກວດເບິ່ງວ່າມັນເບິ່ງເປັນທຳມະຊາດຫຼືບໍ່ໃນໄລຍະການເບິ່ງປົກກະຕິ. ຖ້າມັນເບິ່ງດີພຽງແຕ່ຊູມ 400%, ນັ້ນບໍ່ແມ່ນໄຊຊະນະ, ນັ້ນແມ່ນງານອະດິເລກ 😅


ວິທີການເຮັດວຽກຂອງ AI Upscaling: ດ້ານການຝຶກອົບຮົມ, ໂດຍບໍ່ມີການເຈັບຫົວທາງຄະນິດສາດ 📉🙂

ການຝຶກອົບຮົມຮູບແບບຄວາມລະອຽດສູງມັກຈະກ່ຽວຂ້ອງກັບ:

ປະເພດການສູນເສຍທົ່ວໄປ:

  • ການສູນເສຍພິກເຊວ (L1/L2)
    ສົ່ງເສີມຄວາມແມ່ນຍຳ. ສາມາດສ້າງຜົນໄດ້ຮັບທີ່ອ່ອນລົງເລັກນ້ອຍ.

  • ການສູນເສຍການຮັບຮູ້
    ປຽບທຽບລັກສະນະທີ່ເລິກເຊິ່ງກວ່າ (ເຊັ່ນ “ອັນນີ້ ເບິ່ງ ຄ້າຍຄືກັນບໍ່”) ແທນທີ່ຈະເປັນພິກເຊວທີ່ແນ່ນອນ ( ການສູນເສຍການຮັບຮູ້ (Johnson et al., 2016) ).

  • ການສູນເສຍແບບສັດຕູ (GAN)
    ສົ່ງເສີມຄວາມເປັນຈິງ, ບາງຄັ້ງກໍ່ຕ້ອງເສຍຄວາມຖືກຕ້ອງຕາມຕົວໜັງສື ( SRGAN , Generative Adversarial Networks ).

ມີການດຶງເຊືອກຢ່າງຕໍ່ເນື່ອງ:

  • ເຮັດໃຫ້ມັນ ຊື່ສັດ ຕໍ່ຕົ້ນສະບັບ
    vs

  • ເຮັດໃຫ້ມັນ ເບິ່ງແລ້ວສະບາຍຕາ

ເຄື່ອງມືທີ່ແຕກຕ່າງກັນຈະວາງຢູ່ໃນສະຖານທີ່ທີ່ແຕກຕ່າງກັນໃນລະດັບນັ້ນ. ແລະ ທ່ານອາດຈະມັກອັນໜຶ່ງ ຂຶ້ນກັບວ່າທ່ານກຳລັງຟື້ນຟູຮູບພາບຄອບຄົວ ຫຼື ກຳລັງກະກຽມໂປສເຕີທີ່ “ຮູບຮ່າງດີ” ສຳຄັນກວ່າຄວາມຖືກຕ້ອງທາງດ້ານນິຕິວິທະຍາ.


ຂັ້ນຕອນການເຮັດວຽກທີ່ໃຊ້ໄດ້ຈິງ: ຮູບພາບ, ຮູບສະແກນເກົ່າ, ອານິເມ, ແລະ ວິດີໂອ 📸🧾🎥

ຮູບພາບ (ຮູບຄົນ, ພູມສັນຖານ, ຮູບຜະລິດຕະພັນ)

ວິທີປະຕິບັດທີ່ດີທີ່ສຸດໂດຍປົກກະຕິແລ້ວແມ່ນ:

  • ຫຼຸດສຽງລົບກວນລົງເລັກນ້ອຍກ່ອນ (ຖ້າຈຳເປັນ)

  • ຍົກລະດັບດ້ວຍການຕັ້ງຄ່າທີ່ອະນຸລັກ

  • ຕື່ມເມັດເຂົ້າຄືນຖ້າສິ່ງຕ່າງໆຮູ້ສຶກວ່າລຽບເກີນໄປ (ແມ່ນແລ້ວ, ແທ້ໆ)

ເມັດພືດກໍຄືກັບເກືອ. ກິນຫຼາຍເກີນໄປກໍ່ເຮັດໃຫ້ອາຫານຄ່ຳເສຍຫາຍໄດ້, ແຕ່ບໍ່ມີອັນໃດທີ່ມີລົດຊາດຈືດໆໄດ້ເລີຍ 🍟

ການສະແກນເກົ່າ ແລະ ຮູບພາບທີ່ຖືກບີບອັດຢ່າງໜັກ

ສິ່ງເຫຼົ່ານີ້ຍາກກວ່າເພາະວ່າຮູບແບບອາດຈະປະຕິບັດຕໍ່ບລັອກການບີບອັດຄືກັບ "ໂຄງສ້າງ".
ລອງ:

  • ການກຳຈັດ ຫຼື ການແກ້ໄຂບັນຫາສິ່ງປະດິດ

  • ຫຼັງຈາກນັ້ນ, ຍົກລະດັບຂຶ້ນ

  • ຈາກນັ້ນເຮັດໃຫ້ຄົມຊັດຂຶ້ນດ້ວຍແສງໜ້ອຍໆ (ບໍ່ຫຼາຍເກີນໄປ... ຂ້ອຍຮູ້, ທຸກຄົນກໍເວົ້າແບບນັ້ນ, ແຕ່ກໍຍັງ)

ອານິເມ ແລະ ຮູບແຕ້ມເສັ້ນ

ຜົນປະໂຫຍດຂອງສິລະປະເສັ້ນຈາກ:

  • ຮູບແບບທີ່ຮັກສາຂອບທີ່ສະອາດ

  • ການຫຼຸດຜ່ອນໂຄງສ້າງຫຼອນ ການ
    ຂະຫຍາຍອະນິເມມັກຈະເບິ່ງດີເພາະວ່າຮູບຮ່າງຕ່າງໆແມ່ນງ່າຍດາຍ ແລະ ສອດຄ່ອງກັນ. (ໂຊກດີ.)

ວິດີໂອ

ວິດີໂອເພີ່ມຂັ້ນຕອນເພີ່ມເຕີມ:

  • ກຳຈັດສິ່ງລົບກວນ

  • ຍົກເລີກການເຊື່ອມຕໍ່ (ສຳລັບແຫຼ່ງຂໍ້ມູນສະເພາະ)

  • ລະດັບສູງ

  • ການເຮັດໃຫ້ລຽບ ຫຼື ການເຮັດໃຫ້ສະຖຽນລະພາບຊົ່ວຄາວ ( BasicVSR (CVPR 2021) )

  • ການແນະນຳເມັດພືດຄືນໃໝ່ທາງເລືອກເພື່ອຄວາມສອດຄ່ອງ

ຖ້າເຈົ້າຂ້າມຄວາມສອດຄ່ອງທາງດ້ານເວລາ, ເຈົ້າຈະໄດ້ຮັບລາຍລະອຽດທີ່ເຫຼື້ອມເປັນເງົາ. ເມື່ອເຈົ້າສັງເກດເຫັນມັນ, ເຈົ້າຈະບໍ່ສາມາດລືມມັນໄດ້. ຄືກັບຕັ່ງອີ້ທີ່ມີສຽງດັງກ້ອງຢູ່ໃນຫ້ອງທີ່ງຽບສະຫງົບ 😖


ການເລືອກການຕັ້ງຄ່າໂດຍບໍ່ຕ້ອງຄາດເດົາຢ່າງໂຫດຮ້າຍ (ເອກະສານເຄັດລັບນ້ອຍໆ) 🎛️😵💫

ນີ້ແມ່ນແນວຄິດເລີ່ມຕົ້ນທີ່ດີ:

  • ຖ້າໃບໜ້າເບິ່ງຄືວ່າເປັນພລາສຕິກ
    ໃຫ້ຫຼຸດຜ່ອນການຫຼຸດສຽງລົບກວນ, ຫຼຸດຜ່ອນຄວາມຄົມຊັດ, ລອງໃຊ້ຮູບແບບ ຫຼື ໂໝດຮັກສາໃບໜ້າ.

  • ຖ້າໂຄງສ້າງເບິ່ງເຂັ້ມເກີນໄປ
    ໃຫ້ຫຼຸດແຖບເລື່ອນ "ການປັບປຸງລາຍລະອຽດ" ຫຼື "ກູ້ຄືນລາຍລະອຽດ", ໃຫ້ເພີ່ມເມັດສີອ່ອນໆຕາມຫຼັງ.

  • ຖ້າຂອບມີແສງ ຫຼື
    ຫຼຸດຄວາມຄົມລົງ, ໃຫ້ກວດສອບຕົວເລືອກການສະກັດກັ້ນຮາໂລ.

  • ຖ້າຮູບພາບເບິ່ງຄືວ່າ "AI" ເກີນໄປ,
    ໃຫ້ໃຊ້ວິທີທີ່ລະມັດລະວັງຫຼາຍກວ່ານີ້. ບາງຄັ້ງການເຄື່ອນໄຫວທີ່ດີທີ່ສຸດແມ່ນພຽງແຕ່... ໜ້ອຍລົງ.

ນອກຈາກນີ້: ຢ່າຍົກລະດັບ 8x ພຽງແຕ່ຍ້ອນວ່າເຈົ້າສາມາດເຮັດໄດ້. 2x ຫຼື 4x ທີ່ສະອາດມັກຈະເປັນຈຸດທີ່ດີທີ່ສຸດ. ນອກຈາກນັ້ນ, ເຈົ້າກຳລັງຂໍໃຫ້ແບບຈຳລອງຂຽນ fanfiction ກ່ຽວກັບພິກເຊວຂອງເຈົ້າ 📖😂


ຈັນຍາບັນ, ຄວາມຖືກຕ້ອງ, ແລະ ຄຳຖາມທີ່ງຸ່ມງ່າມກ່ຽວກັບ "ຄວາມຈິງ" 🧭😬

ການຍົກລະດັບ AI ເຮັດໃຫ້ເສັ້ນໜຶ່ງມົວລົງ:

  • ການຟື້ນຟູໝາຍເຖິງການຟື້ນຟູສິ່ງທີ່ມີຢູ່

  • ການປັບປຸງໝາຍເຖິງການເພີ່ມສິ່ງທີ່ບໍ່ແມ່ນ

ດ້ວຍຮູບພາບສ່ວນຕົວ, ມັນມັກຈະບໍ່ເປັນຫຍັງ (ແລະ ໜ້າຮັກ). ດ້ວຍວຽກງານຂ່າວ, ຫຼັກຖານທາງກົດໝາຍ, ການຖ່າຍພາບທາງການແພດ, ຫຼືສິ່ງໃດກໍ່ຕາມທີ່ຄວາມຊື່ສັດມີຄວາມສຳຄັນ... ທ່ານຕ້ອງລະມັດລະວັງ ( OSAC/NIST: ຄູ່ມືມາດຕະຖານສຳລັບການຈັດການຮູບພາບດິຈິຕອລທາງດ້ານນິຕິວິທະຍາ , ຄຳແນະນຳ SWGDE ສຳລັບການວິເຄາະຮູບພາບທາງດ້ານນິຕິວິທະຍາ ).

ກົດລະບຽບງ່າຍໆ:

  • ຖ້າມີຄວາມສ່ຽງສູງ, ໃຫ້ຖືວ່າການຍົກລະດັບ AI ເປັນ ຕົວຢ່າງ , ບໍ່ແມ່ນການສະຫຼຸບທີ່ແນ່ນອນ.

ນອກຈາກນັ້ນ, ການເປີດເຜີຍຂໍ້ມູນກໍ່ມີຄວາມສຳຄັນໃນສະພາບການວິຊາຊີບ. ບໍ່ແມ່ນຍ້ອນວ່າ AI ເປັນສິ່ງຊົ່ວຮ້າຍ, ແຕ່ຍ້ອນວ່າຜູ້ຊົມສົມຄວນທີ່ຈະຮູ້ວ່າລາຍລະອຽດຕ່າງໆໄດ້ຖືກສ້າງຄືນໃໝ່ ຫຼື ຖືກຈັບພາບ. ນັ້ນພຽງແຕ່... ເປັນທີ່ເຄົາລົບນັບຖື.


ບັນທຶກສະຫຼຸບ ແລະ ສະຫຼຸບສັ້ນໆ 🧡✅

ດັ່ງນັ້ນ, ວິທີການເຮັດວຽກຂອງ AI Upscaling ແມ່ນແບບນີ້: ແບບຈຳລອງຮຽນຮູ້ວ່າລາຍລະອຽດທີ່ມີຄວາມລະອຽດສູງ ມັກ ຈະກ່ຽວຂ້ອງກັບຮູບແບບທີ່ມີຄວາມລະອຽດຕ່ຳແນວໃດ, ຈາກນັ້ນຄາດຄະເນພິກເຊວພິເສດທີ່ໜ້າເຊື່ອຖືໄດ້ໃນລະຫວ່າງການ upscaling ( ການຮຽນຮູ້ເລິກສຳລັບຮູບພາບທີ່ມີຄວາມລະອຽດສູງ: ການສຳຫຼວດ ). ຂຶ້ນກັບຄອບຄົວແບບຈຳລອງ (CNN, GAN, ການແຜ່ກະຈາຍ, ວິດີໂອ-ເວລາ), ການຄາດຄະເນນັ້ນສາມາດເປັນແບບອະນຸລັກ ແລະ ຊື່ສັດ... ຫຼື ກ້າຫານ ແລະ ບາງຄັ້ງກໍ່ບໍ່ແນ່ນອນ 😅

ສະຫຼຸບໂດຍຫຍໍ້

  • ການຍົກລະດັບແບບດັ້ງເດີມຂະຫຍາຍພິກເຊວ ( Bicubic interpolation )

  • ການຂະຫຍາຍຂະໜາດຂອງ AI ຄາດຄະເນລາຍລະອຽດທີ່ຂາດຫາຍໄປໂດຍໃຊ້ຮູບແບບທີ່ຮຽນຮູ້ມາ ( ຮູບພາບທີ່ມີຄວາມລະອຽດສູງໂດຍໃຊ້ເຄືອຂ່າຍ Deep Convolutional Networks (SRCNN) )

  • ຜົນໄດ້ຮັບທີ່ດີເລີດມາຈາກຮູບແບບທີ່ຖືກຕ້ອງ + ການຍັບຍັ້ງ

  • ລະວັງຮາໂລ, ໜ້າຜີວທີ່ຄ້າຍຄືຂີ້ເຜີ້ງ, ໂຄງສ້າງທີ່ຊ້ຳໆ ແລະ ການກະພິບໃນວິດີໂອ ( BasicVSR (CVPR 2021) )

  • ການຍົກລະດັບມັກຈະເປັນ "ການສ້າງຄືນໃໝ່ທີ່ເປັນໄປໄດ້", ບໍ່ແມ່ນຄວາມຈິງທີ່ສົມບູນແບບ ( SRGAN , ESRGAN )

ຖ້າເຈົ້າຕ້ອງການ, ບອກຂ້ອຍວ່າເຈົ້າກຳລັງຍົກລະດັບຫຍັງ (ໃບໜ້າ, ຮູບເກົ່າ, ວິດີໂອ, ອານິເມ, ການສະແກນຂໍ້ຄວາມ), ແລະຂ້ອຍຈະແນະນຳກົນລະຍຸດການຕັ້ງຄ່າທີ່ມັກຈະຫຼີກລ່ຽງຂໍ້ຜິດພາດທົ່ວໄປຂອງ "ຮູບລັກສະນະ AI" 🎯🙂


ຄຳຖາມທີ່ຖືກຖາມເລື້ອຍໆ

ການຍົກລະດັບ AI ແລະວິທີການເຮັດວຽກຂອງມັນ

ການຍົກລະດັບ AI (ມັກເອີ້ນວ່າ "ຄວາມລະອຽດສູງ") ເພີ່ມຄວາມລະອຽດຂອງຮູບພາບໂດຍການຄາດຄະເນລາຍລະອຽດຄວາມລະອຽດສູງທີ່ຂາດຫາຍໄປຈາກຮູບແບບທີ່ຮຽນຮູ້ໃນລະຫວ່າງການຝຶກອົບຮົມ. ແທນທີ່ຈະພຽງແຕ່ຍືດພິກເຊວເຊັ່ນ: ການໂຕ້ຕອບແບບ bicubic, ຮູບແບບການສຶກສາຂອບ, ໂຄງສ້າງ, ໃບໜ້າ, ແລະເສັ້ນຄ້າຍຄືຂໍ້ຄວາມ, ຈາກນັ້ນສ້າງຂໍ້ມູນພິກເຊວໃໝ່ທີ່ສອດຄ່ອງກັບຮູບແບບທີ່ຮຽນຮູ້ເຫຼົ່ານັ້ນ. ມັນເປັນການ "ຟື້ນຟູຄວາມເປັນຈິງ" ໜ້ອຍລົງ ແລະ "ຄາດເດົາໄດ້ຢ່າງໜ້າເຊື່ອຖື" ທີ່ອ່ານວ່າເປັນທຳມະຊາດຫຼາຍກວ່າ.

ການຍົກລະດັບ AI ທຽບກັບການປັບຂະໜາດ bicubic ຫຼື ແບບດັ້ງເດີມ

ວິທີການຍົກລະດັບແບບດັ້ງເດີມ (ເຊັ່ນ bicubic) ສ່ວນໃຫຍ່ແມ່ນການແຊກແຊງລະຫວ່າງພິກເຊວທີ່ມີຢູ່ແລ້ວ, ເຮັດໃຫ້ການຫັນປ່ຽນລຽບງ່າຍໂດຍບໍ່ສ້າງລາຍລະອຽດໃໝ່ທີ່ແທ້ຈິງ. ການຍົກລະດັບ AI ມີຈຸດປະສົງເພື່ອສ້າງໂຄງສ້າງທີ່ເປັນໄປໄດ້ຄືນໃໝ່ໂດຍການຮັບຮູ້ຕົວຊີ້ບອກທາງສາຍຕາ ແລະ ຄາດຄະເນວ່າລຸ້ນທີ່ມີຄວາມລະອຽດສູງຂອງຕົວຊີ້ບອກເຫຼົ່ານັ້ນມັກຈະເປັນແນວໃດ. ນັ້ນແມ່ນເຫດຜົນທີ່ຜົນໄດ້ຮັບຂອງ AI ສາມາດຮູ້ສຶກຄົມຊັດຂຶ້ນຢ່າງຫຼວງຫຼາຍ, ແລະຍັງເປັນເຫດຜົນທີ່ພວກມັນສາມາດນຳສະເໜີສິ່ງປະດິດ ຫຼື "ປະດິດ" ລາຍລະອຽດທີ່ບໍ່ມີຢູ່ໃນແຫຼ່ງຂໍ້ມູນ.

ເປັນຫຍັງໃບໜ້າຈຶ່ງເບິ່ງຄືວ່າເປັນຂີ້ເຜີ້ງ ຫຼື ລຽບນຽນເກີນໄປ

ໃບໜ້າທີ່ເປັນຂີ້ເຜີ້ງມັກຈະມາຈາກການຫຼຸດຜ່ອນສິ່ງລົບກວນ ແລະ ການເຮັດໃຫ້ລຽບນຽນຢ່າງຮຸກຮານຮ່ວມກັບການເຮັດໃຫ້ຄົມຊັດຂຶ້ນເຊິ່ງເຮັດໃຫ້ໂຄງສ້າງຜິວໜັງທຳມະຊາດຫາຍໄປ. ເຄື່ອງມືຫຼາຍຢ່າງປະຕິບັດຕໍ່ສິ່ງລົບກວນ ແລະ ໂຄງສ້າງທີ່ລະອຽດອ່ອນໃນລັກສະນະດຽວກັນ, ດັ່ງນັ້ນການ "ທຳຄວາມສະອາດ" ຮູບພາບສາມາດລຶບຮູຂຸມຂົນ ແລະ ລາຍລະອຽດທີ່ລະອຽດອ່ອນໄດ້. ວິທີການທົ່ວໄປແມ່ນການຫຼຸດຜ່ອນການຫຼຸດຜ່ອນສິ່ງລົບກວນ ແລະ ການເຮັດໃຫ້ຄົມຊັດຂຶ້ນ, ໃຊ້ໂໝດຮັກສາໃບໜ້າຖ້າມີ, ຈາກນັ້ນນຳເອົາເມັດສີກັບຄືນມາເພື່ອໃຫ້ຜົນໄດ້ຮັບຮູ້ສຶກວ່າເປັນພາດສະຕິກໜ້ອຍລົງ ແລະ ຖ່າຍຮູບໄດ້ຫຼາຍຂຶ້ນ.

ສິ່ງປະດິດການຍົກລະດັບ AI ທົ່ວໄປທີ່ຄວນຕິດຕາມ

ລາຍລະອຽດທົ່ວໄປປະກອບມີຮູບຊົງຮາໂລອ້ອມຮອບຂອບ, ຮູບແບບໂຄງສ້າງທີ່ຊ້ຳກັນ (ເຊັ່ນ: ດິນຈີ່ຄັດລອກ-ວາງ), ຄວາມຄົມຊັດຂະໜາດນ້ອຍທີ່ຄົມຊັດ, ແລະ ຂໍ້ຄວາມທີ່ປ່ຽນເປັນ "ເກືອບເປັນຕົວອັກສອນ". ໃນຂັ້ນຕອນການເຮັດວຽກທີ່ອີງໃສ່ການແຜ່ກະຈາຍ, ທ່ານຍັງສາມາດເຫັນລາຍລະອຽດທີ່ເລື່ອນລອຍໄປບ່ອນທີ່ຄຸນສົມບັດນ້ອຍໆປ່ຽນແປງເລັກນ້ອຍ. ສຳລັບວິດີໂອ, ລາຍລະອຽດການກະພິບ ແລະ ການລວບລວມຂໍ້ມູນຂ້າມເຟຣມຕ່າງໆແມ່ນສັນຍານເຕືອນໄພໃຫຍ່. ຖ້າມັນເບິ່ງດີພຽງແຕ່ໃນການຊູມທີ່ຮຸນແຮງ, ການຕັ້ງຄ່າອາດຈະຮຸນແຮງເກີນໄປ.

ວິທີທີ່ GAN, CNN, ແລະຕົວຂະຫຍາຍການແຜ່ກະຈາຍມີແນວໂນ້ມທີ່ຈະແຕກຕ່າງກັນໃນຜົນໄດ້ຮັບ

ຄວາມລະອຽດສູງທີ່ອີງໃສ່ CNN ມັກຈະໝັ້ນຄົງກວ່າ ແລະ ຄາດເດົາໄດ້ຫຼາຍກວ່າ, ແຕ່ມັນອາດຈະເບິ່ງຄືວ່າ "ຖືກປະມວນຜົນ" ຖ້າຖືກຍູ້ແຮງ. ຕົວເລືອກທີ່ອີງໃສ່ GAN (ແບບ ESRGAN) ມັກຈະຜະລິດໂຄງສ້າງທີ່ຄົມຊັດກວ່າ ແລະ ຄວາມຄົມຊັດທີ່ຮັບຮູ້ໄດ້, ແຕ່ພວກມັນສາມາດເຮັດໃຫ້ລາຍລະອຽດທີ່ບໍ່ຖືກຕ້ອງຫຼອນໄດ້, ໂດຍສະເພາະໃນໃບໜ້າ. ການຍົກລະດັບທີ່ອີງໃສ່ການແຜ່ກະຈາຍສາມາດສ້າງລາຍລະອຽດທີ່ສວຍງາມ ແລະ ໜ້າເຊື່ອຖືໄດ້, ແຕ່ມັນອາດຈະຫຼົງໄຫຼຈາກໂຄງສ້າງເດີມຖ້າການຕັ້ງຄ່າການນຳພາ ຫຼື ຄວາມແຮງແຂງແຮງເກີນໄປ.

ກົນລະຍຸດການຕັ້ງຄ່າທີ່ໃຊ້ໄດ້ຈິງເພື່ອຫຼີກລ່ຽງຮູບລັກສະນະ "AI ເກີນໄປ"

ເລີ່ມຕົ້ນແບບອະນຸລັກ: ຍົກລະດັບ 2× ຫຼື 4× ກ່ອນທີ່ຈະໄປເຖິງປັດໃຈທີ່ຮ້າຍແຮງ. ຖ້າໃບໜ້າເບິ່ງຄືວ່າເປັນພາດສະຕິກ, ໃຫ້ຫຼຸດການຫຼຸດຜ່ອນສຽງລົບກວນ ແລະ ການເຮັດໃຫ້ຄົມຊັດລົງ ແລະ ລອງໃຊ້ໂໝດຮັບຮູ້ໃບໜ້າ. ຖ້າໂຄງສ້າງມີຄວາມເຂັ້ມເກີນໄປ, ໃຫ້ຫຼຸດການປັບປຸງລາຍລະອຽດລົງ ແລະ ພິຈາລະນາເພີ່ມເມັດສີອ່ອນໆຫຼັງຈາກນັ້ນ. ຖ້າຂອບມີແສງ, ໃຫ້ຫຼຸດຄວາມຄົມຊັດລົງ ແລະ ກວດສອບການສະກັດກັ້ນຮາໂລ ຫຼື ສິ່ງປະດິດ. ໃນຫຼາຍໆທໍ່, "ໜ້ອຍລົງ" ຈະຊະນະເພາະມັນຮັກສາຄວາມເປັນຈິງທີ່ໜ້າເຊື່ອຖືໄດ້.

ການຈັດການຮູບພາບສະແກນເກົ່າ ຫຼື ຮູບພາບທີ່ຖືກບີບອັດດ້ວຍ JPEG ຫຼາຍກ່ອນການຍົກລະດັບຂະໜາດ

ຮູບພາບທີ່ຖືກບີບອັດແມ່ນມີຄວາມຫຍຸ້ງຍາກເພາະວ່າຮູບແບບສາມາດປະຕິບັດຕໍ່ສິ່ງປະດິດຂອງບລັອກຄືກັບໂຄງສ້າງທີ່ແທ້ຈິງ ແລະ ຂະຫຍາຍພວກມັນ. ຂັ້ນຕອນການເຮັດວຽກທົ່ວໄປແມ່ນການກຳຈັດສິ່ງປະດິດ ຫຼື ການແກ້ໄຂບັນຫາກ່ອນ, ຈາກນັ້ນການເພີ່ມຂະໜາດ, ຈາກນັ້ນການເຮັດໃຫ້ຄົມຊັດຂຶ້ນເລັກນ້ອຍເທົ່ານັ້ນຖ້າຈຳເປັນ. ສຳລັບການສະແກນ, ການທຳຄວາມສະອາດຢ່າງອ່ອນໂຍນສາມາດຊ່ວຍໃຫ້ຮູບແບບສຸມໃສ່ໂຄງສ້າງຕົວຈິງແທນທີ່ຈະເປັນຄວາມເສຍຫາຍ. ເປົ້າໝາຍແມ່ນເພື່ອຫຼຸດຜ່ອນ "ສັນຍານໂຄງສ້າງປອມ" ດັ່ງນັ້ນຕົວເພີ່ມຂະໜາດຈຶ່ງບໍ່ໄດ້ຖືກບັງຄັບໃຫ້ຄາດເດົາຢ່າງໝັ້ນໃຈຈາກຂໍ້ມູນທີ່ມີສຽງລົບກວນ.

ເປັນຫຍັງການຍົກລະດັບວິດີໂອຈຶ່ງຍາກກວ່າການຍົກລະດັບຮູບພາບ

ການຍົກລະດັບວິດີໂອຕ້ອງມີຄວາມສອດຄ່ອງກັນໃນທົ່ວເຟຣມ, ບໍ່ພຽງແຕ່ດີໃນຮູບພາບນິ້ງດຽວເທົ່ານັ້ນ. ຖ້າລາຍລະອຽດກະພິບຈາກເຟຣມໜຶ່ງໄປຫາເຟຣມອື່ນ, ຜົນໄດ້ຮັບຈະກາຍເປັນສິ່ງລົບກວນຢ່າງໄວວາ. ວິທີການທີ່ເນັ້ນໃສ່ວິດີໂອໃຊ້ຂໍ້ມູນຊົ່ວຄາວຈາກເຟຣມທີ່ຢູ່ຕິດກັນເພື່ອເຮັດໃຫ້ການສ້າງຄືນໃໝ່ມີຄວາມໝັ້ນຄົງ ແລະ ຫຼີກລ່ຽງສິ່ງປະດິດທີ່ເຫຼື້ອມເປັນເງົາ. ຂັ້ນຕອນການເຮັດວຽກຫຼາຍຢ່າງຍັງປະກອບມີ denoise, deinterlacing ສຳລັບແຫຼ່ງຂໍ້ມູນສະເພາະ, ແລະ ການແນະນຳເມັດພືດຄືນໃໝ່ທີ່ເປັນທາງເລືອກ ເພື່ອໃຫ້ລຳດັບທັງໝົດຮູ້ສຶກເປັນເອກະພາບກັນແທນທີ່ຈະຄົມຊັດແບບປອມ.

ເມື່ອການຍົກລະດັບ AI ບໍ່ເໝາະສົມ ຫຼື ມີຄວາມສ່ຽງທີ່ຈະເພິ່ງພາອາໄສ

ການຍົກລະດັບ AI ດີທີ່ສຸດຄວນຖືວ່າເປັນການປັບປຸງ, ບໍ່ແມ່ນຫຼັກຖານ. ໃນສະພາບການທີ່ມີຄວາມສ່ຽງສູງເຊັ່ນ: ວາລະສານ, ຫຼັກຖານທາງກົດໝາຍ, ການຖ່າຍພາບທາງການແພດ, ຫຼືວຽກງານທາງດ້ານນິຕິວິທະຍາ, ການສ້າງພິກເຊວທີ່ "ໜ້າເຊື່ອຖື" ສາມາດເຮັດໃຫ້ເຂົ້າໃຈຜິດໄດ້ເພາະມັນອາດຈະເພີ່ມລາຍລະອຽດທີ່ບໍ່ໄດ້ບັນທຶກໄວ້. ການວາງກອບທີ່ປອດໄພກວ່າແມ່ນການໃຊ້ມັນເປັນຕົວຢ່າງ ແລະ ເປີດເຜີຍວ່າຂະບວນການ AI ໄດ້ສ້າງລາຍລະອຽດຄືນໃໝ່. ຖ້າຄວາມຊື່ສັດມີຄວາມສຳຄັນ, ໃຫ້ຮັກສາຕົ້ນສະບັບ ແລະ ບັນທຶກທຸກຂັ້ນຕອນການປະມວນຜົນ ແລະ ການຕັ້ງຄ່າ.

ເອກະສານອ້າງອີງ

  1. arXiv - ການຮຽນຮູ້ຢ່າງເລິກເຊິ່ງສຳລັບຄວາມລະອຽດສູງສຸດຂອງຮູບພາບ: ການສຳຫຼວດ - arxiv.org

  2. arXiv - ຮູບພາບທີ່ມີຄວາມລະອຽດສູງໂດຍໃຊ້ເຄືອຂ່າຍ Deep Convolutional (SRCNN) - arxiv.org

  3. arXiv - Real-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. ນັກພັດທະນາ NVIDIA - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com

  8. ມູນນິທິ Computer Vision (CVF) Open Access - BasicVSR: ການຄົ້ນຫາອົງປະກອບທີ່ສຳຄັນໃນວິດີໂອຄວາມລະອຽດສູງ (CVPR 2021) - openaccess.thecvf.com

  9. arXiv - ເຄືອຂ່າຍການຕໍ່ຕ້ານທີ່ສ້າງຂື້ນ - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - ການສູນເສຍການຮັບຮູ້ (Johnson et al., 2016) - arxiv.org

  12. GitHub - ບ່ອນເກັບມ້ຽນ Real-ESRGAN (ຕົວເລືອກກະເບື້ອງ) - github.com

  13. ວິກິພີເດຍ - ການໂຕ້ຕອບແບບ Bicubic - wikipedia.org

  14. ຫ້ອງທົດລອງ Topaz - ຮູບພາບ Topaz - topazlabs.com

  15. ຫ້ອງທົດລອງ Topaz - ວິດີໂອ Topaz - topazlabs.com

  16. ສູນຊ່ວຍເຫຼືອ Adobe - Adobe Enhance > ຄວາມລະອຽດສູງ - helpx.adobe.com

  17. NIST / OSAC - ຄູ່ມືມາດຕະຖານສຳລັບການຄຸ້ມຄອງຮູບພາບດິຈິຕອລທາງດ້ານນິຕິວິທະຍາ (ລຸ້ນ 1.0) - nist.gov

  18. SWGDE - ແນວທາງສຳລັບການວິເຄາະຮູບພາບທາງນິຕິວິທະຍາ - swgde.org

ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ