ຄຳຕອບສັ້ນໆ: ການຍົກລະດັບ AI ເຮັດວຽກໂດຍການຝຶກອົບຮົມແບບຈຳລອງໃນຮູບພາບທີ່ມີຄວາມລະອຽດຕ່ຳ ແລະ ສູງທີ່ຈັບຄູ່ກັນ, ຈາກນັ້ນໃຊ້ມັນເພື່ອຄາດເດົາພິກເຊວພິເສດທີ່ໜ້າເຊື່ອຖືໄດ້ໃນລະຫວ່າງການຍົກລະດັບ. ຖ້າແບບຈຳລອງໄດ້ເຫັນໂຄງສ້າງ ຫຼື ໃບໜ້າທີ່ຄ້າຍຄືກັນໃນການຝຶກອົບຮົມ, ມັນສາມາດເພີ່ມລາຍລະອຽດທີ່ໜ້າເຊື່ອຖືໄດ້; ຖ້າບໍ່, ມັນອາດຈະ "ເຮັດໃຫ້ເກີດພາບຫຼອນ" ເຊັ່ນ: ຮາໂລ, ຜິວໜັງທີ່ເປັນຂີ້ເຜີ້ງ, ຫຼື ການກະພິບໃນວິດີໂອ.
ບົດຮຽນຫຼັກ:
ການຄາດຄະເນ : ຮູບແບບສ້າງລາຍລະອຽດທີ່ເປັນໄປໄດ້, ບໍ່ແມ່ນການສ້າງຄວາມເປັນຈິງຄືນໃໝ່ທີ່ຮັບປະກັນ.
ການເລືອກຮູບແບບ : CNN ມັກຈະໝັ້ນຄົງກວ່າ; GAN ສາມາດເບິ່ງຄົມຊັດກວ່າ ແຕ່ມີຄວາມສ່ຽງທີ່ຈະປະດິດຄຸນສົມບັດຕ່າງໆຂຶ້ນມາ.
ການກວດສອບສິ່ງປະດິດ : ລະວັງຮາໂລ, ໂຄງສ້າງທີ່ຊ້ຳກັນ, "ເກືອບເປັນຕົວອັກສອນ", ແລະ ໃບໜ້າທີ່ເປັນພາດສະຕິກ.
ຄວາມໝັ້ນຄົງຂອງວິດີໂອ : ໃຊ້ວິທີການຊົ່ວຄາວ ຖ້າບໍ່ດັ່ງນັ້ນທ່ານຈະເຫັນແສງລະຍິບລະຍັບ ແລະ ລອຍໄປມາຈາກເຟຣມຫາເຟຣມ.
ການນຳໃຊ້ທີ່ມີຄວາມສ່ຽງສູງ : ຖ້າຄວາມຖືກຕ້ອງມີຄວາມສຳຄັນ, ໃຫ້ເປີດເຜີຍການປະມວນຜົນ ແລະ ປະຕິບັດຕໍ່ຜົນໄດ້ຮັບເປັນຕົວຢ່າງ.

ເຈົ້າອາດຈະເຄີຍເຫັນມັນແລ້ວ: ຮູບພາບນ້ອຍໆທີ່ຄົມຊັດຈະກາຍເປັນສິ່ງທີ່ຄົມຊັດພຽງພໍທີ່ຈະພິມ, ສະຕຣີມ, ຫຼືວາງລົງໃນບົດນຳສະເໜີໂດຍບໍ່ມີການສັ່ນ. ມັນຮູ້ສຶກຄືກັບການໂກງ. ແລະ - ໃນທາງທີ່ດີທີ່ສຸດ - ມັນຄ້າຍຄືກັບການໂກງ 😅
ສະນັ້ນ, ວິທີການເຮັດວຽກຂອງ AI Upscaling ແມ່ນຂຶ້ນກັບບາງສິ່ງບາງຢ່າງທີ່ເຈາະຈົງກວ່າ “ຄອມພິວເຕີເສີມຂະຫຍາຍລາຍລະອຽດ” (ເປັນຄື້ນມື) ແລະໃກ້ຄຽງກັບ “ຮູບແບບຄາດຄະເນໂຄງສ້າງຄວາມລະອຽດສູງທີ່ເປັນໄປໄດ້ໂດຍອີງໃສ່ຮູບແບບທີ່ມັນໄດ້ຮຽນຮູ້ຈາກຕົວຢ່າງຫຼາຍຢ່າງ” ( ການຮຽນຮູ້ເລິກສຳລັບຮູບພາບ Super-resolution: ການສຳຫຼວດ ). ຂັ້ນຕອນການຄາດຄະເນນັ້ນແມ່ນເກມທັງໝົດ - ແລະມັນແມ່ນເຫດຜົນທີ່ AI upscaling ສາມາດເບິ່ງສວຍງາມ… ຫຼືພາດສະຕິກເລັກນ້ອຍ… ຫຼືຄືກັບໜວດໂບນັດທີ່ແມວຂອງເຈົ້າເຕີບໃຫຍ່ຂຶ້ນ.
ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:
🔗 ວິທີການເຮັດວຽກຂອງ AI
ຮຽນຮູ້ພື້ນຖານຂອງຮູບແບບ, ຂໍ້ມູນ ແລະ ການອະນຸມານໃນ AI.
🔗 ວິທີທີ່ AI ຮຽນຮູ້
ເບິ່ງວ່າຂໍ້ມູນການຝຶກອົບຮົມ ແລະ ຄຳຕິຊົມປັບປຸງປະສິດທິພາບຂອງຮູບແບບໄດ້ແນວໃດໃນໄລຍະເວລາ.
🔗 ວິທີທີ່ AI ກວດພົບຄວາມຜິດປົກກະຕິ
ເຂົ້າໃຈຮູບແບບພື້ນຖານຂອງຮູບແບບ ແລະ ວິທີທີ່ AI ລາຍງານພຶດຕິກຳທີ່ຜິດປົກກະຕິໄດ້ຢ່າງວ່ອງໄວ.
🔗 AI ຄາດຄະເນແນວໂນ້ມແນວໃດ
ສຳຫຼວດວິທີການຄາດຄະເນທີ່ກວດພົບສັນຍານ ແລະ ຄາດຄະເນຄວາມຕ້ອງການໃນອະນາຄົດ.
ວິທີການເຮັດວຽກຂອງ AI Upscaling: ແນວຄວາມຄິດຫຼັກ, ໃນຄຳສັບປະຈຳວັນ 🧩
ການຍົກລະດັບຂະໜາດໝາຍເຖິງການເພີ່ມຄວາມລະອຽດ: ພິກເຊວຫຼາຍຂຶ້ນ, ຮູບພາບໃຫຍ່ຂຶ້ນ. ການຍົກລະດັບຂະໜາດແບບດັ້ງເດີມ (ເຊັ່ນ: bicubic) ໂດຍພື້ນຖານແລ້ວຈະຍືດພິກເຊວ ແລະ ເຮັດໃຫ້ການຫັນປ່ຽນລຽບນຽນ ( Bicubic interpolation ). ມັນບໍ່ເປັນຫຍັງ, ແຕ່ມັນບໍ່ສາມາດປະດິດ ໃໝ່ - ມັນພຽງແຕ່ແຊກແຊງເທົ່ານັ້ນ.
ການຍົກລະດັບ AI ລອງໃຊ້ບາງສິ່ງບາງຢ່າງທີ່ກ້າຫານກວ່າ (ຫຼື "ຄວາມລະອຽດສູງ" ໃນໂລກການຄົ້ນຄວ້າ) ( ການຮຽນຮູ້ເລິກສຳລັບຮູບພາບຄວາມລະອຽດສູງ: ການສຳຫຼວດ ):
-
ມັນເບິ່ງການປ້ອນຂໍ້ມູນທີ່ມີຄວາມລະອຽດຕ່ຳ
-
ຮັບຮູ້ຮູບແບບ (ຂອບ, ໂຄງສ້າງ, ລັກສະນະໃບໜ້າ, ຮອຍຂໍ້ຄວາມ, ການທໍຜ້າ...)
-
ຄາດເດົາວ່າລຸ້ນທີ່ມີຄວາມລະອຽດສູງ ຄວນ ເປັນ
-
ສ້າງຂໍ້ມູນພິກເຊວພິເສດທີ່ເໝາະສົມກັບຮູບແບບເຫຼົ່ານັ້ນ
ບໍ່ແມ່ນ "ຟື້ນຟູຄວາມເປັນຈິງຢ່າງສົມບູນແບບ," ຄືກັບ "ຄາດເດົາໄດ້ຢ່າງໜ້າເຊື່ອຖືສູງ" ( ຮູບພາບຄວາມລະອຽດສູງໂດຍໃຊ້ເຄືອຂ່າຍ Deep Convolutional Networks (SRCNN) ). ຖ້າມັນຟັງແລ້ວໜ້າສົງໄສເລັກນ້ອຍ, ເຈົ້າກໍ່ບໍ່ຜິດ - ແຕ່ມັນກໍ່ເປັນເຫດຜົນທີ່ມັນເຮັດວຽກໄດ້ດີຫຼາຍ 😄
ແລະແມ່ນແລ້ວ, ນີ້ໝາຍຄວາມວ່າການຍົກລະດັບ AI ໂດຍພື້ນຖານແລ້ວແມ່ນການຄວບຄຸມພາບຫຼອນ… ແຕ່ໃນລັກສະນະທີ່ມີປະສິດທິພາບ ແລະ ເຄົາລົບພິກເຊວ.
ສິ່ງໃດທີ່ເຮັດໃຫ້ AI upscale ລຸ້ນທີ່ດີ? ✅🛠️
ຖ້າທ່ານກຳລັງຕັດສິນ AI upscaler (ຫຼືການຕັ້ງຄ່າທີ່ຕັ້ງໄວ້ລ່ວງໜ້າ), ນີ້ແມ່ນສິ່ງທີ່ມັກຈະສຳຄັນທີ່ສຸດ:
-
ການກູ້ຄືນລາຍລະອຽດໂດຍບໍ່ຕ້ອງປຸງແຕ່ງຫຼາຍເກີນໄປ
ການຍົກລະດັບທີ່ດີເພີ່ມຄວາມກອບ ແລະ ໂຄງສ້າງ, ບໍ່ແມ່ນສຽງລົບກວນທີ່ກອບ ຫຼື ຮູຂຸມຂົນປອມ. -
ລະບຽບວິໄນຂອງ
ຂອບ ເສັ້ນທີ່ສະອາດຍັງຄົງສະອາດ. ຮູບແບບທີ່ບໍ່ດີເຮັດໃຫ້ຂອບສັ່ນໄຫວ ຫຼື ແຕກອອກເປັນວົງກົມ. -
ຄວາມສົມຈິງຂອງໂຄງສ້າງ
ຜົມບໍ່ຄວນກາຍເປັນຮອຍແປງທາສີ. ດິນຈີ່ບໍ່ຄວນກາຍເປັນປະທັບຕາລວດລາຍທີ່ຊ້ຳກັນ. -
ການຈັດການສຽງລົບກວນ ແລະ ການບີບອັດ
ຮູບພາບປະຈຳວັນຈຳນວນຫຼາຍຖືກ JPEG ທຳລາຍ. ຕົວຍົກລະດັບທີ່ດີບໍ່ໄດ້ເພີ່ມຄວາມເສຍຫາຍນັ້ນ ( Real-ESRGAN ). -
ການຮັບຮູ້ໃບໜ້າ ແລະ ຂໍ້ຄວາມ
ໃບໜ້າ ແລະ ຂໍ້ຄວາມແມ່ນບ່ອນທີ່ງ່າຍທີ່ສຸດທີ່ຈະສັງເກດເຫັນຂໍ້ຜິດພາດ. ຮູບແບບທີ່ດີປະຕິບັດຕໍ່ພວກມັນຢ່າງສຸພາບ (ຫຼື ມີຮູບແບບພິເສດ). -
ຄວາມສອດຄ່ອງໃນທົ່ວເຟຣມຕ່າງໆ (ສຳລັບວິດີໂອ)
ຖ້າລາຍລະອຽດກະພິບຈາກເຟຣມໜຶ່ງໄປຫາເຟຣມອື່ນ, ຕາຂອງທ່ານຈະຮ້ອງຂຶ້ນ. ການຍົກລະດັບວິດີໂອຈະຢູ່ລອດ ຫຼື ຕາຍຍ້ອນຄວາມໝັ້ນຄົງທາງດ້ານເວລາ ( BasicVSR (CVPR 2021) ). -
ການຄວບຄຸມທີ່ເຂົ້າໃຈງ່າຍ
ທ່ານຕ້ອງການຕົວເລື່ອນທີ່ເຊື່ອມໂຍງກັບຜົນໄດ້ຮັບທີ່ແທ້ຈິງ: ການຫຼຸດສຽງລົບກວນ, ການຫຼຸດຄວາມມົວ, ການກຳຈັດສິ່ງປອມ, ການຮັກສາເມັດພືດ, ການເຮັດໃຫ້ຄົມ... ສິ່ງທີ່ເປັນປະໂຫຍດ.
ກົດລະບຽບທີ່ງຽບໆທີ່ຍັງຄົງຢູ່ຄືເກົ່າ: ການຍົກລະດັບ "ດີທີ່ສຸດ" ມັກຈະເປັນສິ່ງທີ່ເຈົ້າສັງເກດເຫັນໜ້ອຍໜຶ່ງ. ມັນເບິ່ງຄືວ່າເຈົ້າມີກ້ອງທີ່ດີກວ່າຕັ້ງແຕ່ເລີ່ມຕົ້ນ 📷✨
ຕາຕະລາງປຽບທຽບ: ຕົວເລືອກການຍົກລະດັບ AI ທີ່ໄດ້ຮັບຄວາມນິຍົມ (ແລະສິ່ງທີ່ພວກມັນດີສຳລັບ) 📊🙂
ຂ້າງລຸ່ມນີ້ແມ່ນການປຽບທຽບທີ່ໃຊ້ໄດ້ຈິງ. ລາຄາແມ່ນບໍ່ແນ່ນອນເພາະວ່າເຄື່ອງມືແຕກຕ່າງກັນໄປຕາມໃບອະນຸຍາດ, ຊຸດ, ຄ່າໃຊ້ຈ່າຍໃນການຄິດໄລ່, ແລະສິ່ງທີ່ມ່ວນໆທັງໝົດ.
| ເຄື່ອງມື / ວິທີການ | ດີທີ່ສຸດສຳລັບ | ບັນຍາກາດລາຄາ | ເປັນຫຍັງມັນຈຶ່ງເຮັດວຽກ (ປະມານ) |
|---|---|---|---|
| ຕົວຍົກລະດັບໜ້າຈໍແບບ Topaz ( ຮູບພາບ Topaz , ວິດີໂອ Topaz ) | ຮູບພາບ, ວິດີໂອ, ຂັ້ນຕອນການເຮັດວຽກງ່າຍໆ | ແບບຈ່າຍເງິນ | ຮູບແບບທົ່ວໄປທີ່ເຂັ້ມແຂງ + ການປັບແຕ່ງຫຼາຍໆ, ມັກຈະ "ເຮັດວຽກໄດ້" ... ສ່ວນຫຼາຍແມ່ນ |
| ຄຸນສົມບັດປະເພດ “Super Resolution” ຂອງ Adobe ( Adobe Enhance > Super Resolution ) | ຊ່າງຖ່າຍຮູບຢູ່ໃນລະບົບນິເວດນັ້ນແລ້ວ | ການສະໝັກໃຊ້-y | ການສ້າງລາຍລະອຽດຄືນໃໝ່ທີ່ແຂງແກ່ນ, ໂດຍປົກກະຕິແລ້ວແມ່ນອະນຸລັກນິຍົມ (ມີລະຄອນໜ້ອຍລົງ) |
| ຕົວແປ Real-ESRGAN / ESRGAN ( Real-ESRGAN , ESRGAN ) | DIY, ນັກພັດທະນາ, ວຽກເຮັດງານທຳແບບ batch | ຟຣີ (ແຕ່ໃຊ້ເວລາຫຼາຍ) | ດີຫຼາຍໃນລາຍລະອຽດຂອງໂຄງສ້າງ, ສາມາດເຜັດໃສ່ໃບໜ້າໄດ້ຖ້າທ່ານບໍ່ລະມັດລະວັງ |
| ຮູບແບບການຍົກລະດັບໂດຍອີງໃສ່ການແຜ່ກະຈາຍ ( SR3 ) | ວຽກງານສ້າງສັນ, ຜົນໄດ້ຮັບທີ່ມີຮູບແບບ | ປະສົມ | ສາມາດສ້າງລາຍລະອຽດທີ່ສວຍງາມ - ຍັງສາມາດປະດິດສິ່ງໄຮ້ສາລະໄດ້, ສະນັ້ນ... ແມ່ນແລ້ວ |
| ຕົວຍົກລະດັບເກມ (ແບບ DLSS/FSR) ( Nvidia DLSS , AMD FSR 2 ) | ການຫຼິ້ນເກມ ແລະ ການສະແດງຜົນແບບເວລາຈິງ | ລວມເປັນຊຸດ | ໃຊ້ຂໍ້ມູນການເຄື່ອນໄຫວ ແລະ ຂໍ້ມູນເບື້ອງຕົ້ນທີ່ໄດ້ຮຽນຮູ້ - ປະສິດທິພາບທີ່ລຽບງ່າຍຊະນະ 🕹️ |
| ບໍລິການຍົກລະດັບຄລາວ | ຄວາມສະດວກສະບາຍ, ໄຊຊະນະໄວ | ຈ່າຍຕໍ່ການນຳໃຊ້ | ໄວ + ສາມາດຂະຫຍາຍໄດ້, ແຕ່ເຈົ້າແລກປ່ຽນການຄວບຄຸມ ແລະ ບາງຄັ້ງກໍ່ມີຄວາມລະອຽດອ່ອນ |
| ຕົວຍົກລະດັບ AI ທີ່ເນັ້ນໃສ່ວິດີໂອ ( BasicVSR , Topaz Video ) | ວິດີໂອເກົ່າ, ອະນິເມ, ເອກະສານເກັບມ້ຽນ | ແບບຈ່າຍເງິນ | ເຄັດລັບຊົ່ວຄາວເພື່ອຫຼຸດຜ່ອນການກະພິບ + ຮູບແບບວິດີໂອພິເສດ |
| ການຍົກລະດັບໂທລະສັບ/ຄັງຮູບພາບ “ສະຫຼາດ” | ການນຳໃຊ້ທົ່ວໄປ | ລວມມີ | ຮຸ່ນນ້ຳໜັກເບົາທີ່ປັບແຕ່ງມາເພື່ອໃຫ້ໄດ້ຜົນຜະລິດທີ່ໜ້າພໍໃຈ, ບໍ່ແມ່ນຄວາມສົມບູນແບບ (ຍັງສະດວກໃນການໃຊ້ງານ) |
ການສາລະພາບກ່ຽວກັບການຈັດຮູບແບບ quirk: “Paid-ish” ກຳລັງເຮັດວຽກຫຼາຍຢ່າງໃນຕາຕະລາງນັ້ນ. ແຕ່ເຈົ້າເຂົ້າໃຈແລ້ວ 😅
ຄວາມລັບອັນໃຫຍ່ຫຼວງ: ນາງແບບຮຽນຮູ້ການສ້າງແຜນທີ່ຈາກຄວາມລະອຽດຕ່ຳໄປຫາຄວາມລະອຽດສູງ 🧠➡️🖼️
ຫົວໃຈຂອງການຍົກລະດັບ AI ສ່ວນໃຫຍ່ແມ່ນການຕັ້ງຄ່າການຮຽນຮູ້ທີ່ມີການຊີ້ນຳ ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ):
-
ເລີ່ມຕົ້ນດ້ວຍຮູບພາບທີ່ມີຄວາມລະອຽດສູງ ("ຄວາມຈິງ")
-
ຫຼຸດຈຳນວນພວກມັນລົງເປັນລຸ້ນທີ່ມີຄວາມລະອຽດຕ່ຳ ("input")
-
ຝຶກຊ້ອມຮູບແບບເພື່ອສ້າງຄວາມລະອຽດສູງຕົ້ນສະບັບຄືນໃໝ່ຈາກຄວາມລະອຽດຕ່ຳ
ເມື່ອເວລາຜ່ານໄປ, ແບບຈຳລອງຮຽນຮູ້ຄວາມສຳພັນເຊັ່ນ:
-
“ຄວາມມົວໆອ້ອມຮອບຕາແບບນີ້ມັກຈະເປັນຂອງຂົນຕາ”
-
"ກຸ່ມພິກເຊວນີ້ມັກຈະຊີ້ບອກເຖິງຂໍ້ຄວາມ serif"
-
"ການເລື່ອນຂອບນີ້ເບິ່ງຄືກັບເສັ້ນຫຼັງຄາ, ບໍ່ແມ່ນສຽງລົບກວນແບບສຸ່ມ"
ມັນບໍ່ແມ່ນການທ່ອງຈຳຮູບພາບສະເພາະ (ໃນຄວາມໝາຍງ່າຍໆ), ມັນແມ່ນການຮຽນຮູ້ໂຄງສ້າງທາງສະຖິຕິ ( ການຮຽນຮູ້ເລິກສຳລັບຄວາມລະອຽດສູງສຸດຂອງຮູບພາບ: ການສຳຫຼວດ ). ລອງຄິດເບິ່ງມັນຄືກັບການຮຽນຮູ້ໄວຍາກອນຂອງໂຄງສ້າງ ແລະ ຂອບ. ບໍ່ແມ່ນໄວຍາກອນບົດກະວີ, ຄ້າຍຄືກັບ... ໄວຍາກອນຄູ່ມື IKEA 🪑📦 (ຄຳປຽບທຽບທີ່ຫຍຸ້ງຍາກ, ແຕ່ໃກ້ຄຽງພໍສົມຄວນ).
ລາຍລະອຽດເພີ່ມເຕີມ: ສິ່ງທີ່ເກີດຂຶ້ນໃນລະຫວ່າງການອະນຸມານ (ເມື່ອທ່ານຍົກລະດັບ) ⚙️✨
ເມື່ອທ່ານປ້ອນຮູບພາບເຂົ້າໄປໃນຕົວຍົກລະດັບ AI, ໂດຍປົກກະຕິແລ້ວຈະມີທໍ່ສົ່ງແບບນີ້:
-
ການປະມວນຜົນລ່ວງໜ້າ
-
ປ່ຽນພື້ນທີ່ສີ (ບາງຄັ້ງ)
-
ປັບຄ່າພິກເຊວໃຫ້ເປັນມາດຕະຖານ
-
ແບ່ງຮູບພາບອອກເປັນສ່ວນໆຖ້າມັນໃຫຍ່ (ການກວດສອບຄວາມເປັນຈິງຂອງ VRAM 😭) ( Real-ESRGAN repo (ຕົວເລືອກກະເບື້ອງ) )
-
-
ການສະກັດເອົາຄຸນສົມບັດ
-
ຊັ້ນຕົ້ນໆກວດພົບຂອບ, ມຸມ, ແລະ ການໄລ່ສີ
-
ຊັ້ນທີ່ເລິກກວ່າຈະກວດພົບຮູບແບບຕ່າງໆ: ໂຄງສ້າງ, ຮູບຮ່າງ, ແລະ ອົງປະກອບຂອງໃບໜ້າ
-
-
ການກໍ່ສ້າງຄືນໃໝ່
-
ຮູບແບບສ້າງແຜນທີ່ຄຸນສົມບັດທີ່ມີຄວາມລະອຽດສູງ
-
ຫຼັງຈາກນັ້ນ, ປ່ຽນມັນໃຫ້ເປັນຜົນຜະລິດພິກເຊວຕົວຈິງ
-
-
ການປະມວນຜົນຫຼັງການປະມວນຜົນ
-
ການເຮັດໃຫ້ຄົມຊັດຂຶ້ນເປັນທາງເລືອກ
-
ການຫຼຸດສຽງລົບກວນທາງເລືອກ
-
ການສະກັດກັ້ນສິ່ງປະດິດທາງເລືອກ (ສຽງດັງ, ຮາໂລ, ການບລັອກ)
-
ລາຍລະອຽດທີ່ລະອຽດອ່ອນອັນໜຶ່ງ: ເຄື່ອງມືຫຼາຍຢ່າງທີ່ຍົກລະດັບກະເບື້ອງ, ຈາກນັ້ນປະສົມຮອຍຕໍ່. ເຄື່ອງມືທີ່ດີເລີດເຊື່ອງຂອບເຂດກະເບື້ອງ. ເຄື່ອງມືທີ່ບໍ່ສາມາດໃຊ້ງານໄດ້ປະໄວ້ຮອຍຕາຂ່າຍທີ່ຈາງໆຖ້າທ່ານຫຼຽວຕາ. ແລະແມ່ນແລ້ວ, ທ່ານຈະຫຼຽວຕາ, ເພາະວ່າມະນຸດມັກກວດສອບຂໍ້ບົກຜ່ອງເລັກນ້ອຍດ້ວຍການຊູມ 300% ຄືກັບສັດນ້ອຍ 🧌
ຄອບຄົວຮູບແບບຫຼັກທີ່ໃຊ້ສຳລັບການຍົກລະດັບ AI (ແລະເຫດຜົນທີ່ພວກມັນຮູ້ສຶກແຕກຕ່າງ) 🤖📚
1) ຄວາມລະອຽດສູງທີ່ອີງໃສ່ CNN (ເປັນຮູບແບບການເຮັດວຽກແບບຄລາສສິກ)
ເຄືອຂ່າຍປະສາດແບບ Convolutional ແມ່ນດີເລີດໃນຮູບແບບທ້ອງຖິ່ນ: ຂອບ, ໂຄງສ້າງ, ໂຄງສ້າງຂະໜາດນ້ອຍ ( ຮູບພາບທີ່ມີຄວາມລະອຽດສູງໂດຍໃຊ້ເຄືອຂ່າຍ Deep Convolutional Networks (SRCNN) ).
-
ຂໍ້ດີ: ໄວ, ໝັ້ນຄົງ, ໜ້ອຍລົງ, ບໍ່ແປກໃຈ
-
ຂໍ້ເສຍ: ສາມາດເບິ່ງຄືວ່າ "ປະມວນຜົນ" ໜ້ອຍໜຶ່ງຖ້າຖືກຍູ້ແຮງ
2) ການຍົກລະດັບໂດຍອີງໃສ່ GAN (ແບບ ESRGAN) 🎭
GANs (ເຄືອຂ່າຍຄູ່ແຂ່ງທີ່ສ້າງຂື້ນ) ຝຶກອົບຮົມເຄື່ອງກຳເນີດໄຟຟ້າໃຫ້ຜະລິດຮູບພາບຄວາມລະອຽດສູງທີ່ຕົວຈຳແນກບໍ່ສາມາດແຍກແຍະໄດ້ຈາກຮູບພາບທີ່ແທ້ຈິງ ( ເຄືອຂ່າຍຄູ່ແຂ່ງທີ່ສ້າງຂື້ນ ).
-
ຂໍ້ດີ: ລາຍລະອຽດທີ່ຄົມຊັດ, ໂຄງສ້າງທີ່ໜ້າປະທັບໃຈ
-
ຂໍ້ເສຍ: ສາມາດປະດິດລາຍລະອຽດທີ່ບໍ່ມີຢູ່ - ບາງຄັ້ງຜິດພາດ, ບາງຄັ້ງກໍ່ແປກປະຫຼາດ ( SRGAN , ESRGAN )
ຮູບ GAN ສາມາດໃຫ້ຄວາມຄົມຊັດທີ່ໜ້າຕື່ນເຕັ້ນໄດ້. ມັນຍັງສາມາດເຮັດໃຫ້ຮູບຄົນຂອງເຈົ້າມີຄິ້ວເພີ່ມເຕີມໄດ້. ສະນັ້ນ... ເລືອກການຕໍ່ສູ້ຂອງເຈົ້າ 😬
3) ການຍົກລະດັບໂດຍອີງໃສ່ການແຜ່ກະຈາຍ (ສັນຍາລັກສ້າງສັນ) 🌫️➡️🖼️
ຮູບແບບການແຜ່ກະຈາຍຈະຫຼຸດຜ່ອນສຽງລົບກວນໄປເທື່ອລະຂັ້ນຕອນ ແລະ ສາມາດນຳພາໃຫ້ຜະລິດລາຍລະອຽດທີ່ມີຄວາມລະອຽດສູງ ( SR3 ).
-
ຂໍ້ດີ: ສາມາດເກັ່ງຫຼາຍໃນລາຍລະອຽດທີ່ເປັນໄປໄດ້, ໂດຍສະເພາະສຳລັບວຽກງານສ້າງສັນ
-
ຂໍ້ເສຍ: ສາມາດຫຼົງທາງຈາກຕົວຕົນ/ໂຄງສ້າງເດີມໄດ້ ຖ້າການຕັ້ງຄ່າມີຄວາມຮຸກຮານ ( SR3 )
ນີ້ແມ່ນບ່ອນທີ່ "ການຍົກລະດັບຂະໜາດ" ເລີ່ມປະສົມປະສານເຂົ້າກັບ "ການຈິນຕະນາການຄືນໃໝ່." ບາງຄັ້ງນັ້ນແມ່ນສິ່ງທີ່ເຈົ້າຕ້ອງການ. ບາງຄັ້ງມັນບໍ່ແມ່ນ.
4) ການຍົກລະດັບວິດີໂອດ້ວຍຄວາມສອດຄ່ອງທາງດ້ານເວລາ 🎞️
ການຍົກລະດັບວິດີໂອມັກຈະເພີ່ມເຫດຜົນທີ່ຮັບຮູ້ການເຄື່ອນໄຫວ:
-
ໃຊ້ເຟຣມທີ່ຢູ່ຕິດກັນເພື່ອເຮັດໃຫ້ລາຍລະອຽດມີຄວາມໝັ້ນຄົງ ( BasicVSR (CVPR 2021) )
-
ພະຍາຍາມຫຼີກລ່ຽງການກະພິບ ແລະ ສິ່ງປະດິດທີ່ເລືອຄານ
-
ມັກຈະລວມເອົາຄວາມລະອຽດສູງກັບ denoise ແລະ deinterlacing ( ວິດີໂອ Topaz )
ຖ້າການຍົກລະດັບຮູບພາບຄືກັບການຟື້ນຟູຮູບແຕ້ມໜຶ່ງຮູບ, ການຍົກລະດັບວິດີໂອກໍຄືກັບການກູ້ຄືນປື້ມ flipbook ໂດຍບໍ່ເຮັດໃຫ້ດັງຂອງຕົວລະຄອນປ່ຽນຮູບຮ່າງໃນແຕ່ລະໜ້າ. ເຊິ່ງມັນ... ຍາກກວ່າທີ່ມັນຟັງ.
ເປັນຫຍັງການຍົກລະດັບ AI ບາງຄັ້ງຈຶ່ງເບິ່ງຄືວ່າປອມ (ແລະວິທີການສັງເກດມັນ) 👀🚩
ການຍົກລະດັບ AI ລົ້ມເຫຼວໃນວິທີທີ່ຮັບຮູ້ໄດ້. ເມື່ອທ່ານຮຽນຮູ້ຮູບແບບຕ່າງໆ, ທ່ານຈະເຫັນພວກມັນຢູ່ທົ່ວທຸກແຫ່ງ, ເຊັ່ນການຊື້ລົດໃໝ່ ແລະ ທັນໃດນັ້ນກໍ່ສັງເກດເຫັນຮຸ່ນນັ້ນຢູ່ທຸກໆຖະໜົນ 😵💫
ທົ່ວໄປບອກວ່າ:
-
ແວັກຊ໌ຜິວໜັງ ເທິງໃບໜ້າ (ຫຼຸດສຽງລົບກວນ + ເຮັດໃຫ້ລຽບເກີນໄປ)
-
ຮາໂລທີ່ຄົມເກີນໄປ ອ້ອມຮອບຂອບ (ພື້ນທີ່ "ເກີນຂອບເຂດ" ແບບຄລາສສິກ) ( ການແຊກແຊງສອງເທົ່າ )
-
ໂຄງສ້າງທີ່ຊ້ຳກັນ (ກຳແພງອິດກາຍເປັນຮູບແບບການຄັດລອກ-ວາງ)
-
ຄວາມຄົມຊັດຂະໜາດນ້ອຍທີ່ກົ້ມ ກົ້ມທີ່ຮ້ອງວ່າ "ອັລກໍຣິທຶມ"
-
ຂໍ້ຄວາມເສຍຫາຍ ຈົນຕົວອັກສອນກາຍເປັນຕົວອັກສອນເກືອບທັງໝົດ (ປະເພດທີ່ຮ້າຍແຮງທີ່ສຸດ)
-
ລາຍລະອຽດທີ່ເລື່ອນລອຍໄປ ບ່ອນທີ່ຄຸນສົມບັດນ້ອຍໆມີການປ່ຽນແປງຢ່າງລະອຽດອ່ອນ, ໂດຍສະເພາະໃນຂະບວນການເຮັດວຽກແບບແຜ່ກະຈາຍ ( SR3 )
ສ່ວນທີ່ຫຍຸ້ງຍາກ: ບາງຄັ້ງສິ່ງປະດິດເຫຼົ່ານີ້ເບິ່ງຄືວ່າ "ດີກວ່າ" ທັນທີທີ່ເຫັນ. ສະໝອງຂອງເຈົ້າມັກຄວາມຄົມຊັດ. ແຕ່ຫຼັງຈາກໄລຍະໜຶ່ງ, ມັນຮູ້ສຶກວ່າ... ບໍ່ຊັດເຈນ.
ຍຸດທະວິທີທີ່ດີຄືການຊູມອອກ ແລະ ກວດເບິ່ງວ່າມັນເບິ່ງເປັນທຳມະຊາດຫຼືບໍ່ໃນໄລຍະການເບິ່ງປົກກະຕິ. ຖ້າມັນເບິ່ງດີພຽງແຕ່ຊູມ 400%, ນັ້ນບໍ່ແມ່ນໄຊຊະນະ, ນັ້ນແມ່ນງານອະດິເລກ 😅
ວິທີການເຮັດວຽກຂອງ AI Upscaling: ດ້ານການຝຶກອົບຮົມ, ໂດຍບໍ່ມີການເຈັບຫົວທາງຄະນິດສາດ 📉🙂
ການຝຶກອົບຮົມຮູບແບບຄວາມລະອຽດສູງມັກຈະກ່ຽວຂ້ອງກັບ:
-
ຊຸດຂໍ້ມູນທີ່ຈັບຄູ່ກັນ (ອິນພຸດຄວາມລະອຽດຕ່ຳ, ເປົ້າໝາຍຄວາມລະອຽດສູງ) ( ຮູບພາບຄວາມລະອຽດສູງໂດຍໃຊ້ເຄືອຂ່າຍ Deep Convolutional Networks (SRCNN) )
-
ຟັງຊັນການສູນເສຍ ທີ່ລົງໂທດການສ້າງຄືນໃໝ່ທີ່ຜິດພາດ ( SRGAN )
ປະເພດການສູນເສຍທົ່ວໄປ:
-
ການສູນເສຍພິກເຊວ (L1/L2)
ສົ່ງເສີມຄວາມແມ່ນຍຳ. ສາມາດສ້າງຜົນໄດ້ຮັບທີ່ອ່ອນລົງເລັກນ້ອຍ. -
ການສູນເສຍການຮັບຮູ້
ປຽບທຽບລັກສະນະທີ່ເລິກເຊິ່ງກວ່າ (ເຊັ່ນ “ອັນນີ້ ເບິ່ງ ຄ້າຍຄືກັນບໍ່”) ແທນທີ່ຈະເປັນພິກເຊວທີ່ແນ່ນອນ ( ການສູນເສຍການຮັບຮູ້ (Johnson et al., 2016) ). -
ການສູນເສຍແບບສັດຕູ (GAN)
ສົ່ງເສີມຄວາມເປັນຈິງ, ບາງຄັ້ງກໍ່ຕ້ອງເສຍຄວາມຖືກຕ້ອງຕາມຕົວໜັງສື ( SRGAN , Generative Adversarial Networks ).
ມີການດຶງເຊືອກຢ່າງຕໍ່ເນື່ອງ:
-
ເຮັດໃຫ້ມັນ ຊື່ສັດ ຕໍ່ຕົ້ນສະບັບ
vs -
ເຮັດໃຫ້ມັນ ເບິ່ງແລ້ວສະບາຍຕາ
ເຄື່ອງມືທີ່ແຕກຕ່າງກັນຈະວາງຢູ່ໃນສະຖານທີ່ທີ່ແຕກຕ່າງກັນໃນລະດັບນັ້ນ. ແລະ ທ່ານອາດຈະມັກອັນໜຶ່ງ ຂຶ້ນກັບວ່າທ່ານກຳລັງຟື້ນຟູຮູບພາບຄອບຄົວ ຫຼື ກຳລັງກະກຽມໂປສເຕີທີ່ “ຮູບຮ່າງດີ” ສຳຄັນກວ່າຄວາມຖືກຕ້ອງທາງດ້ານນິຕິວິທະຍາ.
ຂັ້ນຕອນການເຮັດວຽກທີ່ໃຊ້ໄດ້ຈິງ: ຮູບພາບ, ຮູບສະແກນເກົ່າ, ອານິເມ, ແລະ ວິດີໂອ 📸🧾🎥
ຮູບພາບ (ຮູບຄົນ, ພູມສັນຖານ, ຮູບຜະລິດຕະພັນ)
ວິທີປະຕິບັດທີ່ດີທີ່ສຸດໂດຍປົກກະຕິແລ້ວແມ່ນ:
-
ຫຼຸດສຽງລົບກວນລົງເລັກນ້ອຍກ່ອນ (ຖ້າຈຳເປັນ)
-
ຍົກລະດັບດ້ວຍການຕັ້ງຄ່າທີ່ອະນຸລັກ
-
ຕື່ມເມັດເຂົ້າຄືນຖ້າສິ່ງຕ່າງໆຮູ້ສຶກວ່າລຽບເກີນໄປ (ແມ່ນແລ້ວ, ແທ້ໆ)
ເມັດພືດກໍຄືກັບເກືອ. ກິນຫຼາຍເກີນໄປກໍ່ເຮັດໃຫ້ອາຫານຄ່ຳເສຍຫາຍໄດ້, ແຕ່ບໍ່ມີອັນໃດທີ່ມີລົດຊາດຈືດໆໄດ້ເລີຍ 🍟
ການສະແກນເກົ່າ ແລະ ຮູບພາບທີ່ຖືກບີບອັດຢ່າງໜັກ
ສິ່ງເຫຼົ່ານີ້ຍາກກວ່າເພາະວ່າຮູບແບບອາດຈະປະຕິບັດຕໍ່ບລັອກການບີບອັດຄືກັບ "ໂຄງສ້າງ".
ລອງ:
-
ການກຳຈັດ ຫຼື ການແກ້ໄຂບັນຫາສິ່ງປະດິດ
-
ຫຼັງຈາກນັ້ນ, ຍົກລະດັບຂຶ້ນ
-
ຈາກນັ້ນເຮັດໃຫ້ຄົມຊັດຂຶ້ນດ້ວຍແສງໜ້ອຍໆ (ບໍ່ຫຼາຍເກີນໄປ... ຂ້ອຍຮູ້, ທຸກຄົນກໍເວົ້າແບບນັ້ນ, ແຕ່ກໍຍັງ)
ອານິເມ ແລະ ຮູບແຕ້ມເສັ້ນ
ຜົນປະໂຫຍດຂອງສິລະປະເສັ້ນຈາກ:
-
ຮູບແບບທີ່ຮັກສາຂອບທີ່ສະອາດ
-
ການຫຼຸດຜ່ອນໂຄງສ້າງຫຼອນ ການ
ຂະຫຍາຍອະນິເມມັກຈະເບິ່ງດີເພາະວ່າຮູບຮ່າງຕ່າງໆແມ່ນງ່າຍດາຍ ແລະ ສອດຄ່ອງກັນ. (ໂຊກດີ.)
ວິດີໂອ
ວິດີໂອເພີ່ມຂັ້ນຕອນເພີ່ມເຕີມ:
-
ກຳຈັດສິ່ງລົບກວນ
-
ຍົກເລີກການເຊື່ອມຕໍ່ (ສຳລັບແຫຼ່ງຂໍ້ມູນສະເພາະ)
-
ລະດັບສູງ
-
ການເຮັດໃຫ້ລຽບ ຫຼື ການເຮັດໃຫ້ສະຖຽນລະພາບຊົ່ວຄາວ ( BasicVSR (CVPR 2021) )
-
ການແນະນຳເມັດພືດຄືນໃໝ່ທາງເລືອກເພື່ອຄວາມສອດຄ່ອງ
ຖ້າເຈົ້າຂ້າມຄວາມສອດຄ່ອງທາງດ້ານເວລາ, ເຈົ້າຈະໄດ້ຮັບລາຍລະອຽດທີ່ເຫຼື້ອມເປັນເງົາ. ເມື່ອເຈົ້າສັງເກດເຫັນມັນ, ເຈົ້າຈະບໍ່ສາມາດລືມມັນໄດ້. ຄືກັບຕັ່ງອີ້ທີ່ມີສຽງດັງກ້ອງຢູ່ໃນຫ້ອງທີ່ງຽບສະຫງົບ 😖
ການເລືອກການຕັ້ງຄ່າໂດຍບໍ່ຕ້ອງຄາດເດົາຢ່າງໂຫດຮ້າຍ (ເອກະສານເຄັດລັບນ້ອຍໆ) 🎛️😵💫
ນີ້ແມ່ນແນວຄິດເລີ່ມຕົ້ນທີ່ດີ:
-
ຖ້າໃບໜ້າເບິ່ງຄືວ່າເປັນພລາສຕິກ
ໃຫ້ຫຼຸດຜ່ອນການຫຼຸດສຽງລົບກວນ, ຫຼຸດຜ່ອນຄວາມຄົມຊັດ, ລອງໃຊ້ຮູບແບບ ຫຼື ໂໝດຮັກສາໃບໜ້າ. -
ຖ້າໂຄງສ້າງເບິ່ງເຂັ້ມເກີນໄປ
ໃຫ້ຫຼຸດແຖບເລື່ອນ "ການປັບປຸງລາຍລະອຽດ" ຫຼື "ກູ້ຄືນລາຍລະອຽດ", ໃຫ້ເພີ່ມເມັດສີອ່ອນໆຕາມຫຼັງ. -
ຖ້າຂອບມີແສງ ຫຼື
ຫຼຸດຄວາມຄົມລົງ, ໃຫ້ກວດສອບຕົວເລືອກການສະກັດກັ້ນຮາໂລ. -
ຖ້າຮູບພາບເບິ່ງຄືວ່າ "AI" ເກີນໄປ,
ໃຫ້ໃຊ້ວິທີທີ່ລະມັດລະວັງຫຼາຍກວ່ານີ້. ບາງຄັ້ງການເຄື່ອນໄຫວທີ່ດີທີ່ສຸດແມ່ນພຽງແຕ່... ໜ້ອຍລົງ.
ນອກຈາກນີ້: ຢ່າຍົກລະດັບ 8x ພຽງແຕ່ຍ້ອນວ່າເຈົ້າສາມາດເຮັດໄດ້. 2x ຫຼື 4x ທີ່ສະອາດມັກຈະເປັນຈຸດທີ່ດີທີ່ສຸດ. ນອກຈາກນັ້ນ, ເຈົ້າກຳລັງຂໍໃຫ້ແບບຈຳລອງຂຽນ fanfiction ກ່ຽວກັບພິກເຊວຂອງເຈົ້າ 📖😂
ຈັນຍາບັນ, ຄວາມຖືກຕ້ອງ, ແລະ ຄຳຖາມທີ່ງຸ່ມງ່າມກ່ຽວກັບ "ຄວາມຈິງ" 🧭😬
ການຍົກລະດັບ AI ເຮັດໃຫ້ເສັ້ນໜຶ່ງມົວລົງ:
-
ການຟື້ນຟູໝາຍເຖິງການຟື້ນຟູສິ່ງທີ່ມີຢູ່
-
ການປັບປຸງໝາຍເຖິງການເພີ່ມສິ່ງທີ່ບໍ່ແມ່ນ
ດ້ວຍຮູບພາບສ່ວນຕົວ, ມັນມັກຈະບໍ່ເປັນຫຍັງ (ແລະ ໜ້າຮັກ). ດ້ວຍວຽກງານຂ່າວ, ຫຼັກຖານທາງກົດໝາຍ, ການຖ່າຍພາບທາງການແພດ, ຫຼືສິ່ງໃດກໍ່ຕາມທີ່ຄວາມຊື່ສັດມີຄວາມສຳຄັນ... ທ່ານຕ້ອງລະມັດລະວັງ ( OSAC/NIST: ຄູ່ມືມາດຕະຖານສຳລັບການຈັດການຮູບພາບດິຈິຕອລທາງດ້ານນິຕິວິທະຍາ , ຄຳແນະນຳ SWGDE ສຳລັບການວິເຄາະຮູບພາບທາງດ້ານນິຕິວິທະຍາ ).
ກົດລະບຽບງ່າຍໆ:
-
ຖ້າມີຄວາມສ່ຽງສູງ, ໃຫ້ຖືວ່າການຍົກລະດັບ AI ເປັນ ຕົວຢ່າງ , ບໍ່ແມ່ນການສະຫຼຸບທີ່ແນ່ນອນ.
ນອກຈາກນັ້ນ, ການເປີດເຜີຍຂໍ້ມູນກໍ່ມີຄວາມສຳຄັນໃນສະພາບການວິຊາຊີບ. ບໍ່ແມ່ນຍ້ອນວ່າ AI ເປັນສິ່ງຊົ່ວຮ້າຍ, ແຕ່ຍ້ອນວ່າຜູ້ຊົມສົມຄວນທີ່ຈະຮູ້ວ່າລາຍລະອຽດຕ່າງໆໄດ້ຖືກສ້າງຄືນໃໝ່ ຫຼື ຖືກຈັບພາບ. ນັ້ນພຽງແຕ່... ເປັນທີ່ເຄົາລົບນັບຖື.
ບັນທຶກສະຫຼຸບ ແລະ ສະຫຼຸບສັ້ນໆ 🧡✅
ດັ່ງນັ້ນ, ວິທີການເຮັດວຽກຂອງ AI Upscaling ແມ່ນແບບນີ້: ແບບຈຳລອງຮຽນຮູ້ວ່າລາຍລະອຽດທີ່ມີຄວາມລະອຽດສູງ ມັກ ຈະກ່ຽວຂ້ອງກັບຮູບແບບທີ່ມີຄວາມລະອຽດຕ່ຳແນວໃດ, ຈາກນັ້ນຄາດຄະເນພິກເຊວພິເສດທີ່ໜ້າເຊື່ອຖືໄດ້ໃນລະຫວ່າງການ upscaling ( ການຮຽນຮູ້ເລິກສຳລັບຮູບພາບທີ່ມີຄວາມລະອຽດສູງ: ການສຳຫຼວດ ). ຂຶ້ນກັບຄອບຄົວແບບຈຳລອງ (CNN, GAN, ການແຜ່ກະຈາຍ, ວິດີໂອ-ເວລາ), ການຄາດຄະເນນັ້ນສາມາດເປັນແບບອະນຸລັກ ແລະ ຊື່ສັດ... ຫຼື ກ້າຫານ ແລະ ບາງຄັ້ງກໍ່ບໍ່ແນ່ນອນ 😅
ສະຫຼຸບໂດຍຫຍໍ້
-
ການຍົກລະດັບແບບດັ້ງເດີມຂະຫຍາຍພິກເຊວ ( Bicubic interpolation )
-
ການຂະຫຍາຍຂະໜາດຂອງ AI ຄາດຄະເນລາຍລະອຽດທີ່ຂາດຫາຍໄປໂດຍໃຊ້ຮູບແບບທີ່ຮຽນຮູ້ມາ ( ຮູບພາບທີ່ມີຄວາມລະອຽດສູງໂດຍໃຊ້ເຄືອຂ່າຍ Deep Convolutional Networks (SRCNN) )
-
ຜົນໄດ້ຮັບທີ່ດີເລີດມາຈາກຮູບແບບທີ່ຖືກຕ້ອງ + ການຍັບຍັ້ງ
-
ລະວັງຮາໂລ, ໜ້າຜີວທີ່ຄ້າຍຄືຂີ້ເຜີ້ງ, ໂຄງສ້າງທີ່ຊ້ຳໆ ແລະ ການກະພິບໃນວິດີໂອ ( BasicVSR (CVPR 2021) )
-
ການຍົກລະດັບມັກຈະເປັນ "ການສ້າງຄືນໃໝ່ທີ່ເປັນໄປໄດ້", ບໍ່ແມ່ນຄວາມຈິງທີ່ສົມບູນແບບ ( SRGAN , ESRGAN )
ຖ້າເຈົ້າຕ້ອງການ, ບອກຂ້ອຍວ່າເຈົ້າກຳລັງຍົກລະດັບຫຍັງ (ໃບໜ້າ, ຮູບເກົ່າ, ວິດີໂອ, ອານິເມ, ການສະແກນຂໍ້ຄວາມ), ແລະຂ້ອຍຈະແນະນຳກົນລະຍຸດການຕັ້ງຄ່າທີ່ມັກຈະຫຼີກລ່ຽງຂໍ້ຜິດພາດທົ່ວໄປຂອງ "ຮູບລັກສະນະ AI" 🎯🙂
ຄຳຖາມທີ່ຖືກຖາມເລື້ອຍໆ
ການຍົກລະດັບ AI ແລະວິທີການເຮັດວຽກຂອງມັນ
ການຍົກລະດັບ AI (ມັກເອີ້ນວ່າ "ຄວາມລະອຽດສູງ") ເພີ່ມຄວາມລະອຽດຂອງຮູບພາບໂດຍການຄາດຄະເນລາຍລະອຽດຄວາມລະອຽດສູງທີ່ຂາດຫາຍໄປຈາກຮູບແບບທີ່ຮຽນຮູ້ໃນລະຫວ່າງການຝຶກອົບຮົມ. ແທນທີ່ຈະພຽງແຕ່ຍືດພິກເຊວເຊັ່ນ: ການໂຕ້ຕອບແບບ bicubic, ຮູບແບບການສຶກສາຂອບ, ໂຄງສ້າງ, ໃບໜ້າ, ແລະເສັ້ນຄ້າຍຄືຂໍ້ຄວາມ, ຈາກນັ້ນສ້າງຂໍ້ມູນພິກເຊວໃໝ່ທີ່ສອດຄ່ອງກັບຮູບແບບທີ່ຮຽນຮູ້ເຫຼົ່ານັ້ນ. ມັນເປັນການ "ຟື້ນຟູຄວາມເປັນຈິງ" ໜ້ອຍລົງ ແລະ "ຄາດເດົາໄດ້ຢ່າງໜ້າເຊື່ອຖື" ທີ່ອ່ານວ່າເປັນທຳມະຊາດຫຼາຍກວ່າ.
ການຍົກລະດັບ AI ທຽບກັບການປັບຂະໜາດ bicubic ຫຼື ແບບດັ້ງເດີມ
ວິທີການຍົກລະດັບແບບດັ້ງເດີມ (ເຊັ່ນ bicubic) ສ່ວນໃຫຍ່ແມ່ນການແຊກແຊງລະຫວ່າງພິກເຊວທີ່ມີຢູ່ແລ້ວ, ເຮັດໃຫ້ການຫັນປ່ຽນລຽບງ່າຍໂດຍບໍ່ສ້າງລາຍລະອຽດໃໝ່ທີ່ແທ້ຈິງ. ການຍົກລະດັບ AI ມີຈຸດປະສົງເພື່ອສ້າງໂຄງສ້າງທີ່ເປັນໄປໄດ້ຄືນໃໝ່ໂດຍການຮັບຮູ້ຕົວຊີ້ບອກທາງສາຍຕາ ແລະ ຄາດຄະເນວ່າລຸ້ນທີ່ມີຄວາມລະອຽດສູງຂອງຕົວຊີ້ບອກເຫຼົ່ານັ້ນມັກຈະເປັນແນວໃດ. ນັ້ນແມ່ນເຫດຜົນທີ່ຜົນໄດ້ຮັບຂອງ AI ສາມາດຮູ້ສຶກຄົມຊັດຂຶ້ນຢ່າງຫຼວງຫຼາຍ, ແລະຍັງເປັນເຫດຜົນທີ່ພວກມັນສາມາດນຳສະເໜີສິ່ງປະດິດ ຫຼື "ປະດິດ" ລາຍລະອຽດທີ່ບໍ່ມີຢູ່ໃນແຫຼ່ງຂໍ້ມູນ.
ເປັນຫຍັງໃບໜ້າຈຶ່ງເບິ່ງຄືວ່າເປັນຂີ້ເຜີ້ງ ຫຼື ລຽບນຽນເກີນໄປ
ໃບໜ້າທີ່ເປັນຂີ້ເຜີ້ງມັກຈະມາຈາກການຫຼຸດຜ່ອນສິ່ງລົບກວນ ແລະ ການເຮັດໃຫ້ລຽບນຽນຢ່າງຮຸກຮານຮ່ວມກັບການເຮັດໃຫ້ຄົມຊັດຂຶ້ນເຊິ່ງເຮັດໃຫ້ໂຄງສ້າງຜິວໜັງທຳມະຊາດຫາຍໄປ. ເຄື່ອງມືຫຼາຍຢ່າງປະຕິບັດຕໍ່ສິ່ງລົບກວນ ແລະ ໂຄງສ້າງທີ່ລະອຽດອ່ອນໃນລັກສະນະດຽວກັນ, ດັ່ງນັ້ນການ "ທຳຄວາມສະອາດ" ຮູບພາບສາມາດລຶບຮູຂຸມຂົນ ແລະ ລາຍລະອຽດທີ່ລະອຽດອ່ອນໄດ້. ວິທີການທົ່ວໄປແມ່ນການຫຼຸດຜ່ອນການຫຼຸດຜ່ອນສິ່ງລົບກວນ ແລະ ການເຮັດໃຫ້ຄົມຊັດຂຶ້ນ, ໃຊ້ໂໝດຮັກສາໃບໜ້າຖ້າມີ, ຈາກນັ້ນນຳເອົາເມັດສີກັບຄືນມາເພື່ອໃຫ້ຜົນໄດ້ຮັບຮູ້ສຶກວ່າເປັນພາດສະຕິກໜ້ອຍລົງ ແລະ ຖ່າຍຮູບໄດ້ຫຼາຍຂຶ້ນ.
ສິ່ງປະດິດການຍົກລະດັບ AI ທົ່ວໄປທີ່ຄວນຕິດຕາມ
ລາຍລະອຽດທົ່ວໄປປະກອບມີຮູບຊົງຮາໂລອ້ອມຮອບຂອບ, ຮູບແບບໂຄງສ້າງທີ່ຊ້ຳກັນ (ເຊັ່ນ: ດິນຈີ່ຄັດລອກ-ວາງ), ຄວາມຄົມຊັດຂະໜາດນ້ອຍທີ່ຄົມຊັດ, ແລະ ຂໍ້ຄວາມທີ່ປ່ຽນເປັນ "ເກືອບເປັນຕົວອັກສອນ". ໃນຂັ້ນຕອນການເຮັດວຽກທີ່ອີງໃສ່ການແຜ່ກະຈາຍ, ທ່ານຍັງສາມາດເຫັນລາຍລະອຽດທີ່ເລື່ອນລອຍໄປບ່ອນທີ່ຄຸນສົມບັດນ້ອຍໆປ່ຽນແປງເລັກນ້ອຍ. ສຳລັບວິດີໂອ, ລາຍລະອຽດການກະພິບ ແລະ ການລວບລວມຂໍ້ມູນຂ້າມເຟຣມຕ່າງໆແມ່ນສັນຍານເຕືອນໄພໃຫຍ່. ຖ້າມັນເບິ່ງດີພຽງແຕ່ໃນການຊູມທີ່ຮຸນແຮງ, ການຕັ້ງຄ່າອາດຈະຮຸນແຮງເກີນໄປ.
ວິທີທີ່ GAN, CNN, ແລະຕົວຂະຫຍາຍການແຜ່ກະຈາຍມີແນວໂນ້ມທີ່ຈະແຕກຕ່າງກັນໃນຜົນໄດ້ຮັບ
ຄວາມລະອຽດສູງທີ່ອີງໃສ່ CNN ມັກຈະໝັ້ນຄົງກວ່າ ແລະ ຄາດເດົາໄດ້ຫຼາຍກວ່າ, ແຕ່ມັນອາດຈະເບິ່ງຄືວ່າ "ຖືກປະມວນຜົນ" ຖ້າຖືກຍູ້ແຮງ. ຕົວເລືອກທີ່ອີງໃສ່ GAN (ແບບ ESRGAN) ມັກຈະຜະລິດໂຄງສ້າງທີ່ຄົມຊັດກວ່າ ແລະ ຄວາມຄົມຊັດທີ່ຮັບຮູ້ໄດ້, ແຕ່ພວກມັນສາມາດເຮັດໃຫ້ລາຍລະອຽດທີ່ບໍ່ຖືກຕ້ອງຫຼອນໄດ້, ໂດຍສະເພາະໃນໃບໜ້າ. ການຍົກລະດັບທີ່ອີງໃສ່ການແຜ່ກະຈາຍສາມາດສ້າງລາຍລະອຽດທີ່ສວຍງາມ ແລະ ໜ້າເຊື່ອຖືໄດ້, ແຕ່ມັນອາດຈະຫຼົງໄຫຼຈາກໂຄງສ້າງເດີມຖ້າການຕັ້ງຄ່າການນຳພາ ຫຼື ຄວາມແຮງແຂງແຮງເກີນໄປ.
ກົນລະຍຸດການຕັ້ງຄ່າທີ່ໃຊ້ໄດ້ຈິງເພື່ອຫຼີກລ່ຽງຮູບລັກສະນະ "AI ເກີນໄປ"
ເລີ່ມຕົ້ນແບບອະນຸລັກ: ຍົກລະດັບ 2× ຫຼື 4× ກ່ອນທີ່ຈະໄປເຖິງປັດໃຈທີ່ຮ້າຍແຮງ. ຖ້າໃບໜ້າເບິ່ງຄືວ່າເປັນພາດສະຕິກ, ໃຫ້ຫຼຸດການຫຼຸດຜ່ອນສຽງລົບກວນ ແລະ ການເຮັດໃຫ້ຄົມຊັດລົງ ແລະ ລອງໃຊ້ໂໝດຮັບຮູ້ໃບໜ້າ. ຖ້າໂຄງສ້າງມີຄວາມເຂັ້ມເກີນໄປ, ໃຫ້ຫຼຸດການປັບປຸງລາຍລະອຽດລົງ ແລະ ພິຈາລະນາເພີ່ມເມັດສີອ່ອນໆຫຼັງຈາກນັ້ນ. ຖ້າຂອບມີແສງ, ໃຫ້ຫຼຸດຄວາມຄົມຊັດລົງ ແລະ ກວດສອບການສະກັດກັ້ນຮາໂລ ຫຼື ສິ່ງປະດິດ. ໃນຫຼາຍໆທໍ່, "ໜ້ອຍລົງ" ຈະຊະນະເພາະມັນຮັກສາຄວາມເປັນຈິງທີ່ໜ້າເຊື່ອຖືໄດ້.
ການຈັດການຮູບພາບສະແກນເກົ່າ ຫຼື ຮູບພາບທີ່ຖືກບີບອັດດ້ວຍ JPEG ຫຼາຍກ່ອນການຍົກລະດັບຂະໜາດ
ຮູບພາບທີ່ຖືກບີບອັດແມ່ນມີຄວາມຫຍຸ້ງຍາກເພາະວ່າຮູບແບບສາມາດປະຕິບັດຕໍ່ສິ່ງປະດິດຂອງບລັອກຄືກັບໂຄງສ້າງທີ່ແທ້ຈິງ ແລະ ຂະຫຍາຍພວກມັນ. ຂັ້ນຕອນການເຮັດວຽກທົ່ວໄປແມ່ນການກຳຈັດສິ່ງປະດິດ ຫຼື ການແກ້ໄຂບັນຫາກ່ອນ, ຈາກນັ້ນການເພີ່ມຂະໜາດ, ຈາກນັ້ນການເຮັດໃຫ້ຄົມຊັດຂຶ້ນເລັກນ້ອຍເທົ່ານັ້ນຖ້າຈຳເປັນ. ສຳລັບການສະແກນ, ການທຳຄວາມສະອາດຢ່າງອ່ອນໂຍນສາມາດຊ່ວຍໃຫ້ຮູບແບບສຸມໃສ່ໂຄງສ້າງຕົວຈິງແທນທີ່ຈະເປັນຄວາມເສຍຫາຍ. ເປົ້າໝາຍແມ່ນເພື່ອຫຼຸດຜ່ອນ "ສັນຍານໂຄງສ້າງປອມ" ດັ່ງນັ້ນຕົວເພີ່ມຂະໜາດຈຶ່ງບໍ່ໄດ້ຖືກບັງຄັບໃຫ້ຄາດເດົາຢ່າງໝັ້ນໃຈຈາກຂໍ້ມູນທີ່ມີສຽງລົບກວນ.
ເປັນຫຍັງການຍົກລະດັບວິດີໂອຈຶ່ງຍາກກວ່າການຍົກລະດັບຮູບພາບ
ການຍົກລະດັບວິດີໂອຕ້ອງມີຄວາມສອດຄ່ອງກັນໃນທົ່ວເຟຣມ, ບໍ່ພຽງແຕ່ດີໃນຮູບພາບນິ້ງດຽວເທົ່ານັ້ນ. ຖ້າລາຍລະອຽດກະພິບຈາກເຟຣມໜຶ່ງໄປຫາເຟຣມອື່ນ, ຜົນໄດ້ຮັບຈະກາຍເປັນສິ່ງລົບກວນຢ່າງໄວວາ. ວິທີການທີ່ເນັ້ນໃສ່ວິດີໂອໃຊ້ຂໍ້ມູນຊົ່ວຄາວຈາກເຟຣມທີ່ຢູ່ຕິດກັນເພື່ອເຮັດໃຫ້ການສ້າງຄືນໃໝ່ມີຄວາມໝັ້ນຄົງ ແລະ ຫຼີກລ່ຽງສິ່ງປະດິດທີ່ເຫຼື້ອມເປັນເງົາ. ຂັ້ນຕອນການເຮັດວຽກຫຼາຍຢ່າງຍັງປະກອບມີ denoise, deinterlacing ສຳລັບແຫຼ່ງຂໍ້ມູນສະເພາະ, ແລະ ການແນະນຳເມັດພືດຄືນໃໝ່ທີ່ເປັນທາງເລືອກ ເພື່ອໃຫ້ລຳດັບທັງໝົດຮູ້ສຶກເປັນເອກະພາບກັນແທນທີ່ຈະຄົມຊັດແບບປອມ.
ເມື່ອການຍົກລະດັບ AI ບໍ່ເໝາະສົມ ຫຼື ມີຄວາມສ່ຽງທີ່ຈະເພິ່ງພາອາໄສ
ການຍົກລະດັບ AI ດີທີ່ສຸດຄວນຖືວ່າເປັນການປັບປຸງ, ບໍ່ແມ່ນຫຼັກຖານ. ໃນສະພາບການທີ່ມີຄວາມສ່ຽງສູງເຊັ່ນ: ວາລະສານ, ຫຼັກຖານທາງກົດໝາຍ, ການຖ່າຍພາບທາງການແພດ, ຫຼືວຽກງານທາງດ້ານນິຕິວິທະຍາ, ການສ້າງພິກເຊວທີ່ "ໜ້າເຊື່ອຖື" ສາມາດເຮັດໃຫ້ເຂົ້າໃຈຜິດໄດ້ເພາະມັນອາດຈະເພີ່ມລາຍລະອຽດທີ່ບໍ່ໄດ້ບັນທຶກໄວ້. ການວາງກອບທີ່ປອດໄພກວ່າແມ່ນການໃຊ້ມັນເປັນຕົວຢ່າງ ແລະ ເປີດເຜີຍວ່າຂະບວນການ AI ໄດ້ສ້າງລາຍລະອຽດຄືນໃໝ່. ຖ້າຄວາມຊື່ສັດມີຄວາມສຳຄັນ, ໃຫ້ຮັກສາຕົ້ນສະບັບ ແລະ ບັນທຶກທຸກຂັ້ນຕອນການປະມວນຜົນ ແລະ ການຕັ້ງຄ່າ.
ເອກະສານອ້າງອີງ
-
arXiv - ການຮຽນຮູ້ຢ່າງເລິກເຊິ່ງສຳລັບຄວາມລະອຽດສູງສຸດຂອງຮູບພາບ: ການສຳຫຼວດ - arxiv.org
-
arXiv - ຮູບພາບທີ່ມີຄວາມລະອຽດສູງໂດຍໃຊ້ເຄືອຂ່າຍ Deep Convolutional (SRCNN) - arxiv.org
-
arXiv - Real-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
ນັກພັດທະນາ NVIDIA - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
-
ມູນນິທິ Computer Vision (CVF) Open Access - BasicVSR: ການຄົ້ນຫາອົງປະກອບທີ່ສຳຄັນໃນວິດີໂອຄວາມລະອຽດສູງ (CVPR 2021) - openaccess.thecvf.com
-
arXiv - ເຄືອຂ່າຍການຕໍ່ຕ້ານທີ່ສ້າງຂື້ນ - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - ການສູນເສຍການຮັບຮູ້ (Johnson et al., 2016) - arxiv.org
-
GitHub - ບ່ອນເກັບມ້ຽນ Real-ESRGAN (ຕົວເລືອກກະເບື້ອງ) - github.com
-
ວິກິພີເດຍ - ການໂຕ້ຕອບແບບ Bicubic - wikipedia.org
-
ຫ້ອງທົດລອງ Topaz - ຮູບພາບ Topaz - topazlabs.com
-
ຫ້ອງທົດລອງ Topaz - ວິດີໂອ Topaz - topazlabs.com
-
ສູນຊ່ວຍເຫຼືອ Adobe - Adobe Enhance > ຄວາມລະອຽດສູງ - helpx.adobe.com
-
NIST / OSAC - ຄູ່ມືມາດຕະຖານສຳລັບການຄຸ້ມຄອງຮູບພາບດິຈິຕອລທາງດ້ານນິຕິວິທະຍາ (ລຸ້ນ 1.0) - nist.gov
-
SWGDE - ແນວທາງສຳລັບການວິເຄາະຮູບພາບທາງນິຕິວິທະຍາ - swgde.org