ຄຳຕອບສັ້ນໆ: ການປະມວນຜົນລ່ວງໜ້າຂອງ AI ແມ່ນຊຸດຂອງຂັ້ນຕອນທີ່ສາມາດເຮັດຊ້ຳໄດ້ ເຊິ່ງປ່ຽນຂໍ້ມູນດິບທີ່ມີຄວາມແຕກຕ່າງກັນສູງໃຫ້ກາຍເປັນຂໍ້ມູນປ້ອນເຂົ້າຂອງຮູບແບບທີ່ສອດຄ່ອງກັນ, ລວມທັງການທຳຄວາມສະອາດ, ການເຂົ້າລະຫັດ, ການຂະຫຍາຍ, ການສ້າງໂທເຄັນ, ແລະ ການປ່ຽນຮູບພາບ. ມັນມີຄວາມສຳຄັນເພາະວ່າຖ້າຂໍ້ມູນປ້ອນເຂົ້າການຝຶກອົບຮົມ ແລະ ຂໍ້ມູນປ້ອນເຂົ້າການຜະລິດແຕກຕ່າງກັນ, ຮູບແບບສາມາດລົ້ມເຫຼວໄດ້ຢ່າງງຽບໆ. ຖ້າຂັ້ນຕອນໃດໜຶ່ງ "ຮຽນຮູ້" ພາລາມິເຕີ, ໃຫ້ປັບມັນໃສ່ຂໍ້ມູນການຝຶກອົບຮົມເທົ່ານັ້ນເພື່ອຫຼີກເວັ້ນການຮົ່ວໄຫຼ.
ການປະມວນຜົນລ່ວງໜ້າຂອງ AI ແມ່ນທຸກຢ່າງທີ່ທ່ານເຮັດກັບຂໍ້ມູນດິບກ່ອນ (ແລະບາງຄັ້ງໃນລະຫວ່າງ) ການຝຶກອົບຮົມ ຫຼື ການອະນຸມານ ເພື່ອໃຫ້ຮູບແບບສາມາດຮຽນຮູ້ຈາກມັນໄດ້. ບໍ່ພຽງແຕ່ "ການເຮັດຄວາມສະອາດ". ມັນແມ່ນການເຮັດຄວາມສະອາດ, ການສ້າງຮູບຮ່າງ, ການຂະຫຍາຍ, ການເຂົ້າລະຫັດ, ການເພີ່ມ, ແລະ ການຫຸ້ມຫໍ່ຂໍ້ມູນເຂົ້າໃນການນຳສະເໜີທີ່ສອດຄ່ອງກັນ ເຊິ່ງຈະບໍ່ເຮັດໃຫ້ຮູບແບບຂອງທ່ານສັບສົນໃນພາຍຫຼັງ. [1]
ບົດຮຽນຫຼັກ:
ຄຳນິຍາມ : ການປະມວນຜົນລ່ວງໜ້າຈະປ່ຽນຕາຕະລາງດິບ, ຂໍ້ຄວາມ, ຮູບພາບ ແລະ ບັນທຶກຕ່າງໆໃຫ້ເປັນຄຸນສົມບັດທີ່ພ້ອມສຳລັບໂມເດວ.
ຄວາມສອດຄ່ອງ : ນຳໃຊ້ການຫັນປ່ຽນດຽວກັນໃນລະຫວ່າງການຝຶກອົບຮົມ ແລະ ການອະນຸມານເພື່ອປ້ອງກັນຄວາມລົ້ມເຫຼວທີ່ບໍ່ກົງກັນ.
ການຮົ່ວໄຫຼ : ໃຫ້ຕິດຕັ້ງເຄື່ອງຂະຫຍາຍຂະໜາດ, ເຄື່ອງເຂົ້າລະຫັດ ແລະ ເຄື່ອງໂທເຄັນໃສ່ຂໍ້ມູນການຝຶກອົບຮົມເທົ່ານັ້ນ.
ຄວາມສາມາດໃນການຜະລິດຊ້ຳ : ສ້າງທໍ່ສົ່ງຂໍ້ມູນດ້ວຍສະຖິຕິທີ່ສາມາດກວດສອບໄດ້, ບໍ່ແມ່ນລຳດັບເຊວປື້ມບັນທຶກແບບ ad-hoc.
ການຕິດຕາມກວດກາການຜະລິດ : ຕິດຕາມຄວາມອຽງ ແລະ ການດຣິຟ ເພື່ອບໍ່ໃຫ້ການປ້ອນຂໍ້ມູນຄ່ອຍໆຫຼຸດລົງ.
ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:
🔗 ວິທີການທົດສອບຮູບແບບ AI ສຳລັບປະສິດທິພາບໃນໂລກຕົວຈິງ
ວິທີການປະຕິບັດຕົວຈິງເພື່ອປະເມີນຄວາມຖືກຕ້ອງ, ຄວາມທົນທານ ແລະ ຄວາມລຳອຽງຢ່າງວ່ອງໄວ.
🔗 AI ປ່ຽນຂໍ້ຄວາມເປັນສຽງແມ່ນບໍ ແລະ ມັນເຮັດວຽກແນວໃດ
ອະທິບາຍພື້ນຖານຂອງ TTS, ການນຳໃຊ້ຫຼັກ ແລະ ຂໍ້ຈຳກັດທົ່ວໄປໃນປະຈຸບັນ.
🔗 AI ສາມາດອ່ານລາຍມືດ້ວຍຕົວໜັງສືໄດ້ຢ່າງຖືກຕ້ອງໃນມື້ນີ້ບໍ?
ກວມເອົາສິ່ງທ້າທາຍໃນການຮັບຮູ້, ເຄື່ອງມືທີ່ດີທີ່ສຸດ, ແລະ ຄຳແນະນຳກ່ຽວກັບຄວາມຖືກຕ້ອງ.
🔗 AI ມີຄວາມຖືກຕ້ອງແນວໃດໃນວຽກງານທົ່ວໄປ
ແບ່ງແຍກປັດໄຈຄວາມຖືກຕ້ອງ, ມາດຕະຖານ ແລະ ຄວາມໜ້າເຊື່ອຖືໃນໂລກຕົວຈິງ.
ການປະມວນຜົນລ່ວງໜ້າຂອງ AI ໃນພາສາທຳມະດາ (ແລະສິ່ງທີ່ມັນບໍ່ແມ່ນ) 🤝
ການປະມວນຜົນລ່ວງໜ້າຂອງ AI ແມ່ນການຫັນປ່ຽນຂໍ້ມູນດິບ (ຕາຕະລາງ, ຂໍ້ຄວາມ, ຮູບພາບ, ບັນທຶກ) ໄປເປັນຄຸນສົມບັດທີ່ພ້ອມໃຊ້ກັບຮູບແບບ. ຖ້າຂໍ້ມູນດິບເປັນບ່ອນເກັບມ້ຽນທີ່ວຸ້ນວາຍ, ການປະມວນຜົນລ່ວງໜ້າແມ່ນການຕິດປ້າຍໃສ່ກ່ອງ, ຖິ້ມຂີ້ເຫຍື້ອທີ່ແຕກຫັກ, ແລະ ວາງສິ່ງຂອງຊ້ອນກັນເພື່ອໃຫ້ທ່ານສາມາດຍ່າງຜ່ານໄດ້ໂດຍບໍ່ມີການບາດເຈັບ.
ມັນບໍ່ແມ່ນຕົວແບບເອງ. ມັນແມ່ນສິ່ງທີ່ເຮັດໃຫ້ຕົວແບບເປັນໄປໄດ້:
-
ການປ່ຽນໝວດໝູ່ໃຫ້ເປັນຕົວເລກ (ໜຶ່ງຮ້ອນ, ລຳດັບ, ແລະອື່ນໆ) [1]
-
ການຂະຫຍາຍຂອບເຂດຕົວເລກຂະໜາດໃຫຍ່ໃຫ້ເປັນຂອບເຂດທີ່ສົມເຫດສົມຜົນ (ມາດຕະຖານ, ຕໍ່າສຸດ-ສູງສຸດ, ແລະອື່ນໆ) [1]
-
ການໃສ່ລະຫັດຂໍ້ຄວາມເຂົ້າໃນ ID ປ້ອນຂໍ້ມູນ (ແລະໂດຍປົກກະຕິແລ້ວແມ່ນໜ້າກາກເອົາໃຈໃສ່) [3]
-
ການປັບຂະໜາດ/ການຕັດຮູບພາບ ແລະ ການນຳໃຊ້ການຫັນປ່ຽນແບບກຳນົດໄວ້ vs ແບບສຸ່ມຢ່າງເໝາະສົມ [4]
-
ການສ້າງທໍ່ສົ່ງຂໍ້ມູນທີ່ເຮັດຊ້ຳໄດ້ ດັ່ງນັ້ນການຝຶກອົບຮົມ ແລະ ການປ້ອນຂໍ້ມູນ "ໃນຊີວິດຈິງ" ຈະບໍ່ແຕກຕ່າງກັນໃນທາງທີ່ລະອຽດອ່ອນ [2]
ຂໍ້ສັງເກດທີ່ເປັນປະໂຫຍດເລັກນ້ອຍຢ່າງໜຶ່ງ: "ການປະມວນຜົນກ່ອນ" ປະກອບມີ ສິ່ງໃດກໍ່ຕາມທີ່ເກີດຂຶ້ນຢ່າງຕໍ່ເນື່ອງກ່ອນທີ່ຮູບແບບຈະເຫັນການປ້ອນຂໍ້ມູນ . ບາງທີມແບ່ງສິ່ງນີ້ອອກເປັນ "ວິສະວະກຳຄຸນສົມບັດ" ທຽບກັບ "ການເຮັດຄວາມສະອາດຂໍ້ມູນ", ແຕ່ໃນຊີວິດຈິງເສັ້ນເຫຼົ່ານັ້ນມົວ.

ເປັນຫຍັງການປະມວນຜົນລ່ວງໜ້າຂອງ AI ຈຶ່ງມີຄວາມສຳຄັນຫຼາຍກວ່າທີ່ຄົນເຮົາຍອມຮັບ 😬
ຮູບແບບແມ່ນຕົວຈັບຄູ່ຮູບແບບ, ບໍ່ແມ່ນຕົວອ່ານຄວາມຄິດ. ຖ້າຂໍ້ມູນຂອງເຈົ້າບໍ່ສອດຄ່ອງກັນ, ຮູບແບບຈະຮຽນຮູ້ກົດລະບຽບທີ່ບໍ່ສອດຄ່ອງກັນ. ນັ້ນບໍ່ແມ່ນປັດຊະຍາ, ມັນເປັນເລື່ອງຕາມຕົວໜັງສືທີ່ເຈັບປວດ.
ການປະມວນຜົນລ່ວງໜ້າຊ່ວຍໃຫ້ທ່ານ:
-
ປັບປຸງຄວາມໝັ້ນຄົງຂອງການຮຽນຮູ້ ໂດຍການໃສ່ຄຸນສົມບັດຕ່າງໆເຂົ້າໃນການເປັນຕົວແທນທີ່ຜູ້ປະເມີນສາມາດໃຊ້ໄດ້ຢ່າງໜ້າເຊື່ອຖື (ໂດຍສະເພາະເມື່ອມີການຂະຫຍາຍ/ການເຂົ້າລະຫັດ). [1]
-
ຫຼຸດຜ່ອນສິ່ງລົບກວນ ໂດຍການເຮັດໃຫ້ຄວາມເປັນຈິງທີ່ວຸ້ນວາຍເບິ່ງຄືວ່າເປັນສິ່ງທີ່ແບບຈຳລອງສາມາດນຳມາໃຊ້ໂດຍລວມໄດ້ (ແທນທີ່ຈະຈື່ຈຳສິ່ງປະດິດທີ່ແປກປະຫຼາດ).
-
ປ້ອງກັນຮູບແບບຄວາມລົ້ມເຫຼວທີ່ງຽບໆ ເຊັ່ນ: ການຮົ່ວໄຫຼ ແລະ ການຝຶກອົບຮົມ/ການໃຫ້ບໍລິການທີ່ບໍ່ກົງກັນ (ປະເພດທີ່ເບິ່ງຄືວ່າ "ໜ້າອັດສະຈັນ" ໃນການກວດສອບຄວາມຖືກຕ້ອງ ແລະ ຫຼັງຈາກນັ້ນກໍ່ປ່ຽນຮູບແບບໃນການຜະລິດ). [2]
-
ເລັ່ງຄວາມໄວໃນການເຮັດຊ້ຳ ເພາະວ່າການເຮັດຊ້ຳໆສາມາດປ່ຽນສະປາເກັດຕີ້ປື້ມບັນທຶກໄດ້ທຸກໆມື້ຂອງອາທິດ.
ນອກຈາກນັ້ນ, ມັນຍັງເປັນບ່ອນທີ່ "ປະສິດທິພາບຂອງຕົວແບບ" ຫຼາຍຢ່າງມາຈາກ. ຄື... ໜ້າປະຫຼາດໃຈຫຼາຍ. ບາງຄັ້ງມັນຮູ້ສຶກບໍ່ຍຸດຕິທຳ, ແຕ່ນັ້ນແມ່ນຄວາມເປັນຈິງ 🙃
ສິ່ງທີ່ເຮັດໃຫ້ທໍ່ສົ່ງການປະມວນຜົນ AI ທີ່ດີ ✅
"ຮຸ່ນທີ່ດີ" ຂອງການປະມວນຜົນກ່ອນໜ້ານີ້ມັກຈະມີຄຸນລັກສະນະເຫຼົ່ານີ້:
-
ສາມາດຜະລິດຊ້ຳໄດ້ : ການປ້ອນຂໍ້ມູນດຽວກັນ → ຜົນຜະລິດດຽວກັນ (ບໍ່ມີຄວາມລຶກລັບແບບສຸ່ມ ເວັ້ນເສຍແຕ່ວ່າມັນເປັນການເພີ່ມໂດຍເຈດຕະນາ).
-
ຄວາມສອດຄ່ອງໃນການໃຫ້ບໍລິການລົດໄຟ : ສິ່ງໃດກໍ່ຕາມທີ່ທ່ານເຮັດໃນເວລາຝຶກອົບຮົມແມ່ນຖືກນຳໃຊ້ໃນລັກສະນະດຽວກັນໃນເວລາອະນຸມານ (ພາລາມິເຕີທີ່ເໝາະສົມດຽວກັນ, ແຜນທີ່ໝວດໝູ່ດຽວກັນ, ການຕັ້ງຄ່າໂທເຄັນໄຊເຊີດຽວກັນ, ແລະອື່ນໆ). [2]
-
ປອດໄພຕໍ່ການຮົ່ວໄຫຼ : ບໍ່ມີຫຍັງໃນການປະເມີນຜົນ/ການທົດສອບທີ່ມີອິດທິພົນຕໍ່
ຄວາມເໝາະສົມ. (ເພີ່ມເຕີມກ່ຽວກັບກັບດັກນີ້ໃນອີກບໍ່ດົນ.) [2] -
ສາມາດສັງເກດໄດ້ : ທ່ານສາມາດກວດສອບສິ່ງທີ່ປ່ຽນແປງ (ສະຖິຕິຄຸນສົມບັດ, ການຂາດຫາຍໄປ, ຈຳນວນໝວດໝູ່) ສະນັ້ນການດີບັກບໍ່ແມ່ນວິສະວະກຳທີ່ອີງໃສ່ vibes.
ຖ້າການປະມວນຜົນລ່ວງໜ້າຂອງເຈົ້າແມ່ນກອງເຊວປື້ມບັນທຶກທີ່ມີຊື່ວ່າ final_v7_really_final_ok … ເຈົ້າຮູ້ວ່າມັນເປັນແນວໃດ. ມັນເຮັດວຽກຈົນກວ່າມັນຈະເຮັດວຽກບໍ່ໄດ້ 😬
ອົງປະກອບຫຼັກຂອງການປະມວນຜົນລ່ວງໜ້າຂອງ AI 🧱
ຄິດວ່າການປະມວນຜົນລ່ວງໜ້າຄືກັບຊຸດຂອງບລັອກການກໍ່ສ້າງທີ່ທ່ານລວມເຂົ້າກັນເປັນທໍ່ສົ່ງ.
1) ການທຳຄວາມສະອາດ ແລະ ການກວດສອບຄວາມຖືກຕ້ອງ 🧼
ວຽກງານປົກກະຕິ:
-
ລຶບລາຍການຊໍ້າກັນ
-
ຈັດການກັບຄ່າທີ່ຂາດຫາຍໄປ (ລຶບ, ລະບຸ, ຫຼື ສະແດງເຖິງຄວາມຂາດຫາຍໄປຢ່າງຊັດເຈນ)
-
ບັງຄັບໃຊ້ປະເພດ, ຫົວໜ່ວຍ ແລະ ຂອບເຂດຕ່າງໆ
-
ກວດຫາອິນພຸດທີ່ມີຮູບແບບຜິດປົກກະຕິ
-
ມາດຕະຖານຮູບແບບຂໍ້ຄວາມ (ຊ່ອງຫວ່າງ, ກົດເກນການພິມ, ຄວາມແປກປະຫຼາດຂອງ Unicode)
ສ່ວນນີ້ບໍ່ໄດ້ໜ້າສົນໃຈຫຼາຍ, ແຕ່ມັນປ້ອງກັນຄວາມຜິດພາດທີ່ໂງ່ໆໄດ້. ຂ້ອຍເວົ້າແບບນັ້ນດ້ວຍຄວາມຮັກ.
2) ການເຂົ້າລະຫັດຂໍ້ມູນປະເພດຕ່າງໆ 🔤
ຮູບແບບສ່ວນໃຫຍ່ບໍ່ສາມາດໃຊ້ສະຕຣິງດິບໄດ້ໂດຍກົງເຊັ່ນ "red" ຫຼື "premium_user "
ວິທີການທົ່ວໄປ:
-
ການເຂົ້າລະຫັດແບບດ່ວນຄັ້ງດຽວ (ໝວດໝູ່ → ຖັນໄບນາຣີ) [1]
-
ການເຂົ້າລະຫັດລຳດັບ (ໝວດໝູ່ → ID ຈຳນວນເຕັມ) [1]
ສິ່ງສຳຄັນບໍ່ແມ່ນວ່າ ໃດ - ແຕ່ມັນແມ່ນການສ້າງແຜນທີ່ຄົງທີ່ ແລະ ບໍ່ "ປ່ຽນຮູບຮ່າງ" ລະຫວ່າງການຝຶກອົບຮົມ ແລະ ການອະນຸມານ. ນັ້ນແມ່ນວິທີທີ່ທ່ານຈົບລົງດ້ວຍຮູບແບບທີ່ເບິ່ງດີແບບອອບລາຍ ແລະ ເຄື່ອນໄຫວແບບອອນໄລນ໌. [2]
3) ການຂະຫຍາຍຄຸນສົມບັດ ແລະ ການປັບໃຫ້ເປັນປົກກະຕິ 📏
ການຂະຫຍາຍມີຄວາມສຳຄັນເມື່ອຄຸນສົມບັດຕ່າງໆຢູ່ໃນລະດັບທີ່ແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ.
ສອງຄລາສສິກ:
-
ມາດຕະຖານ : ເອົາຄ່າສະເລ່ຍອອກ ແລະ ມາດຕາສ່ວນຕາມຄວາມແปรປ່ວນຂອງຫົວໜ່ວຍ [1]
-
ການປັບຂະໜາດຕໍ່າສຸດ-ສູງສຸດ : ປັບຂະໜາດແຕ່ລະຄຸນສົມບັດເຂົ້າໄປໃນຂອບເຂດທີ່ກຳນົດໄວ້ [1]
ເຖິງແມ່ນວ່າໃນເວລາທີ່ທ່ານໃຊ້ຮູບແບບທີ່ "ສ່ວນໃຫຍ່ຮັບມືໄດ້," ການຂະຫຍາຍມັກຈະເຮັດໃຫ້ທໍ່ສົ່ງນ້ຳງ່າຍຕໍ່ການຫາເຫດຜົນ - ແລະຍາກທີ່ຈະແຕກໂດຍບັງເອີນ.
4) ວິສະວະກຳຄຸນສົມບັດ (ຫຼື ການໂກງທີ່ເປັນປະໂຫຍດ) 🧪
ນີ້ແມ່ນບ່ອນທີ່ທ່ານເຮັດໃຫ້ວຽກງານຂອງແບບຈຳລອງງ່າຍຂຶ້ນໂດຍການສ້າງສັນຍານທີ່ດີກວ່າ:
-
ອັດຕາສ່ວນ (ຄລິກ / ການສະແດງຜົນ)
-
ປ່ອງຢ້ຽມມ້ວນ (N ມື້ຜ່ານມາ)
-
ຈຳນວນເຫດການ (ຕໍ່ຜູ້ໃຊ້)
-
ການຫັນປ່ຽນ log ສຳລັບການແຈກຢາຍແບບ heavy-tailed
ມີສິລະປະຢູ່ທີ່ນີ້. ບາງຄັ້ງເຈົ້າອາດຈະສ້າງບົດຄວາມ, ຮູ້ສຶກພູມໃຈ... ແລະມັນບໍ່ໄດ້ຜົນຫຍັງເລີຍ. ຫຼືຮ້າຍແຮງກວ່ານັ້ນ, ມັນເຈັບປວດ. ນັ້ນເປັນເລື່ອງປົກກະຕິ. ຢ່າຜູກພັນທາງດ້ານອາລົມກັບບົດຄວາມ - ເຂົາເຈົ້າບໍ່ຮັກເຈົ້າຄືນ 😅
5) ການແບ່ງຂໍ້ມູນໃຫ້ຖືກຕ້ອງ ✂️
ສິ່ງນີ້ຟັງແລ້ວຈະແຈ້ງຈົນກວ່າມັນບໍ່ແມ່ນ:
-
ການແບ່ງແບບສຸ່ມສຳລັບຂໍ້ມູນ iid
-
ການແບ່ງຕາມເວລາສຳລັບຊຸດເວລາ
-
ການແບ່ງກຸ່ມເມື່ອໜ່ວຍງານເຮັດຊ້ຳອີກ (ຜູ້ໃຊ້, ອຸປະກອນ, ຄົນເຈັບ)
ແລະສິ່ງສຳຄັນ: ແບ່ງອອກກ່ອນທີ່ຈະປັບຕົວການປະມວນຜົນລ່ວງໜ້າທີ່ຮຽນຮູ້ຈາກຂໍ້ມູນ . ຖ້າຂັ້ນຕອນການປະມວນຜົນລ່ວງໜ້າຂອງທ່ານ "ຮຽນຮູ້" ພາລາມິເຕີຕ່າງໆ (ເຊັ່ນ: ວິທີການ, ຄຳສັບ, ແຜນທີ່ໝວດໝູ່), ມັນຕ້ອງຮຽນຮູ້ພວກມັນຈາກການຝຶກອົບຮົມເທົ່ານັ້ນ. [2]
ການປະມວນຜົນລ່ວງໜ້າຂອງ AI ຕາມປະເພດຂໍ້ມູນ: ຕາຕະລາງ, ຂໍ້ຄວາມ, ຮູບພາບ 🎛️
ການປະມວນຜົນລ່ວງໜ້າຈະປ່ຽນຮູບຮ່າງຂຶ້ນກັບສິ່ງທີ່ທ່ານປ້ອນເຂົ້າຮູບແບບ.
ຂໍ້ມູນຕາຕະລາງ (ສະເປຣດຊີດ, ບັນທຶກ, ຖານຂໍ້ມູນ) 📊
ຂັ້ນຕອນທົ່ວໄປ:
-
ຍຸດທະສາດມູນຄ່າທີ່ຂາດຫາຍໄປ
-
ການເຂົ້າລະຫັດແບບໝວດໝູ່ [1]
-
ການຂະຫຍາຍຖັນຕົວເລກ [1]
-
ການຈັດການທີ່ຜິດປົກກະຕິ (ກົດລະບຽບຂອງໂດເມນມັກຈະດີກ່ວາ "ການຕັດແບບສຸ່ມ" ສ່ວນຫຼາຍແລ້ວ)
-
ຄຸນສົມບັດທີ່ໄດ້ມາ (ການລວມຕົວ, ການຊັກຊ້າ, ສະຖິຕິການໝູນວຽນ)
ຄຳແນະນຳທີ່ເປັນປະໂຫຍດ: ກຳນົດກຸ່ມຖັນຢ່າງຊັດເຈນ (ຕົວເລກ ທຽບກັບ ປະເພດ ທຽບກັບ ຕົວລະບຸ). ຕົວເຈົ້າເອງໃນອະນາຄົດຈະຂອບໃຈເຈົ້າ.
ຂໍ້ມູນຂໍ້ຄວາມ (NLP) 📝
ການປະມວນຜົນຂໍ້ຄວາມລ່ວງໜ້າມັກຈະປະກອບມີ:
-
ການປ່ຽນໂທເຄັນໃຫ້ເປັນໂທເຄັນ/ຄຳຍ່ອຍ
-
ການປ່ຽນເປັນ ID ປ້ອນຂໍ້ມູນ
-
ການເພີ່ມ/ການຕັດ
-
ການສ້າງ ໜ້າກາກທີ່ເອົາໃຈໃສ່ ສຳລັບການຜະສົມຜະສານ [3]
ກົດລະບຽບນ້ອຍໆທີ່ຊ່ວຍປະຢັດຄວາມຫຍຸ້ງຍາກ: ສຳລັບການຕັ້ງຄ່າທີ່ອີງໃສ່ transformer, ໃຫ້ປະຕິບັດຕາມການຕັ້ງຄ່າ tokenizer ທີ່ຄາດໄວ້ຂອງໂມເດວ ແລະຢ່າ freestyle ເວັ້ນເສຍແຕ່ວ່າທ່ານມີເຫດຜົນ. Freestyle ແມ່ນວິທີທີ່ທ່ານຈົບລົງດ້ວຍ "ມັນຝຶກຝົນແຕ່ມັນແປກ."
ຮູບພາບ (ວິໄສທັດຄອມພິວເຕີ) 🖼️
ການປະມວນຜົນກ່ອນແບບປົກກະຕິ:
-
ປັບຂະໜາດ / ຕັດໃຫ້ເປັນຮູບຮ່າງທີ່ສອດຄ່ອງກັນ
-
ການຫັນປ່ຽນແບບກຳນົດສຳລັບການປະເມີນຜົນ
-
ການຫັນປ່ຽນແບບສຸ່ມສຳລັບການເສີມການຝຶກອົບຮົມ (ເຊັ່ນ: ການຕັດແບບສຸ່ມ) [4]
ລາຍລະອຽດໜຶ່ງທີ່ຄົນເຮົາພາດໄປ: “ການຫັນປ່ຽນແບບສຸ່ມ” ບໍ່ແມ່ນພຽງແຕ່ຄວາມຮູ້ສຶກເທົ່ານັ້ນ - ພວກມັນຈະສຸ່ມຕົວຢ່າງພາລາມິເຕີທຸກຄັ້ງທີ່ພວກມັນຖືກເອີ້ນ. ດີຫຼາຍສຳລັບການຝຶກອົບຮົມຄວາມຫຼາກຫຼາຍ, ແຕ່ບໍ່ດີສຳລັບການປະເມີນຜົນຖ້າເຈົ້າລືມປິດການສຸ່ມ. [4]
ກັບດັກທີ່ທຸກຄົນຕົກຢູ່ໃນ: ການຮົ່ວໄຫຼຂອງຂໍ້ມູນ 🕳️🐍
ການຮົ່ວໄຫຼແມ່ນເວລາທີ່ຂໍ້ມູນຈາກຂໍ້ມູນການປະເມີນຜົນລັກລອບເຂົ້າໄປໃນການຝຶກອົບຮົມ - ເຊິ່ງມັກຈະຜ່ານການປະມວນຜົນກ່ອນ. ມັນສາມາດເຮັດໃຫ້ຮູບແບບຂອງທ່ານເບິ່ງມະຫັດສະຈັນໃນລະຫວ່າງການກວດສອບຄວາມຖືກຕ້ອງ, ຈາກນັ້ນເຮັດໃຫ້ທ່ານຜິດຫວັງໃນໂລກແຫ່ງຄວາມເປັນຈິງ.
ຮູບແບບການຮົ່ວໄຫຼທົ່ວໄປ:
-
ການຂະຫຍາຍໂດຍໃຊ້ສະຖິຕິຊຸດຂໍ້ມູນເຕັມຮູບແບບ (ແທນທີ່ຈະເປັນການຝຶກອົບຮົມເທົ່ານັ້ນ) [2]
-
ການສ້າງແຜນທີ່ໝວດໝູ່ໂດຍໃຊ້ລົດໄຟ + ການທົດສອບຮ່ວມກັນ [2]
-
fit()ຫຼືfit_transform()ໃດໆ ທີ່ "ເຫັນ" ຊຸດການທົດສອບ [2]
ກົດລະບຽບງ່າຍໆ (ງ່າຍດາຍ, ຮຸນແຮງ, ມີປະສິດທິພາບ):
-
ສິ່ງໃດກໍຕາມທີ່ມີ ການອອກກຳລັງກາຍ ຄວນຈະອອກກຳລັງກາຍໃນເວລາຝຶກຊ້ອມເທົ່ານັ້ນ.
-
ຫຼັງຈາກນັ້ນ, ທ່ານ ປ່ຽນ ການກວດສອບຄວາມຖືກຕ້ອງ/ການທົດສອບໂດຍໃຊ້ໝໍ້ແປງທີ່ຕິດຕັ້ງໄວ້ນັ້ນ. [2]
ແລະ ຖ້າທ່ານຕ້ອງການ "ມັນຮ້າຍແຮງປານໃດ?" ການກວດສອບ: ເອກະສານຂອງ scikit-learn ສະແດງຕົວຢ່າງການຮົ່ວໄຫຼທີ່ລຳດັບການປະມວນຜົນລ່ວງໜ້າທີ່ບໍ່ຖືກຕ້ອງໃຫ້ຄວາມຖືກຕ້ອງປະມານ 0.76 ໃນເປົ້າໝາຍແບບສຸ່ມ - ຈາກນັ້ນຫຼຸດລົງກັບ ~ 0.5 ເມື່ອການຮົ່ວໄຫຼຖືກແກ້ໄຂແລ້ວ. ນັ້ນແມ່ນວິທີທີ່ການຮົ່ວໄຫຼທີ່ຜິດພາດຢ່າງໜ້າເຊື່ອຖືສາມາດເບິ່ງຄືວ່າ. [2]
ເລີ່ມຕົ້ນການປຸງແຕ່ງກ່ອນເຂົ້າສູ່ການຜະລິດໂດຍບໍ່ມີຄວາມວຸ້ນວາຍ 🏗️
ຮູບແບບຫຼາຍຮູບແບບລົ້ມເຫຼວໃນການຜະລິດບໍ່ແມ່ນຍ້ອນວ່າຮູບແບບ "ບໍ່ດີ", ແຕ່ຍ້ອນວ່າ ຄວາມເປັນຈິງຂອງການປ້ອນຂໍ້ມູນ ປ່ຽນແປງ - ຫຼື pipeline ຂອງເຈົ້າປ່ຽນໄປ.
ການປຸງແຕ່ງກ່ອນການຜະລິດມັກຈະປະກອບມີ:
-
ສິ່ງປະດິດທີ່ບັນທຶກໄວ້ (ການຈັບຄູ່ຕົວເຂົ້າລະຫັດ, ພາລາມິເຕີ scaler, ການຕັ້ງຄ່າ tokenizer) ສະນັ້ນການອະນຸມານໃຊ້ການຫັນປ່ຽນທີ່ຮຽນຮູ້ຄືກັນ [2]
-
ສັນຍາການປ້ອນຂໍ້ມູນແບບເຂັ້ມງວດ (ຖັນ/ປະເພດ/ຊ່ວງທີ່ຄາດໄວ້)
-
ການຕິດຕາມກວດກາຄວາມອຽງ ແລະ ການເລື່ອນລອຍ , ເພາະວ່າຂໍ້ມູນການຜະລິດ ຈະ ຫລົງທາງ [5]
ຖ້າທ່ານຕ້ອງການຄຳນິຍາມທີ່ແນ່ນອນ: ການຕິດຕາມແບບຈຳລອງ Vertex AI ຂອງ Google ຈຳແນກ ຄວາມອຽງຂອງການຝຶກອົບຮົມ (ການແຈກຢາຍການຜະລິດແຕກຕ່າງຈາກການຝຶກອົບຮົມ) ແລະ ການປ່ຽນແປງຂອງການອະນຸມານ (ການປ່ຽນແປງການແຈກຢາຍການຜະລິດຕາມການເວລາ), ແລະ ຮອງຮັບການຕິດຕາມກວດກາທັງຄຸນສົມບັດປະເພດ ແລະ ຕົວເລກ. [5]
ເພາະວ່າຄວາມແປກໃຈມີລາຄາແພງ. ແລະບໍ່ແມ່ນປະເພດທີ່ມ່ວນຊື່ນ.
ຕາຕະລາງປຽບທຽບ: ເຄື່ອງມືການປະມວນຜົນລ່ວງໜ້າທົ່ວໄປ + ເຄື່ອງມືຕິດຕາມກວດກາ (ແລະເຄື່ອງມືເຫຼົ່ານັ້ນແມ່ນສຳລັບໃຜ) 🧰
| ເຄື່ອງມື / ຫ້ອງສະໝຸດ | ດີທີ່ສຸດສຳລັບ | ລາຄາ | ເປັນຫຍັງມັນຈຶ່ງເຮັດວຽກ (ແລະຄວາມຊື່ສັດເລັກນ້ອຍ) |
|---|---|---|---|
| ການປະມວນຜົນລ່ວງໜ້າຂອງ scikit-learn | ທໍ່ສົ່ງ ML ແບບຕາຕະລາງ | ຟຣີ | ຕົວເຂົ້າລະຫັດແບບແຂງ + ຕົວຂະຫຍາຍ (OneHotEncoder, StandardScaler, ແລະອື່ນໆ) ແລະ ພຶດຕິກຳທີ່ຄາດເດົາໄດ້ [1] |
| ເຄື່ອງໝາຍສັນຍາລັກໃບໜ້າກອດ | ການກະກຽມການປ້ອນຂໍ້ມູນ NLP | ຟຣີ | ຜະລິດ ID ປ້ອນຂໍ້ມູນ + ໜ້າກາກເອົາໃຈໃສ່ຢ່າງສອດຄ່ອງກັນໃນທົ່ວການແລ່ນ/ຮຸ່ນຕ່າງໆ [3] |
| ການປ່ຽນຮູບຂອງ Torchvision | ການປ່ຽນແປງວິໄສທັດ + ການເພີ່ມພູນ | ຟຣີ | ວິທີງ່າຍໆໃນການປະສົມການຫັນປ່ຽນແບບກຳນົດ ແລະ ແບບສຸ່ມໃນທໍ່ສົ່ງດຽວ [4] |
| ການຕິດຕາມແບບຈຳລອງ Vertex AI | ການກວດຈັບການເລື່ອນ/ອຽງໃນຜະລິດຕະພັນ | ຈ່າຍແລ້ວ (ຄລາວ) | ຈໍສະແດງຜົນມີຄຸນລັກສະນະອຽງ/ດຣິຟ ແລະ ການແຈ້ງເຕືອນເມື່ອເກີນຂອບເຂດກຳນົດ [5] |
(ແມ່ນແລ້ວ, ຕາຕະລາງຍັງມີຄວາມຄິດເຫັນຢູ່. ແຕ່ຢ່າງໜ້ອຍມັນກໍ່ເປັນຄວາມຄິດເຫັນທີ່ຊື່ສັດ 😅)
ບັນຊີກວດສອບການປະມວນຜົນກ່ອນການປະຕິບັດຕົວຈິງທີ່ທ່ານສາມາດນຳໃຊ້ໄດ້ແທ້ໆ📌
ກ່ອນການຝຶກອົບຮົມ
-
ກຳນົດໂຄງຮ່າງການປ້ອນຂໍ້ມູນ (ປະເພດ, ຫົວໜ່ວຍ, ຂອບເຂດທີ່ອະນຸຍາດ)
-
ກວດສອບຄ່າທີ່ຂາດຫາຍໄປ ແລະ ຄ່າທີ່ຊໍ້າກັນ
-
ແບ່ງຂໍ້ມູນໃຫ້ຖືກຕ້ອງ (ແບບສຸ່ມ / ຕາມເວລາ / ຈັດກຸ່ມ)
-
ການປະມວນຜົນລ່ວງໜ້າຂອງ Fit ໃນ ການຝຶກອົບຮົມເທົ່ານັ້ນ (
fit/fit_transformຍັງຄົງຢູ່ໃນການຝຶກອົບຮົມ) [2] -
ບັນທຶກສິ່ງປະດິດກ່ອນການປະມວນຜົນ ເພື່ອໃຫ້ການອະນຸມານສາມາດນຳມາໃຊ້ຄືນໄດ້ [2]
ໃນລະຫວ່າງການຝຶກອົບຮົມ
-
ໃຊ້ການເພີ່ມແບບສຸ່ມສະເພາະບ່ອນທີ່ເໝາະສົມເທົ່ານັ້ນ (ໂດຍປົກກະຕິແລ້ວແມ່ນແບ່ງການຝຶກອົບຮົມເທົ່ານັ້ນ) [4]
-
ຮັກສາການປະເມີນກ່ອນການປະມວນຜົນແບບກຳນົດໄວ້ [4]
-
ຕິດຕາມການປ່ຽນແປງການປະມວນຜົນກ່ອນ ເຊັ່ນ ການປ່ຽນແປງຮູບແບບ (ເພາະວ່າມັນເປັນ)
ກ່ອນການນຳໃຊ້
-
ໃຫ້ແນ່ໃຈວ່າການອະນຸມານໃຊ້ເສັ້ນທາງການປະມວນຜົນກ່ອນ ແລະ ສິ່ງປະດິດທີ່ຄືກັນ [2]
-
ຕັ້ງຄ່າການຕິດຕາມກວດກາການເລື່ອນ/ການບິດເບືອນ (ເຖິງແມ່ນວ່າການກວດສອບການແຈກຢາຍຄຸນສົມບັດພື້ນຖານກໍ່ຍັງໃຊ້ໄດ້ດົນ) [5]
ການເຈາະເລິກ: ຄວາມຜິດພາດກ່ອນການປະມວນຜົນທົ່ວໄປ (ແລະວິທີການຫຼີກລ່ຽງພວກມັນ) 🧯
ຄວາມຜິດພາດທີ 1: “ຂ້ອຍພຽງແຕ່ຈະເຮັດໃຫ້ທຸກຢ່າງເປັນປົກກະຕິໄວໆ” 😵
ຖ້າທ່ານຄິດໄລ່ພາລາມິເຕີການປັບຂະໜາດໃນຊຸດຂໍ້ມູນເຕັມ, ທ່ານກໍາລັງຮົ່ວໄຫຼຂໍ້ມູນການປະເມີນຜົນ. ໃຫ້ພໍດີກັບການຝຶກອົບຮົມ, ປ່ຽນສ່ວນທີ່ເຫຼືອ. [2]
ຄວາມຜິດພາດທີ 2: ໝວດໝູ່ຕ່າງໆກຳລັງລ່ອງລອຍເຂົ້າສູ່ຄວາມວຸ້ນວາຍ 🧩
ຖ້າການສ້າງແຜນທີ່ໝວດໝູ່ຂອງທ່ານປ່ຽນໄປລະຫວ່າງການຝຶກອົບຮົມ ແລະ ການອະນຸມານ, ຮູບແບບຂອງທ່ານສາມາດອ່ານໂລກຜິດໄດ້ຢ່າງງຽບໆ. ຮັກສາການສ້າງແຜນທີ່ໃຫ້ຄົງທີ່ຜ່ານສິ່ງປະດິດທີ່ບັນທຶກໄວ້. [2]
ຄວາມຜິດພາດທີ 3: ການເສີມແບບສຸ່ມທີ່ລັກລອບເຂົ້າໄປໃນການປະເມີນຜົນ 🎲
ການຫັນປ່ຽນແບບສຸ່ມແມ່ນດີເລີດໃນການຝຶກອົບຮົມ, ແຕ່ພວກມັນບໍ່ຄວນ "ເປີດຢ່າງລັບໆ" ເມື່ອທ່ານພະຍາຍາມວັດແທກປະສິດທິພາບ. (ແບບສຸ່ມໝາຍເຖິງແບບສຸ່ມ.) [4]
ຄຳສັງເກດສຸດທ້າຍ🧠✨
ການປະມວນຜົນລ່ວງໜ້າດ້ວຍ AI ແມ່ນສິລະປະທີ່ມີລະບຽບວິໄນໃນການປ່ຽນຄວາມເປັນຈິງທີ່ສັບສົນໃຫ້ກາຍເປັນການປ້ອນຂໍ້ມູນແບບຈຳລອງທີ່ສອດຄ່ອງ. ມັນກວມເອົາການທຳຄວາມສະອາດ, ການເຂົ້າລະຫັດ, ການຂະຫຍາຍ, ການສ້າງໂທເຄັນ, ການປ່ຽນຮູບພາບ, ແລະສິ່ງທີ່ສຳຄັນທີ່ສຸດແມ່ນທໍ່ສົ່ງ ແລະ ສິ່ງປະດິດທີ່ເຮັດຊ້ຳໄດ້.
-
ດຳເນີນການປະມວນຜົນລ່ວງໜ້າຢ່າງຕັ້ງໃຈ, ບໍ່ແມ່ນແບບທຳມະດາ. [2]
-
ແຍກອອກກ່ອນ, ປ່ຽນຮູບຮ່າງໃຫ້ເໝາະສົມໃນການຝຶກຊ້ອມເທົ່ານັ້ນ, ຫຼີກລ່ຽງການຮົ່ວໄຫຼ. [2]
-
ໃຊ້ການປະມວນຜົນລ່ວງໜ້າທີ່ເໝາະສົມກັບຮູບແບບ (ໂທເຄັນໄຊເຊີສຳລັບຂໍ້ຄວາມ, ການປ່ຽນຮູບແບບສຳລັບຮູບພາບ). [3][4]
-
ຕິດຕາມກວດກາຄວາມອຽງ/ການເລື່ອນຂອງການຜະລິດ ເພື່ອວ່າຮູບແບບຂອງທ່ານຈະບໍ່ຄ່ອຍໆເລື່ອນໄປສູ່ຄວາມໄຮ້ສາລະ. [5]
ແລະ ຖ້າຫາກເຈົ້າເຄີຍຕິດຂັດ, ໃຫ້ຖາມຕົວເອງວ່າ:
“ຂັ້ນຕອນການປະມວນຜົນລ່ວງໜ້ານີ້ຍັງມີຄວາມໝາຍຢູ່ບໍ ຖ້າຂ້ອຍໃຊ້ມັນໃນມື້ອື່ນດ້ວຍຂໍ້ມູນໃໝ່?”
ຖ້າຄຳຕອບແມ່ນ “ເອີ… ບາງທີ?”, ນັ້ນແມ່ນຄຳແນະນຳຂອງເຈົ້າ 😬
ຄຳຖາມທີ່ຖືກຖາມເລື້ອຍໆ
ເວົ້າງ່າຍໆ, ການປະມວນຜົນລ່ວງໜ້າຂອງ AI ແມ່ນຫຍັງ?
ການປະມວນຜົນລ່ວງໜ້າຂອງ AI ແມ່ນຊຸດຂັ້ນຕອນທີ່ສາມາດເຮັດຊ້ຳໄດ້ ເຊິ່ງປ່ຽນຂໍ້ມູນດິບທີ່ມີສຽງລົບກວນ ແລະ ມີຄວາມແຕກຕ່າງກັນສູງ ໃຫ້ກາຍເປັນຂໍ້ມູນປ້ອນເຂົ້າທີ່ສອດຄ່ອງກັນ ເຊິ່ງແບບຈຳລອງສາມາດຮຽນຮູ້ໄດ້. ມັນສາມາດປະກອບມີການທຳຄວາມສະອາດ, ການກວດສອບຄວາມຖືກຕ້ອງ, ການເຂົ້າລະຫັດໝວດໝູ່, ການຂະຫຍາຍຄ່າຕົວເລກ, ການໃສ່ໂທເຄັນຂໍ້ຄວາມ, ແລະ ການນຳໃຊ້ການປ່ຽນຮູບພາບ. ເປົ້າໝາຍແມ່ນເພື່ອຮັບປະກັນວ່າການຝຶກອົບຮົມ ແລະ ການອະນຸມານການຜະລິດເຫັນຂໍ້ມູນປ້ອນເຂົ້າ "ປະເພດດຽວກັນ", ດັ່ງນັ້ນແບບຈຳລອງຈະບໍ່ປ່ຽນໄປສູ່ພຶດຕິກຳທີ່ຄາດເດົາບໍ່ໄດ້ໃນພາຍຫຼັງ.
ເປັນຫຍັງການປະມວນຜົນລ່ວງໜ້າຂອງ AI ຈຶ່ງມີຄວາມສຳຄັນຫຼາຍໃນການຜະລິດ?
ການປະມວນຜົນກ່ອນມີຄວາມສຳຄັນເພາະວ່າຮູບແບບມີຄວາມອ່ອນໄຫວຕໍ່ກັບການນຳສະເໜີຂໍ້ມູນປ້ອນຂໍ້ມູນ. ຖ້າຂໍ້ມູນການຝຶກອົບຮົມຖືກປັບຂະໜາດ, ເຂົ້າລະຫັດ, ໂທເຄັນ, ຫຼື ປ່ຽນແປງແຕກຕ່າງຈາກຂໍ້ມູນການຜະລິດ, ທ່ານສາມາດໄດ້ຮັບຄວາມລົ້ມເຫຼວທີ່ບໍ່ກົງກັນຂອງການຝຶກອົບຮົມ/ການບໍລິການທີ່ເບິ່ງຄືວ່າດີໃນຂະນະອອບລາຍ ແຕ່ລົ້ມເຫຼວຢ່າງງຽບໆໃນຂະນະອອນລາຍ. ທໍ່ສົ່ງການປະມວນຜົນກ່ອນທີ່ເຂັ້ມແຂງຍັງຊ່ວຍຫຼຸດຜ່ອນສຽງລົບກວນ, ປັບປຸງຄວາມໝັ້ນຄົງຂອງການຮຽນຮູ້, ແລະ ເລັ່ງການເຮັດຊ້ຳເພາະວ່າທ່ານບໍ່ໄດ້ແກ້ໄຂບັນຫາ spaghetti ຂອງປື້ມບັນທຶກ.
ຂ້ອຍຈະຫຼີກລ່ຽງການຮົ່ວໄຫຼຂອງຂໍ້ມູນໄດ້ແນວໃດໃນເວລາປະມວນຜົນກ່ອນ?
ກົດລະບຽບງ່າຍໆໃຊ້ໄດ້ຜົນ: ສິ່ງໃດກໍ່ຕາມທີ່ມີ ການປັບຕົວ ຕ້ອງປັບຕົວໃສ່ຂໍ້ມູນການຝຶກອົບຮົມເທົ່ານັ້ນ. ນັ້ນລວມມີຕົວປັບຂະໜາດ, ຕົວເຂົ້າລະຫັດ, ແລະຕົວປ່ຽນໂທເຄັນທີ່ຮຽນຮູ້ພາລາມິເຕີເຊັ່ນ: ຄ່າສະເລ່ຍ, ແຜນທີ່ໝວດໝູ່, ຫຼື ຄຳສັບ. ທ່ານແຍກອອກກ່ອນ, ປັບຕົວໃສ່ການແຍກການຝຶກອົບຮົມ, ຈາກນັ້ນປ່ຽນການກວດສອບຄວາມຖືກຕ້ອງ/ການທົດສອບໂດຍໃຊ້ຕົວປ່ຽນທີ່ປັບຕົວແລ້ວ. ການຮົ່ວໄຫຼສາມາດເຮັດໃຫ້ການກວດສອບເບິ່ງຄືວ່າດີ "ຢ່າງມະຫັດສະຈັນ" ແລະຈາກນັ້ນກໍ່ລົ້ມລົງໃນການນຳໃຊ້ໃນການຜະລິດ.
ຂັ້ນຕອນການປະມວນຜົນກ່ອນການປະມວນຜົນທີ່ພົບເລື້ອຍທີ່ສຸດສຳລັບຂໍ້ມູນຕາຕະລາງແມ່ນຫຍັງ?
ສຳລັບຂໍ້ມູນຕາຕະລາງ, pipeline ປົກກະຕິປະກອບມີການທຳຄວາມສະອາດ ແລະ ການກວດສອບຄວາມຖືກຕ້ອງ (ປະເພດ, ຂອບເຂດ, ຄ່າທີ່ຂາດຫາຍໄປ), ການເຂົ້າລະຫັດແບບໝວດໝູ່ (ໜຶ່ງຮ້ອນ ຫຼື ລຳດັບ), ແລະ ການຂະຫຍາຍຕົວເລກ (ມາດຕະຖານ ຫຼື ຕໍ່າສຸດ-ສູງສຸດ). pipeline ຫຼາຍອັນເພີ່ມວິສະວະກຳຄຸນສົມບັດທີ່ຂັບເຄື່ອນດ້ວຍໂດເມນ ເຊັ່ນ: ອັດຕາສ່ວນ, ໜ້າຕ່າງມ້ວນ, ຫຼື ການນັບ. ນິໄສທີ່ໃຊ້ໄດ້ຈິງແມ່ນການກຳນົດກຸ່ມຖັນຢ່າງຊັດເຈນ (ຕົວເລກ vs ໝວດໝູ່ vs ຕົວລະບຸ) ເພື່ອໃຫ້ການຫັນປ່ຽນຂອງທ່ານຄົງທີ່.
ການປະມວນຜົນລ່ວງໜ້າເຮັດວຽກແນວໃດສຳລັບຮູບແບບຂໍ້ຄວາມ?
ການປະມວນຜົນຂໍ້ຄວາມກ່ອນໂດຍທົ່ວໄປໝາຍເຖິງການເຮັດໃຫ້ໂທເຄັນເປັນໂທເຄັນ/ຄຳຍ່ອຍ, ການປ່ຽນພວກມັນເປັນ ID ການປ້ອນຂໍ້ມູນ, ແລະ ການຈັດການ padding/truncation ສຳລັບການ batching. ຂະບວນການເຮັດວຽກຂອງ transformer ຫຼາຍຢ່າງຍັງສ້າງໜ້າກາກຄວາມສົນໃຈຄຽງຄູ່ກັບ ID. ວິທີການທົ່ວໄປແມ່ນການໃຊ້ການຕັ້ງຄ່າ tokenizer ທີ່ຄາດໄວ້ຂອງໂມເດວແທນທີ່ຈະປັບປຸງ, ເພາະວ່າຄວາມແຕກຕ່າງເລັກນ້ອຍໃນການຕັ້ງຄ່າ tokenizer ສາມາດນຳໄປສູ່ຜົນໄດ້ຮັບ "ມັນຝຶກອົບຮົມແຕ່ມັນປະພຶດຕົວທີ່ຄາດເດົາບໍ່ໄດ້".
ມີຫຍັງແຕກຕ່າງກ່ຽວກັບການປະມວນຜົນຮູບພາບລ່ວງໜ້າສຳລັບການຮຽນຮູ້ຂອງເຄື່ອງຈັກ?
ການປະມວນຜົນຮູບພາບກ່ອນໂດຍປົກກະຕິແລ້ວຈະຮັບປະກັນຮູບຮ່າງ ແລະ ການຈັດການພິກເຊວທີ່ສອດຄ່ອງກັນ: ການປັບຂະໜາດ/ການຕັດ, ການເຮັດໃຫ້ເປັນປົກກະຕິ, ແລະ ການແບ່ງແຍກທີ່ຊັດເຈນລະຫວ່າງການຫັນປ່ຽນແບບກຳນົດ ແລະ ແບບສຸ່ມ. ສຳລັບການປະເມີນຜົນ, ການຫັນປ່ຽນຄວນຈະເປັນແບບກຳນົດເພື່ອໃຫ້ຕົວຊີ້ວັດສາມາດປຽບທຽບກັນໄດ້. ສຳລັບການຝຶກອົບຮົມ, ການເສີມແບບສຸ່ມ (ເຊັ່ນ: ການຕັດແບບສຸ່ມ) ສາມາດປັບປຸງຄວາມທົນທານໄດ້, ແຕ່ການສຸ່ມຕ້ອງໄດ້ຮັບການກຳນົດຂອບເຂດໃຫ້ກັບການແບ່ງການຝຶກອົບຮົມໂດຍເຈດຕະນາ, ບໍ່ຄວນປະໄວ້ໂດຍບັງເອີນໃນລະຫວ່າງການປະເມີນຜົນ.
ສິ່ງໃດທີ່ເຮັດໃຫ້ທໍ່ສົ່ງກ່ອນການປຸງແຕ່ງ "ດີ" ແທນທີ່ຈະແຕກຫັກງ່າຍ?
ທໍ່ສົ່ງຂໍ້ມູນການປະມວນຜົນ AI ທີ່ດີແມ່ນສາມາດຜະລິດຊ້ຳໄດ້, ປອດໄພຕໍ່ການຮົ່ວໄຫຼ, ແລະສາມາດສັງເກດເຫັນໄດ້. ສາມາດຜະລິດຊ້ຳໄດ້ໝາຍຄວາມວ່າອິນພຸດດຽວກັນຈະຜະລິດຜົນຜະລິດດຽວກັນ ເວັ້ນເສຍແຕ່ວ່າການສຸ່ມແມ່ນການເພີ່ມໂດຍເຈດຕະນາ. ປອດໄພຕໍ່ການຮົ່ວໄຫຼໝາຍຄວາມວ່າຂັ້ນຕອນການພໍດີບໍ່ເຄີຍແຕະຕ້ອງການກວດສອບ/ການທົດສອບ. ສາມາດສັງເກດເຫັນໄດ້ໝາຍຄວາມວ່າທ່ານສາມາດກວດສອບສະຖິຕິເຊັ່ນ: ການຫາຍສາບສູນ, ການນັບໝວດໝູ່, ແລະ ການແຈກຢາຍຄຸນສົມບັດ ດັ່ງນັ້ນການດີບັກແມ່ນອີງໃສ່ຫຼັກຖານ, ບໍ່ແມ່ນຄວາມຮູ້ສຶກພາຍໃນ. ທໍ່ສົ່ງຂໍ້ມູນຈະເອົາຊະນະລຳດັບປື້ມບັນທຶກ ad-hoc ທຸກໆຄັ້ງ.
ຂ້ອຍຈະເຮັດໃຫ້ການຝຶກອົບຮົມ ແລະ ການປະມວນຜົນກ່ອນການອະນຸມານມີຄວາມສອດຄ່ອງກັນໄດ້ແນວໃດ?
ສິ່ງສຳຄັນແມ່ນການນຳໃຊ້ສິ່ງປະດິດທີ່ຮຽນຮູ້ມາຄືກັນຄືນໃໝ່ໃນເວລາອະນຸມານ: ພາລາມິເຕີ scaler, ການສ້າງແຜນທີ່ encoder, ແລະ ການຕັ້ງຄ່າ tokenizer. ທ່ານຍັງຕ້ອງການສັນຍາການປ້ອນຂໍ້ມູນ (ຖັນ, ປະເພດ, ແລະ ຊ່ວງທີ່ຄາດໄວ້) ເພື່ອໃຫ້ຂໍ້ມູນການຜະລິດບໍ່ສາມາດລອຍໄປສູ່ຮູບຮ່າງທີ່ບໍ່ຖືກຕ້ອງໄດ້ຢ່າງງຽບໆ. ຄວາມສອດຄ່ອງບໍ່ພຽງແຕ່ "ເຮັດຂັ້ນຕອນດຽວກັນ" - ມັນແມ່ນ "ເຮັດຂັ້ນຕອນດຽວກັນກັບພາລາມິເຕີ ແລະ ການສ້າງແຜນທີ່ທີ່ເໝາະສົມຄືກັນ."
ຂ້ອຍຈະຕິດຕາມກວດກາບັນຫາການປະມວນຜົນກ່ອນການໃຊ້ງານ ເຊັ່ນ: ການເລື່ອນ ແລະ ການອຽງຕາມການເວລາໄດ້ແນວໃດ?
ເຖິງແມ່ນວ່າຈະມີທໍ່ສົ່ງທີ່ແຂງແກ່ນ, ຂໍ້ມູນການຜະລິດກໍ່ປ່ຽນແປງ. ວິທີການທົ່ວໄປແມ່ນການຕິດຕາມກວດກາການປ່ຽນແປງການແຈກຢາຍຄຸນສົມບັດ ແລະ ແຈ້ງເຕືອນກ່ຽວກັບຄວາມອຽງຂອງການຝຶກອົບຮົມ (ການຜະລິດແຕກຕ່າງຈາກການຝຶກອົບຮົມ) ແລະ ການປ່ຽນແປງຂອງການອະນຸມານ (ການປ່ຽນແປງຂອງການຜະລິດຕາມການເວລາ). ການຕິດຕາມກວດກາສາມາດເປັນນ້ຳໜັກເບົາ (ການກວດສອບການແຈກຢາຍພື້ນຖານ) ຫຼື ການຈັດການ (ເຊັ່ນ: ການຕິດຕາມກວດກາແບບຈຳລອງ Vertex AI). ເປົ້າໝາຍແມ່ນເພື່ອຕິດຕາມການປ່ຽນແປງການປ້ອນຂໍ້ມູນແຕ່ຫົວທີ - ກ່ອນທີ່ມັນຈະຄ່ອຍໆທຳລາຍປະສິດທິພາບຂອງແບບຈຳລອງ.
ເອກະສານອ້າງອີງ
[1] scikit-learn API:
sklearn.preprocessing (ຕົວເຂົ້າລະຫັດ, ຕົວຂະຫຍາຍ, ການປັບໃຫ້ເປັນປົກກະຕິ) [2] scikit-learn: ຂໍ້ຜິດພາດທົ່ວໄປ - ການຮົ່ວໄຫຼຂອງຂໍ້ມູນ ແລະ ວິທີການຫຼີກລ່ຽງມັນ
[3] ເອກະສານ Hugging Face Transformers: Tokenizers (ID ອິນພຸດ, ໜ້າກາກເອົາໃຈໃສ່)
[4] ເອກະສານ PyTorch Torchvision: ການຫັນປ່ຽນ (ປັບຂະໜາດ/ປັບໃຫ້ເປັນປົກກະຕິ + ການຫັນປ່ຽນແບບສຸ່ມ)
[5] ເອກະສານ Google Cloud Vertex AI: ພາບລວມຂອງການຕິດຕາມຮູບແບບ (ຄຸນສົມບັດ skew & drift)