ຄຳຕອບສັ້ນໆ: ໃຫ້ນິຍາມວ່າ "ດີ" ມີລັກສະນະແນວໃດສຳລັບກໍລະນີການນຳໃຊ້ຂອງທ່ານ, ຈາກນັ້ນທົດສອບດ້ວຍຕົວແທນ, ການແຈ້ງເຕືອນທີ່ມີລຸ້ນ ແລະ ກໍລະນີຂອບ. ຈັບຄູ່ຕົວຊີ້ວັດອັດຕະໂນມັດກັບການໃຫ້ຄະແນນແບບມະນຸດ, ຄຽງຄູ່ກັບຄວາມປອດໄພແບບກົງກັນຂ້າມ ແລະ ການກວດສອບການສີດການແຈ້ງເຕືອນ. ຖ້າຂໍ້ຈຳກັດດ້ານຄ່າໃຊ້ຈ່າຍ ຫຼື ຄວາມຊັກຊ້າກາຍເປັນຂໍ້ຜູກມັດ, ໃຫ້ປຽບທຽບຮູບແບບຕາມຄວາມສຳເລັດຂອງໜ້າວຽກຕໍ່ປອນທີ່ໃຊ້ຈ່າຍ ແລະ ເວລາຕອບສະໜອງ p95/p99.
ບົດຮຽນຫຼັກ:
ຄວາມຮັບຜິດຊອບ : ມອບໝາຍເຈົ້າຂອງທີ່ຊັດເຈນ, ເກັບຮັກສາບັນທຶກເວີຊັນ, ແລະ ດຳເນີນການປະເມີນຄືນໃໝ່ຫຼັງຈາກການປ່ຽນແປງການກະຕຸ້ນເຕືອນ ຫຼື ຮູບແບບໃດໆ.
ຄວາມໂປ່ງໃສ : ຂຽນເງື່ອນໄຂຄວາມສຳເລັດ, ຂໍ້ຈຳກັດ ແລະ ຄ່າໃຊ້ຈ່າຍໃນຄວາມລົ້ມເຫຼວກ່ອນທີ່ທ່ານຈະເລີ່ມເກັບກຳຄະແນນ.
ການກວດສອບ : ຮັກສາຊຸດການທົດສອບທີ່ເຮັດຊ້ຳໄດ້, ຊຸດຂໍ້ມູນທີ່ມີປ້າຍຊື່, ແລະ ຕົວຊີ້ວັດຄວາມໜ่วงເວລາ p95/p99 ທີ່ຕິດຕາມ.
ຄວາມສາມາດໃນການແຂ່ງຂັນ : ໃຊ້ມາດຕະຖານການທົບທວນຄືນຂອງມະນຸດ ແລະ ເສັ້ນທາງການອຸທອນທີ່ໄດ້ກຳນົດໄວ້ສຳລັບຜົນຜະລິດທີ່ມີການໂຕ້ແຍ້ງ.
ການຕໍ່ຕ້ານການໃຊ້ໃນທາງທີ່ຜິດ : ການສັກຂໍ້ມູນແບບກະຕຸ້ນໃຫ້ທີມແດງ, ຫົວຂໍ້ທີ່ລະອຽດອ່ອນ, ແລະ ການປະຕິເສດທີ່ຈະປົກປ້ອງຜູ້ໃຊ້ຫຼາຍເກີນໄປ.
ຖ້າທ່ານເລືອກຮູບແບບສຳລັບຜະລິດຕະພັນ, ໂຄງການຄົ້ນຄວ້າ, ຫຼືແມ່ນແຕ່ເຄື່ອງມືພາຍໃນ, ທ່ານບໍ່ສາມາດພຽງແຕ່ເວົ້າວ່າ "ມັນຟັງແລ້ວສະຫຼາດ" ແລະສົ່ງມັນໄປ (ເບິ່ງ ຄູ່ມືການປະເມີນຜົນຂອງ OpenAI ແລະ NIST AI RMF 1.0 ). ນັ້ນແມ່ນວິທີທີ່ທ່ານຈົບລົງດ້ວຍ chatbot ທີ່ອະທິບາຍຢ່າງໝັ້ນໃຈກ່ຽວກັບວິທີການອຸ່ນສ້ອມດ້ວຍໄມໂຄເວຟ. 😬

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:
🔗 ອະນາຄົດຂອງ AI: ທ່າອ່ຽງທີ່ຈະສ້າງຮູບແບບທົດສະວັດຕໍ່ໄປ ນະ
ວັດຕະກໍາທີ່ສໍາຄັນ, ຜົນກະທົບຂອງວຽກງານ, ແລະ ຈັນຍາບັນທີ່ຄວນຕິດຕາມໃນອະນາຄົດ.
🔗 ຮູບແບບພື້ນຖານໃນ AI ທີ່ມີການສ້າງແບບຈຳລອງໄດ້ອະທິບາຍໄວ້ສຳລັບຜູ້ເລີ່ມຕົ້ນ
ຮຽນຮູ້ວ່າພວກເຂົາແມ່ນຫຍັງ, ໄດ້ຮັບການຝຶກອົບຮົມແນວໃດ, ແລະເປັນຫຍັງພວກເຂົາຈຶ່ງມີຄວາມສຳຄັນ.
🔗 ວິທີທີ່ AI ສົ່ງຜົນກະທົບຕໍ່ສິ່ງແວດລ້ອມ ແລະ ການໃຊ້ພະລັງງານ
ສຳຫຼວດການປ່ອຍອາຍພິດ, ຄວາມຕ້ອງການໄຟຟ້າ ແລະ ວິທີການຫຼຸດຜ່ອນຜົນກະທົບຈາກສິ່ງແວດລ້ອມ.
🔗 ວິທີການຍົກລະດັບ AI ເຮັດວຽກເພື່ອໃຫ້ຮູບພາບຄົມຊັດຂຶ້ນໃນມື້ນີ້
ເບິ່ງວ່າຮູບແບບເພີ່ມລາຍລະອຽດ, ກຳຈັດສິ່ງລົບກວນ ແລະ ຂະຫຍາຍຢ່າງສະອາດໄດ້ແນວໃດ.
1) ການນິຍາມຄຳວ່າ “ດີ” (ມັນຂຶ້ນກັບ, ແລະນັ້ນກໍ່ດີ) 🎯
ກ່ອນທີ່ທ່ານຈະດໍາເນີນການປະເມີນຜົນໃດໆ, ຈົ່ງຕັດສິນໃຈວ່າຄວາມສໍາເລັດເປັນແນວໃດ. ຖ້າບໍ່ດັ່ງນັ້ນເຈົ້າຈະວັດແທກທຸກຢ່າງແລະບໍ່ໄດ້ຮຽນຮູ້ຫຍັງເລີຍ. ມັນຄືກັບການເອົາເທບວັດແທກມາຕັດສິນການແຂ່ງຂັນເຄັກ. ແນ່ນອນ, ເຈົ້າຈະໄດ້ຮັບຕົວເລກ, ແຕ່ພວກມັນຈະບໍ່ບອກເຈົ້າຫຼາຍ 😅
ຊີ້ແຈງ:
-
ເປົ້າໝາຍຂອງຜູ້ໃຊ້ : ການສະຫຼຸບ, ການຄົ້ນຫາ, ການຂຽນ, ການຫາເຫດຜົນ, ການສະກັດເອົາຂໍ້ເທັດຈິງ
-
ຄ່າໃຊ້ຈ່າຍໃນຄວາມລົ້ມເຫຼວ : ການແນະນຳໜັງທີ່ບໍ່ຖືກຕ້ອງແມ່ນຕະຫລົກ; ຄຳແນະນຳທາງການແພດທີ່ບໍ່ຖືກຕ້ອງແມ່ນ…ບໍ່ຕະຫລົກ (ການວາງກອບຄວາມສ່ຽງ: NIST AI RMF 1.0 ).
-
ສະພາບແວດລ້ອມໃນເວລາແລ່ນ : ໃນອຸປະກອນ, ໃນຄລາວ, ຢູ່ຫຼັງໄຟວໍ, ໃນສະພາບແວດລ້ອມທີ່ມີການຄວບຄຸມ
-
ຂໍ້ຈຳກັດຫຼັກ : ຄວາມຊັກຊ້າ, ຄ່າໃຊ້ຈ່າຍຕໍ່ການຮ້ອງຂໍ, ຄວາມເປັນສ່ວນຕົວ, ຄວາມສາມາດໃນການອະທິບາຍ, ການສະໜັບສະໜູນຫຼາຍພາສາ, ການຄວບຄຸມສຽງ
ນາງແບບທີ່ "ດີທີ່ສຸດ" ໃນວຽກໜຶ່ງສາມາດເປັນໄພພິບັດໃນອີກວຽກໜຶ່ງໄດ້. ນັ້ນບໍ່ແມ່ນຄວາມຂັດແຍ້ງ, ມັນແມ່ນຄວາມເປັນຈິງ. 🙂
2) ຂອບການປະເມີນຜົນແບບຈຳລອງ AI ທີ່ແຂງແຮງມີລັກສະນະແນວໃດ 🧰
ແມ່ນແລ້ວ, ນີ້ແມ່ນສ່ວນທີ່ຜູ້ຄົນຂ້າມໄປ. ພວກເຂົາເອົາມາດຕະຖານມາໃຊ້, ດໍາເນີນການພຽງຄັ້ງດຽວ, ແລະ ດໍາເນີນການຕໍ່ເນື່ອງ. ຂອບການປະເມີນຜົນທີ່ແຂງແຮງມີລັກສະນະທີ່ສອດຄ່ອງກັນບາງຢ່າງ (ຕົວຢ່າງເຄື່ອງມືທີ່ໃຊ້ໄດ້ຈິງ: OpenAI Evals / OpenAI evals guide ):
-
ສາມາດເຮັດຊ້ຳໄດ້ - ທ່ານສາມາດແລ່ນມັນອີກຄັ້ງໃນອາທິດໜ້າ ແລະ ໄວ້ວາງໃຈການປຽບທຽບ
-
ຕົວແທນ - ມັນສະທ້ອນໃຫ້ເຫັນເຖິງຜູ້ໃຊ້ ແລະ ໜ້າວຽກຕົວຈິງຂອງທ່ານ (ບໍ່ພຽງແຕ່ເລື່ອງເລັກໆນ້ອຍໆເທົ່ານັ້ນ)
-
ຫຼາຍຊັ້ນ - ລວມເອົາຕົວຊີ້ວັດອັດຕະໂນມັດ + ການທົບທວນຂອງມະນຸດ + ການທົດສອບແບບກົງກັນຂ້າມ
-
ສາມາດປະຕິບັດໄດ້ - ຜົນໄດ້ຮັບບອກທ່ານວ່າຕ້ອງແກ້ໄຂຫຍັງ, ບໍ່ພຽງແຕ່ "ຄະແນນຫຼຸດລົງ"
-
ທົນທານຕໍ່ການແຊກແຊງ - ຫຼີກລ່ຽງການ “ສອນໃຫ້ທັນການທົດສອບ” ຫຼື ການຮົ່ວໄຫຼໂດຍບັງເອີນ
-
ຮັບຮູ້ຄ່າໃຊ້ຈ່າຍ - ການປະເມີນຜົນເອງບໍ່ຄວນເຮັດໃຫ້ທ່ານລົ້ມລະລາຍ (ເວັ້ນເສຍແຕ່ວ່າທ່ານມັກຄວາມເຈັບປວດ)
ຖ້າການປະເມີນຜົນຂອງເຈົ້າບໍ່ສາມາດຢູ່ລອດໄດ້ເມື່ອເພື່ອນຮ່ວມທີມທີ່ສົງໄສເວົ້າວ່າ "ໂອເຄ, ແຕ່ໃຫ້ວາງແຜນເລື່ອງນີ້ກັບການຜະລິດ," ແລ້ວມັນຍັງບໍ່ທັນແລ້ວເທື່ອ. ນັ້ນແມ່ນການກວດສອບຄວາມຮູ້ສຶກ.
3) ວິທີການປະເມີນຮູບແບບ AI ໂດຍເລີ່ມຕົ້ນດ້ວຍຊິ້ນສ່ວນກໍລະນີການນຳໃຊ້ 🍰
ນີ້ແມ່ນເຄັດລັບທີ່ຊ່ວຍປະຢັດເວລາໄດ້ຫຼາຍ: ແບ່ງກໍລະນີການນຳໃຊ້ອອກເປັນສ່ວນໆ .
ແທນທີ່ຈະ "ປະເມີນຮູບແບບ", ໃຫ້ເຮັດ:
-
ຄວາມເຂົ້າໃຈໃນເຈດຕະນາ (ມັນໄດ້ສິ່ງທີ່ຜູ້ໃຊ້ຕ້ອງການບໍ່)
-
ການດຶງຂໍ້ມູນ ຫຼື ການນຳໃຊ້ບໍລິບົດ (ມັນໃຊ້ຂໍ້ມູນທີ່ໃຫ້ມາຢ່າງຖືກຕ້ອງບໍ່)
-
ວຽກງານການຫາເຫດຜົນ / ຫຼາຍຂັ້ນຕອນ (ມັນຍັງຄົງສອດຄ່ອງກັນໃນແຕ່ລະຂັ້ນຕອນບໍ)
-
ການຈັດຮູບແບບ ແລະ ໂຄງສ້າງ (ມັນປະຕິບັດຕາມຄຳແນະນຳບໍ່)
-
ຄວາມປອດໄພ ແລະ ການຈັດວາງນະໂຍບາຍ (ມັນຫຼີກລ່ຽງເນື້ອຫາທີ່ບໍ່ປອດໄພບໍ; ເບິ່ງ NIST AI RMF 1.0 )
-
ນໍ້າສຽງ ແລະ ສຽງຂອງຍີ່ຫໍ້ (ມັນຟັງຄືກັບທີ່ເຈົ້າຕ້ອງການໃຫ້ມັນຟັງບໍ)
ສິ່ງນີ້ເຮັດໃຫ້ “ວິທີການປະເມີນຮູບແບບ AI” ຮູ້ສຶກບໍ່ຄືກັບການສອບເສັງໃຫຍ່ອັນດຽວ ແຕ່ຄືກັບຊຸດແບບສອບຖາມທີ່ມີເປົ້າໝາຍຫຼາຍກວ່າ. ແບບສອບຖາມແມ່ນໜ້າລຳຄານ, ແຕ່ສາມາດຈັດການໄດ້. 😄
4) ພື້ນຖານການປະເມີນຜົນແບບອອບໄລນ໌ - ຊຸດການທົດສອບ, ປ້າຍຊື່, ແລະລາຍລະອຽດທີ່ບໍ່ໜ້າສົນໃຈທີ່ສຳຄັນ 📦
ການປະເມີນຜົນແບບອອບໄລນ໌ແມ່ນບ່ອນທີ່ທ່ານເຮັດການທົດສອບທີ່ຄວບຄຸມກ່ອນທີ່ຜູ້ໃຊ້ຈະແຕະຕ້ອງສິ່ງໃດສິ່ງໜຶ່ງ (ຮູບແບບການເຮັດວຽກ: OpenAI Evals ).
ສ້າງ ຫຼື ເກັບກຳຊຸດທົດສອບທີ່ເປັນຂອງເຈົ້າຢ່າງແທ້ຈິງ
ຊຸດທົດສອບທີ່ດີມັກຈະປະກອບມີ:
-
ຕົວຢ່າງທອງຄຳ : ຜົນຜະລິດທີ່ເໝາະສົມທີ່ທ່ານພູມໃຈທີ່ຈະສົ່ງໄປໃຫ້
-
ກໍລະນີຂອບ : ການແຈ້ງເຕືອນທີ່ບໍ່ຊັດເຈນ, ການປ້ອນຂໍ້ມູນທີ່ບໍ່ເປັນລະບຽບ, ການຈັດຮູບແບບທີ່ບໍ່ຄາດຄິດ
-
ການກວດສອບຮູບແບບຄວາມລົ້ມເຫຼວ : ການກະຕຸ້ນເຕືອນທີ່ລໍ້ລວງໃຫ້ເກີດພາບຫຼອນ ຫຼື ການຕອບກັບທີ່ບໍ່ປອດໄພ (ກອບການທົດສອບຄວາມສ່ຽງ: NIST AI RMF 1.0 )
-
ການຄຸ້ມຄອງຄວາມຫຼາກຫຼາຍ : ລະດັບທັກສະຂອງຜູ້ໃຊ້ທີ່ແຕກຕ່າງກັນ, ພາສາທ້ອງຖິ່ນ, ພາສາ, ໂດເມນຕ່າງໆ
ຖ້າທ່ານທົດສອບພຽງແຕ່ໃນການກະຕຸ້ນ "ສະອາດ", ຮູບແບບຈະເບິ່ງໜ້າອັດສະຈັນ. ຫຼັງຈາກນັ້ນ, ຜູ້ໃຊ້ຂອງທ່ານຈະປາກົດດ້ວຍການພິມຜິດ, ເຄິ່ງປະໂຫຍກ, ແລະພະລັງງານຄລິກທີ່ຮຸນແຮງ. ຍິນດີຕ້ອນຮັບສູ່ຄວາມເປັນຈິງ.
ຕົວເລືອກການຕິດສະຫຼາກ (ຫຼື: ລະດັບຄວາມເຂັ້ມງວດ)
ທ່ານສາມາດຕິດປ້າຍຜົນຜະລິດເປັນ:
-
ໄບນາຣີ : ຜ່ານ/ບໍ່ຜ່ານ (ໄວ, ຮຸນແຮງ)
-
ລຳດັບທີ : ຄະແນນຄຸນນະພາບ 1-5 (ລະອຽດອ່ອນ, ອັດຕະວິໄນ)
-
ຫຼາຍຄຸນລັກສະນະ : ຄວາມຖືກຕ້ອງ, ຄວາມຄົບຖ້ວນ, ນ້ຳສຽງ, ການໃຊ້ການອ້າງອີງ, ແລະອື່ນໆ (ດີທີ່ສຸດ, ຊ້າກວ່າ)
ຄຸນລັກສະນະຫຼາຍຢ່າງແມ່ນຈຸດທີ່ດີທີ່ສຸດສຳລັບຫຼາຍໆທີມ. ມັນຄືກັບການຊີມລົດຊາດອາຫານ ແລະ ຕັດສິນຄວາມເຄັມແຍກຕ່າງຫາກຈາກໂຄງສ້າງ. ຖ້າບໍ່ດັ່ງນັ້ນ ເຈົ້າພຽງແຕ່ເວົ້າວ່າ "ດີ" ແລະ ຍົກບ່າ.
5) ຕົວຊີ້ວັດທີ່ບໍ່ຕົວະ - ແລະ ຕົວຊີ້ວັດທີ່ຕົວະໄດ້ 📊😅
ຕົວຊີ້ວັດມີຄຸນຄ່າ... ແຕ່ພວກມັນຍັງສາມາດເປັນລະເບີດກາວໄດ້ອີກດ້ວຍ. ເຫຼື້ອມເປັນເງົາ, ຢູ່ທົ່ວທຸກແຫ່ງ, ແລະຍາກທີ່ຈະເຮັດຄວາມສະອາດ.
ຄອບຄົວແມັດຕຣິກທົ່ວໄປ
-
ຄວາມແມ່ນຍຳ / ການຈັບຄູ່ແບບແນ່ນອນ : ດີເລີດສຳລັບການສະກັດ, ການຈັດປະເພດ, ວຽກງານທີ່ມີໂຄງສ້າງ
-
F1 / ຄວາມແມ່ນຍຳ / ການລະນຶກເຖິງ : ສະດວກເມື່ອພາດບາງສິ່ງບາງຢ່າງແມ່ນຮ້າຍແຮງກວ່າສຽງລົບກວນພິເສດ (ຄຳນິຍາມ: scikit-learn precision/recall/F-score )
-
ການຊ້ອນກັນແບບ BLEU / ROUGE : ສາມາດນຳໃຊ້ໄດ້ສຳລັບວຽກງານທີ່ຄ້າຍຄືກັບການສະຫຼຸບ, ເຊິ່ງມັກຈະເຮັດໃຫ້ເຂົ້າໃຈຜິດ (ຕົວຊີ້ວັດຕົ້ນສະບັບ: BLEU ແລະ ROUGE )
-
ການຝັງຄວາມຄ້າຍຄືກັນ : ເປັນປະໂຫຍດສຳລັບການຈັບຄູ່ຄວາມໝາຍ, ສາມາດໃຫ້ລາງວັນຄຳຕອບທີ່ຜິດແຕ່ຄ້າຍຄືກັນ
-
ອັດຕາຄວາມສຳເລັດຂອງໜ້າວຽກ : “ຜູ້ໃຊ້ໄດ້ຮັບສິ່ງທີ່ເຂົາເຈົ້າຕ້ອງການບໍ” ມາດຕະຖານຄຳເມື່ອຖືກກຳນົດໄວ້ຢ່າງດີ
-
ການປະຕິບັດຕາມຂໍ້ຈຳກັດ : ປະຕິບັດຕາມຮູບແບບ, ຄວາມຍາວ, ຄວາມຖືກຕ້ອງຂອງ JSON, ການປະຕິບັດຕາມໂຄງຮ່າງ
ຈຸດສຳຄັນ
ຖ້າໜ້າວຽກຂອງເຈົ້າເປັນວຽກເປີດກວ້າງ (ການຂຽນ, ການຫາເຫດຜົນ, ການສົນທະນາສະໜັບສະໜູນ), ຕົວຊີ້ວັດຕົວເລກດຽວອາດຈະ... ສັ່ນຄອນ. ບໍ່ແມ່ນວ່າບໍ່ມີປະໂຫຍດ, ພຽງແຕ່ສັ່ນຄອນ. ການວັດແທກຄວາມຄິດສ້າງສັນດ້ວຍໄມ້ບັນທັດແມ່ນເປັນໄປໄດ້, ແຕ່ເຈົ້າຈະຮູ້ສຶກໂງ່ເມື່ອເຮັດມັນ. (ນອກຈາກນີ້, ເຈົ້າອາດຈະແນມຕາອອກ.)
ສະນັ້ນ: ໃຊ້ຕົວຊີ້ວັດຕ່າງໆ, ແຕ່ໃຫ້ຍຶດຕິດກັບການທົບທວນຂອງມະນຸດ ແລະ ຜົນໄດ້ຮັບຂອງໜ້າວຽກຕົວຈິງ (ຕົວຢ່າງໜຶ່ງຂອງການສົນທະນາການປະເມີນຜົນໂດຍອີງໃສ່ LLM + ຂໍ້ຄວນລະວັງ: G-Eval ).
6) ຕາຕະລາງປຽບທຽບ - ຕົວເລືອກການປະເມີນຜົນອັນດັບຕົ້ນໆ (ມີຄວາມແປກປະຫຼາດ, ເພາະວ່າຊີວິດມີຄວາມແປກປະຫຼາດ) 🧾✨
ນີ້ແມ່ນເມນູວິທີການປະເມີນຜົນທີ່ໃຊ້ໄດ້ຈິງ. ປະສົມປະສານ. ທີມສ່ວນໃຫຍ່ເຮັດແບບນັ້ນ.
| ເຄື່ອງມື / ວິທີການ | ຜູ້ຊົມ | ລາຄາ | ເປັນຫຍັງມັນຈຶ່ງໃຊ້ໄດ້ |
|---|---|---|---|
| ຊຸດການທົດສອບການກະຕຸ້ນເຕືອນທີ່ສ້າງດ້ວຍມື | ຜະລິດຕະພັນ + ວິສະວະກຳ | $ | ເປົ້າໝາຍຫຼາຍ, ຈັບການຖົດຖອຍໄດ້ໄວ - ແຕ່ເຈົ້າຕ້ອງຮັກສາມັນໄວ້ຕະຫຼອດໄປ 🙃 (ເຄື່ອງມືເລີ່ມຕົ້ນ: OpenAI Evals ) |
| ແຜງໃຫ້ຄະແນນແບບສອບຖາມຂອງມະນຸດ | ທີມທີ່ສາມາດຍົກເວັ້ນຜູ້ທົບທວນໄດ້ | $$ | ເໝາະສົມທີ່ສຸດສຳລັບນ້ຳສຽງ, ຄວາມແຕກຕ່າງເລັກນ້ອຍ, “ມະນຸດຈະຍອມຮັບສິ່ງນີ້ບໍ”, ຄວາມວຸ້ນວາຍເລັກນ້ອຍຂຶ້ນກັບຜູ້ທົບທວນ |
| ປະລິນຍາຕີສາຂາວິຊາບໍລິຫານທຸລະກິດ (ພ້ອມດ້ວຍຄະແນນ) | ການວົນຊ້ຳແບບໄວ | $-$$ | ໄວ ແລະ ສາມາດຂະຫຍາຍໄດ້, ແຕ່ສາມາດສືບທອດອະຄະຕິ ແລະ ບາງຄັ້ງກໍ່ໃຫ້ຄະແນນຄວາມຮູ້ສຶກບໍ່ແມ່ນຂໍ້ເທັດຈິງ (ການຄົ້ນຄວ້າ + ບັນຫາອະຄະຕິທີ່ຮູ້ຈັກ: G-Eval ) |
| ການແລ່ນສະປຣິນແບບທີມແດງທີ່ແຂ່ງຂັນກັນ | ຄວາມປອດໄພ + ການປະຕິບັດຕາມ | $$ | ພົບຮູບແບບຄວາມລົ້ມເຫຼວທີ່ເຜັດຮ້ອນ, ໂດຍສະເພາະການສັກຢາແບບໄວ - ຮູ້ສຶກຄືກັບການທົດສອບຄວາມຄຽດຢູ່ໃນຫ້ອງອອກກຳລັງກາຍ (ພາບລວມຂອງໄພຂົ່ມຂູ່: OWASP LLM01 ການສັກຢາແບບໄວ / OWASP Top 10 ສຳລັບແອັບ LLM ) |
| ການສ້າງການທົດສອບສັງເຄາະ | ທີມງານແສງສະຫວ່າງຂໍ້ມູນ | $ | ການຄຸ້ມຄອງທີ່ດີຫຼາຍ, ແຕ່ການກະຕຸ້ນສັງເຄາະອາດຈະເປັນລະບຽບຮຽບຮ້ອຍເກີນໄປ, ສຸພາບເກີນໄປ... ຜູ້ໃຊ້ບໍ່ສຸພາບ |
| ການທົດສອບ A/B ກັບຜູ້ໃຊ້ຕົວຈິງ | ຜະລິດຕະພັນສຳລັບຜູ້ໃຫຍ່ | $$$ | ສັນຍານທີ່ຊັດເຈນທີ່ສຸດ - ຍັງເປັນສັນຍານທີ່ເຄັ່ງຕຶງທາງດ້ານອາລົມຫຼາຍທີ່ສຸດເມື່ອຕົວຊີ້ວັດມີການປ່ຽນແປງ (ຄູ່ມືປະຕິບັດແບບຄລາສສິກ: Kohavi et al., “ການທົດລອງທີ່ຄວບຄຸມໃນເວັບ” ) |
| ການປະເມີນໂດຍອີງໃສ່ການດຶງຂໍ້ມູນຄືນ (ການກວດສອບ RAG) | ແອັບຄົ້ນຫາ + ການກວດສອບຄຸນນະພາບ | $$ | ມາດຕະການ “ໃຊ້ສະພາບການຢ່າງຖືກຕ້ອງ,” ຫຼຸດຜ່ອນອັດຕາເງິນເຟີ້ຂອງຄະແນນການຫຼອນ (ພາບລວມການປະເມີນ RAG: ການປະເມີນຜົນ RAG: ການສຳຫຼວດ ) |
| ການຕິດຕາມກວດກາ + ການກວດຈັບການເລື່ອນລອຍ | ລະບົບການຜະລິດ | $$-$$$ | ຮັບຮູ້ເຖິງຄວາມເສື່ອມໂຊມຕາມການເວລາ - ບໍ່ມີສີສັນຈົນກວ່າມື້ທີ່ມັນຈະຊ່ວຍທ່ານໄດ້ 😬 (ພາບລວມຂອງການດຣິຟ: ການສຳຫຼວດແນວຄວາມຄິດຂອງການດຣິຟ (PMC) ) |
ສັງເກດວ່າລາຄາແມ່ນຕໍ່າໂດຍເຈດຕະນາ. ພວກມັນຂຶ້ນກັບຂະໜາດ, ເຄື່ອງມື, ແລະຈຳນວນການປະຊຸມທີ່ເຈົ້າສ້າງໂດຍບັງເອີນ.
7) ການປະເມີນມະນຸດ - ອາວຸດລັບທີ່ຜູ້ຄົນຂາດທຶນ 👀🧑⚖️
ຖ້າທ່ານເຮັດການປະເມີນຜົນແບບອັດຕະໂນມັດ, ທ່ານຈະພາດ:
-
ນ້ຳສຽງບໍ່ກົງກັນ (“ເປັນຫຍັງມັນຈຶ່ງເຍາະເຍີ້ຍຫຼາຍ”)
-
ຂໍ້ຜິດພາດຕົວຈິງທີ່ລະອຽດອ່ອນທີ່ເບິ່ງຄືວ່າຄ່ອງແຄ້ວ
-
ຜົນສະທ້ອນທີ່ເປັນອັນຕະລາຍ, ແບບແຜນ, ຫຼື ການໃຊ້ສຳນວນທີ່ງຸ່ມງ່າມ (ການວາງກອບຄວາມສ່ຽງ + ອະຄະຕິ: NIST AI RMF 1.0 )
-
ຄວາມລົ້ມເຫຼວທີ່ປະຕິບັດຕາມຄຳແນະນຳທີ່ຍັງຟັງຄືວ່າ "ສະຫຼາດ"
ເຮັດໃຫ້ rubrics ເປັນຮູບປະທຳ (ຫຼື ຜູ້ທົບທວນຈະເຮັດແບບອິດສະຫຼະ)
ຄະແນນທີ່ບໍ່ດີ: “ຄວາມເປັນປະໂຫຍດ”
ຄະແນນທີ່ດີກວ່າ:
-
ຄວາມຖືກຕ້ອງ : ຖືກຕ້ອງຕາມຄວາມເປັນຈິງໂດຍພິຈາລະນາເຖິງການກະຕຸ້ນ + ສະພາບການ
-
ຄວາມຄົບຖ້ວນ : ກວມເອົາຈຸດທີ່ຕ້ອງການໂດຍບໍ່ຕ້ອງເວົ້າຫຼາຍ
-
ຄວາມຊັດເຈນ : ອ່ານງ່າຍ, ມີໂຄງສ້າງ, ມີຄວາມສັບສົນໜ້ອຍທີ່ສຸດ
-
ນະໂຍບາຍ / ຄວາມປອດໄພ : ຫຼີກລ່ຽງເນື້ອຫາທີ່ຖືກຈຳກັດ, ຈັດການກັບການປະຕິເສດໄດ້ດີ (ກອບຄວາມປອດໄພ: NIST AI RMF 1.0 )
-
ແບບ : ກົງກັບສຽງ, ໂທນສຽງ, ລະດັບການອ່ານ
-
ຄວາມຊື່ສັດ : ບໍ່ໄດ້ປະດິດແຫຼ່ງຂໍ້ມູນ ຫຼື ການອ້າງທີ່ບໍ່ໄດ້ຮັບການສະໜັບສະໜູນ
ນອກຈາກນັ້ນ, ໃຫ້ກວດສອບລະຫວ່າງຜູ້ໃຫ້ຄະແນນບາງຄັ້ງຄາວ. ຖ້າຜູ້ໃຫ້ຄະແນນສອງຄົນບໍ່ເຫັນດີນຳກັນຢູ່ເລື້ອຍໆ, ມັນບໍ່ແມ່ນ "ບັນຫາຄົນ", ແຕ່ມັນເປັນບັນຫາຂອງຄະແນນ. ໂດຍປົກກະຕິແລ້ວ (ພື້ນຖານຄວາມໜ້າເຊື່ອຖືລະຫວ່າງຜູ້ໃຫ້ຄະແນນ: McHugh ກ່ຽວກັບ kappa ຂອງ Cohen ).
8) ວິທີການປະເມີນຮູບແບບ AI ເພື່ອຄວາມປອດໄພ, ຄວາມທົນທານ, ແລະ “ໂອ້ຍ, ຜູ້ໃຊ້” 🧯🧪
ນີ້ແມ່ນສ່ວນທີ່ເຈົ້າເຮັດກ່ອນການເປີດຕົວ - ແລະຫຼັງຈາກນັ້ນສືບຕໍ່ເຮັດ, ເພາະວ່າອິນເຕີເນັດບໍ່ເຄີຍນອນຫຼັບ.
ການທົດສອບຄວາມແຂງແຮງລວມມີ
-
ການພິມຜິດ, ພາສາສະແລງ, ໄວຍາກອນທີ່ບໍ່ດີ
-
ຄຳສັ່ງທີ່ຍາວຫຼາຍ ແລະ ຄຳສັ່ງທີ່ສັ້ນຫຼາຍ
-
ຄຳແນະນຳທີ່ຂັດແຍ້ງກັນ (“ໃຫ້ສັ້ນແຕ່ລວມເອົາທຸກລາຍລະອຽດ”)
-
ການສົນທະນາຫຼາຍຮອບທີ່ຜູ້ໃຊ້ປ່ຽນເປົ້າໝາຍ
-
ຄວາມພະຍາຍາມສີດທັນທີ (“ບໍ່ສົນໃຈກົດລະບຽບກ່ອນໜ້ານີ້…”) (ລາຍລະອຽດໄພຂົ່ມຂູ່: OWASP LLM01 ສີດທັນທີ )
-
ຫົວຂໍ້ທີ່ລະອຽດອ່ອນທີ່ຕ້ອງການການປະຕິເສດຢ່າງລະມັດລະວັງ (ກອບຄວາມສ່ຽງ/ຄວາມປອດໄພ: NIST AI RMF 1.0 )
ການປະເມີນຄວາມປອດໄພບໍ່ພຽງແຕ່ "ມັນປະຕິເສດ" ເທົ່ານັ້ນ
ຮູບແບບທີ່ດີຄວນ:
-
ປະຕິເສດຄຳຮ້ອງຂໍທີ່ບໍ່ປອດໄພຢ່າງຊັດເຈນ ແລະ ສະຫງົບ (ກອບຄຳແນະນຳ: NIST AI RMF 1.0 )
-
ໃຫ້ທາງເລືອກທີ່ປອດໄພກວ່າເມື່ອເໝາະສົມ
-
ຫຼີກລ່ຽງການປະຕິເສດຄຳຖາມທີ່ບໍ່ເປັນອັນຕະລາຍຫຼາຍເກີນໄປ (ຜົນບວກທີ່ບໍ່ຖືກຕ້ອງ)
-
ຈັດການກັບຄຳຮ້ອງຂໍທີ່ບໍ່ຊັດເຈນດ້ວຍຄຳຖາມທີ່ຊັດເຈນ (ເມື່ອໄດ້ຮັບອະນຸຍາດ)
ການປະຕິເສດຫຼາຍເກີນໄປແມ່ນບັນຫາຜະລິດຕະພັນທີ່ແທ້ຈິງ. ຜູ້ໃຊ້ບໍ່ມັກຖືກປະຕິບັດຄືກັບກອບລິນທີ່ໜ້າສົງໄສ. 🧌 (ເຖິງແມ່ນວ່າພວກເຂົາເປັນກອບລິນທີ່ໜ້າສົງໄສກໍຕາມ.)
9) ຄ່າໃຊ້ຈ່າຍ, ຄວາມຊັກຊ້າ, ແລະ ຄວາມເປັນຈິງໃນການດຳເນີນງານ - ການປະເມີນຜົນທີ່ທຸກຄົນລືມ 💸⏱️
ຮູບແບບສາມາດ "ໜ້າອັດສະຈັນ" ແລະຍັງຜິດພາດສຳລັບທ່ານຖ້າມັນຊ້າ, ລາຄາແພງ, ຫຼືບອບບາງໃນການດຳເນີນງານ.
ປະເມີນຜົນ:
-
ການແຈກຢາຍຄວາມຊັກຊ້າ (ບໍ່ພຽງແຕ່ຄ່າສະເລ່ຍ - p95 ແລະ p99 ມີຄວາມສຳຄັນ) (ເປັນຫຍັງເປີເຊັນໄທລ໌ຈຶ່ງມີຄວາມສຳຄັນ: ປື້ມວຽກ Google SRE ກ່ຽວກັບການຕິດຕາມກວດກາ )
-
ຄ່າໃຊ້ຈ່າຍຕໍ່ໜ້າວຽກທີ່ປະສົບຜົນສຳເລັດ (ບໍ່ແມ່ນຄ່າໃຊ້ຈ່າຍຕໍ່ໂທເຄັນແຍກຕ່າງຫາກ)
-
ຄວາມໝັ້ນຄົງພາຍໃຕ້ການໂຫຼດ (ໝົດເວລາ, ຂໍ້ຈຳກັດອັດຕາ, ການເພີ່ມຂຶ້ນຂອງຄວາມໄວທີ່ຜິດປົກກະຕິ)
-
ຄວາມໜ້າເຊື່ອຖືໃນການເອີ້ນເຄື່ອງມື (ຖ້າມັນໃຊ້ຟັງຊັນ, ມັນເຮັດວຽກບໍ່)
-
ແນວໂນ້ມຄວາມຍາວຂອງຜົນຜະລິດ (ບາງຮຸ່ນມີຄວາມຍາວຜິດປົກກະຕິ, ແລະ ຄວາມຍາວຜິດປົກກະຕິມີຄ່າໃຊ້ຈ່າຍ)
ຮຸ່ນທີ່ຮ້າຍກວ່າເລັກນ້ອຍທີ່ໄວກວ່າສອງເທົ່າສາມາດຊະນະໄດ້ໃນການປະຕິບັດຕົວຈິງ. ນັ້ນຟັງຄືວ່າຈະແຈ້ງ, ແຕ່ຄົນເຮົາບໍ່ສົນໃຈມັນ. ຄືກັບການຊື້ລົດກິລາເພື່ອໄປຊື້ເຄື່ອງຢູ່ຮ້ານຂາຍເຄື່ອງ, ແລ້ວຈົ່ມກ່ຽວກັບພື້ນທີ່ກະໂປງຫຼັງລົດ.
10) ຂັ້ນຕອນການເຮັດວຽກແບບ end-to-end ງ່າຍໆທີ່ທ່ານສາມາດຄັດລອກ (ແລະປັບແຕ່ງ) 🔁✅
ນີ້ແມ່ນຂັ້ນຕອນການປະຕິບັດຕົວຈິງສຳລັບ ວິທີການປະເມີນຜົນແບບຈຳລອງ AI ໂດຍບໍ່ຕ້ອງຕົກຢູ່ໃນການທົດລອງທີ່ບໍ່ມີທີ່ສິ້ນສຸດ:
-
ນິຍາມຄວາມສຳເລັດ : ໜ້າວຽກ, ຂໍ້ຈຳກັດ, ຕົ້ນທຶນຄວາມລົ້ມເຫຼວ
-
ສ້າງຊຸດການທົດສອບ “ຫຼັກ” ຂະໜາດນ້ອຍ : ຕົວຢ່າງ 50-200 ຕົວຢ່າງທີ່ສະທ້ອນເຖິງການນຳໃຊ້ຕົວຈິງ
-
ເພີ່ມຊຸດຂອບ ແລະ ຊຸດຕ້ານ : ຄວາມພະຍາຍາມໃນການສີດ, ການກະຕຸ້ນທີ່ບໍ່ຊັດເຈນ, ການກວດສອບຄວາມປອດໄພ (ຊັ້ນການສີດທີ່ວ່ອງໄວ: OWASP LLM01 )
-
ດໍາເນີນການກວດສອບອັດຕະໂນມັດ : ການຈັດຮູບແບບ, ຄວາມຖືກຕ້ອງຂອງ JSON, ຄວາມຖືກຕ້ອງພື້ນຖານເທົ່າທີ່ເປັນໄປໄດ້
-
ດຳເນີນການກວດສອບໂດຍມະນຸດ : ຕົວຢ່າງຜົນຜະລິດໃນທົ່ວໝວດໝູ່, ໃຫ້ຄະແນນດ້ວຍ rubric
-
ປຽບທຽບການແລກປ່ຽນ : ຄຸນນະພາບທຽບກັບຕົ້ນທຶນທຽບກັບຄວາມຊັກຊ້າທຽບກັບຄວາມປອດໄພ
-
ໂຄງການທົດລອງໃນການປ່ອຍທີ່ຈຳກັດ : ການທົດສອບ A/B ຫຼື ການເປີດຕົວແບບຂັ້ນຕອນ (ຄູ່ມືການທົດສອບ A/B: Kohavi et al. )
-
ຕິດຕາມກວດກາໃນການຜະລິດ : ການເລື່ອນລອຍ, ການຖົດຖອຍ, ວົງວຽນຄຳຕິຊົມຂອງຜູ້ໃຊ້ (ພາບລວມຂອງການເລື່ອນລອຍ: ການສຳຫຼວດແນວຄິດການເລື່ອນລອຍ (PMC) )
-
ເຮັດຊ້ຳ : ອັບເດດການກະຕຸ້ນ, ດຶງຂໍ້ມູນຄືນ, ການປັບແຕ່ງລະອຽດ, ການປ້ອງກັນ, ຈາກນັ້ນດຳເນີນການປະເມີນຜົນຄືນໃໝ່ (ຮູບແບບການປະເມີນຊ້ຳ: ຄູ່ມືການປະເມີນຜົນ OpenAI )
ຮັກສາບັນທຶກທີ່ມີລຸ້ນ. ບໍ່ແມ່ນຍ້ອນວ່າມັນມ່ວນ, ແຕ່ຍ້ອນວ່າໃນອະນາຄົດ - ເຈົ້າຈະຂອບໃຈເຈົ້າໃນຂະນະທີ່ຖືກາເຟແລະພຶມພຳວ່າ "ມີຫຍັງປ່ຽນແປງ..." ☕🙂
11) ອຸປະສັກທົ່ວໄປ (ຫຼື ວິທີທີ່ຄົນເຮົາຫຼອກລວງຕົນເອງໂດຍບັງເອີນ) 🪤
-
ການຝຶກອົບຮົມສຳລັບການທົດສອບ : ທ່ານເພີ່ມປະສິດທິພາບການກະຕຸ້ນຈົນກວ່າມາດຕະຖານຈະເບິ່ງດີ, ແຕ່ຜູ້ໃຊ້ໄດ້ຮັບຜົນກະທົບ
-
ຂໍ້ມູນການປະເມີນຜົນຮົ່ວໄຫຼ : ການກະຕຸ້ນການທົດສອບປາກົດຢູ່ໃນຂໍ້ມູນການຝຶກອົບຮົມ ຫຼື ການປັບແຕ່ງ (whoops)
-
ການນະມັດສະການແບບມິຕິດຽວ : ການໄລ່ຕາມຄະແນນດຽວທີ່ບໍ່ສະທ້ອນເຖິງຄຸນຄ່າຂອງຜູ້ໃຊ້
-
ການບໍ່ສົນໃຈການປ່ຽນແປງການແຈກຢາຍ : ການປ່ຽນແປງພຶດຕິກຳຂອງຜູ້ໃຊ້ ແລະ ຮູບແບບຂອງທ່ານຈະຊຸດໂຊມລົງຢ່າງງຽບໆ (ການວາງກອບຄວາມສ່ຽງດ້ານການຜະລິດ: ການສຳຫຼວດການເລື່ອນລອຍແນວຄວາມຄິດ (PMC) )
-
ການຈັດດັດສະນີຫຼາຍເກີນໄປກ່ຽວກັບ “ຄວາມສະຫຼາດ” : ການຫາເຫດຜົນທີ່ສະຫຼາດບໍ່ສຳຄັນວ່າມັນຈະທຳລາຍຮູບແບບ ຫຼື ປະດິດຂໍ້ເທັດຈິງຂຶ້ນມາ
-
ບໍ່ໄດ້ທົດສອບຄຸນນະພາບການປະຕິເສດ : "ບໍ່" ອາດຈະຖືກຕ້ອງແຕ່ຍັງເປັນ UX ທີ່ບໍ່ດີຢູ່
ນອກຈາກນັ້ນ, ຈົ່ງລະວັງການສາທິດ. ການສາທິດກໍຄືກັບຕົວຢ່າງໜັງ. ພວກມັນສະແດງຈຸດເດັ່ນ, ເຊື່ອງສ່ວນທີ່ຊ້າ, ແລະບາງຄັ້ງກໍ່ມີເພງທີ່ໜ້າຕື່ນເຕັ້ນ. 🎬
12) ສະຫຼຸບສະຫຼຸບກ່ຽວກັບວິທີການປະເມີນຮູບແບບ AI 🧠✨
ການປະເມີນຮູບແບບ AI ບໍ່ແມ່ນຄະແນນດຽວ, ມັນແມ່ນອາຫານທີ່ສົມດຸນ. ເຈົ້າຕ້ອງການໂປຣຕີນ (ຄວາມຖືກຕ້ອງ), ຜັກ (ຄວາມປອດໄພ), ຄາໂບໄຮເດຣດ (ຄວາມໄວ ແລະ ລາຄາ), ແລະ ແມ່ນແລ້ວ, ບາງຄັ້ງກໍ່ເປັນຂອງຫວານ (ນ້ຳສຽງ ແລະ ຄວາມສຸກ) 🍲🍰 (ການວາງຂອບເຂດຄວາມສ່ຽງ: NIST AI RMF 1.0 )
ຖ້າທ່ານຈື່ຫຍັງອີກ:
-
ໃຫ້ນິຍາມຄວາມໝາຍຂອງຄຳວ່າ "ດີ" ສຳລັບກໍລະນີການນຳໃຊ້ຂອງທ່ານ
-
ໃຊ້ຊຸດການທົດສອບທີ່ເປັນຕົວແທນ, ບໍ່ພຽງແຕ່ມາດຕະຖານທີ່ມີຊື່ສຽງເທົ່ານັ້ນ
-
ລວມເອົາຕົວຊີ້ວັດອັດຕະໂນມັດເຂົ້າກັບການທົບທວນ rubric ຂອງມະນຸດ
-
ທົດສອບຄວາມທົນທານ ແລະ ຄວາມປອດໄພ ຄືກັບວ່າຜູ້ໃຊ້ເປັນສັດຕູ (ເພາະວ່າບາງຄັ້ງ… ພວກເຂົາເປັນ) (ຊັ້ນການສີດໄວ: OWASP LLM01 )
-
ໃຫ້ລວມເອົາຄ່າໃຊ້ຈ່າຍ ແລະ ຄວາມຊັກຊ້າໃນການປະເມີນຜົນ, ບໍ່ແມ່ນການຄິດເຖິງພາຍຫຼັງ (ເປັນຫຍັງເປີເຊັນໄທລ໌ຈຶ່ງມີຄວາມສຳຄັນ: Google SRE Workbook )
-
ຕິດຕາມກວດກາຫຼັງຈາກການເປີດຕົວ - ຮູບແບບຕ່າງໆມີການປ່ຽນແປງ, ແອັບຕ່າງໆພັດທະນາໄປ, ມະນຸດມີຄວາມຄິດສ້າງສັນ (ພາບລວມຂອງການປ່ຽນແປງ: ການສຳຫຼວດແນວຄວາມຄິດ (PMC) )
ນັ້ນແມ່ນ ວິທີການປະເມີນຮູບແບບ AI ໃນລັກສະນະທີ່ຍືນຍົງເມື່ອຜະລິດຕະພັນຂອງເຈົ້າຖືກເຜີຍແຜ່ ແລະ ຜູ້ຄົນເລີ່ມເຮັດສິ່ງທີ່ຄົນອື່ນຄາດເດົາບໍ່ໄດ້. ເຊິ່ງມັນກໍ່ເປັນແບບນັ້ນສະເໝີ. 🙂
ຄຳຖາມທີ່ຖືກຖາມເລື້ອຍໆ
ຂັ້ນຕອນທຳອິດໃນການປະເມີນຮູບແບບ AI ສຳລັບຜະລິດຕະພັນຕົວຈິງແມ່ນຫຍັງ?
ເລີ່ມຕົ້ນດ້ວຍການກຳນົດຄວາມໝາຍຂອງຄຳວ່າ "ດີ" ສຳລັບກໍລະນີການນຳໃຊ້ສະເພາະຂອງທ່ານ. ໃຫ້ລະບຸເປົ້າໝາຍຂອງຜູ້ໃຊ້, ຄວາມລົ້ມເຫຼວອັນໃດທີ່ເຮັດໃຫ້ເຈົ້າເສຍຄ່າໃຊ້ຈ່າຍ (ຄວາມສ່ຽງຕໍ່າທຽບກັບຄວາມສ່ຽງສູງ), ແລະບ່ອນທີ່ຮູບແບບຈະເຮັດວຽກ (ຄລາວ, ໃນອຸປະກອນ, ສະພາບແວດລ້ອມທີ່ຖືກຄວບຄຸມ). ຈາກນັ້ນລະບຸຂໍ້ຈຳກັດທີ່ແຂງແກ່ນເຊັ່ນ: ຄວາມຊັກຊ້າ, ຄ່າໃຊ້ຈ່າຍ, ຄວາມເປັນສ່ວນຕົວ, ແລະການຄວບຄຸມສຽງ. ຖ້າບໍ່ມີພື້ນຖານນີ້, ເຈົ້າຈະວັດແທກຫຼາຍຢ່າງແລະຍັງຕັດສິນໃຈທີ່ບໍ່ດີ.
ຂ້ອຍຈະສ້າງຊຸດການທົດສອບທີ່ສະທ້ອນເຖິງຜູ້ໃຊ້ຂອງຂ້ອຍຢ່າງແທ້ຈິງໄດ້ແນວໃດ?
ສ້າງຊຸດການທົດສອບທີ່ເປັນຂອງເຈົ້າຢ່າງແທ້ຈິງ, ບໍ່ພຽງແຕ່ເປັນມາດຕະຖານສາທາລະນະເທົ່ານັ້ນ. ລວມເອົາຕົວຢ່າງທີ່ດີທີ່ເຈົ້າພູມໃຈທີ່ຈະສົ່ງໃຫ້, ບວກກັບການກະຕຸ້ນທີ່ມີສຽງດັງ, ມີລັກສະນະທົ່ວໄປທີ່ມີການພິມຜິດ, ປະໂຫຍກເຄິ່ງໜຶ່ງ, ແລະ ການຮ້ອງຂໍທີ່ບໍ່ຊັດເຈນ. ເພີ່ມກໍລະນີຂອບ ແລະ ການທົດສອບໂໝດຄວາມລົ້ມເຫຼວທີ່ລໍ້ລວງໃຫ້ເກີດພາບຫຼອນ ຫຼື ການຕອບກັບທີ່ບໍ່ປອດໄພ. ກວມເອົາຄວາມຫຼາກຫຼາຍໃນລະດັບທັກສະ, ສຳນຽງ, ພາສາ, ແລະ ຂົງເຂດຕ່າງໆ ເພື່ອບໍ່ໃຫ້ຜົນໄດ້ຮັບລົ້ມເຫຼວໃນການຜະລິດ.
ຂ້ອຍຄວນໃຊ້ຕົວຊີ້ວັດໃດ, ແລະຕົວຊີ້ວັດໃດທີ່ສາມາດເຮັດໃຫ້ເຂົ້າໃຈຜິດໄດ້?
ຈັບຄູ່ຕົວຊີ້ວັດກັບປະເພດໜ້າວຽກ. ການຈັບຄູ່ແບບແນ່ນອນ ແລະ ຄວາມຖືກຕ້ອງເຮັດວຽກໄດ້ດີສຳລັບການສະກັດ ແລະ ຜົນຜະລິດທີ່ມີໂຄງສ້າງ, ໃນຂະນະທີ່ຄວາມແມ່ນຍຳ/ການເອີ້ນຄືນ ແລະ ການຊ່ວຍເຫຼືອ F1 ເມື່ອພາດບາງສິ່ງບາງຢ່າງແມ່ນຮ້າຍແຮງກວ່າສຽງລົບກວນເພີ່ມເຕີມ. ຕົວຊີ້ວັດທີ່ຊ້ອນກັນເຊັ່ນ BLEU/ROUGE ສາມາດເຮັດໃຫ້ເຂົ້າໃຈຜິດສຳລັບໜ້າວຽກທີ່ເປີດກວ້າງ, ແລະ ການຝັງຄວາມຄ້າຍຄືກັນສາມາດໃຫ້ລາງວັນຄຳຕອບທີ່ "ຜິດແຕ່ຄ້າຍຄືກັນ". ສຳລັບການຂຽນ, ການສະໜັບສະໜູນ, ຫຼື ການໃຫ້ເຫດຜົນ, ໃຫ້ລວມຕົວຊີ້ວັດກັບການທົບທວນຂອງມະນຸດ ແລະ ອັດຕາຄວາມສຳເລັດຂອງໜ້າວຽກ.
ຂ້ອຍຄວນຈັດໂຄງສ້າງການປະເມີນຜົນແນວໃດເພື່ອໃຫ້ພວກມັນສາມາດເຮັດຊ້ຳໄດ້ ແລະ ຢູ່ໃນລະດັບການຜະລິດ?
ຂອບການປະເມີນຜົນທີ່ແຂງແຮງແມ່ນສາມາດເຮັດຊ້ຳໄດ້, ເປັນຕົວແທນ, ຫຼາຍຊັ້ນ, ແລະ ສາມາດປະຕິບັດໄດ້. ລວມການກວດສອບອັດຕະໂນມັດ (ຮູບແບບ, ຄວາມຖືກຕ້ອງຂອງ JSON, ຄວາມຖືກຕ້ອງພື້ນຖານ) ກັບການໃຫ້ຄະແນນແບບມະນຸດ ແລະ ການທົດສອບແບບຕ້ານ. ເຮັດໃຫ້ມັນທົນທານຕໍ່ການແຊກແຊງໂດຍການຫຼີກລ່ຽງການຮົ່ວໄຫຼ ແລະ "ສອນໃຫ້ທັນກັບການທົດສອບ." ຮັກສາການປະເມີນໃຫ້ມີຄວາມຮັບຮູ້ຄ່າໃຊ້ຈ່າຍ ເພື່ອໃຫ້ທ່ານສາມາດດໍາເນີນການມັນໄດ້ເລື້ອຍໆ, ບໍ່ພຽງແຕ່ຄັ້ງດຽວກ່ອນການເປີດຕົວ.
ວິທີທີ່ດີທີ່ສຸດໃນການປະເມີນມະນຸດໂດຍບໍ່ໃຫ້ມັນກາຍເປັນຄວາມວຸ້ນວາຍແມ່ນຫຍັງ?
ໃຊ້ຄະແນນທີ່ແນ່ນອນເພື່ອບໍ່ໃຫ້ຜູ້ທົບທວນບໍ່ໄດ້ໃຊ້ຮູບແບບທີ່ແຕກຕ່າງກັນ. ໃຫ້ຄະແນນຄຸນລັກສະນະຕ່າງໆເຊັ່ນ: ຄວາມຖືກຕ້ອງ, ຄວາມຄົບຖ້ວນ, ຄວາມຊັດເຈນ, ຄວາມປອດໄພ/ການຈັດການນະໂຍບາຍ, ແບບ/ສຽງທີ່ກົງກັນ, ແລະ ຄວາມຊື່ສັດ (ບໍ່ແມ່ນການປະດິດການອ້າງສິດ ຫຼື ແຫຼ່ງຂໍ້ມູນ). ກວດສອບການຕົກລົງລະຫວ່າງຜູ້ໃຫ້ຄະແນນເປັນໄລຍະ; ຖ້າຜູ້ທົບທວນບໍ່ເຫັນດີຢູ່ສະເໝີ, ຄະແນນອາດຈະຕ້ອງການການປັບປຸງ. ການທົບທວນຂອງມະນຸດແມ່ນມີຄຸນຄ່າໂດຍສະເພາະສຳລັບຄວາມບໍ່ກົງກັນຂອງໂຕນ, ຄວາມຜິດພາດຂອງຂໍ້ເທັດຈິງທີ່ລະອຽດອ່ອນ, ແລະ ຄວາມລົ້ມເຫຼວໃນການປະຕິບັດຕາມຄຳແນະນຳ.
ຂ້ອຍຈະປະເມີນຄວາມປອດໄພ, ຄວາມທົນທານ, ແລະ ຄວາມສ່ຽງຕໍ່ການສັກຢາຢ່າງວ່ອງໄວໄດ້ແນວໃດ?
ທົດສອບດ້ວຍການປ້ອນຂໍ້ມູນ “ອືມ, ຜູ້ໃຊ້”: ການພິມຜິດ, ພາສາສະແລງ, ຄຳແນະນຳທີ່ຂັດແຍ້ງກັນ, ການກະຕຸ້ນທີ່ຍາວຫຼາຍ ຫຼື ສັ້ນຫຼາຍ, ແລະ ການປ່ຽນແປງເປົ້າໝາຍຫຼາຍຄັ້ງ. ລວມທັງຄວາມພະຍາຍາມສີດການກະຕຸ້ນເຊັ່ນ “ບໍ່ສົນໃຈກົດລະບຽບກ່ອນໜ້ານີ້” ແລະ ຫົວຂໍ້ທີ່ລະອຽດອ່ອນທີ່ຕ້ອງການການປະຕິເສດຢ່າງລະມັດລະວັງ. ປະສິດທິພາບດ້ານຄວາມປອດໄພທີ່ດີບໍ່ພຽງແຕ່ເປັນການປະຕິເສດເທົ່ານັ້ນ - ມັນຍັງເປັນການປະຕິເສດຢ່າງຊັດເຈນ, ການສະເໜີທາງເລືອກທີ່ປອດໄພກວ່າເມື່ອເໝາະສົມ, ແລະ ການຫຼີກລ່ຽງການສອບຖາມທີ່ບໍ່ເປັນອັນຕະລາຍທີ່ເປັນອັນຕະລາຍຕໍ່ UX.
ຂ້ອຍຈະປະເມີນຄ່າໃຊ້ຈ່າຍ ແລະ ຄວາມຊັກຊ້າໄດ້ແນວໃດໃນລັກສະນະທີ່ກົງກັບຄວາມເປັນຈິງ?
ຢ່າພຽງແຕ່ວັດແທກຄ່າສະເລ່ຍ - ຕິດຕາມການແຈກຢາຍຄວາມຊັກຊ້າ, ໂດຍສະເພາະ p95 ແລະ p99. ປະເມີນຕົ້ນທຶນຕໍ່ໜ້າວຽກທີ່ປະສົບຜົນສຳເລັດ, ບໍ່ແມ່ນຕົ້ນທຶນຕໍ່ໂທເຄັນແຍກຕ່າງຫາກ, ເພາະວ່າການລອງໃໝ່ ແລະ ຜົນຜະລິດທີ່ເພີ່ມຂຶ້ນເລື້ອຍໆສາມາດລຶບການປະຢັດໄດ້. ທົດສອບຄວາມໝັ້ນຄົງພາຍໃຕ້ການໂຫຼດ (ການໝົດເວລາ, ຂໍ້ຈຳກັດອັດຕາ, ການເພີ່ມຂຶ້ນຂອງຄວາມໄວ) ແລະ ຄວາມໜ້າເຊື່ອຖືຂອງການເອີ້ນເຄື່ອງມື/ຟັງຊັນ. ຮູບແບບທີ່ຮ້າຍແຮງກວ່າເລັກນ້ອຍທີ່ໄວເປັນສອງເທົ່າ ຫຼື ໝັ້ນຄົງກວ່າສາມາດເປັນທາງເລືອກຜະລິດຕະພັນທີ່ດີກວ່າ.
ຂັ້ນຕອນການເຮັດວຽກແບບ end-to-end ແບບງ່າຍໆ ສຳລັບການປະເມີນຮູບແບບ AI ແມ່ນຫຍັງ?
ກຳນົດເງື່ອນໄຂຄວາມສຳເລັດ ແລະ ຂໍ້ຈຳກັດ, ຈາກນັ້ນສ້າງຊຸດການທົດສອບຫຼັກຂະໜາດນ້ອຍ (ປະມານ 50–200 ຕົວຢ່າງ) ທີ່ສະທ້ອນເຖິງການນຳໃຊ້ຕົວຈິງ. ເພີ່ມຊຸດຂອບ ແລະ ຊຸດກົງກັນຂ້າມສຳລັບຄວາມປອດໄພ ແລະ ຄວາມພະຍາຍາມໃນການສີດ. ດຳເນີນການກວດສອບອັດຕະໂນມັດ, ຈາກນັ້ນເກັບຕົວຢ່າງຜົນຜະລິດສຳລັບການໃຫ້ຄະແນນແບບມະນຸດ. ປຽບທຽບຄຸນນະພາບ vs ຕົ້ນທຶນ vs ຄວາມໜ່ວງຊ້າ vs ຄວາມປອດໄພ, ທົດລອງໃຊ້ກັບການເປີດຕົວທີ່ຈຳກັດ ຫຼື ການທົດສອບ A/B, ແລະ ຕິດຕາມກວດກາໃນການຜະລິດສຳລັບການເລື່ອນ ແລະ ການຖົດຖອຍ.
ວິທີທົ່ວໄປທີ່ສຸດທີ່ທີມງານຫຼອກລວງຕົນເອງໂດຍບັງເອີນໃນການປະເມີນຮູບແບບແມ່ນຫຍັງ?
ກັບດັກທົ່ວໄປລວມມີການເພີ່ມປະສິດທິພາບການກະຕຸ້ນເພື່ອໃຫ້ໄດ້ຄະແນນມາດຕະຖານໃນຂະນະທີ່ຜູ້ໃຊ້ປະສົບກັບຄວາມທຸກທໍລະມານ, ການຮົ່ວໄຫຼການກະຕຸ້ນການປະເມີນຜົນເຂົ້າໃນການຝຶກອົບຮົມ ຫຼື ການປັບແຕ່ງຂໍ້ມູນ, ແລະ ການນະມັດສະການຕົວຊີ້ວັດດຽວທີ່ບໍ່ສະທ້ອນເຖິງຄຸນຄ່າຂອງຜູ້ໃຊ້. ທີມງານຍັງບໍ່ສົນໃຈການປ່ຽນແປງການແຈກຢາຍ, ດັດສະນີຫຼາຍເກີນໄປກ່ຽວກັບ "ຄວາມສະຫຼາດ" ແທນທີ່ຈະປະຕິບັດຕາມຮູບແບບ ແລະ ຄວາມຊື່ສັດ, ແລະ ຂ້າມການທົດສອບຄຸນນະພາບການປະຕິເສດ. ການສາທິດສາມາດເຊື່ອງບັນຫາເຫຼົ່ານີ້ໄດ້, ສະນັ້ນຈົ່ງອີງໃສ່ການປະເມີນຜົນທີ່ມີໂຄງສ້າງ, ບໍ່ແມ່ນການເນັ້ນໃສ່ວິດີໂອ.
ເອກະສານອ້າງອີງ
-
OpenAI - ຄູ່ມືການປະເມີນ OpenAI - platform.openai.com
-
ສະຖາບັນມາດຕະຖານ ແລະ ເຕັກໂນໂລຊີແຫ່ງຊາດ (NIST) - ຂອບການຄຸ້ມຄອງຄວາມສ່ຽງດ້ານ AI (AI RMF 1.0) - nist.gov
-
OpenAI - openai/evals (ບ່ອນເກັບມ້ຽນ GitHub) - github.com
-
scikit-learn - ການສະຫນັບສະຫນູນຄະແນນຄວາມແມ່ນຍໍາ - scikit-learn.org
-
ສະມາຄົມພາສາສາດຄອມພິວເຕີ (ACL Anthology) - BLEU - aclanthology.org
-
ສະມາຄົມພາສາສາດຄອມພິວເຕີ (ACL Anthology) - ROUGE - aclanthology.org
-
arXiv - G-Eval - arxiv.org
-
OWASP - LLM01: ການສັກຢາແບບວ່ອງໄວ - owasp.org
-
OWASP - 10 ອັນດັບຕົ້ນໆຂອງ OWASP ສຳລັບແອັບພລິເຄຊັນຮູບແບບພາສາຂະໜາດໃຫຍ່ - owasp.org
-
ມະຫາວິທະຍາໄລສະແຕນຟອດ - Kohavi ແລະ ຄະນະ, “ການທົດລອງທີ່ຄວບຄຸມໃນເວັບ” - stanford.edu
-
arXiv - ການປະເມີນຜົນຂອງ RAG: ການສຳຫຼວດ - arxiv.org
-
PubMed Central (PMC) - ການສຳຫຼວດແນວຄິດແບບລ່ອງລອຍ (PMC) - nih.gov
-
PubMed Central (PMC) - McHugh ກ່ຽວກັບ kappa ຂອງ Cohen - nih.gov
-
Google - ປື້ມຄູ່ມື SRE ກ່ຽວກັບການຕິດຕາມກວດກາ - google.workbook