ວິທີການປະເມີນຮູບແບບ AI

ວິທີການປະເມີນຮູບແບບ AI

ຄຳຕອບສັ້ນໆ: ໃຫ້ນິຍາມວ່າ "ດີ" ມີລັກສະນະແນວໃດສຳລັບກໍລະນີການນຳໃຊ້ຂອງທ່ານ, ຈາກນັ້ນທົດສອບດ້ວຍຕົວແທນ, ການແຈ້ງເຕືອນທີ່ມີລຸ້ນ ແລະ ກໍລະນີຂອບ. ຈັບຄູ່ຕົວຊີ້ວັດອັດຕະໂນມັດກັບການໃຫ້ຄະແນນແບບມະນຸດ, ຄຽງຄູ່ກັບຄວາມປອດໄພແບບກົງກັນຂ້າມ ແລະ ການກວດສອບການສີດການແຈ້ງເຕືອນ. ຖ້າຂໍ້ຈຳກັດດ້ານຄ່າໃຊ້ຈ່າຍ ຫຼື ຄວາມຊັກຊ້າກາຍເປັນຂໍ້ຜູກມັດ, ໃຫ້ປຽບທຽບຮູບແບບຕາມຄວາມສຳເລັດຂອງໜ້າວຽກຕໍ່ປອນທີ່ໃຊ້ຈ່າຍ ແລະ ເວລາຕອບສະໜອງ p95/p99.

ບົດຮຽນຫຼັກ:

ຄວາມຮັບຜິດຊອບ : ມອບໝາຍເຈົ້າຂອງທີ່ຊັດເຈນ, ເກັບຮັກສາບັນທຶກເວີຊັນ, ແລະ ດຳເນີນການປະເມີນຄືນໃໝ່ຫຼັງຈາກການປ່ຽນແປງການກະຕຸ້ນເຕືອນ ຫຼື ຮູບແບບໃດໆ.

ຄວາມໂປ່ງໃສ : ຂຽນເງື່ອນໄຂຄວາມສຳເລັດ, ຂໍ້ຈຳກັດ ແລະ ຄ່າໃຊ້ຈ່າຍໃນຄວາມລົ້ມເຫຼວກ່ອນທີ່ທ່ານຈະເລີ່ມເກັບກຳຄະແນນ.

ການກວດສອບ : ຮັກສາຊຸດການທົດສອບທີ່ເຮັດຊ້ຳໄດ້, ຊຸດຂໍ້ມູນທີ່ມີປ້າຍຊື່, ແລະ ຕົວຊີ້ວັດຄວາມໜ่วงເວລາ p95/p99 ທີ່ຕິດຕາມ.

ຄວາມສາມາດໃນການແຂ່ງຂັນ : ໃຊ້ມາດຕະຖານການທົບທວນຄືນຂອງມະນຸດ ແລະ ເສັ້ນທາງການອຸທອນທີ່ໄດ້ກຳນົດໄວ້ສຳລັບຜົນຜະລິດທີ່ມີການໂຕ້ແຍ້ງ.

ການຕໍ່ຕ້ານການໃຊ້ໃນທາງທີ່ຜິດ : ການສັກຂໍ້ມູນແບບກະຕຸ້ນໃຫ້ທີມແດງ, ຫົວຂໍ້ທີ່ລະອຽດອ່ອນ, ແລະ ການປະຕິເສດທີ່ຈະປົກປ້ອງຜູ້ໃຊ້ຫຼາຍເກີນໄປ.

ຖ້າທ່ານເລືອກຮູບແບບສຳລັບຜະລິດຕະພັນ, ໂຄງການຄົ້ນຄວ້າ, ຫຼືແມ່ນແຕ່ເຄື່ອງມືພາຍໃນ, ທ່ານບໍ່ສາມາດພຽງແຕ່ເວົ້າວ່າ "ມັນຟັງແລ້ວສະຫຼາດ" ແລະສົ່ງມັນໄປ (ເບິ່ງ ຄູ່ມືການປະເມີນຜົນຂອງ OpenAI ແລະ NIST AI RMF 1.0 ). ນັ້ນແມ່ນວິທີທີ່ທ່ານຈົບລົງດ້ວຍ chatbot ທີ່ອະທິບາຍຢ່າງໝັ້ນໃຈກ່ຽວກັບວິທີການອຸ່ນສ້ອມດ້ວຍໄມໂຄເວຟ. 😬

ວິທີການປະເມີນຮູບແບບ AI Infographic

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 ອະນາຄົດຂອງ AI: ທ່າອ່ຽງທີ່ຈະສ້າງຮູບແບບທົດສະວັດຕໍ່ໄປ ນະ
ວັດຕະກໍາທີ່ສໍາຄັນ, ຜົນກະທົບຂອງວຽກງານ, ແລະ ຈັນຍາບັນທີ່ຄວນຕິດຕາມໃນອະນາຄົດ.

🔗 ຮູບແບບພື້ນຖານໃນ AI ທີ່ມີການສ້າງແບບຈຳລອງໄດ້ອະທິບາຍໄວ້ສຳລັບຜູ້ເລີ່ມຕົ້ນ
ຮຽນຮູ້ວ່າພວກເຂົາແມ່ນຫຍັງ, ໄດ້ຮັບການຝຶກອົບຮົມແນວໃດ, ແລະເປັນຫຍັງພວກເຂົາຈຶ່ງມີຄວາມສຳຄັນ.

🔗 ວິທີທີ່ AI ສົ່ງຜົນກະທົບຕໍ່ສິ່ງແວດລ້ອມ ແລະ ການໃຊ້ພະລັງງານ
ສຳຫຼວດການປ່ອຍອາຍພິດ, ຄວາມຕ້ອງການໄຟຟ້າ ແລະ ວິທີການຫຼຸດຜ່ອນຜົນກະທົບຈາກສິ່ງແວດລ້ອມ.

🔗 ວິທີການຍົກລະດັບ AI ເຮັດວຽກເພື່ອໃຫ້ຮູບພາບຄົມຊັດຂຶ້ນໃນມື້ນີ້
ເບິ່ງວ່າຮູບແບບເພີ່ມລາຍລະອຽດ, ກຳຈັດສິ່ງລົບກວນ ແລະ ຂະຫຍາຍຢ່າງສະອາດໄດ້ແນວໃດ.


1) ການນິຍາມຄຳວ່າ “ດີ” (ມັນຂຶ້ນກັບ, ແລະນັ້ນກໍ່ດີ) 🎯

ກ່ອນທີ່ທ່ານຈະດໍາເນີນການປະເມີນຜົນໃດໆ, ຈົ່ງຕັດສິນໃຈວ່າຄວາມສໍາເລັດເປັນແນວໃດ. ຖ້າບໍ່ດັ່ງນັ້ນເຈົ້າຈະວັດແທກທຸກຢ່າງແລະບໍ່ໄດ້ຮຽນຮູ້ຫຍັງເລີຍ. ມັນຄືກັບການເອົາເທບວັດແທກມາຕັດສິນການແຂ່ງຂັນເຄັກ. ແນ່ນອນ, ເຈົ້າຈະໄດ້ຮັບຕົວເລກ, ແຕ່ພວກມັນຈະບໍ່ບອກເຈົ້າຫຼາຍ 😅

ຊີ້ແຈງ:

  • ເປົ້າໝາຍຂອງຜູ້ໃຊ້ : ການສະຫຼຸບ, ການຄົ້ນຫາ, ການຂຽນ, ການຫາເຫດຜົນ, ການສະກັດເອົາຂໍ້ເທັດຈິງ

  • ຄ່າໃຊ້ຈ່າຍໃນຄວາມລົ້ມເຫຼວ : ການແນະນຳໜັງທີ່ບໍ່ຖືກຕ້ອງແມ່ນຕະຫລົກ; ຄຳແນະນຳທາງການແພດທີ່ບໍ່ຖືກຕ້ອງແມ່ນ…ບໍ່ຕະຫລົກ (ການວາງກອບຄວາມສ່ຽງ: NIST AI RMF 1.0 ).

  • ສະພາບແວດລ້ອມໃນເວລາແລ່ນ : ໃນອຸປະກອນ, ໃນຄລາວ, ຢູ່ຫຼັງໄຟວໍ, ໃນສະພາບແວດລ້ອມທີ່ມີການຄວບຄຸມ

  • ຂໍ້ຈຳກັດຫຼັກ : ຄວາມຊັກຊ້າ, ຄ່າໃຊ້ຈ່າຍຕໍ່ການຮ້ອງຂໍ, ຄວາມເປັນສ່ວນຕົວ, ຄວາມສາມາດໃນການອະທິບາຍ, ການສະໜັບສະໜູນຫຼາຍພາສາ, ການຄວບຄຸມສຽງ

ນາງແບບທີ່ "ດີທີ່ສຸດ" ໃນວຽກໜຶ່ງສາມາດເປັນໄພພິບັດໃນອີກວຽກໜຶ່ງໄດ້. ນັ້ນບໍ່ແມ່ນຄວາມຂັດແຍ້ງ, ມັນແມ່ນຄວາມເປັນຈິງ. 🙂


2) ຂອບການປະເມີນຜົນແບບຈຳລອງ AI ທີ່ແຂງແຮງມີລັກສະນະແນວໃດ 🧰

ແມ່ນແລ້ວ, ນີ້ແມ່ນສ່ວນທີ່ຜູ້ຄົນຂ້າມໄປ. ພວກເຂົາເອົາມາດຕະຖານມາໃຊ້, ດໍາເນີນການພຽງຄັ້ງດຽວ, ແລະ ດໍາເນີນການຕໍ່ເນື່ອງ. ຂອບການປະເມີນຜົນທີ່ແຂງແຮງມີລັກສະນະທີ່ສອດຄ່ອງກັນບາງຢ່າງ (ຕົວຢ່າງເຄື່ອງມືທີ່ໃຊ້ໄດ້ຈິງ: OpenAI Evals / OpenAI evals guide ):

  • ສາມາດເຮັດຊ້ຳໄດ້ - ທ່ານສາມາດແລ່ນມັນອີກຄັ້ງໃນອາທິດໜ້າ ແລະ ໄວ້ວາງໃຈການປຽບທຽບ

  • ຕົວແທນ - ມັນສະທ້ອນໃຫ້ເຫັນເຖິງຜູ້ໃຊ້ ແລະ ໜ້າວຽກຕົວຈິງຂອງທ່ານ (ບໍ່ພຽງແຕ່ເລື່ອງເລັກໆນ້ອຍໆເທົ່ານັ້ນ)

  • ຫຼາຍຊັ້ນ - ລວມເອົາຕົວຊີ້ວັດອັດຕະໂນມັດ + ການທົບທວນຂອງມະນຸດ + ການທົດສອບແບບກົງກັນຂ້າມ

  • ສາມາດປະຕິບັດໄດ້ - ຜົນໄດ້ຮັບບອກທ່ານວ່າຕ້ອງແກ້ໄຂຫຍັງ, ບໍ່ພຽງແຕ່ "ຄະແນນຫຼຸດລົງ"

  • ທົນທານຕໍ່ການແຊກແຊງ - ຫຼີກລ່ຽງການ “ສອນໃຫ້ທັນການທົດສອບ” ຫຼື ການຮົ່ວໄຫຼໂດຍບັງເອີນ

  • ຮັບຮູ້ຄ່າໃຊ້ຈ່າຍ - ການປະເມີນຜົນເອງບໍ່ຄວນເຮັດໃຫ້ທ່ານລົ້ມລະລາຍ (ເວັ້ນເສຍແຕ່ວ່າທ່ານມັກຄວາມເຈັບປວດ)

ຖ້າການປະເມີນຜົນຂອງເຈົ້າບໍ່ສາມາດຢູ່ລອດໄດ້ເມື່ອເພື່ອນຮ່ວມທີມທີ່ສົງໄສເວົ້າວ່າ "ໂອເຄ, ແຕ່ໃຫ້ວາງແຜນເລື່ອງນີ້ກັບການຜະລິດ," ແລ້ວມັນຍັງບໍ່ທັນແລ້ວເທື່ອ. ນັ້ນແມ່ນການກວດສອບຄວາມຮູ້ສຶກ.


3) ວິທີການປະເມີນຮູບແບບ AI ໂດຍເລີ່ມຕົ້ນດ້ວຍຊິ້ນສ່ວນກໍລະນີການນຳໃຊ້ 🍰

ນີ້ແມ່ນເຄັດລັບທີ່ຊ່ວຍປະຢັດເວລາໄດ້ຫຼາຍ: ແບ່ງກໍລະນີການນຳໃຊ້ອອກເປັນສ່ວນໆ .

ແທນທີ່ຈະ "ປະເມີນຮູບແບບ", ໃຫ້ເຮັດ:

  • ຄວາມເຂົ້າໃຈໃນເຈດຕະນາ (ມັນໄດ້ສິ່ງທີ່ຜູ້ໃຊ້ຕ້ອງການບໍ່)

  • ການດຶງຂໍ້ມູນ ຫຼື ການນຳໃຊ້ບໍລິບົດ (ມັນໃຊ້ຂໍ້ມູນທີ່ໃຫ້ມາຢ່າງຖືກຕ້ອງບໍ່)

  • ວຽກງານການຫາເຫດຜົນ / ຫຼາຍຂັ້ນຕອນ (ມັນຍັງຄົງສອດຄ່ອງກັນໃນແຕ່ລະຂັ້ນຕອນບໍ)

  • ການຈັດຮູບແບບ ແລະ ໂຄງສ້າງ (ມັນປະຕິບັດຕາມຄຳແນະນຳບໍ່)

  • ຄວາມປອດໄພ ແລະ ການຈັດວາງນະໂຍບາຍ (ມັນຫຼີກລ່ຽງເນື້ອຫາທີ່ບໍ່ປອດໄພບໍ; ເບິ່ງ NIST AI RMF 1.0 )

  • ນໍ້າສຽງ ແລະ ສຽງຂອງຍີ່ຫໍ້ (ມັນຟັງຄືກັບທີ່ເຈົ້າຕ້ອງການໃຫ້ມັນຟັງບໍ)

ສິ່ງນີ້ເຮັດໃຫ້ “ວິທີການປະເມີນຮູບແບບ AI” ຮູ້ສຶກບໍ່ຄືກັບການສອບເສັງໃຫຍ່ອັນດຽວ ແຕ່ຄືກັບຊຸດແບບສອບຖາມທີ່ມີເປົ້າໝາຍຫຼາຍກວ່າ. ແບບສອບຖາມແມ່ນໜ້າລຳຄານ, ແຕ່ສາມາດຈັດການໄດ້. 😄


4) ພື້ນຖານການປະເມີນຜົນແບບອອບໄລນ໌ - ຊຸດການທົດສອບ, ປ້າຍຊື່, ແລະລາຍລະອຽດທີ່ບໍ່ໜ້າສົນໃຈທີ່ສຳຄັນ 📦

ການປະເມີນຜົນແບບອອບໄລນ໌ແມ່ນບ່ອນທີ່ທ່ານເຮັດການທົດສອບທີ່ຄວບຄຸມກ່ອນທີ່ຜູ້ໃຊ້ຈະແຕະຕ້ອງສິ່ງໃດສິ່ງໜຶ່ງ (ຮູບແບບການເຮັດວຽກ: OpenAI Evals ).

ສ້າງ ຫຼື ເກັບກຳຊຸດທົດສອບທີ່ເປັນຂອງເຈົ້າຢ່າງແທ້ຈິງ

ຊຸດທົດສອບທີ່ດີມັກຈະປະກອບມີ:

  • ຕົວຢ່າງທອງຄຳ : ຜົນຜະລິດທີ່ເໝາະສົມທີ່ທ່ານພູມໃຈທີ່ຈະສົ່ງໄປໃຫ້

  • ກໍລະນີຂອບ : ການແຈ້ງເຕືອນທີ່ບໍ່ຊັດເຈນ, ການປ້ອນຂໍ້ມູນທີ່ບໍ່ເປັນລະບຽບ, ການຈັດຮູບແບບທີ່ບໍ່ຄາດຄິດ

  • ການກວດສອບຮູບແບບຄວາມລົ້ມເຫຼວ : ການກະຕຸ້ນເຕືອນທີ່ລໍ້ລວງໃຫ້ເກີດພາບຫຼອນ ຫຼື ການຕອບກັບທີ່ບໍ່ປອດໄພ (ກອບການທົດສອບຄວາມສ່ຽງ: NIST AI RMF 1.0 )

  • ການຄຸ້ມຄອງຄວາມຫຼາກຫຼາຍ : ລະດັບທັກສະຂອງຜູ້ໃຊ້ທີ່ແຕກຕ່າງກັນ, ພາສາທ້ອງຖິ່ນ, ພາສາ, ໂດເມນຕ່າງໆ

ຖ້າທ່ານທົດສອບພຽງແຕ່ໃນການກະຕຸ້ນ "ສະອາດ", ຮູບແບບຈະເບິ່ງໜ້າອັດສະຈັນ. ຫຼັງຈາກນັ້ນ, ຜູ້ໃຊ້ຂອງທ່ານຈະປາກົດດ້ວຍການພິມຜິດ, ເຄິ່ງປະໂຫຍກ, ແລະພະລັງງານຄລິກທີ່ຮຸນແຮງ. ຍິນດີຕ້ອນຮັບສູ່ຄວາມເປັນຈິງ.

ຕົວເລືອກການຕິດສະຫຼາກ (ຫຼື: ລະດັບຄວາມເຂັ້ມງວດ)

ທ່ານສາມາດຕິດປ້າຍຜົນຜະລິດເປັນ:

  • ໄບນາຣີ : ຜ່ານ/ບໍ່ຜ່ານ (ໄວ, ຮຸນແຮງ)

  • ລຳດັບທີ : ຄະແນນຄຸນນະພາບ 1-5 (ລະອຽດອ່ອນ, ອັດຕະວິໄນ)

  • ຫຼາຍຄຸນລັກສະນະ : ຄວາມຖືກຕ້ອງ, ຄວາມຄົບຖ້ວນ, ນ້ຳສຽງ, ການໃຊ້ການອ້າງອີງ, ແລະອື່ນໆ (ດີທີ່ສຸດ, ຊ້າກວ່າ)

ຄຸນລັກສະນະຫຼາຍຢ່າງແມ່ນຈຸດທີ່ດີທີ່ສຸດສຳລັບຫຼາຍໆທີມ. ມັນຄືກັບການຊີມລົດຊາດອາຫານ ແລະ ຕັດສິນຄວາມເຄັມແຍກຕ່າງຫາກຈາກໂຄງສ້າງ. ຖ້າບໍ່ດັ່ງນັ້ນ ເຈົ້າພຽງແຕ່ເວົ້າວ່າ "ດີ" ແລະ ຍົກບ່າ.


5) ຕົວຊີ້ວັດທີ່ບໍ່ຕົວະ - ແລະ ຕົວຊີ້ວັດທີ່ຕົວະໄດ້ 📊😅

ຕົວຊີ້ວັດມີຄຸນຄ່າ... ແຕ່ພວກມັນຍັງສາມາດເປັນລະເບີດກາວໄດ້ອີກດ້ວຍ. ເຫຼື້ອມເປັນເງົາ, ຢູ່ທົ່ວທຸກແຫ່ງ, ແລະຍາກທີ່ຈະເຮັດຄວາມສະອາດ.

ຄອບຄົວແມັດຕຣິກທົ່ວໄປ

  • ຄວາມແມ່ນຍຳ / ການຈັບຄູ່ແບບແນ່ນອນ : ດີເລີດສຳລັບການສະກັດ, ການຈັດປະເພດ, ວຽກງານທີ່ມີໂຄງສ້າງ

  • F1 / ຄວາມແມ່ນຍຳ / ການລະນຶກເຖິງ : ສະດວກເມື່ອພາດບາງສິ່ງບາງຢ່າງແມ່ນຮ້າຍແຮງກວ່າສຽງລົບກວນພິເສດ (ຄຳນິຍາມ: scikit-learn precision/recall/F-score )

  • ການຊ້ອນກັນແບບ BLEU / ROUGE : ສາມາດນຳໃຊ້ໄດ້ສຳລັບວຽກງານທີ່ຄ້າຍຄືກັບການສະຫຼຸບ, ເຊິ່ງມັກຈະເຮັດໃຫ້ເຂົ້າໃຈຜິດ (ຕົວຊີ້ວັດຕົ້ນສະບັບ: BLEU ແລະ ROUGE )

  • ການຝັງຄວາມຄ້າຍຄືກັນ : ເປັນປະໂຫຍດສຳລັບການຈັບຄູ່ຄວາມໝາຍ, ສາມາດໃຫ້ລາງວັນຄຳຕອບທີ່ຜິດແຕ່ຄ້າຍຄືກັນ

  • ອັດຕາຄວາມສຳເລັດຂອງໜ້າວຽກ : “ຜູ້ໃຊ້ໄດ້ຮັບສິ່ງທີ່ເຂົາເຈົ້າຕ້ອງການບໍ” ມາດຕະຖານຄຳເມື່ອຖືກກຳນົດໄວ້ຢ່າງດີ

  • ການປະຕິບັດຕາມຂໍ້ຈຳກັດ : ປະຕິບັດຕາມຮູບແບບ, ຄວາມຍາວ, ຄວາມຖືກຕ້ອງຂອງ JSON, ການປະຕິບັດຕາມໂຄງຮ່າງ

ຈຸດສຳຄັນ

ຖ້າໜ້າວຽກຂອງເຈົ້າເປັນວຽກເປີດກວ້າງ (ການຂຽນ, ການຫາເຫດຜົນ, ການສົນທະນາສະໜັບສະໜູນ), ຕົວຊີ້ວັດຕົວເລກດຽວອາດຈະ... ສັ່ນຄອນ. ບໍ່ແມ່ນວ່າບໍ່ມີປະໂຫຍດ, ພຽງແຕ່ສັ່ນຄອນ. ການວັດແທກຄວາມຄິດສ້າງສັນດ້ວຍໄມ້ບັນທັດແມ່ນເປັນໄປໄດ້, ແຕ່ເຈົ້າຈະຮູ້ສຶກໂງ່ເມື່ອເຮັດມັນ. (ນອກຈາກນີ້, ເຈົ້າອາດຈະແນມຕາອອກ.)

ສະນັ້ນ: ໃຊ້ຕົວຊີ້ວັດຕ່າງໆ, ແຕ່ໃຫ້ຍຶດຕິດກັບການທົບທວນຂອງມະນຸດ ແລະ ຜົນໄດ້ຮັບຂອງໜ້າວຽກຕົວຈິງ (ຕົວຢ່າງໜຶ່ງຂອງການສົນທະນາການປະເມີນຜົນໂດຍອີງໃສ່ LLM + ຂໍ້ຄວນລະວັງ: G-Eval ).


6) ຕາຕະລາງປຽບທຽບ - ຕົວເລືອກການປະເມີນຜົນອັນດັບຕົ້ນໆ (ມີຄວາມແປກປະຫຼາດ, ເພາະວ່າຊີວິດມີຄວາມແປກປະຫຼາດ) 🧾✨

ນີ້ແມ່ນເມນູວິທີການປະເມີນຜົນທີ່ໃຊ້ໄດ້ຈິງ. ປະສົມປະສານ. ທີມສ່ວນໃຫຍ່ເຮັດແບບນັ້ນ.

ເຄື່ອງມື / ວິທີການ ຜູ້ຊົມ ລາຄາ ເປັນຫຍັງມັນຈຶ່ງໃຊ້ໄດ້
ຊຸດການທົດສອບການກະຕຸ້ນເຕືອນທີ່ສ້າງດ້ວຍມື ຜະລິດຕະພັນ + ວິສະວະກຳ $ ເປົ້າໝາຍຫຼາຍ, ຈັບການຖົດຖອຍໄດ້ໄວ - ແຕ່ເຈົ້າຕ້ອງຮັກສາມັນໄວ້ຕະຫຼອດໄປ 🙃 (ເຄື່ອງມືເລີ່ມຕົ້ນ: OpenAI Evals )
ແຜງໃຫ້ຄະແນນແບບສອບຖາມຂອງມະນຸດ ທີມທີ່ສາມາດຍົກເວັ້ນຜູ້ທົບທວນໄດ້ $$ ເໝາະສົມທີ່ສຸດສຳລັບນ້ຳສຽງ, ຄວາມແຕກຕ່າງເລັກນ້ອຍ, “ມະນຸດຈະຍອມຮັບສິ່ງນີ້ບໍ”, ຄວາມວຸ້ນວາຍເລັກນ້ອຍຂຶ້ນກັບຜູ້ທົບທວນ
ປະລິນຍາຕີສາຂາວິຊາບໍລິຫານທຸລະກິດ (ພ້ອມດ້ວຍຄະແນນ) ການວົນຊ້ຳແບບໄວ $-$$ ໄວ ແລະ ສາມາດຂະຫຍາຍໄດ້, ແຕ່ສາມາດສືບທອດອະຄະຕິ ແລະ ບາງຄັ້ງກໍ່ໃຫ້ຄະແນນຄວາມຮູ້ສຶກບໍ່ແມ່ນຂໍ້ເທັດຈິງ (ການຄົ້ນຄວ້າ + ບັນຫາອະຄະຕິທີ່ຮູ້ຈັກ: G-Eval )
ການແລ່ນສະປຣິນແບບທີມແດງທີ່ແຂ່ງຂັນກັນ ຄວາມປອດໄພ + ການປະຕິບັດຕາມ $$ ພົບຮູບແບບຄວາມລົ້ມເຫຼວທີ່ເຜັດຮ້ອນ, ໂດຍສະເພາະການສັກຢາແບບໄວ - ຮູ້ສຶກຄືກັບການທົດສອບຄວາມຄຽດຢູ່ໃນຫ້ອງອອກກຳລັງກາຍ (ພາບລວມຂອງໄພຂົ່ມຂູ່: OWASP LLM01 ການສັກຢາແບບໄວ / OWASP Top 10 ສຳລັບແອັບ LLM )
ການສ້າງການທົດສອບສັງເຄາະ ທີມງານແສງສະຫວ່າງຂໍ້ມູນ $ ການຄຸ້ມຄອງທີ່ດີຫຼາຍ, ແຕ່ການກະຕຸ້ນສັງເຄາະອາດຈະເປັນລະບຽບຮຽບຮ້ອຍເກີນໄປ, ສຸພາບເກີນໄປ... ຜູ້ໃຊ້ບໍ່ສຸພາບ
ການທົດສອບ A/B ກັບຜູ້ໃຊ້ຕົວຈິງ ຜະລິດຕະພັນສຳລັບຜູ້ໃຫຍ່ $$$ ສັນຍານທີ່ຊັດເຈນທີ່ສຸດ - ຍັງເປັນສັນຍານທີ່ເຄັ່ງຕຶງທາງດ້ານອາລົມຫຼາຍທີ່ສຸດເມື່ອຕົວຊີ້ວັດມີການປ່ຽນແປງ (ຄູ່ມືປະຕິບັດແບບຄລາສສິກ: Kohavi et al., “ການທົດລອງທີ່ຄວບຄຸມໃນເວັບ” )
ການປະເມີນໂດຍອີງໃສ່ການດຶງຂໍ້ມູນຄືນ (ການກວດສອບ RAG) ແອັບຄົ້ນຫາ + ການກວດສອບຄຸນນະພາບ $$ ມາດຕະການ “ໃຊ້ສະພາບການຢ່າງຖືກຕ້ອງ,” ຫຼຸດຜ່ອນອັດຕາເງິນເຟີ້ຂອງຄະແນນການຫຼອນ (ພາບລວມການປະເມີນ RAG: ການປະເມີນຜົນ RAG: ການສຳຫຼວດ )
ການຕິດຕາມກວດກາ + ການກວດຈັບການເລື່ອນລອຍ ລະບົບການຜະລິດ $$-$$$ ຮັບຮູ້ເຖິງຄວາມເສື່ອມໂຊມຕາມການເວລາ - ບໍ່ມີສີສັນຈົນກວ່າມື້ທີ່ມັນຈະຊ່ວຍທ່ານໄດ້ 😬 (ພາບລວມຂອງການດຣິຟ: ການສຳຫຼວດແນວຄວາມຄິດຂອງການດຣິຟ (PMC) )

ສັງເກດວ່າລາຄາແມ່ນຕໍ່າໂດຍເຈດຕະນາ. ພວກມັນຂຶ້ນກັບຂະໜາດ, ເຄື່ອງມື, ແລະຈຳນວນການປະຊຸມທີ່ເຈົ້າສ້າງໂດຍບັງເອີນ.


7) ການປະເມີນມະນຸດ - ອາວຸດລັບທີ່ຜູ້ຄົນຂາດທຶນ 👀🧑⚖️

ຖ້າທ່ານເຮັດການປະເມີນຜົນແບບອັດຕະໂນມັດ, ທ່ານຈະພາດ:

  • ນ້ຳສຽງບໍ່ກົງກັນ (“ເປັນຫຍັງມັນຈຶ່ງເຍາະເຍີ້ຍຫຼາຍ”)

  • ຂໍ້ຜິດພາດຕົວຈິງທີ່ລະອຽດອ່ອນທີ່ເບິ່ງຄືວ່າຄ່ອງແຄ້ວ

  • ຜົນສະທ້ອນທີ່ເປັນອັນຕະລາຍ, ແບບແຜນ, ຫຼື ການໃຊ້ສຳນວນທີ່ງຸ່ມງ່າມ (ການວາງກອບຄວາມສ່ຽງ + ອະຄະຕິ: NIST AI RMF 1.0 )

  • ຄວາມລົ້ມເຫຼວທີ່ປະຕິບັດຕາມຄຳແນະນຳທີ່ຍັງຟັງຄືວ່າ "ສະຫຼາດ"

ເຮັດໃຫ້ rubrics ເປັນຮູບປະທຳ (ຫຼື ຜູ້ທົບທວນຈະເຮັດແບບອິດສະຫຼະ)

ຄະແນນທີ່ບໍ່ດີ: “ຄວາມເປັນປະໂຫຍດ”
ຄະແນນທີ່ດີກວ່າ:

  • ຄວາມຖືກຕ້ອງ : ຖືກຕ້ອງຕາມຄວາມເປັນຈິງໂດຍພິຈາລະນາເຖິງການກະຕຸ້ນ + ສະພາບການ

  • ຄວາມຄົບຖ້ວນ : ກວມເອົາຈຸດທີ່ຕ້ອງການໂດຍບໍ່ຕ້ອງເວົ້າຫຼາຍ

  • ຄວາມຊັດເຈນ : ອ່ານງ່າຍ, ມີໂຄງສ້າງ, ມີຄວາມສັບສົນໜ້ອຍທີ່ສຸດ

  • ນະໂຍບາຍ / ຄວາມປອດໄພ : ຫຼີກລ່ຽງເນື້ອຫາທີ່ຖືກຈຳກັດ, ຈັດການກັບການປະຕິເສດໄດ້ດີ (ກອບຄວາມປອດໄພ: NIST AI RMF 1.0 )

  • ແບບ : ກົງກັບສຽງ, ໂທນສຽງ, ລະດັບການອ່ານ

  • ຄວາມຊື່ສັດ : ບໍ່ໄດ້ປະດິດແຫຼ່ງຂໍ້ມູນ ຫຼື ການອ້າງທີ່ບໍ່ໄດ້ຮັບການສະໜັບສະໜູນ

ນອກຈາກນັ້ນ, ໃຫ້ກວດສອບລະຫວ່າງຜູ້ໃຫ້ຄະແນນບາງຄັ້ງຄາວ. ຖ້າຜູ້ໃຫ້ຄະແນນສອງຄົນບໍ່ເຫັນດີນຳກັນຢູ່ເລື້ອຍໆ, ມັນບໍ່ແມ່ນ "ບັນຫາຄົນ", ແຕ່ມັນເປັນບັນຫາຂອງຄະແນນ. ໂດຍປົກກະຕິແລ້ວ (ພື້ນຖານຄວາມໜ້າເຊື່ອຖືລະຫວ່າງຜູ້ໃຫ້ຄະແນນ: McHugh ກ່ຽວກັບ kappa ຂອງ Cohen ).


8) ວິທີການປະເມີນຮູບແບບ AI ເພື່ອຄວາມປອດໄພ, ຄວາມທົນທານ, ແລະ “ໂອ້ຍ, ຜູ້ໃຊ້” 🧯🧪

ນີ້ແມ່ນສ່ວນທີ່ເຈົ້າເຮັດກ່ອນການເປີດຕົວ - ແລະຫຼັງຈາກນັ້ນສືບຕໍ່ເຮັດ, ເພາະວ່າອິນເຕີເນັດບໍ່ເຄີຍນອນຫຼັບ.

ການທົດສອບຄວາມແຂງແຮງລວມມີ

  • ການພິມຜິດ, ພາສາສະແລງ, ໄວຍາກອນທີ່ບໍ່ດີ

  • ຄຳສັ່ງທີ່ຍາວຫຼາຍ ແລະ ຄຳສັ່ງທີ່ສັ້ນຫຼາຍ

  • ຄຳແນະນຳທີ່ຂັດແຍ້ງກັນ (“ໃຫ້ສັ້ນແຕ່ລວມເອົາທຸກລາຍລະອຽດ”)

  • ການສົນທະນາຫຼາຍຮອບທີ່ຜູ້ໃຊ້ປ່ຽນເປົ້າໝາຍ

  • ຄວາມພະຍາຍາມສີດທັນທີ (“ບໍ່ສົນໃຈກົດລະບຽບກ່ອນໜ້ານີ້…”) (ລາຍລະອຽດໄພຂົ່ມຂູ່: OWASP LLM01 ສີດທັນທີ )

  • ຫົວຂໍ້ທີ່ລະອຽດອ່ອນທີ່ຕ້ອງການການປະຕິເສດຢ່າງລະມັດລະວັງ (ກອບຄວາມສ່ຽງ/ຄວາມປອດໄພ: NIST AI RMF 1.0 )

ການປະເມີນຄວາມປອດໄພບໍ່ພຽງແຕ່ "ມັນປະຕິເສດ" ເທົ່ານັ້ນ

ຮູບແບບທີ່ດີຄວນ:

  • ປະຕິເສດຄຳຮ້ອງຂໍທີ່ບໍ່ປອດໄພຢ່າງຊັດເຈນ ແລະ ສະຫງົບ (ກອບຄຳແນະນຳ: NIST AI RMF 1.0 )

  • ໃຫ້ທາງເລືອກທີ່ປອດໄພກວ່າເມື່ອເໝາະສົມ

  • ຫຼີກລ່ຽງການປະຕິເສດຄຳຖາມທີ່ບໍ່ເປັນອັນຕະລາຍຫຼາຍເກີນໄປ (ຜົນບວກທີ່ບໍ່ຖືກຕ້ອງ)

  • ຈັດການກັບຄຳຮ້ອງຂໍທີ່ບໍ່ຊັດເຈນດ້ວຍຄຳຖາມທີ່ຊັດເຈນ (ເມື່ອໄດ້ຮັບອະນຸຍາດ)

ການປະຕິເສດຫຼາຍເກີນໄປແມ່ນບັນຫາຜະລິດຕະພັນທີ່ແທ້ຈິງ. ຜູ້ໃຊ້ບໍ່ມັກຖືກປະຕິບັດຄືກັບກອບລິນທີ່ໜ້າສົງໄສ. 🧌 (ເຖິງແມ່ນວ່າພວກເຂົາເປັນກອບລິນທີ່ໜ້າສົງໄສກໍຕາມ.)


9) ຄ່າໃຊ້ຈ່າຍ, ຄວາມຊັກຊ້າ, ແລະ ຄວາມເປັນຈິງໃນການດຳເນີນງານ - ການປະເມີນຜົນທີ່ທຸກຄົນລືມ 💸⏱️

ຮູບແບບສາມາດ "ໜ້າອັດສະຈັນ" ແລະຍັງຜິດພາດສຳລັບທ່ານຖ້າມັນຊ້າ, ລາຄາແພງ, ຫຼືບອບບາງໃນການດຳເນີນງານ.

ປະເມີນຜົນ:

  • ການແຈກຢາຍຄວາມຊັກຊ້າ (ບໍ່ພຽງແຕ່ຄ່າສະເລ່ຍ - p95 ແລະ p99 ມີຄວາມສຳຄັນ) (ເປັນຫຍັງເປີເຊັນໄທລ໌ຈຶ່ງມີຄວາມສຳຄັນ: ປື້ມວຽກ Google SRE ກ່ຽວກັບການຕິດຕາມກວດກາ )

  • ຄ່າໃຊ້ຈ່າຍຕໍ່ໜ້າວຽກທີ່ປະສົບຜົນສຳເລັດ (ບໍ່ແມ່ນຄ່າໃຊ້ຈ່າຍຕໍ່ໂທເຄັນແຍກຕ່າງຫາກ)

  • ຄວາມໝັ້ນຄົງພາຍໃຕ້ການໂຫຼດ (ໝົດເວລາ, ຂໍ້ຈຳກັດອັດຕາ, ການເພີ່ມຂຶ້ນຂອງຄວາມໄວທີ່ຜິດປົກກະຕິ)

  • ຄວາມໜ້າເຊື່ອຖືໃນການເອີ້ນເຄື່ອງມື (ຖ້າມັນໃຊ້ຟັງຊັນ, ມັນເຮັດວຽກບໍ່)

  • ແນວໂນ້ມຄວາມຍາວຂອງຜົນຜະລິດ (ບາງຮຸ່ນມີຄວາມຍາວຜິດປົກກະຕິ, ແລະ ຄວາມຍາວຜິດປົກກະຕິມີຄ່າໃຊ້ຈ່າຍ)

ຮຸ່ນທີ່ຮ້າຍກວ່າເລັກນ້ອຍທີ່ໄວກວ່າສອງເທົ່າສາມາດຊະນະໄດ້ໃນການປະຕິບັດຕົວຈິງ. ນັ້ນຟັງຄືວ່າຈະແຈ້ງ, ແຕ່ຄົນເຮົາບໍ່ສົນໃຈມັນ. ຄືກັບການຊື້ລົດກິລາເພື່ອໄປຊື້ເຄື່ອງຢູ່ຮ້ານຂາຍເຄື່ອງ, ແລ້ວຈົ່ມກ່ຽວກັບພື້ນທີ່ກະໂປງຫຼັງລົດ.


10) ຂັ້ນຕອນການເຮັດວຽກແບບ end-to-end ງ່າຍໆທີ່ທ່ານສາມາດຄັດລອກ (ແລະປັບແຕ່ງ) 🔁✅

ນີ້ແມ່ນຂັ້ນຕອນການປະຕິບັດຕົວຈິງສຳລັບ ວິທີການປະເມີນຜົນແບບຈຳລອງ AI ໂດຍບໍ່ຕ້ອງຕົກຢູ່ໃນການທົດລອງທີ່ບໍ່ມີທີ່ສິ້ນສຸດ:

  1. ນິຍາມຄວາມສຳເລັດ : ໜ້າວຽກ, ຂໍ້ຈຳກັດ, ຕົ້ນທຶນຄວາມລົ້ມເຫຼວ

  2. ສ້າງຊຸດການທົດສອບ “ຫຼັກ” ຂະໜາດນ້ອຍ : ຕົວຢ່າງ 50-200 ຕົວຢ່າງທີ່ສະທ້ອນເຖິງການນຳໃຊ້ຕົວຈິງ

  3. ເພີ່ມຊຸດຂອບ ແລະ ຊຸດຕ້ານ : ຄວາມພະຍາຍາມໃນການສີດ, ການກະຕຸ້ນທີ່ບໍ່ຊັດເຈນ, ການກວດສອບຄວາມປອດໄພ (ຊັ້ນການສີດທີ່ວ່ອງໄວ: OWASP LLM01 )

  4. ດໍາເນີນການກວດສອບອັດຕະໂນມັດ : ການຈັດຮູບແບບ, ຄວາມຖືກຕ້ອງຂອງ JSON, ຄວາມຖືກຕ້ອງພື້ນຖານເທົ່າທີ່ເປັນໄປໄດ້

  5. ດຳເນີນການກວດສອບໂດຍມະນຸດ : ຕົວຢ່າງຜົນຜະລິດໃນທົ່ວໝວດໝູ່, ໃຫ້ຄະແນນດ້ວຍ rubric

  6. ປຽບທຽບການແລກປ່ຽນ : ຄຸນນະພາບທຽບກັບຕົ້ນທຶນທຽບກັບຄວາມຊັກຊ້າທຽບກັບຄວາມປອດໄພ

  7. ໂຄງການທົດລອງໃນການປ່ອຍທີ່ຈຳກັດ : ການທົດສອບ A/B ຫຼື ການເປີດຕົວແບບຂັ້ນຕອນ (ຄູ່ມືການທົດສອບ A/B: Kohavi et al. )

  8. ຕິດຕາມກວດກາໃນການຜະລິດ : ການເລື່ອນລອຍ, ການຖົດຖອຍ, ວົງວຽນຄຳຕິຊົມຂອງຜູ້ໃຊ້ (ພາບລວມຂອງການເລື່ອນລອຍ: ການສຳຫຼວດແນວຄິດການເລື່ອນລອຍ (PMC) )

  9. ເຮັດຊ້ຳ : ອັບເດດການກະຕຸ້ນ, ດຶງຂໍ້ມູນຄືນ, ການປັບແຕ່ງລະອຽດ, ການປ້ອງກັນ, ຈາກນັ້ນດຳເນີນການປະເມີນຜົນຄືນໃໝ່ (ຮູບແບບການປະເມີນຊ້ຳ: ຄູ່ມືການປະເມີນຜົນ OpenAI )

ຮັກສາບັນທຶກທີ່ມີລຸ້ນ. ບໍ່ແມ່ນຍ້ອນວ່າມັນມ່ວນ, ແຕ່ຍ້ອນວ່າໃນອະນາຄົດ - ເຈົ້າຈະຂອບໃຈເຈົ້າໃນຂະນະທີ່ຖືກາເຟແລະພຶມພຳວ່າ "ມີຫຍັງປ່ຽນແປງ..." ☕🙂


11) ອຸປະສັກທົ່ວໄປ (ຫຼື ວິທີທີ່ຄົນເຮົາຫຼອກລວງຕົນເອງໂດຍບັງເອີນ) 🪤

  • ການຝຶກອົບຮົມສຳລັບການທົດສອບ : ທ່ານເພີ່ມປະສິດທິພາບການກະຕຸ້ນຈົນກວ່າມາດຕະຖານຈະເບິ່ງດີ, ແຕ່ຜູ້ໃຊ້ໄດ້ຮັບຜົນກະທົບ

  • ຂໍ້ມູນການປະເມີນຜົນຮົ່ວໄຫຼ : ການກະຕຸ້ນການທົດສອບປາກົດຢູ່ໃນຂໍ້ມູນການຝຶກອົບຮົມ ຫຼື ການປັບແຕ່ງ (whoops)

  • ການນະມັດສະການແບບມິຕິດຽວ : ການໄລ່ຕາມຄະແນນດຽວທີ່ບໍ່ສະທ້ອນເຖິງຄຸນຄ່າຂອງຜູ້ໃຊ້

  • ການບໍ່ສົນໃຈການປ່ຽນແປງການແຈກຢາຍ : ການປ່ຽນແປງພຶດຕິກຳຂອງຜູ້ໃຊ້ ແລະ ຮູບແບບຂອງທ່ານຈະຊຸດໂຊມລົງຢ່າງງຽບໆ (ການວາງກອບຄວາມສ່ຽງດ້ານການຜະລິດ: ການສຳຫຼວດການເລື່ອນລອຍແນວຄວາມຄິດ (PMC) )

  • ການຈັດດັດສະນີຫຼາຍເກີນໄປກ່ຽວກັບ “ຄວາມສະຫຼາດ” : ການຫາເຫດຜົນທີ່ສະຫຼາດບໍ່ສຳຄັນວ່າມັນຈະທຳລາຍຮູບແບບ ຫຼື ປະດິດຂໍ້ເທັດຈິງຂຶ້ນມາ

  • ບໍ່ໄດ້ທົດສອບຄຸນນະພາບການປະຕິເສດ : "ບໍ່" ອາດຈະຖືກຕ້ອງແຕ່ຍັງເປັນ UX ທີ່ບໍ່ດີຢູ່

ນອກຈາກນັ້ນ, ຈົ່ງລະວັງການສາທິດ. ການສາທິດກໍຄືກັບຕົວຢ່າງໜັງ. ພວກມັນສະແດງຈຸດເດັ່ນ, ເຊື່ອງສ່ວນທີ່ຊ້າ, ແລະບາງຄັ້ງກໍ່ມີເພງທີ່ໜ້າຕື່ນເຕັ້ນ. 🎬


12) ສະຫຼຸບສະຫຼຸບກ່ຽວກັບວິທີການປະເມີນຮູບແບບ AI 🧠✨

ການປະເມີນຮູບແບບ AI ບໍ່ແມ່ນຄະແນນດຽວ, ມັນແມ່ນອາຫານທີ່ສົມດຸນ. ເຈົ້າຕ້ອງການໂປຣຕີນ (ຄວາມຖືກຕ້ອງ), ຜັກ (ຄວາມປອດໄພ), ຄາໂບໄຮເດຣດ (ຄວາມໄວ ແລະ ລາຄາ), ແລະ ແມ່ນແລ້ວ, ບາງຄັ້ງກໍ່ເປັນຂອງຫວານ (ນ້ຳສຽງ ແລະ ຄວາມສຸກ) 🍲🍰 (ການວາງຂອບເຂດຄວາມສ່ຽງ: NIST AI RMF 1.0 )

ຖ້າທ່ານຈື່ຫຍັງອີກ:

  • ໃຫ້ນິຍາມຄວາມໝາຍຂອງຄຳວ່າ "ດີ" ສຳລັບກໍລະນີການນຳໃຊ້ຂອງທ່ານ

  • ໃຊ້ຊຸດການທົດສອບທີ່ເປັນຕົວແທນ, ບໍ່ພຽງແຕ່ມາດຕະຖານທີ່ມີຊື່ສຽງເທົ່ານັ້ນ

  • ລວມເອົາຕົວຊີ້ວັດອັດຕະໂນມັດເຂົ້າກັບການທົບທວນ rubric ຂອງມະນຸດ

  • ທົດສອບຄວາມທົນທານ ແລະ ຄວາມປອດໄພ ຄືກັບວ່າຜູ້ໃຊ້ເປັນສັດຕູ (ເພາະວ່າບາງຄັ້ງ… ພວກເຂົາເປັນ) (ຊັ້ນການສີດໄວ: OWASP LLM01 )

  • ໃຫ້ລວມເອົາຄ່າໃຊ້ຈ່າຍ ແລະ ຄວາມຊັກຊ້າໃນການປະເມີນຜົນ, ບໍ່ແມ່ນການຄິດເຖິງພາຍຫຼັງ (ເປັນຫຍັງເປີເຊັນໄທລ໌ຈຶ່ງມີຄວາມສຳຄັນ: Google SRE Workbook )

  • ຕິດຕາມກວດກາຫຼັງຈາກການເປີດຕົວ - ຮູບແບບຕ່າງໆມີການປ່ຽນແປງ, ແອັບຕ່າງໆພັດທະນາໄປ, ມະນຸດມີຄວາມຄິດສ້າງສັນ (ພາບລວມຂອງການປ່ຽນແປງ: ການສຳຫຼວດແນວຄວາມຄິດ (PMC) )

ນັ້ນແມ່ນ ວິທີການປະເມີນຮູບແບບ AI ໃນລັກສະນະທີ່ຍືນຍົງເມື່ອຜະລິດຕະພັນຂອງເຈົ້າຖືກເຜີຍແຜ່ ແລະ ຜູ້ຄົນເລີ່ມເຮັດສິ່ງທີ່ຄົນອື່ນຄາດເດົາບໍ່ໄດ້. ເຊິ່ງມັນກໍ່ເປັນແບບນັ້ນສະເໝີ. 🙂

ຄຳຖາມທີ່ຖືກຖາມເລື້ອຍໆ

ຂັ້ນຕອນທຳອິດໃນການປະເມີນຮູບແບບ AI ສຳລັບຜະລິດຕະພັນຕົວຈິງແມ່ນຫຍັງ?

ເລີ່ມຕົ້ນດ້ວຍການກຳນົດຄວາມໝາຍຂອງຄຳວ່າ "ດີ" ສຳລັບກໍລະນີການນຳໃຊ້ສະເພາະຂອງທ່ານ. ໃຫ້ລະບຸເປົ້າໝາຍຂອງຜູ້ໃຊ້, ຄວາມລົ້ມເຫຼວອັນໃດທີ່ເຮັດໃຫ້ເຈົ້າເສຍຄ່າໃຊ້ຈ່າຍ (ຄວາມສ່ຽງຕໍ່າທຽບກັບຄວາມສ່ຽງສູງ), ແລະບ່ອນທີ່ຮູບແບບຈະເຮັດວຽກ (ຄລາວ, ໃນອຸປະກອນ, ສະພາບແວດລ້ອມທີ່ຖືກຄວບຄຸມ). ຈາກນັ້ນລະບຸຂໍ້ຈຳກັດທີ່ແຂງແກ່ນເຊັ່ນ: ຄວາມຊັກຊ້າ, ຄ່າໃຊ້ຈ່າຍ, ຄວາມເປັນສ່ວນຕົວ, ແລະການຄວບຄຸມສຽງ. ຖ້າບໍ່ມີພື້ນຖານນີ້, ເຈົ້າຈະວັດແທກຫຼາຍຢ່າງແລະຍັງຕັດສິນໃຈທີ່ບໍ່ດີ.

ຂ້ອຍຈະສ້າງຊຸດການທົດສອບທີ່ສະທ້ອນເຖິງຜູ້ໃຊ້ຂອງຂ້ອຍຢ່າງແທ້ຈິງໄດ້ແນວໃດ?

ສ້າງຊຸດການທົດສອບທີ່ເປັນຂອງເຈົ້າຢ່າງແທ້ຈິງ, ບໍ່ພຽງແຕ່ເປັນມາດຕະຖານສາທາລະນະເທົ່ານັ້ນ. ລວມເອົາຕົວຢ່າງທີ່ດີທີ່ເຈົ້າພູມໃຈທີ່ຈະສົ່ງໃຫ້, ບວກກັບການກະຕຸ້ນທີ່ມີສຽງດັງ, ມີລັກສະນະທົ່ວໄປທີ່ມີການພິມຜິດ, ປະໂຫຍກເຄິ່ງໜຶ່ງ, ແລະ ການຮ້ອງຂໍທີ່ບໍ່ຊັດເຈນ. ເພີ່ມກໍລະນີຂອບ ແລະ ການທົດສອບໂໝດຄວາມລົ້ມເຫຼວທີ່ລໍ້ລວງໃຫ້ເກີດພາບຫຼອນ ຫຼື ການຕອບກັບທີ່ບໍ່ປອດໄພ. ກວມເອົາຄວາມຫຼາກຫຼາຍໃນລະດັບທັກສະ, ສຳນຽງ, ພາສາ, ແລະ ຂົງເຂດຕ່າງໆ ເພື່ອບໍ່ໃຫ້ຜົນໄດ້ຮັບລົ້ມເຫຼວໃນການຜະລິດ.

ຂ້ອຍຄວນໃຊ້ຕົວຊີ້ວັດໃດ, ແລະຕົວຊີ້ວັດໃດທີ່ສາມາດເຮັດໃຫ້ເຂົ້າໃຈຜິດໄດ້?

ຈັບຄູ່ຕົວຊີ້ວັດກັບປະເພດໜ້າວຽກ. ການຈັບຄູ່ແບບແນ່ນອນ ແລະ ຄວາມຖືກຕ້ອງເຮັດວຽກໄດ້ດີສຳລັບການສະກັດ ແລະ ຜົນຜະລິດທີ່ມີໂຄງສ້າງ, ໃນຂະນະທີ່ຄວາມແມ່ນຍຳ/ການເອີ້ນຄືນ ແລະ ການຊ່ວຍເຫຼືອ F1 ເມື່ອພາດບາງສິ່ງບາງຢ່າງແມ່ນຮ້າຍແຮງກວ່າສຽງລົບກວນເພີ່ມເຕີມ. ຕົວຊີ້ວັດທີ່ຊ້ອນກັນເຊັ່ນ BLEU/ROUGE ສາມາດເຮັດໃຫ້ເຂົ້າໃຈຜິດສຳລັບໜ້າວຽກທີ່ເປີດກວ້າງ, ແລະ ການຝັງຄວາມຄ້າຍຄືກັນສາມາດໃຫ້ລາງວັນຄຳຕອບທີ່ "ຜິດແຕ່ຄ້າຍຄືກັນ". ສຳລັບການຂຽນ, ການສະໜັບສະໜູນ, ຫຼື ການໃຫ້ເຫດຜົນ, ໃຫ້ລວມຕົວຊີ້ວັດກັບການທົບທວນຂອງມະນຸດ ແລະ ອັດຕາຄວາມສຳເລັດຂອງໜ້າວຽກ.

ຂ້ອຍຄວນຈັດໂຄງສ້າງການປະເມີນຜົນແນວໃດເພື່ອໃຫ້ພວກມັນສາມາດເຮັດຊ້ຳໄດ້ ແລະ ຢູ່ໃນລະດັບການຜະລິດ?

ຂອບການປະເມີນຜົນທີ່ແຂງແຮງແມ່ນສາມາດເຮັດຊ້ຳໄດ້, ເປັນຕົວແທນ, ຫຼາຍຊັ້ນ, ແລະ ສາມາດປະຕິບັດໄດ້. ລວມການກວດສອບອັດຕະໂນມັດ (ຮູບແບບ, ຄວາມຖືກຕ້ອງຂອງ JSON, ຄວາມຖືກຕ້ອງພື້ນຖານ) ກັບການໃຫ້ຄະແນນແບບມະນຸດ ແລະ ການທົດສອບແບບຕ້ານ. ເຮັດໃຫ້ມັນທົນທານຕໍ່ການແຊກແຊງໂດຍການຫຼີກລ່ຽງການຮົ່ວໄຫຼ ແລະ "ສອນໃຫ້ທັນກັບການທົດສອບ." ຮັກສາການປະເມີນໃຫ້ມີຄວາມຮັບຮູ້ຄ່າໃຊ້ຈ່າຍ ເພື່ອໃຫ້ທ່ານສາມາດດໍາເນີນການມັນໄດ້ເລື້ອຍໆ, ບໍ່ພຽງແຕ່ຄັ້ງດຽວກ່ອນການເປີດຕົວ.

ວິທີທີ່ດີທີ່ສຸດໃນການປະເມີນມະນຸດໂດຍບໍ່ໃຫ້ມັນກາຍເປັນຄວາມວຸ້ນວາຍແມ່ນຫຍັງ?

ໃຊ້ຄະແນນທີ່ແນ່ນອນເພື່ອບໍ່ໃຫ້ຜູ້ທົບທວນບໍ່ໄດ້ໃຊ້ຮູບແບບທີ່ແຕກຕ່າງກັນ. ໃຫ້ຄະແນນຄຸນລັກສະນະຕ່າງໆເຊັ່ນ: ຄວາມຖືກຕ້ອງ, ຄວາມຄົບຖ້ວນ, ຄວາມຊັດເຈນ, ຄວາມປອດໄພ/ການຈັດການນະໂຍບາຍ, ແບບ/ສຽງທີ່ກົງກັນ, ແລະ ຄວາມຊື່ສັດ (ບໍ່ແມ່ນການປະດິດການອ້າງສິດ ຫຼື ແຫຼ່ງຂໍ້ມູນ). ກວດສອບການຕົກລົງລະຫວ່າງຜູ້ໃຫ້ຄະແນນເປັນໄລຍະ; ຖ້າຜູ້ທົບທວນບໍ່ເຫັນດີຢູ່ສະເໝີ, ຄະແນນອາດຈະຕ້ອງການການປັບປຸງ. ການທົບທວນຂອງມະນຸດແມ່ນມີຄຸນຄ່າໂດຍສະເພາະສຳລັບຄວາມບໍ່ກົງກັນຂອງໂຕນ, ຄວາມຜິດພາດຂອງຂໍ້ເທັດຈິງທີ່ລະອຽດອ່ອນ, ແລະ ຄວາມລົ້ມເຫຼວໃນການປະຕິບັດຕາມຄຳແນະນຳ.

ຂ້ອຍຈະປະເມີນຄວາມປອດໄພ, ຄວາມທົນທານ, ແລະ ຄວາມສ່ຽງຕໍ່ການສັກຢາຢ່າງວ່ອງໄວໄດ້ແນວໃດ?

ທົດສອບດ້ວຍການປ້ອນຂໍ້ມູນ “ອືມ, ຜູ້ໃຊ້”: ການພິມຜິດ, ພາສາສະແລງ, ຄຳແນະນຳທີ່ຂັດແຍ້ງກັນ, ການກະຕຸ້ນທີ່ຍາວຫຼາຍ ຫຼື ສັ້ນຫຼາຍ, ແລະ ການປ່ຽນແປງເປົ້າໝາຍຫຼາຍຄັ້ງ. ລວມທັງຄວາມພະຍາຍາມສີດການກະຕຸ້ນເຊັ່ນ “ບໍ່ສົນໃຈກົດລະບຽບກ່ອນໜ້ານີ້” ແລະ ຫົວຂໍ້ທີ່ລະອຽດອ່ອນທີ່ຕ້ອງການການປະຕິເສດຢ່າງລະມັດລະວັງ. ປະສິດທິພາບດ້ານຄວາມປອດໄພທີ່ດີບໍ່ພຽງແຕ່ເປັນການປະຕິເສດເທົ່ານັ້ນ - ມັນຍັງເປັນການປະຕິເສດຢ່າງຊັດເຈນ, ການສະເໜີທາງເລືອກທີ່ປອດໄພກວ່າເມື່ອເໝາະສົມ, ແລະ ການຫຼີກລ່ຽງການສອບຖາມທີ່ບໍ່ເປັນອັນຕະລາຍທີ່ເປັນອັນຕະລາຍຕໍ່ UX.

ຂ້ອຍຈະປະເມີນຄ່າໃຊ້ຈ່າຍ ແລະ ຄວາມຊັກຊ້າໄດ້ແນວໃດໃນລັກສະນະທີ່ກົງກັບຄວາມເປັນຈິງ?

ຢ່າພຽງແຕ່ວັດແທກຄ່າສະເລ່ຍ - ຕິດຕາມການແຈກຢາຍຄວາມຊັກຊ້າ, ໂດຍສະເພາະ p95 ແລະ p99. ປະເມີນຕົ້ນທຶນຕໍ່ໜ້າວຽກທີ່ປະສົບຜົນສຳເລັດ, ບໍ່ແມ່ນຕົ້ນທຶນຕໍ່ໂທເຄັນແຍກຕ່າງຫາກ, ເພາະວ່າການລອງໃໝ່ ແລະ ຜົນຜະລິດທີ່ເພີ່ມຂຶ້ນເລື້ອຍໆສາມາດລຶບການປະຢັດໄດ້. ທົດສອບຄວາມໝັ້ນຄົງພາຍໃຕ້ການໂຫຼດ (ການໝົດເວລາ, ຂໍ້ຈຳກັດອັດຕາ, ການເພີ່ມຂຶ້ນຂອງຄວາມໄວ) ແລະ ຄວາມໜ້າເຊື່ອຖືຂອງການເອີ້ນເຄື່ອງມື/ຟັງຊັນ. ຮູບແບບທີ່ຮ້າຍແຮງກວ່າເລັກນ້ອຍທີ່ໄວເປັນສອງເທົ່າ ຫຼື ໝັ້ນຄົງກວ່າສາມາດເປັນທາງເລືອກຜະລິດຕະພັນທີ່ດີກວ່າ.

ຂັ້ນຕອນການເຮັດວຽກແບບ end-to-end ແບບງ່າຍໆ ສຳລັບການປະເມີນຮູບແບບ AI ແມ່ນຫຍັງ?

ກຳນົດເງື່ອນໄຂຄວາມສຳເລັດ ແລະ ຂໍ້ຈຳກັດ, ຈາກນັ້ນສ້າງຊຸດການທົດສອບຫຼັກຂະໜາດນ້ອຍ (ປະມານ 50–200 ຕົວຢ່າງ) ທີ່ສະທ້ອນເຖິງການນຳໃຊ້ຕົວຈິງ. ເພີ່ມຊຸດຂອບ ແລະ ຊຸດກົງກັນຂ້າມສຳລັບຄວາມປອດໄພ ແລະ ຄວາມພະຍາຍາມໃນການສີດ. ດຳເນີນການກວດສອບອັດຕະໂນມັດ, ຈາກນັ້ນເກັບຕົວຢ່າງຜົນຜະລິດສຳລັບການໃຫ້ຄະແນນແບບມະນຸດ. ປຽບທຽບຄຸນນະພາບ vs ຕົ້ນທຶນ vs ຄວາມໜ່ວງຊ້າ vs ຄວາມປອດໄພ, ທົດລອງໃຊ້ກັບການເປີດຕົວທີ່ຈຳກັດ ຫຼື ການທົດສອບ A/B, ແລະ ຕິດຕາມກວດກາໃນການຜະລິດສຳລັບການເລື່ອນ ແລະ ການຖົດຖອຍ.

ວິທີທົ່ວໄປທີ່ສຸດທີ່ທີມງານຫຼອກລວງຕົນເອງໂດຍບັງເອີນໃນການປະເມີນຮູບແບບແມ່ນຫຍັງ?

ກັບດັກທົ່ວໄປລວມມີການເພີ່ມປະສິດທິພາບການກະຕຸ້ນເພື່ອໃຫ້ໄດ້ຄະແນນມາດຕະຖານໃນຂະນະທີ່ຜູ້ໃຊ້ປະສົບກັບຄວາມທຸກທໍລະມານ, ການຮົ່ວໄຫຼການກະຕຸ້ນການປະເມີນຜົນເຂົ້າໃນການຝຶກອົບຮົມ ຫຼື ການປັບແຕ່ງຂໍ້ມູນ, ແລະ ການນະມັດສະການຕົວຊີ້ວັດດຽວທີ່ບໍ່ສະທ້ອນເຖິງຄຸນຄ່າຂອງຜູ້ໃຊ້. ທີມງານຍັງບໍ່ສົນໃຈການປ່ຽນແປງການແຈກຢາຍ, ດັດສະນີຫຼາຍເກີນໄປກ່ຽວກັບ "ຄວາມສະຫຼາດ" ແທນທີ່ຈະປະຕິບັດຕາມຮູບແບບ ແລະ ຄວາມຊື່ສັດ, ແລະ ຂ້າມການທົດສອບຄຸນນະພາບການປະຕິເສດ. ການສາທິດສາມາດເຊື່ອງບັນຫາເຫຼົ່ານີ້ໄດ້, ສະນັ້ນຈົ່ງອີງໃສ່ການປະເມີນຜົນທີ່ມີໂຄງສ້າງ, ບໍ່ແມ່ນການເນັ້ນໃສ່ວິດີໂອ.

ເອກະສານອ້າງອີງ

  1. OpenAI - ຄູ່ມືການປະເມີນ OpenAI - platform.openai.com

  2. ສະຖາບັນມາດຕະຖານ ແລະ ເຕັກໂນໂລຊີແຫ່ງຊາດ (NIST) - ຂອບການຄຸ້ມຄອງຄວາມສ່ຽງດ້ານ AI (AI RMF 1.0) - nist.gov

  3. OpenAI - openai/evals (ບ່ອນເກັບມ້ຽນ GitHub) - github.com

  4. scikit-learn - ການສະຫນັບສະຫນູນຄະແນນຄວາມແມ່ນຍໍາ - scikit-learn.org

  5. ສະມາຄົມພາສາສາດຄອມພິວເຕີ (ACL Anthology) - BLEU - aclanthology.org

  6. ສະມາຄົມພາສາສາດຄອມພິວເຕີ (ACL Anthology) - ROUGE - aclanthology.org

  7. arXiv - G-Eval - arxiv.org

  8. OWASP - LLM01: ການສັກຢາແບບວ່ອງໄວ - owasp.org

  9. OWASP - 10 ອັນດັບຕົ້ນໆຂອງ OWASP ສຳລັບແອັບພລິເຄຊັນຮູບແບບພາສາຂະໜາດໃຫຍ່ - owasp.org

  10. ມະຫາວິທະຍາໄລສະແຕນຟອດ - Kohavi ແລະ ຄະນະ, “ການທົດລອງທີ່ຄວບຄຸມໃນເວັບ” - stanford.edu

  11. arXiv - ການປະເມີນຜົນຂອງ RAG: ການສຳຫຼວດ - arxiv.org

  12. PubMed Central (PMC) - ການສຳຫຼວດແນວຄິດແບບລ່ອງລອຍ (PMC) - nih.gov

  13. PubMed Central (PMC) - McHugh ກ່ຽວກັບ kappa ຂອງ Cohen - nih.gov

  14. Google - ປື້ມຄູ່ມື SRE ກ່ຽວກັບການຕິດຕາມກວດກາ - google.workbook

ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ