ຖ້າທ່ານເຄີຍສົ່ງຕົວແບບທີ່ຫຼົງໄຫຼໃນປື້ມບັນທຶກແຕ່ສະດຸດໃນການຜະລິດ, ທ່ານຮູ້ຄວາມລັບແລ້ວ: ວິທີການວັດແທກປະສິດທິພາບ AI ບໍ່ແມ່ນຕົວຊີ້ວັດອັນດຽວ. ມັນເປັນລະບົບການກວດສອບທີ່ເຊື່ອມໂຍງກັບເປົ້າຫມາຍທີ່ແທ້ຈິງຂອງໂລກ. ຄວາມຖືກຕ້ອງແມ່ນຫນ້າຮັກ. ຄວາມຫນ້າເຊື່ອຖື, ຄວາມປອດໄພ, ແລະຜົນກະທົບທາງທຸລະກິດແມ່ນດີກວ່າ.
ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:
🔗 ວິທີການສົນທະນາກັບ AI
ຄໍາແນະນໍາໃນການສື່ສານຢ່າງມີປະສິດທິພາບກັບ AI ສໍາລັບຜົນໄດ້ຮັບທີ່ດີກວ່າຢ່າງຕໍ່ເນື່ອງ.
🔗 AI ແມ່ນການກະຕຸ້ນເຕືອນແມ່ນຫຍັງ
ອະທິບາຍວິທີການກະຕຸ້ນການຕອບສະໜອງ AI ແລະຄຸນນະພາບຜົນຜະລິດ.
🔗 ການຕິດສະຫຼາກຂໍ້ມູນ AI ແມ່ນຫຍັງ
ພາບລວມຂອງການກໍານົດປ້າຍທີ່ຖືກຕ້ອງກັບຂໍ້ມູນສໍາລັບຮູບແບບການຝຶກອົບຮົມ.
🔗 ຈັນຍາບັນ AI ແມ່ນຫຍັງ
ການແນະນໍາກ່ຽວກັບຫຼັກການດ້ານຈັນຍາບັນນໍາພາການພັດທະນາ AI ທີ່ມີຄວາມຮັບຜິດຊອບແລະການນໍາໃຊ້.
ສິ່ງທີ່ເຮັດໃຫ້ການປະຕິບັດ AI ທີ່ດີ? ✅
ສະບັບສັ້ນ: ການປະຕິບັດ AI ທີ່ດີຫມາຍຄວາມວ່າລະບົບຂອງທ່ານ ມີປະໂຫຍດ, ເຊື່ອຖືໄດ້, ແລະສາມາດເຮັດຊ້ໍາໄດ້ ພາຍໃຕ້ສະພາບທີ່ສັບສົນ, ປ່ຽນແປງ. ຢ່າງຈິງຈັງ:
-
ຄຸນະພາບຫນ້າວຽກ - ມັນໄດ້ຮັບຄໍາຕອບທີ່ຖືກຕ້ອງສໍາລັບເຫດຜົນທີ່ຖືກຕ້ອງ.
-
Calibration - ຄະແນນຄວາມເຊື່ອຫມັ້ນສອດຄ່ອງກັບຄວາມເປັນຈິງ, ດັ່ງນັ້ນທ່ານສາມາດປະຕິບັດຢ່າງສະຫຼາດ.
-
ຄວາມເຂັ້ມແຂງ - ມັນຖືຂຶ້ນຢູ່ພາຍໃຕ້ພຽງການລອຍລົມ, ກໍລະນີແຂບ, ແລະ fuzz ຄູ່ຕ້ານ.
-
ຄວາມປອດໄພແລະຄວາມຍຸຕິທໍາ - ມັນຫຼີກເວັ້ນການທໍາລາຍອັນຕະລາຍ, ອະຄະຕິ, ຫຼືບໍ່ສອດຄ່ອງກັບພຶດຕິກໍາ.
-
ປະສິດທິພາບ - ມັນໄວພຽງພໍ, ລາຄາຖືກພຽງພໍ, ແລະ ໝັ້ນຄົງພຽງພໍທີ່ຈະໃຊ້ງານໄດ້ໃນຂອບເຂດກ້ວາງ.
-
ຜົນກະທົບທາງທຸລະກິດ - ຕົວຈິງແລ້ວມັນຍ້າຍ KPI ທີ່ທ່ານສົນໃຈ.
ຖ້າທ່ານຕ້ອງການຈຸດອ້າງອິງຢ່າງເປັນທາງການສໍາລັບການສອດຄ່ອງ metrics ແລະຄວາມສ່ຽງ, NIST AI Risk Management Framework ເປັນດາວເຫນືອທີ່ເຂັ້ມແຂງສໍາລັບການປະເມີນລະບົບທີ່ເຊື່ອຖືໄດ້. [1]

ສູດລະດັບສູງສຳລັບວິທີວັດແທກປະສິດທິພາບ AI 🍳
ຄິດເປັນ ສາມຊັ້ນ :
-
ການວັດແທກວຽກ - ຄວາມຖືກຕ້ອງສໍາລັບປະເພດວຽກງານ: ການຈັດປະເພດ, ການຖົດຖອຍ, ການຈັດອັນດັບ, ການຜະລິດ, ການຄວບຄຸມ, ແລະອື່ນໆ.
-
metrics ລະບົບ - latency, throughput, cost per call, ອັດຕາການລົ້ມເຫຼວ, drift alarm, uptime SLAs.
-
ຕົວຊີ້ວັດຜົນໄດ້ຮັບ - ທຸລະກິດແລະຜົນໄດ້ຮັບຂອງຜູ້ໃຊ້ທີ່ທ່ານຕ້ອງການ: ການແປງ, ການຮັກສາໄວ້, ເຫດການຄວາມປອດໄພ, ການໂຫຼດຄູ່ມື, ປະລິມານປີ້.
ແຜນການວັດແທກທີ່ຍິ່ງໃຫຍ່ໂດຍເຈດຕະນາປະສົມທັງສາມຢ່າງ. ຖ້າບໍ່ດັ່ງນັ້ນ, ເຈົ້າຈະໄດ້ຮັບລູກປືນທີ່ບໍ່ເຄີຍອອກຈາກ launchpad.
ຕົວຊີ້ວັດຫຼັກຕາມປະເພດບັນຫາ - ແລະເວລາທີ່ຈະໃຊ້ອັນໃດ 🎯
1) ການຈັດປະເພດ
-
Precision, Recall, F1 - the day-one trio. F1 ແມ່ນຄ່າສະເລ່ຍຂອງຄວາມແມ່ນຍໍາແລະການເອີ້ນຄືນ; ເປັນປະໂຫຍດໃນເວລາທີ່ຫ້ອງຮຽນບໍ່ສົມດຸນຫຼືຄ່າໃຊ້ຈ່າຍແມ່ນບໍ່ສົມມາດ. [2]
-
ROC-AUC - threshold-agnostic ranking ຂອງ classifiers; ເມື່ອຜົນບວກແມ່ນຫາຍາກ, ໃຫ້ກວດເບິ່ງ PR-AUC . [2]
-
ຄວາມຖືກຕ້ອງສົມດຸນ - ສະເລ່ຍຂອງການເອີ້ນຄືນໃນທົ່ວຫ້ອງຮຽນ; ສະດວກສໍາລັບປ້າຍ skewed. [2]
Pitfall watch: ຄວາມຖືກຕ້ອງຢ່າງດຽວສາມາດເຮັດໃຫ້ເຂົ້າໃຈຜິດຢ່າງຈິງຈັງກັບຄວາມບໍ່ສົມດຸນ. ຖ້າ 99% ຂອງຜູ້ໃຊ້ທີ່ຖືກຕ້ອງຕາມກົດຫມາຍ, ຮູບແບບທີ່ຂີ້ຕົວະສະເຫມີທີ່ຖືກຕ້ອງແມ່ນໃຫ້ຄະແນນ 99% ແລະເຮັດໃຫ້ທີມງານສໍ້ໂກງຂອງທ່ານລົ້ມເຫລວກ່ອນອາຫານທ່ຽງ.
2) ການຖົດຖອຍ
-
MAE ສໍາລັບຄວາມຜິດພາດຂອງມະນຸດສາມາດເຂົ້າໃຈໄດ້; RMSE ເມື່ອທ່ານຕ້ອງການລົງໂທດການພາດໃຫຍ່; R² ອະທິບາຍຄວາມແຕກຕ່າງ. ຫຼັງຈາກນັ້ນ, ກວດເບິ່ງການແຜ່ກະຈາຍແລະດິນທີ່ຕົກຄ້າງ. [2]
(ໃຊ້ຫົວໜ່ວຍທີ່ເປັນມິດກັບໂດເມນເພື່ອໃຫ້ພາກສ່ວນກ່ຽວຂ້ອງສາມາດຮູ້ສຶກເຖິງຄວາມຜິດພາດໄດ້.)
3) ການຈັດອັນດັບ, ດຶງຂໍ້ມູນ, ແນະນໍາ
-
nDCG - ເປັນຫ່ວງເປັນໄຍກ່ຽວກັບຕໍາແຫນ່ງແລະຄວາມກ່ຽວຂ້ອງ graded; ມາດຕະຖານສໍາລັບຄຸນນະພາບການຊອກຫາ.
-
MRR - ສຸມໃສ່ວິທີການທໍາອິດທີ່ລາຍການທີ່ກ່ຽວຂ້ອງປາກົດ (ດີສໍາລັບ "ຊອກຫາຄໍາຕອບທີ່ດີ" ວຽກງານ).
(ການອ້າງອິງການຈັດຕັ້ງປະຕິບັດແລະຕົວຢ່າງທີ່ເຮັດວຽກແມ່ນຢູ່ໃນຫ້ອງສະຫມຸດ metric ທົ່ວໄປ.) [2]
4) ການສ້າງຂໍ້ຄວາມແລະການສະຫຼຸບ
-
BLEU ແລະ ROUGE - ການວັດແທກການຊ້ອນກັນແບບຄລາສສິກ; ເປັນປະໂຫຍດເປັນພື້ນຖານ.
-
ການວັດແທກທີ່ອີງໃສ່ການຝັງ (ຕົວຢ່າງ, BERTScore ) ມັກຈະກ່ຽວຂ້ອງກັນດີກວ່າກັບການຕັດສິນຂອງມະນຸດ; ສະເຫມີຈັບຄູ່ກັບການຈັດອັນດັບຂອງມະນຸດສໍາລັບແບບ, ຄວາມຊື່ສັດ, ແລະຄວາມປອດໄພ. [4]
5) ການຕອບຄໍາຖາມ
-
Exact Match ແລະ token-level F1 ແມ່ນທົ່ວໄປສໍາລັບການສະກັດເອົາ QA; ຖ້າຄໍາຕອບຕ້ອງອ້າງອີງແຫຼ່ງ, ວັດແທກ ພື້ນຖານ (ການກວດສອບຄໍາຕອບ).
ການປັບທຽບ, ຄວາມໝັ້ນໃຈ, ແລະເລນ Brier 🎚️
ຄະແນນຄວາມໝັ້ນໃຈແມ່ນບ່ອນທີ່ລະບົບຫຼາຍລະບົບນອນຢູ່ຢ່າງງຽບໆ. ທ່ານຕ້ອງການຄວາມເປັນໄປໄດ້ທີ່ສະທ້ອນເຖິງຄວາມເປັນຈິງເພື່ອໃຫ້ຜູ້ປະຕິບັດງານສາມາດກຳນົດຂອບເຂດ, ເສັ້ນທາງໄປຫາມະນຸດ, ຫຼືຄວາມສ່ຽງດ້ານລາຄາ.
-
ເສັ້ນໂຄ້ງການປັບທຽບ - ເບິ່ງພາບຄວາມເປັນໄປໄດ້ທີ່ຄາດຄະເນໄວ້ ທຽບກັບ ຄວາມຖີ່ຂອງຂໍ້ມູນທີ່ໄດ້ມາຈາກປະສົບການ.
-
ຄະແນນ Brier - ກົດລະບຽບການໃຫ້ຄະແນນທີ່ເຫມາະສົມສໍາລັບຄວາມຖືກຕ້ອງຂອງຄວາມເປັນໄປໄດ້; ຕ່ໍາແມ່ນດີກວ່າ. ມັນເປັນປະໂຫຍດໂດຍສະເພາະໃນເວລາທີ່ທ່ານສົນໃຈກ່ຽວກັບ ຄຸນນະພາບ ຂອງຄວາມເປັນໄປໄດ້, ບໍ່ພຽງແຕ່ການຈັດອັນດັບ. [3]
ຫມາຍເຫດພາກສະໜາມ: F1 "ຮ້າຍແຮງກວ່າ" ເລັກນ້ອຍແຕ່ການປັບທຽບທີ່ດີຂຶ້ນຫຼາຍສາມາດ ຢ່າງຫຼວງຫຼາຍ - ເພາະວ່າຄົນສຸດທ້າຍສາມາດໄວ້ວາງໃຈຄະແນນໄດ້.
ຄວາມປອດໄພ, ຄວາມລຳອຽງ, ແລະຄວາມຍຸດຕິທຳ - ວັດແທກສິ່ງທີ່ສຳຄັນ 🛡️⚖️
ລະບົບສາມາດຖືກຕ້ອງໂດຍລວມແລະຍັງເປັນອັນຕະລາຍຕໍ່ກຸ່ມສະເພາະ. ຕິດຕາມ ກຸ່ມ ແລະມາດຕະຖານຄວາມຍຸດຕິທໍາ:
-
ຄວາມສະເໝີພາບທາງດ້ານປະຊາກອນ - ອັດຕາບວກເທົ່າທຽມກັນໃນທົ່ວກຸ່ມ.
-
ອັດຕາແລກປ່ຽນທີ່ເທົ່າທຽມກັນ / ໂອກາດເທົ່າທຽມກັນ - ອັດຕາຄວາມຜິດພາດເທົ່າທຽມກັນຫຼືອັດຕາຄວາມຈິງ - ບວກໃນທົ່ວກຸ່ມ; ໃຊ້ສິ່ງເຫຼົ່ານີ້ເພື່ອກວດຫາ ແລະຈັດການການລົງທືນ, ບໍ່ແມ່ນການຈັບສະແຕມຜ່ານຄັ້ງດຽວ. [5]
ຄໍາແນະນໍາພາກປະຕິບັດ: ເລີ່ມຕົ້ນດ້ວຍ dashboards ທີ່ຕັດຕົວຊີ້ວັດຫຼັກຕາມຄຸນລັກສະນະທີ່ສໍາຄັນ, ຫຼັງຈາກນັ້ນເພີ່ມຕົວຊີ້ວັດຄວາມຍຸຕິທໍາສະເພາະຕາມນະໂຍບາຍຂອງທ່ານ. ຟັງເບິ່ງເປັນເລື່ອງຕະຫຼົກ, ແຕ່ມັນມີລາຄາຖືກກວ່າເຫດການ.
LLMs ແລະ RAG - ປື້ມບັນທຶກການວັດແທກທີ່ເຮັດວຽກຕົວຈິງ 📚🔍
ການວັດແທກລະບົບການຜະລິດແມ່ນ… squirmy. ເຮັດສິ່ງນີ້:
-
ກໍານົດຜົນໄດ້ຮັບ ຕໍ່ກໍລະນີການນໍາໃຊ້: ຄວາມຖືກຕ້ອງ, ຄວາມເປັນປະໂຫຍດ, ບໍ່ມີອັນຕະລາຍ, ການຕິດຕາມແບບ, ໂຕນຂອງຍີ່ຫໍ້, ການອ້າງອີງພື້ນຖານ, ຄຸນນະພາບການປະຕິເສດ.
-
ອັດຕະໂນມັດການປະເມີນພື້ນຖານ ທີ່ມີກອບທີ່ເຂັ້ມແຂງ (ຕົວຢ່າງ, ເຄື່ອງມືການປະເມີນຜົນໃນ stack ຂອງທ່ານ) ແລະຮັກສາໃຫ້ເຂົາເຈົ້າສະບັບພາສາກັບຊຸດຂໍ້ມູນຂອງທ່ານ.
-
ເພີ່ມການວັດແທກຄວາມໝາຍ (ອີງໃສ່ການຝັງ) ບວກກັບຕົວວັດແທກການທັບຊ້ອນ (BLEU/ROUGE) ເພື່ອສຸຂາພິບານ. [4]
-
ພື້ນຖານເຄື່ອງມື ໃນ RAG: ອັດຕາການຕີຄືນ, ຄວາມແມ່ນຍໍາຂອງບໍລິບົດ/ການເອີ້ນຄືນ, ການຊ້ອນກັນຂອງຄຳຕອບ.
-
ການທົບທວນຄືນຂອງມະນຸດກັບຂໍ້ຕົກລົງ - ການວັດແທກຄວາມສອດຄ່ອງຂອງອັດຕາ (ຕົວຢ່າງ, Cohen's κ ຫຼື Fleiss' κ) ດັ່ງນັ້ນປ້າຍຊື່ຂອງທ່ານບໍ່ vibes.
ໂບນັດ: ບັນທຶກສ່ວນຮ້ອຍເວລາໃນການຕອບສະໜອງ ແລະ token ຫຼືຄ່າໃຊ້ຈ່າຍໃນການຄິດໄລ່ຕໍ່ໜ້າວຽກ. ບໍ່ມີໃຜຮັກຄໍາຕອບ poetic ທີ່ມາຮອດວັນອັງຄານຕໍ່ໄປ.
ຕາຕະລາງປຽບທຽບ - ເຄື່ອງມືທີ່ຊ່ວຍໃຫ້ທ່ານວັດແທກປະສິດທິພາບ AI 🛠️📊
(ແມ່ນແລ້ວ, ມັນເປັນເລື່ອງທີ່ສັບສົນເລັກນ້ອຍ - ບັນທຶກຕົວຈິງແມ່ນສັບສົນ.)
| ເຄື່ອງມື | ຜູ້ຊົມທີ່ດີທີ່ສຸດ | ລາຄາ | ເປັນຫຍັງມັນເຮັດວຽກ - ເອົາໄວ |
|---|---|---|---|
| metrics scikit-ຮຽນຮູ້ | ຜູ້ປະຕິບັດ ML | ຟຣີ | ການປະຕິບັດ Canonical ສໍາລັບການຈັດປະເພດ, regression, ການຈັດອັນດັບ; ງ່າຍທີ່ຈະອົບເຂົ້າໄປໃນການທົດສອບ. [2] |
| MLflow ການປະເມີນຜົນ / GenAI | ນັກວິທະຍາສາດຂໍ້ມູນ, MLOps | ຟຣີ + ຈ່າຍ | ແລ່ນສູນກາງ, ວັດແທກອັດຕະໂນມັດ, ຜູ້ພິພາກສາ LLM, ຜູ້ໃຫ້ຄະແນນທີ່ກໍາຫນົດເອງ; ບັນທຶກວັດຖຸບູຮານຢ່າງສະອາດ. |
| ເຫັນໄດ້ຊັດເຈນ | ທີມງານຕ້ອງການ dashboards ໄວ | OSS + ຄລາວ | 100+ ເມຕຣິກ, ລາຍງານການລອຍລົມ ແລະຄຸນນະພາບ, ຕິດຕາມການຕິດຂັດ - ພາບທີ່ງາມໃນເທື່ອດຽວ. |
| ນ້ຳໜັກ ແລະ ອະຄະຕິ | orgs ທົດລອງ - ຫນັກ | ຊັ້ນຮຽນຟຣີ | ການປຽບທຽບດ້ານຂ້າງ, ຊຸດຂໍ້ມູນ eval, ຜູ້ພິພາກສາ; ຕາຕະລາງແລະຮ່ອງຮອຍແມ່ນກະທັດຮັດ. |
| ແລນສະມິດ | ຜູ້ສ້າງແອັບ LLM | ຈ່າຍແລ້ວ | ຕິດຕາມທຸກຂັ້ນຕອນ, ປະສົມການທົບທວນຄືນຂອງມະນຸດກັບກົດລະບຽບຫຼືຜູ້ປະເມີນ LLM; ທີ່ຍິ່ງໃຫຍ່ສໍາລັບ RAG. |
| TruLens | Open-source LLM lovers eval | OSS | ຫນ້າທີ່ສະແດງຄວາມຄິດເຫັນເພື່ອຄະແນນຄວາມເປັນພິດ, ພື້ນຖານ, ຄວາມກ່ຽວຂ້ອງ; ປະສົມປະສານທຸກບ່ອນ. |
| ຄວາມຄາດຫວັງອັນຍິ່ງໃຫຍ່ | ຄຸນນະພາບຂໍ້ມູນ - orgs ທໍາອິດ | OSS | ກໍານົດຄວາມຄາດຫວັງຂອງຂໍ້ມູນຢ່າງເປັນທາງການ - ເພາະວ່າຂໍ້ມູນທີ່ບໍ່ດີກໍ່ທໍາລາຍທຸກໆ metric ແນວໃດກໍ່ຕາມ. |
| ການກວດສອບເລິກ | ການທົດສອບ ແລະ CI/CD ສໍາລັບ ML | OSS + ຄລາວ | ການທົດສອບລວມທັງຫມໍ້ໄຟສໍາລັບການ drift ຂໍ້ມູນ, ບັນຫາຕົວແບບ, ແລະການຕິດຕາມ; guardrails ດີ. |
ລາຄາມີການປ່ຽນແປງ - ກວດເບິ່ງເອກະສານ. ແລະແມ່ນແລ້ວ, ທ່ານສາມາດປະສົມເຫຼົ່ານີ້ໂດຍບໍ່ມີການຕໍາຫຼວດເຄື່ອງມືສະແດງໃຫ້ເຫັນເຖິງ.
ເກນ, ຄ່າໃຊ້ຈ່າຍ, ແລະເສັ້ນໂຄ້ງການຕັດສິນໃຈ - ຊອດລັບ 🧪
ສິ່ງທີ່ແປກແຕ່ເປັນຄວາມຈິງ: ສອງແບບທີ່ມີ ROC-AUC ດຽວກັນສາມາດມີມູນຄ່າທຸລະກິດທີ່ແຕກຕ່າງກັນຫຼາຍຂຶ້ນຢູ່ກັບ ເກນ ແລະ ອັດຕາສ່ວນຄ່າໃຊ້ຈ່າຍ .
ເອກະສານດ່ວນເພື່ອສ້າງ:
-
ກໍານົດຄ່າໃຊ້ຈ່າຍຂອງບວກທີ່ບໍ່ຖືກຕ້ອງ vs ລົບທີ່ບໍ່ຖືກຕ້ອງໃນເງິນຫຼືເວລາ.
-
ກວາດຂອບເຂດແລະຄິດໄລ່ຄ່າໃຊ້ຈ່າຍທີ່ຄາດໄວ້ຕໍ່ການຕັດສິນໃຈ 1k.
-
ເລືອກ ຄ່າໃຊ້ຈ່າຍຕໍ່າສຸດທີ່ຄາດໄວ້ , ຈາກນັ້ນລັອກມັນດ້ວຍການຕິດຕາມ.
ໃຊ້ເສັ້ນໂຄ້ງ PR ເມື່ອຜົນບວກຫາຍາກ, ເສັ້ນໂຄ້ງ ROC ສໍາລັບຮູບຮ່າງທົ່ວໄປ, ແລະເສັ້ນໂຄ້ງການປັບຕົວເມື່ອການຕັດສິນໃຈອີງໃສ່ຄວາມເປັນໄປໄດ້. [2][3]
Mini-case: ແບບຈໍາລອງການຮອງຮັບ-ປີ້ triage ທີ່ມີ F1 ເລັກນ້ອຍແຕ່ການປັບທຽບທີ່ດີເລີດໄດ້ຕັດເສັ້ນທາງຄູ່ມືຄືນໃຫມ່ຫຼັງຈາກ ops ປ່ຽນຈາກຂອບເຂດທີ່ຍາກໄປຫາເສັ້ນທາງຂັ້ນ (ເຊັ່ນ, "ການແກ້ໄຂອັດຕະໂນມັດ," "ການທົບທວນຄືນຂອງມະນຸດ," "escalate") ຜູກມັດກັບແຖບຄະແນນການປັບທຽບ.
ການຕິດຕາມອອນໄລນ໌, ເລື່ອນ, ແລະເຕືອນ 🚨
Offline evals ແມ່ນການເລີ່ມຕົ້ນ, ບໍ່ແມ່ນການສິ້ນສຸດ. ໃນການຜະລິດ:
-
ຕິດຕາມ input drift , output drift , ແລະ ການເສື່ອມສະພາບປະສິດທິພາບ ຕາມສ່ວນ.
-
ກໍານົດການກວດສອບ guardrail - ອັດຕາການ hallucination ສູງສຸດ, ເກນຄວາມເປັນພິດ, deltas ຍຸດຕິທໍາ.
-
ເພີ່ມ ແຜງຄວບຄຸມ canary ສຳລັບຄວາມໜ່ວງເວລາຂອງ p95, ການໝົດເວລາ ແລະ ລາຄາຕໍ່ການຮ້ອງຂໍ.
-
ໃຊ້ຫ້ອງສະໝຸດທີ່ສ້າງຂຶ້ນໂດຍສະເພາະເພື່ອເລັ່ງຄວາມໄວໃນການເຮັດວຽກນີ້; ພວກມັນສະເໜີການດຸ່ນດ່ຽງ, ຄຸນນະພາບ, ແລະ ການຕິດຕາມກວດກາພື້ນຖານທີ່ທັນສະໄໝ.
ຄຳປຽບທຽບທີ່ມີຂໍ້ບົກຜ່ອງເລັກນ້ອຍ: ລອງຄິດເຖິງຕົວແບບຂອງເຈົ້າຄືກັບເຂົ້າໜົມປັງສົ້ມ - ເຈົ້າບໍ່ພຽງແຕ່ອົບເທື່ອດຽວແລ້ວຍ່າງໜີໄປ; ເຈົ້າກິນ, ເບິ່ງ, ດົມ, ແລະບາງຄັ້ງກໍ່ເລີ່ມຕົ້ນໃໝ່.
🍪ການປະເມີນຂອງມະນຸດທີ່ບໍ່ແຕກ
ໃນເວລາທີ່ປະຊາຊົນໃຫ້ຄະແນນຜົນໄດ້ຮັບ, ຂະບວນການມີຄວາມສໍາຄັນຫຼາຍກ່ວາທີ່ທ່ານຄິດ.
-
ຂຽນ rubrics ແຫນ້ນ ດ້ວຍຕົວຢ່າງຂອງ pass vs borderline vs fail.
-
Randomize ແລະຕາບອດຕົວຢ່າງເມື່ອທ່ານສາມາດເຮັດໄດ້.
-
ວັດແທກ ຂໍ້ຕົກລົງລະຫວ່າງຜູ້ປະເມີນ (ຕົວຢ່າງ, Cohen's κ ສໍາລັບສອງຜູ້ຈັດອັດຕາ, Fleiss' κສໍາລັບຫຼາຍໆຄົນ) ແລະໂຫຼດຂໍ້ມູນຄືນໃໝ່ຖ້າຂໍ້ຕົກລົງຕົກລົງ.
ສິ່ງນີ້ຊ່ວຍປ້ອງກັນບໍ່ໃຫ້ນິໄສຂອງມະນຸດຂອງເຈົ້າປ່ຽນໄປມາພ້ອມກັບອາລົມ ຫຼື ການສະໜອງກາເຟ.
ການຂຸດຂຸມເລິກ: ວິທີການວັດແທກປະສິດທິພາບ AI ສໍາລັບ LLMs ໃນ RAG 🧩
-
ຄຸນນະພາບການດຶງຂໍ້ມູນ - recall@k, precision@k, nDCG; ການຄຸ້ມຄອງຂໍ້ເທັດຈິງຂອງຄໍາ. [2]
-
ຕອບຄວາມຊື່ສັດ - ອ້າງເຖິງການກວດສອບ, ຄະແນນພື້ນຖານ, ການສືບສວນຂອງສັດຕູ.
-
ຄວາມພໍໃຈຂອງຜູ້ໃຊ້ - ໂປ້ມື, ສໍາເລັດວຽກງານ, ແກ້ໄຂໄລຍະຫ່າງຈາກຮ່າງທີ່ແນະນໍາ.
-
ຄວາມປອດໄພ - ຄວາມເປັນພິດ, ການຮົ່ວໄຫຼ PII, ການປະຕິບັດຕາມນະໂຍບາຍ.
-
ຄ່າໃຊ້ຈ່າຍ & ເວລາແພັກເກັດ - tokens, cache hits, p95 ແລະ p99 latencies.
ຜູກມັດສິ່ງເຫຼົ່ານີ້ກັບການກະທຳທາງທຸລະກິດ: ຖ້າພື້ນຖານຫຼຸດລົງລຸ່ມເສັ້ນ, ເສັ້ນທາງອັດຕະໂນມັດໄປສູ່ໂໝດທີ່ເຄັ່ງຄັດ ຫຼື ການກວດສອບຈາກມະນຸດ.
ປື້ມຫຼິ້ນງ່າຍໆເພື່ອເລີ່ມຕົ້ນມື້ນີ້ 🪄
-
ກໍານົດວຽກ - ຂຽນຫນຶ່ງປະໂຫຍກ: ສິ່ງທີ່ AI ຕ້ອງເຮັດແລະສໍາລັບໃຜ.
-
ເລືອກຕົວວັດແທກໜ້າວຽກ 2–3 ອັນ - ບວກກັບການປັບທຽບ ແລະຢ່າງໜ້ອຍໜຶ່ງສ່ວນຄວາມຍຸຕິທຳ. [2][3][5]
-
ຕັດສິນໃຈເກນໂດຍໃຊ້ຕົ້ນທຶນ - ຢ່າເດົາ.
-
ສ້າງຊຸດ eval ນ້ອຍໆ - 100-500 ຕົວຢ່າງທີ່ຕິດສະຫຼາກທີ່ສະທ້ອນເຖິງການຜະສົມຜະສານການຜະລິດ.
-
automate evals ຂອງທ່ານ - ການປະເມີນຜົນ / ຕິດຕາມກວດກາສາຍເຂົ້າໄປໃນ CI ເພື່ອໃຫ້ທຸກການປ່ຽນແປງດໍາເນີນການກວດສອບດຽວກັນ.
-
ຕິດຕາມກວດກາໃນຜະລິດຕະພັນ - ພຽງການລອຍລົມ, latency, ຄ່າໃຊ້ຈ່າຍ, ທຸງເຫດການ.
-
ທົບທວນເດືອນ -ish - prune metrics ທີ່ບໍ່ມີໃຜໃຊ້; ເພີ່ມຄໍາທີ່ຕອບຄໍາຖາມທີ່ແທ້ຈິງ.
-
ການຕັດສິນໃຈເອກະສານ - ຕາຕະລາງຄະແນນຊີວິດທີ່ທີມງານຂອງທ່ານອ່ານຕົວຈິງ.
ແມ່ນແລ້ວ, ນັ້ນແມ່ນມັນແທ້ໆ. ແລະມັນກໍ່ໄດ້ຜົນ.
gotchas ທົ່ວໄປແລະວິທີການຫລີກລ້ຽງພວກມັນ 🕳️🐇
-
Overfitting ກັບ metric ດຽວ - ໃຊ້ ກະຕ່າ metric ທີ່ກົງກັບສະພາບການການຕັດສິນໃຈ. [1][2]
-
ບໍ່ສົນໃຈ calibration - ຄວາມຫມັ້ນໃຈໂດຍບໍ່ມີການ calibration ແມ່ນພຽງແຕ່ swagger. [3]
-
ບໍ່ມີການແບ່ງກຸ່ມ - ສະເຫມີຕັດໂດຍກຸ່ມຜູ້ໃຊ້, ພູມສາດ, ອຸປະກອນ, ພາສາ. [5]
-
ຄ່າໃຊ້ຈ່າຍທີ່ບໍ່ໄດ້ກໍານົດ - ຖ້າຫາກວ່າທ່ານບໍ່ມີຄວາມຜິດພາດຂອງລາຄາ, ທ່ານຈະເລືອກເອົາມາດຕະຖານທີ່ຜິດພາດ.
-
ການປະເມີນຂອງມະນຸດ - ຂໍ້ຕົກລົງການວັດແທກ, rubrics ປັບປຸງ, ທົບທວນຄືນ.
-
ບໍ່ມີເຄື່ອງມືຄວາມປອດໄພ - ເພີ່ມຄວາມຍຸຕິທໍາ, ຄວາມເປັນພິດ, ແລະການກວດສອບນະໂຍບາຍໃນປັດຈຸບັນ, ບໍ່ແມ່ນໃນພາຍຫຼັງ. [1][5]
ປະໂຫຍກທີ່ເຈົ້າມາສໍາລັບ: ວິທີການວັດແທກປະສິດທິພາບ AI - ດົນເກີນໄປ, ຂ້ອຍບໍ່ໄດ້ອ່ານມັນ 🧾
-
ເລີ່ມຕົ້ນດ້ວຍ ຜົນໄດ້ຮັບທີ່ຊັດເຈນ , ຫຼັງຈາກນັ້ນ stack task , ລະບົບ , ແລະ ທຸລະກິດ . [1]
-
ໃຊ້ ຕົວວັດແທກທີ່ເຫມາະສົມສໍາລັບວຽກ - F1 ແລະ ROC-AUC ສໍາລັບການຈັດປະເພດ; nDCG/MRR ສໍາລັບການຈັດອັນດັບ; overlap + metrics semantic ສໍາລັບການຜະລິດ (ຄູ່ກັບມະນຸດ). [2][4]
-
ປັບຄ່າ ຄວາມເປັນໄປໄດ້ຂອງທ່ານ ແລະ ກຳນົດລາຄາຄວາມຜິດພາດຂອງທ່ານ ເພື່ອເລືອກຂອບເຂດ. [2][3]
-
ເພີ່ມ ຄວາມຍຸຕິທຳ ດ້ວຍການຕັດສ່ວນກຸ່ມ ແລະ ຈັດການການແລກປ່ຽນຢ່າງຊັດເຈນ. [5]
-
ເຮັດໃຫ້ການປະເມີນ ແລະ ການຕິດຕາມກວດກາເປັນອັດຕະໂນມັດ ເພື່ອໃຫ້ທ່ານສາມາດເຮັດຊ້ຳໄດ້ໂດຍບໍ່ຕ້ອງຢ້ານກົວ.
ເຈົ້າຮູ້ວ່າມັນເປັນແນວໃດ - ວັດແທກສິ່ງທີ່ສໍາຄັນ, ຫຼືເຈົ້າຈະປັບປຸງສິ່ງທີ່ບໍ່ດີ.
ເອກະສານອ້າງອີງ
[1] NIST. ຂອບການຄຸ້ມຄອງຄວາມສ່ຽງ AI (AI RMF). ອ່ານເພີ່ມເຕີມ
[2] scikit-learn. ການປະເມີນແບບຈໍາລອງ: ການປະເມີນຄຸນນະພາບຂອງການຄາດຄະເນ (ຄູ່ມືຜູ້ໃຊ້). ອ່ານເພີ່ມເຕີມ
[3] scikit-learn. ການປັບທຽບຄວາມເປັນໄປໄດ້ (ເສັ້ນໂຄ້ງການປັບທຽບ, ຄະແນນ Brier). ອ່ານເພີ່ມເຕີມ
[4] Papineni et al. (2002). BLEU: ວິທີການສໍາລັບການປະເມີນຜົນອັດຕະໂນມັດຂອງການແປພາສາເຄື່ອງຈັກ. ACL. ອ່ານເພີ່ມເຕີມ
[5] Hardt, Price, Srebro (2016). ຄວາມສະເໝີພາບຂອງໂອກາດໃນການຮຽນຮູ້ແບບຕິດຕາມ. NeurIPS. ອ່ານເພີ່ມເຕີມ