ວິທີການວັດແທກປະສິດທິພາບ AI

ວິທີການວັດແທກປະສິດທິພາບ AI?

ຖ້າທ່ານເຄີຍສົ່ງຕົວແບບທີ່ຫຼົງໄຫຼໃນປື້ມບັນທຶກແຕ່ສະດຸດໃນການຜະລິດ, ທ່ານຮູ້ຄວາມລັບແລ້ວ: ວິທີການວັດແທກປະສິດທິພາບ AI ບໍ່ແມ່ນຕົວຊີ້ວັດອັນດຽວ. ມັນເປັນລະບົບການກວດສອບທີ່ເຊື່ອມໂຍງກັບເປົ້າຫມາຍທີ່ແທ້ຈິງຂອງໂລກ. ຄວາມຖືກຕ້ອງແມ່ນຫນ້າຮັກ. ຄວາມຫນ້າເຊື່ອຖື, ຄວາມປອດໄພ, ແລະຜົນກະທົບທາງທຸລະກິດແມ່ນດີກວ່າ.

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 ວິທີການສົນທະນາກັບ AI
ຄໍາແນະນໍາໃນການສື່ສານຢ່າງມີປະສິດທິພາບກັບ AI ສໍາລັບຜົນໄດ້ຮັບທີ່ດີກວ່າຢ່າງຕໍ່ເນື່ອງ.

🔗 AI ແມ່ນການກະຕຸ້ນເຕືອນແມ່ນຫຍັງ
ອະທິບາຍວິທີການກະຕຸ້ນການຕອບສະໜອງ AI ແລະຄຸນນະພາບຜົນຜະລິດ.

🔗 ການຕິດສະຫຼາກຂໍ້ມູນ AI ​​ແມ່ນຫຍັງ
ພາບລວມຂອງການກໍານົດປ້າຍທີ່ຖືກຕ້ອງກັບຂໍ້ມູນສໍາລັບຮູບແບບການຝຶກອົບຮົມ.

🔗 ຈັນຍາບັນ AI ແມ່ນຫຍັງ
ການແນະນໍາກ່ຽວກັບຫຼັກການດ້ານຈັນຍາບັນນໍາພາການພັດທະນາ AI ທີ່ມີຄວາມຮັບຜິດຊອບແລະການນໍາໃຊ້.


ສິ່ງທີ່ເຮັດໃຫ້ການປະຕິບັດ AI ທີ່ດີ? ✅

ສະບັບສັ້ນ: ການປະຕິບັດ AI ທີ່ດີຫມາຍຄວາມວ່າລະບົບຂອງທ່ານ ມີປະໂຫຍດ, ເຊື່ອຖືໄດ້, ແລະສາມາດເຮັດຊ້ໍາໄດ້ ພາຍໃຕ້ສະພາບທີ່ສັບສົນ, ປ່ຽນແປງ. ຢ່າງຈິງຈັງ:

  • ຄຸນະພາບຫນ້າວຽກ - ມັນໄດ້ຮັບຄໍາຕອບທີ່ຖືກຕ້ອງສໍາລັບເຫດຜົນທີ່ຖືກຕ້ອງ.

  • Calibration - ຄະແນນຄວາມເຊື່ອຫມັ້ນສອດຄ່ອງກັບຄວາມເປັນຈິງ, ດັ່ງນັ້ນທ່ານສາມາດປະຕິບັດຢ່າງສະຫຼາດ.

  • ຄວາມ​ເຂັ້ມ​ແຂງ - ມັນ​ຖື​ຂຶ້ນ​ຢູ່​ພາຍ​ໃຕ້​ພຽງ​ການ​ລອຍ​ລົມ​, ກໍ​ລະ​ນີ​ແຂບ​, ແລະ fuzz ຄູ່​ຕ້ານ​.

  • ຄວາມ​ປອດ​ໄພ​ແລະ​ຄວາມ​ຍຸ​ຕິ​ທໍາ - ມັນ​ຫຼີກ​ເວັ້ນ​ການ​ທໍາ​ລາຍ​ອັນ​ຕະ​ລາຍ​, ອະ​ຄະ​ຕິ​, ຫຼື​ບໍ່​ສອດ​ຄ່ອງ​ກັບ​ພຶດ​ຕິ​ກໍາ​.

  • ປະສິດທິພາບ - ມັນໄວພຽງພໍ, ລາຄາຖືກພຽງພໍ, ແລະ ໝັ້ນຄົງພຽງພໍທີ່ຈະໃຊ້ງານໄດ້ໃນຂອບເຂດກ້ວາງ.

  • ຜົນກະທົບທາງທຸລະກິດ - ຕົວຈິງແລ້ວມັນຍ້າຍ KPI ທີ່ທ່ານສົນໃຈ.

ຖ້າທ່ານຕ້ອງການຈຸດອ້າງອິງຢ່າງເປັນທາງການສໍາລັບການສອດຄ່ອງ metrics ແລະຄວາມສ່ຽງ, NIST AI Risk Management Framework ເປັນດາວເຫນືອທີ່ເຂັ້ມແຂງສໍາລັບການປະເມີນລະບົບທີ່ເຊື່ອຖືໄດ້. [1]

 

ການວັດແທກປະສິດທິພາບຂອງ AI

ສູດລະດັບສູງສຳລັບວິທີວັດແທກປະສິດທິພາບ AI 🍳

ຄິດ​ເປັນ ​ສາມ​ຊັ້ນ ​:

  1. ການວັດແທກວຽກ - ຄວາມຖືກຕ້ອງສໍາລັບປະເພດວຽກງານ: ການຈັດປະເພດ, ການຖົດຖອຍ, ການຈັດອັນດັບ, ການຜະລິດ, ການຄວບຄຸມ, ແລະອື່ນໆ.

  2. metrics ລະບົບ - latency, throughput, cost per call, ອັດຕາການລົ້ມເຫຼວ, drift alarm, uptime SLAs.

  3. ຕົວຊີ້ວັດຜົນໄດ້ຮັບ - ທຸລະກິດແລະຜົນໄດ້ຮັບຂອງຜູ້ໃຊ້ທີ່ທ່ານຕ້ອງການ: ການແປງ, ການຮັກສາໄວ້, ເຫດການຄວາມປອດໄພ, ການໂຫຼດຄູ່ມື, ປະລິມານປີ້.

ແຜນການວັດແທກທີ່ຍິ່ງໃຫຍ່ໂດຍເຈດຕະນາປະສົມທັງສາມຢ່າງ. ຖ້າບໍ່ດັ່ງນັ້ນ, ເຈົ້າຈະໄດ້ຮັບລູກປືນທີ່ບໍ່ເຄີຍອອກຈາກ launchpad.


ຕົວຊີ້ວັດຫຼັກຕາມປະເພດບັນຫາ - ແລະເວລາທີ່ຈະໃຊ້ອັນໃດ 🎯

1) ການຈັດປະເພດ

  • Precision, Recall, F1 - the day-one trio. F1 ແມ່ນຄ່າສະເລ່ຍຂອງຄວາມແມ່ນຍໍາແລະການເອີ້ນຄືນ; ເປັນປະໂຫຍດໃນເວລາທີ່ຫ້ອງຮຽນບໍ່ສົມດຸນຫຼືຄ່າໃຊ້ຈ່າຍແມ່ນບໍ່ສົມມາດ. [2]

  • ROC-AUC - threshold-agnostic ranking ຂອງ classifiers; ເມື່ອຜົນບວກແມ່ນຫາຍາກ, ໃຫ້ກວດເບິ່ງ PR-AUC . [2]

  • ຄວາມຖືກຕ້ອງສົມດຸນ - ສະເລ່ຍຂອງການເອີ້ນຄືນໃນທົ່ວຫ້ອງຮຽນ; ສະດວກສໍາລັບປ້າຍ skewed. [2]

Pitfall watch: ຄວາມຖືກຕ້ອງຢ່າງດຽວສາມາດເຮັດໃຫ້ເຂົ້າໃຈຜິດຢ່າງຈິງຈັງກັບຄວາມບໍ່ສົມດຸນ. ຖ້າ 99% ຂອງຜູ້ໃຊ້ທີ່ຖືກຕ້ອງຕາມກົດຫມາຍ, ຮູບແບບທີ່ຂີ້ຕົວະສະເຫມີທີ່ຖືກຕ້ອງແມ່ນໃຫ້ຄະແນນ 99% ແລະເຮັດໃຫ້ທີມງານສໍ້ໂກງຂອງທ່ານລົ້ມເຫລວກ່ອນອາຫານທ່ຽງ.

2) ການຖົດຖອຍ

  • MAE ສໍາລັບຄວາມຜິດພາດຂອງມະນຸດສາມາດເຂົ້າໃຈໄດ້; RMSE ເມື່ອທ່ານຕ້ອງການລົງໂທດການພາດໃຫຍ່; ອະທິບາຍຄວາມແຕກຕ່າງ. ຫຼັງຈາກນັ້ນ, ກວດເບິ່ງການແຜ່ກະຈາຍແລະດິນທີ່ຕົກຄ້າງ. [2]
    (ໃຊ້ຫົວໜ່ວຍທີ່ເປັນມິດກັບໂດເມນເພື່ອໃຫ້ພາກສ່ວນກ່ຽວຂ້ອງສາມາດຮູ້ສຶກເຖິງຄວາມຜິດພາດໄດ້.)

3) ການຈັດອັນດັບ, ດຶງຂໍ້ມູນ, ແນະນໍາ

  • nDCG - ເປັນຫ່ວງເປັນໄຍກ່ຽວກັບຕໍາແຫນ່ງແລະຄວາມກ່ຽວຂ້ອງ graded; ມາດຕະຖານສໍາລັບຄຸນນະພາບການຊອກຫາ.

  • MRR - ສຸມໃສ່ວິທີການທໍາອິດທີ່ລາຍການທີ່ກ່ຽວຂ້ອງປາກົດ (ດີສໍາລັບ "ຊອກຫາຄໍາຕອບທີ່ດີ" ວຽກງານ).
    (ການອ້າງອິງການຈັດຕັ້ງປະຕິບັດແລະຕົວຢ່າງທີ່ເຮັດວຽກແມ່ນຢູ່ໃນຫ້ອງສະຫມຸດ metric ທົ່ວໄປ.) [2]

4) ການສ້າງຂໍ້ຄວາມແລະການສະຫຼຸບ

  • BLEU ແລະ ROUGE - ການວັດແທກການຊ້ອນກັນແບບຄລາສສິກ; ເປັນປະໂຫຍດເປັນພື້ນຖານ.

  • ການວັດແທກທີ່ອີງໃສ່ການຝັງ (ຕົວຢ່າງ, BERTScore ) ມັກຈະກ່ຽວຂ້ອງກັນດີກວ່າກັບການຕັດສິນຂອງມະນຸດ; ສະເຫມີຈັບຄູ່ກັບການຈັດອັນດັບຂອງມະນຸດສໍາລັບແບບ, ຄວາມຊື່ສັດ, ແລະຄວາມປອດໄພ. [4]

5) ການຕອບຄໍາຖາມ

  • Exact Match ແລະ token-level F1 ແມ່ນທົ່ວໄປສໍາລັບການສະກັດເອົາ QA; ຖ້າຄໍາຕອບຕ້ອງອ້າງອີງແຫຼ່ງ, ວັດແທກ ພື້ນຖານ (ການກວດສອບຄໍາຕອບ).


ການປັບທຽບ, ຄວາມໝັ້ນໃຈ, ແລະເລນ Brier 🎚️

ຄະແນນຄວາມໝັ້ນໃຈແມ່ນບ່ອນທີ່ລະບົບຫຼາຍລະບົບນອນຢູ່ຢ່າງງຽບໆ. ທ່ານຕ້ອງການຄວາມເປັນໄປໄດ້ທີ່ສະທ້ອນເຖິງຄວາມເປັນຈິງເພື່ອໃຫ້ຜູ້ປະຕິບັດງານສາມາດກຳນົດຂອບເຂດ, ເສັ້ນທາງໄປຫາມະນຸດ, ຫຼືຄວາມສ່ຽງດ້ານລາຄາ.

  • ເສັ້ນໂຄ້ງການປັບທຽບ - ເບິ່ງພາບຄວາມເປັນໄປໄດ້ທີ່ຄາດຄະເນໄວ້ ທຽບກັບ ຄວາມຖີ່ຂອງຂໍ້ມູນທີ່ໄດ້ມາຈາກປະສົບການ.

  • ຄະແນນ Brier - ກົດລະບຽບການໃຫ້ຄະແນນທີ່ເຫມາະສົມສໍາລັບຄວາມຖືກຕ້ອງຂອງຄວາມເປັນໄປໄດ້; ຕ່ໍາແມ່ນດີກວ່າ. ມັນເປັນປະໂຫຍດໂດຍສະເພາະໃນເວລາທີ່ທ່ານສົນໃຈກ່ຽວກັບ ຄຸນນະພາບ ຂອງຄວາມເປັນໄປໄດ້, ບໍ່ພຽງແຕ່ການຈັດອັນດັບ. [3]

ຫມາຍເຫດພາກສະໜາມ: F1 "ຮ້າຍແຮງກວ່າ" ເລັກນ້ອຍແຕ່ການປັບທຽບທີ່ດີຂຶ້ນຫຼາຍສາມາດ ຢ່າງຫຼວງຫຼາຍ - ເພາະວ່າຄົນສຸດທ້າຍສາມາດໄວ້ວາງໃຈຄະແນນໄດ້.


ຄວາມປອດໄພ, ຄວາມລຳອຽງ, ແລະຄວາມຍຸດຕິທຳ - ວັດແທກສິ່ງທີ່ສຳຄັນ 🛡️⚖️

ລະບົບສາມາດຖືກຕ້ອງໂດຍລວມແລະຍັງເປັນອັນຕະລາຍຕໍ່ກຸ່ມສະເພາະ. ຕິດ​ຕາມ ​ກຸ່ມ ​ແລະ​ມາດ​ຕະ​ຖານ​ຄວາມ​ຍຸດ​ຕິ​ທໍາ​:

  • ຄວາມສະເໝີພາບທາງດ້ານປະຊາກອນ - ອັດຕາບວກເທົ່າທຽມກັນໃນທົ່ວກຸ່ມ.

  • ອັດຕາແລກປ່ຽນທີ່ເທົ່າທຽມກັນ / ໂອກາດເທົ່າທຽມກັນ - ອັດຕາຄວາມຜິດພາດເທົ່າທຽມກັນຫຼືອັດຕາຄວາມຈິງ - ບວກໃນທົ່ວກຸ່ມ; ໃຊ້ສິ່ງເຫຼົ່ານີ້ເພື່ອກວດຫາ ແລະຈັດການການລົງທືນ, ບໍ່ແມ່ນການຈັບສະແຕມຜ່ານຄັ້ງດຽວ. [5]

ຄໍາແນະນໍາພາກປະຕິບັດ: ເລີ່ມຕົ້ນດ້ວຍ dashboards ທີ່ຕັດຕົວຊີ້ວັດຫຼັກຕາມຄຸນລັກສະນະທີ່ສໍາຄັນ, ຫຼັງຈາກນັ້ນເພີ່ມຕົວຊີ້ວັດຄວາມຍຸຕິທໍາສະເພາະຕາມນະໂຍບາຍຂອງທ່ານ. ຟັງເບິ່ງເປັນເລື່ອງຕະຫຼົກ, ແຕ່ມັນມີລາຄາຖືກກວ່າເຫດການ.


LLMs ແລະ RAG - ປື້ມບັນທຶກການວັດແທກທີ່ເຮັດວຽກຕົວຈິງ 📚🔍

ການວັດແທກລະບົບການຜະລິດແມ່ນ… squirmy. ເຮັດສິ່ງນີ້:

  1. ກໍາ​ນົດ​ຜົນ​ໄດ້​ຮັບ ​ຕໍ່​ກໍ​ລະ​ນີ​ການ​ນໍາ​ໃຊ້​: ຄວາມ​ຖືກ​ຕ້ອງ​, ຄວາມ​ເປັນ​ປະ​ໂຫຍດ​, ບໍ່​ມີ​ອັນ​ຕະ​ລາຍ​, ການ​ຕິດ​ຕາມ​ແບບ​, ໂຕນ​ຂອງ​ຍີ່​ຫໍ້​, ການ​ອ້າງ​ອີງ​ພື້ນ​ຖານ​, ຄຸນ​ນະ​ພາບ​ການ​ປະ​ຕິ​ເສດ​.

  2. ອັດຕະໂນມັດການປະເມີນພື້ນຖານ ທີ່ມີກອບທີ່ເຂັ້ມແຂງ (ຕົວຢ່າງ, ເຄື່ອງມືການປະເມີນຜົນໃນ stack ຂອງທ່ານ) ແລະຮັກສາໃຫ້ເຂົາເຈົ້າສະບັບພາສາກັບຊຸດຂໍ້ມູນຂອງທ່ານ.

  3. ເພີ່ມການວັດແທກຄວາມໝາຍ (ອີງໃສ່ການຝັງ) ບວກກັບຕົວວັດແທກການທັບຊ້ອນ (BLEU/ROUGE) ເພື່ອສຸຂາພິບານ. [4]

  4. ພື້ນຖານເຄື່ອງມື ໃນ RAG: ອັດຕາການຕີຄືນ, ຄວາມແມ່ນຍໍາຂອງບໍລິບົດ/ການເອີ້ນຄືນ, ການຊ້ອນກັນຂອງຄຳຕອບ.

  5. ການທົບທວນຄືນຂອງມະນຸດກັບຂໍ້ຕົກລົງ - ການວັດແທກຄວາມສອດຄ່ອງຂອງອັດຕາ (ຕົວຢ່າງ, Cohen's κ ຫຼື Fleiss' κ) ດັ່ງນັ້ນປ້າຍຊື່ຂອງທ່ານບໍ່ vibes.

ໂບນັດ: ບັນທຶກສ່ວນຮ້ອຍເວລາໃນການຕອບສະໜອງ ແລະ token ຫຼືຄ່າໃຊ້ຈ່າຍໃນການຄິດໄລ່ຕໍ່ໜ້າວຽກ. ບໍ່ມີໃຜຮັກຄໍາຕອບ poetic ທີ່ມາຮອດວັນອັງຄານຕໍ່ໄປ.


ຕາຕະລາງປຽບທຽບ - ເຄື່ອງມືທີ່ຊ່ວຍໃຫ້ທ່ານວັດແທກປະສິດທິພາບ AI 🛠️📊

(ແມ່ນແລ້ວ, ມັນເປັນເລື່ອງທີ່ສັບສົນເລັກນ້ອຍ - ບັນທຶກຕົວຈິງແມ່ນສັບສົນ.)

ເຄື່ອງມື ຜູ້ຊົມທີ່ດີທີ່ສຸດ ລາຄາ ເປັນຫຍັງມັນເຮັດວຽກ - ເອົາໄວ
metrics scikit-ຮຽນຮູ້ ຜູ້ປະຕິບັດ ML ຟຣີ ການປະຕິບັດ Canonical ສໍາລັບການຈັດປະເພດ, regression, ການຈັດອັນດັບ; ງ່າຍທີ່ຈະອົບເຂົ້າໄປໃນການທົດສອບ. [2]
MLflow ການປະເມີນຜົນ / GenAI ນັກວິທະຍາສາດຂໍ້ມູນ, MLOps ຟຣີ + ຈ່າຍ ແລ່ນສູນກາງ, ວັດແທກອັດຕະໂນມັດ, ຜູ້ພິພາກສາ LLM, ຜູ້ໃຫ້ຄະແນນທີ່ກໍາຫນົດເອງ; ບັນທຶກວັດຖຸບູຮານຢ່າງສະອາດ.
ເຫັນໄດ້ຊັດເຈນ ທີມງານຕ້ອງການ dashboards ໄວ OSS + ຄລາວ 100+ ເມຕຣິກ, ລາຍງານການລອຍລົມ ແລະຄຸນນະພາບ, ຕິດຕາມການຕິດຂັດ - ພາບທີ່ງາມໃນເທື່ອດຽວ.
ນ້ຳໜັກ ແລະ ອະຄະຕິ orgs ທົດລອງ - ຫນັກ ຊັ້ນຮຽນຟຣີ ການປຽບທຽບດ້ານຂ້າງ, ຊຸດຂໍ້ມູນ eval, ຜູ້ພິພາກສາ; ຕາຕະລາງແລະຮ່ອງຮອຍແມ່ນກະທັດຮັດ.
ແລນສະມິດ ຜູ້ສ້າງແອັບ LLM ຈ່າຍແລ້ວ ຕິດຕາມທຸກຂັ້ນຕອນ, ປະສົມການທົບທວນຄືນຂອງມະນຸດກັບກົດລະບຽບຫຼືຜູ້ປະເມີນ LLM; ທີ່ຍິ່ງໃຫຍ່ສໍາລັບ RAG.
TruLens Open-source LLM lovers eval OSS ຫນ້າທີ່ສະແດງຄວາມຄິດເຫັນເພື່ອຄະແນນຄວາມເປັນພິດ, ພື້ນຖານ, ຄວາມກ່ຽວຂ້ອງ; ປະສົມປະສານທຸກບ່ອນ.
ຄວາມຄາດຫວັງອັນຍິ່ງໃຫຍ່ ຄຸນນະພາບຂໍ້ມູນ - orgs ທໍາອິດ OSS ກໍານົດຄວາມຄາດຫວັງຂອງຂໍ້ມູນຢ່າງເປັນທາງການ - ເພາະວ່າຂໍ້ມູນທີ່ບໍ່ດີກໍ່ທໍາລາຍທຸກໆ metric ແນວໃດກໍ່ຕາມ.
ການກວດສອບເລິກ ການທົດສອບ ແລະ CI/CD ສໍາລັບ ML OSS + ຄລາວ ການທົດສອບລວມທັງຫມໍ້ໄຟສໍາລັບການ drift ຂໍ້ມູນ, ບັນຫາຕົວແບບ, ແລະການຕິດຕາມ; guardrails ດີ.

ລາຄາມີການປ່ຽນແປງ - ກວດເບິ່ງເອກະສານ. ແລະແມ່ນແລ້ວ, ທ່ານສາມາດປະສົມເຫຼົ່ານີ້ໂດຍບໍ່ມີການຕໍາຫຼວດເຄື່ອງມືສະແດງໃຫ້ເຫັນເຖິງ.


ເກນ, ຄ່າໃຊ້ຈ່າຍ, ແລະເສັ້ນໂຄ້ງການຕັດສິນໃຈ - ຊອດລັບ 🧪

ສິ່ງທີ່ແປກແຕ່ເປັນຄວາມຈິງ: ສອງແບບທີ່ມີ ROC-AUC ດຽວກັນສາມາດມີມູນຄ່າທຸລະກິດທີ່ແຕກຕ່າງກັນຫຼາຍຂຶ້ນຢູ່ກັບ ເກນ ແລະ ອັດຕາສ່ວນຄ່າໃຊ້ຈ່າຍ .

ເອກະສານດ່ວນເພື່ອສ້າງ:

  • ກໍານົດຄ່າໃຊ້ຈ່າຍຂອງບວກທີ່ບໍ່ຖືກຕ້ອງ vs ລົບທີ່ບໍ່ຖືກຕ້ອງໃນເງິນຫຼືເວລາ.

  • ກວາດຂອບເຂດແລະຄິດໄລ່ຄ່າໃຊ້ຈ່າຍທີ່ຄາດໄວ້ຕໍ່ການຕັດສິນໃຈ 1k.

  • ເລືອກ ຄ່າໃຊ້ຈ່າຍຕໍ່າສຸດທີ່ຄາດໄວ້ , ຈາກນັ້ນລັອກມັນດ້ວຍການຕິດຕາມ.

ໃຊ້ເສັ້ນໂຄ້ງ PR ເມື່ອຜົນບວກຫາຍາກ, ເສັ້ນໂຄ້ງ ROC ສໍາລັບຮູບຮ່າງທົ່ວໄປ, ແລະເສັ້ນໂຄ້ງການປັບຕົວເມື່ອການຕັດສິນໃຈອີງໃສ່ຄວາມເປັນໄປໄດ້. [2][3]

Mini-case: ແບບຈໍາລອງການຮອງຮັບ-ປີ້ triage ທີ່ມີ F1 ເລັກນ້ອຍແຕ່ການປັບທຽບທີ່ດີເລີດໄດ້ຕັດເສັ້ນທາງຄູ່ມືຄືນໃຫມ່ຫຼັງຈາກ ops ປ່ຽນຈາກຂອບເຂດທີ່ຍາກໄປຫາເສັ້ນທາງຂັ້ນ (ເຊັ່ນ, "ການແກ້ໄຂອັດຕະໂນມັດ," "ການທົບທວນຄືນຂອງມະນຸດ," "escalate") ຜູກມັດກັບແຖບຄະແນນການປັບທຽບ.


ການຕິດຕາມອອນໄລນ໌, ເລື່ອນ, ແລະເຕືອນ 🚨

Offline evals ແມ່ນການເລີ່ມຕົ້ນ, ບໍ່ແມ່ນການສິ້ນສຸດ. ໃນ​ການ​ຜະ​ລິດ​:

  • ຕິດຕາມ input drift , output drift , ແລະ ການເສື່ອມສະພາບປະສິດທິພາບ ຕາມສ່ວນ.

  • ກໍານົດການກວດສອບ guardrail - ອັດຕາການ hallucination ສູງສຸດ, ເກນຄວາມເປັນພິດ, deltas ຍຸດຕິທໍາ.

  • ເພີ່ມ ແຜງຄວບຄຸມ canary ສຳລັບຄວາມໜ່ວງເວລາຂອງ p95, ການໝົດເວລາ ແລະ ລາຄາຕໍ່ການຮ້ອງຂໍ.

  • ໃຊ້ຫ້ອງສະໝຸດທີ່ສ້າງຂຶ້ນໂດຍສະເພາະເພື່ອເລັ່ງຄວາມໄວໃນການເຮັດວຽກນີ້; ພວກມັນສະເໜີການດຸ່ນດ່ຽງ, ຄຸນນະພາບ, ແລະ ການຕິດຕາມກວດກາພື້ນຖານທີ່ທັນສະໄໝ.

ຄຳປຽບທຽບທີ່ມີຂໍ້ບົກຜ່ອງເລັກນ້ອຍ: ລອງຄິດເຖິງຕົວແບບຂອງເຈົ້າຄືກັບເຂົ້າໜົມປັງສົ້ມ - ເຈົ້າບໍ່ພຽງແຕ່ອົບເທື່ອດຽວແລ້ວຍ່າງໜີໄປ; ເຈົ້າກິນ, ເບິ່ງ, ດົມ, ແລະບາງຄັ້ງກໍ່ເລີ່ມຕົ້ນໃໝ່.


🍪ການປະເມີນຂອງມະນຸດທີ່ບໍ່ແຕກ

ໃນເວລາທີ່ປະຊາຊົນໃຫ້ຄະແນນຜົນໄດ້ຮັບ, ຂະບວນການມີຄວາມສໍາຄັນຫຼາຍກ່ວາທີ່ທ່ານຄິດ.

  • ຂຽນ rubrics ແຫນ້ນ ດ້ວຍຕົວຢ່າງຂອງ pass vs borderline vs fail.

  • Randomize ແລະຕາບອດຕົວຢ່າງເມື່ອທ່ານສາມາດເຮັດໄດ້.

  • ວັດແທກ ຂໍ້ຕົກລົງລະຫວ່າງຜູ້ປະເມີນ (ຕົວຢ່າງ, Cohen's κ ສໍາລັບສອງຜູ້ຈັດອັດຕາ, Fleiss' κສໍາລັບຫຼາຍໆຄົນ) ແລະໂຫຼດຂໍ້ມູນຄືນໃໝ່ຖ້າຂໍ້ຕົກລົງຕົກລົງ.

ສິ່ງນີ້ຊ່ວຍປ້ອງກັນບໍ່ໃຫ້ນິໄສຂອງມະນຸດຂອງເຈົ້າປ່ຽນໄປມາພ້ອມກັບອາລົມ ຫຼື ການສະໜອງກາເຟ.


ການຂຸດຂຸມເລິກ: ວິທີການວັດແທກປະສິດທິພາບ AI ສໍາລັບ LLMs ໃນ RAG 🧩

  • ຄຸນນະພາບການດຶງຂໍ້ມູນ - recall@k, precision@k, nDCG; ການຄຸ້ມຄອງຂໍ້ເທັດຈິງຂອງຄໍາ. [2]

  • ຕອບຄວາມຊື່ສັດ - ອ້າງເຖິງການກວດສອບ, ຄະແນນພື້ນຖານ, ການສືບສວນຂອງສັດຕູ.

  • ຄວາມພໍໃຈຂອງຜູ້ໃຊ້ - ໂປ້ມື, ສໍາເລັດວຽກງານ, ແກ້ໄຂໄລຍະຫ່າງຈາກຮ່າງທີ່ແນະນໍາ.

  • ຄວາມປອດໄພ - ຄວາມເປັນພິດ, ການຮົ່ວໄຫຼ PII, ການປະຕິບັດຕາມນະໂຍບາຍ.

  • ຄ່າໃຊ້ຈ່າຍ & ເວລາແພັກເກັດ - tokens, cache hits, p95 ແລະ p99 latencies.

ຜູກມັດສິ່ງເຫຼົ່ານີ້ກັບການກະທຳທາງທຸລະກິດ: ຖ້າພື້ນຖານຫຼຸດລົງລຸ່ມເສັ້ນ, ເສັ້ນທາງອັດຕະໂນມັດໄປສູ່ໂໝດທີ່ເຄັ່ງຄັດ ຫຼື ການກວດສອບຈາກມະນຸດ.


ປື້ມຫຼິ້ນງ່າຍໆເພື່ອເລີ່ມຕົ້ນມື້ນີ້ 🪄

  1. ກໍານົດວຽກ - ຂຽນຫນຶ່ງປະໂຫຍກ: ສິ່ງທີ່ AI ຕ້ອງເຮັດແລະສໍາລັບໃຜ.

  2. ເລືອກຕົວວັດແທກໜ້າວຽກ 2–3 ອັນ - ບວກກັບການປັບທຽບ ແລະຢ່າງໜ້ອຍໜຶ່ງສ່ວນຄວາມຍຸຕິທຳ. [2][3][5]

  3. ຕັດສິນໃຈເກນໂດຍໃຊ້ຕົ້ນທຶນ - ຢ່າເດົາ.

  4. ສ້າງຊຸດ eval ນ້ອຍໆ - 100-500 ຕົວຢ່າງທີ່ຕິດສະຫຼາກທີ່ສະທ້ອນເຖິງການຜະສົມຜະສານການຜະລິດ.

  5. automate evals ຂອງທ່ານ - ການປະເມີນຜົນ / ຕິດຕາມກວດກາສາຍເຂົ້າໄປໃນ CI ເພື່ອໃຫ້ທຸກການປ່ຽນແປງດໍາເນີນການກວດສອບດຽວກັນ.

  6. ຕິດຕາມກວດກາໃນຜະລິດຕະພັນ - ພຽງການລອຍລົມ, latency, ຄ່າໃຊ້ຈ່າຍ, ທຸງເຫດການ.

  7. ທົບທວນເດືອນ -ish - prune metrics ທີ່ບໍ່ມີໃຜໃຊ້; ເພີ່ມຄໍາທີ່ຕອບຄໍາຖາມທີ່ແທ້ຈິງ.

  8. ການຕັດສິນໃຈເອກະສານ - ຕາຕະລາງຄະແນນຊີວິດທີ່ທີມງານຂອງທ່ານອ່ານຕົວຈິງ.

ແມ່ນແລ້ວ, ນັ້ນແມ່ນມັນແທ້ໆ. ແລະມັນກໍ່ໄດ້ຜົນ.


gotchas ທົ່ວໄປແລະວິທີການຫລີກລ້ຽງພວກມັນ 🕳️🐇

  • Overfitting ກັບ metric ດຽວ - ໃຊ້ ກະຕ່າ metric ທີ່ກົງກັບສະພາບການການຕັດສິນໃຈ. [1][2]

  • ບໍ່ສົນໃຈ calibration - ຄວາມຫມັ້ນໃຈໂດຍບໍ່ມີການ calibration ແມ່ນພຽງແຕ່ swagger. [3]

  • ບໍ່​ມີ​ການ​ແບ່ງ​ກຸ່ມ - ສະ​ເຫມີ​ຕັດ​ໂດຍ​ກຸ່ມ​ຜູ້​ໃຊ້​, ພູມ​ສາດ​, ອຸ​ປະ​ກອນ​, ພາ​ສາ​. [5]

  • ຄ່າ​ໃຊ້​ຈ່າຍ​ທີ່​ບໍ່​ໄດ້​ກໍາ​ນົດ - ຖ້າ​ຫາກ​ວ່າ​ທ່ານ​ບໍ່​ມີ​ຄວາມ​ຜິດ​ພາດ​ຂອງ​ລາ​ຄາ​, ທ່ານ​ຈະ​ເລືອກ​ເອົາ​ມາດ​ຕະ​ຖານ​ທີ່​ຜິດ​ພາດ​.

  • ການປະເມີນຂອງມະນຸດ - ຂໍ້ຕົກລົງການວັດແທກ, rubrics ປັບປຸງ, ທົບທວນຄືນ.

  • ບໍ່ມີເຄື່ອງມືຄວາມປອດໄພ - ເພີ່ມຄວາມຍຸຕິທໍາ, ຄວາມເປັນພິດ, ແລະການກວດສອບນະໂຍບາຍໃນປັດຈຸບັນ, ບໍ່ແມ່ນໃນພາຍຫຼັງ. [1][5]


ປະໂຫຍກທີ່ເຈົ້າມາສໍາລັບ: ວິທີການວັດແທກປະສິດທິພາບ AI - ດົນເກີນໄປ, ຂ້ອຍບໍ່ໄດ້ອ່ານມັນ 🧾

  • ເລີ່ມຕົ້ນດ້ວຍ ຜົນໄດ້ຮັບທີ່ຊັດເຈນ , ຫຼັງຈາກນັ້ນ stack task , ລະບົບ , ແລະ ທຸລະກິດ . [1]

  • ໃຊ້ ຕົວວັດແທກທີ່ເຫມາະສົມສໍາລັບວຽກ - F1 ແລະ ROC-AUC ສໍາລັບການຈັດປະເພດ; nDCG/MRR ສໍາລັບການຈັດອັນດັບ; overlap + metrics semantic ສໍາລັບການຜະລິດ (ຄູ່ກັບມະນຸດ). [2][4]

  • ປັບຄ່າ ຄວາມເປັນໄປໄດ້ຂອງທ່ານ ແລະ ກຳນົດລາຄາຄວາມຜິດພາດຂອງທ່ານ ເພື່ອເລືອກຂອບເຂດ. [2][3]

  • ເພີ່ມ ຄວາມຍຸຕິທຳ ດ້ວຍການຕັດສ່ວນກຸ່ມ ແລະ ຈັດການການແລກປ່ຽນຢ່າງຊັດເຈນ. [5]

  • ເຮັດໃຫ້ການປະເມີນ ແລະ ການຕິດຕາມກວດກາເປັນອັດຕະໂນມັດ ເພື່ອໃຫ້ທ່ານສາມາດເຮັດຊ້ຳໄດ້ໂດຍບໍ່ຕ້ອງຢ້ານກົວ.

ເຈົ້າຮູ້ວ່າມັນເປັນແນວໃດ - ວັດແທກສິ່ງທີ່ສໍາຄັນ, ຫຼືເຈົ້າຈະປັບປຸງສິ່ງທີ່ບໍ່ດີ.


ເອກະສານອ້າງອີງ

[1] NIST. ຂອບການຄຸ້ມຄອງຄວາມສ່ຽງ AI (AI RMF). ອ່ານເພີ່ມເຕີມ
[2] scikit-learn. ການປະເມີນແບບຈໍາລອງ: ການປະເມີນຄຸນນະພາບຂອງການຄາດຄະເນ (ຄູ່ມືຜູ້ໃຊ້). ອ່ານເພີ່ມເຕີມ
[3] scikit-learn. ການປັບທຽບຄວາມເປັນໄປໄດ້ (ເສັ້ນໂຄ້ງການປັບທຽບ, ຄະແນນ Brier). ອ່ານເພີ່ມເຕີມ
[4] Papineni et al. (2002). BLEU: ວິທີການສໍາລັບການປະເມີນຜົນອັດຕະໂນມັດຂອງການແປພາສາເຄື່ອງຈັກ. ACL. ອ່ານເພີ່ມເຕີມ
[5] Hardt, Price, Srebro (2016). ຄວາມສະເໝີພາບຂອງໂອກາດໃນການຮຽນຮູ້ແບບຕິດຕາມ. NeurIPS. ອ່ານເພີ່ມເຕີມ

ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ