ວິທີການວັດແທກປະສິດທິພາບ AI?

ຖ້າທ່ານເຄີຍສົ່ງຮຸ່ນທີ່ໜ້າຕື່ນຕາຕື່ນໃຈໃນປື້ມບັນທຶກແຕ່ມີບັນຫາໃນການຜະລິດ, ທ່ານຮູ້ຄວາມລັບແລ້ວ: ວິທີການວັດແທກປະສິດທິພາບຂອງ AI ບໍ່ແມ່ນມາດຕະການມະຫັດສະຈັນ. ມັນເປັນລະບົບການກວດສອບທີ່ເຊື່ອມໂຍງກັບເປົ້າໝາຍໃນໂລກຕົວຈິງ. ຄວາມຖືກຕ້ອງແມ່ນໜ້າຮັກ. ຄວາມໜ້າເຊື່ອຖື, ຄວາມປອດໄພ ແລະ ຜົນກະທົບທາງທຸລະກິດແມ່ນດີກວ່າ.

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 ວິທີການສົນທະນາກັບ AI
ຄໍາແນະນໍາໃນການສື່ສານຢ່າງມີປະສິດທິພາບກັບ AI ສໍາລັບຜົນໄດ້ຮັບທີ່ດີກວ່າຢ່າງຕໍ່ເນື່ອງ.

🔗 AI ແມ່ນການກະຕຸ້ນເຕືອນແມ່ນຫຍັງ
ອະທິບາຍວິທີການກະຕຸ້ນການຕອບສະໜອງ AI ແລະຄຸນນະພາບຜົນຜະລິດ.

🔗 ການຕິດສະຫຼາກຂໍ້ມູນ AI ແມ່ນຫຍັງ
ພາບລວມຂອງການກໍານົດປ້າຍທີ່ຖືກຕ້ອງກັບຂໍ້ມູນສໍາລັບຮູບແບບການຝຶກອົບຮົມ.

🔗 ຈັນຍາບັນ AI ແມ່ນຫຍັງ
ການແນະນໍາກ່ຽວກັບຫຼັກການດ້ານຈັນຍາບັນນໍາພາການພັດທະນາ AI ທີ່ມີຄວາມຮັບຜິດຊອບແລະການນໍາໃຊ້.

ສິ່ງທີ່ເຮັດໃຫ້ການປະຕິບັດ AI ທີ່ດີ? ✅

ສະບັບສັ້ນ: ການປະຕິບັດ AI ທີ່ດີຫມາຍຄວາມວ່າລະບົບຂອງທ່ານ ມີປະໂຫຍດ, ເຊື່ອຖືໄດ້, ແລະສາມາດເຮັດຊ້ໍາໄດ້ ພາຍໃຕ້ສະພາບທີ່ສັບສົນ, ປ່ຽນແປງ. ຢ່າງຈິງຈັງ:

ຄຸນະພາບຫນ້າວຽກ - ມັນໄດ້ຮັບຄໍາຕອບທີ່ຖືກຕ້ອງສໍາລັບເຫດຜົນທີ່ຖືກຕ້ອງ.
Calibration - ຄະແນນຄວາມເຊື່ອຫມັ້ນສອດຄ່ອງກັບຄວາມເປັນຈິງ, ດັ່ງນັ້ນທ່ານສາມາດປະຕິບັດຢ່າງສະຫຼາດ.
ຄວາມເຂັ້ມແຂງ - ມັນຖືຂຶ້ນຢູ່ພາຍໃຕ້ພຽງການລອຍລົມ, ກໍລະນີແຂບ, ແລະ fuzz ຄູ່ຕ້ານ.
ຄວາມປອດໄພ ແລະ ຄວາມຍຸຕິທຳ - ມັນຫຼີກລ່ຽງພຶດຕິກຳທີ່ເປັນອັນຕະລາຍ, ມີອະຄະຕິ ຫຼື ບໍ່ປະຕິບັດຕາມ.
ປະສິດທິພາບ - ມັນໄວພຽງພໍ, ລາຄາຖືກພຽງພໍ, ແລະ ໝັ້ນຄົງພຽງພໍທີ່ຈະໃຊ້ງານໄດ້ໃນຂອບເຂດກ້ວາງ.
ຜົນກະທົບທາງທຸລະກິດ - ຕົວຈິງແລ້ວມັນຍ້າຍ KPI ທີ່ທ່ານສົນໃຈ.

ຖ້າທ່ານຕ້ອງການຈຸດອ້າງອິງຢ່າງເປັນທາງການສໍາລັບການສອດຄ່ອງ metrics ແລະຄວາມສ່ຽງ, NIST AI Risk Management Framework ເປັນດາວເຫນືອທີ່ເຂັ້ມແຂງສໍາລັບການປະເມີນລະບົບທີ່ເຊື່ອຖືໄດ້. [1]

ສູດລະດັບສູງສຳລັບວິທີວັດແທກປະສິດທິພາບ AI 🍳

ຄິດເປັນ ສາມຊັ້ນ:

ການວັດແທກວຽກ - ຄວາມຖືກຕ້ອງສໍາລັບປະເພດວຽກງານ: ການຈັດປະເພດ, ການຖົດຖອຍ, ການຈັດອັນດັບ, ການຜະລິດ, ການຄວບຄຸມ, ແລະອື່ນໆ.
metrics ລະບົບ - latency, throughput, cost per call, ອັດຕາການລົ້ມເຫຼວ, drift alarm, uptime SLAs.
ຕົວຊີ້ວັດຜົນໄດ້ຮັບ - ທຸລະກິດແລະຜົນໄດ້ຮັບຂອງຜູ້ໃຊ້ທີ່ທ່ານຕ້ອງການ: ການແປງ, ການຮັກສາໄວ້, ເຫດການຄວາມປອດໄພ, ການໂຫຼດຄູ່ມື, ປະລິມານປີ້.

ແຜນການວັດແທກທີ່ຍິ່ງໃຫຍ່ໂດຍເຈດຕະນາປະສົມທັງສາມຢ່າງ. ຖ້າບໍ່ດັ່ງນັ້ນ, ເຈົ້າຈະໄດ້ຮັບລູກປືນທີ່ບໍ່ເຄີຍອອກຈາກ launchpad.

ຕົວຊີ້ວັດຫຼັກຕາມປະເພດບັນຫາ - ແລະເວລາທີ່ຈະໃຊ້ອັນໃດ 🎯

1) ການຈັດປະເພດ

Precision, Recall, F1 - the day-one trio. F1 ແມ່ນຄ່າສະເລ່ຍຂອງຄວາມແມ່ນຍໍາແລະການເອີ້ນຄືນ; ເປັນປະໂຫຍດໃນເວລາທີ່ຫ້ອງຮຽນບໍ່ສົມດຸນຫຼືຄ່າໃຊ້ຈ່າຍແມ່ນບໍ່ສົມມາດ. [2]
ROC-AUC - threshold-agnostic ranking ຂອງ classifiers; ເມື່ອຜົນບວກແມ່ນຫາຍາກ, ໃຫ້ກວດເບິ່ງ PR-AUC. [2]
ຄວາມຖືກຕ້ອງສົມດຸນ - ສະເລ່ຍຂອງການເອີ້ນຄືນໃນທົ່ວຫ້ອງຮຽນ; ສະດວກສໍາລັບປ້າຍ skewed. [2]

Pitfall watch: ຄວາມຖືກຕ້ອງຢ່າງດຽວສາມາດເຮັດໃຫ້ເຂົ້າໃຈຜິດຢ່າງຈິງຈັງກັບຄວາມບໍ່ສົມດຸນ. ຖ້າ 99% ຂອງຜູ້ໃຊ້ທີ່ຖືກຕ້ອງຕາມກົດຫມາຍ, ຮູບແບບທີ່ຂີ້ຕົວະສະເຫມີທີ່ຖືກຕ້ອງແມ່ນໃຫ້ຄະແນນ 99% ແລະເຮັດໃຫ້ທີມງານສໍ້ໂກງຂອງທ່ານລົ້ມເຫລວກ່ອນອາຫານທ່ຽງ.

2) ການຖົດຖອຍ

MAE ສຳລັບຄວາມຜິດພາດທີ່ມະນຸດອ່ານອອກໄດ້; RMSE ເມື່ອທ່ານຕ້ອງການລົງໂທດຄວາມຜິດພາດທີ່ໃຫຍ່ຫຼວງ; R² ສຳລັບຄວາມແปรປ່ວນອະທິບາຍ. ຫຼັງຈາກນັ້ນ, ໃຫ້ກວດສອບການແຈກຢາຍ ແລະ ຕາຕະລາງທີ່ເຫຼືອ. [2]
(ໃຊ້ຫົວໜ່ວຍທີ່ເປັນມິດກັບໂດເມນ ເພື່ອໃຫ້ຜູ້ມີສ່ວນຮ່ວມສາມາດຮູ້ສຶກເຖິງຄວາມຜິດພາດໄດ້.)

3) ການຈັດອັນດັບ, ດຶງຂໍ້ມູນ, ແນະນໍາ

nDCG - ເປັນຫ່ວງເປັນໄຍກ່ຽວກັບຕໍາແຫນ່ງແລະຄວາມກ່ຽວຂ້ອງ graded; ມາດຕະຖານສໍາລັບຄຸນນະພາບການຊອກຫາ.
MRR - ສຸມໃສ່ຄວາມໄວຂອງລາຍການທີ່ກ່ຽວຂ້ອງອັນທຳອິດທີ່ປາກົດ (ດີຫຼາຍສຳລັບວຽກງານ "ຊອກຫາຄຳຕອບທີ່ດີອັນໜຶ່ງ").
(ເອກະສານອ້າງອີງການຈັດຕັ້ງປະຕິບັດ ແລະ ຕົວຢ່າງການເຮັດວຽກແມ່ນຢູ່ໃນຫໍສະໝຸດຕົວຊີ້ວັດຫຼັກ.) [2]

4) ການສ້າງຂໍ້ຄວາມແລະການສະຫຼຸບ

BLEU ແລະ ROUGE - ການວັດແທກການຊ້ອນກັນແບບຄລາສສິກ; ເປັນປະໂຫຍດເປັນພື້ນຖານ.
ການວັດແທກທີ່ອີງໃສ່ການຝັງ (ຕົວຢ່າງ, BERTScore) ມັກຈະກ່ຽວຂ້ອງກັນດີກວ່າກັບການຕັດສິນຂອງມະນຸດ; ສະເຫມີຈັບຄູ່ກັບການຈັດອັນດັບຂອງມະນຸດສໍາລັບແບບ, ຄວາມຊື່ສັດ, ແລະຄວາມປອດໄພ. [4]

5) ການຕອບຄໍາຖາມ

Exact Match ແລະ token-level F1 ແມ່ນທົ່ວໄປສໍາລັບການສະກັດເອົາ QA; ຖ້າຄໍາຕອບຕ້ອງອ້າງອີງແຫຼ່ງ, ວັດແທກ ພື້ນຖານ (ການກວດສອບຄໍາຕອບ).

ການປັບທຽບ, ຄວາມໝັ້ນໃຈ, ແລະເລນ Brier 🎚️

ຄະແນນຄວາມໝັ້ນໃຈແມ່ນບ່ອນທີ່ລະບົບຫຼາຍລະບົບນອນຢູ່ຢ່າງງຽບໆ. ທ່ານຕ້ອງການຄວາມເປັນໄປໄດ້ທີ່ສະທ້ອນເຖິງຄວາມເປັນຈິງເພື່ອໃຫ້ຜູ້ປະຕິບັດງານສາມາດກຳນົດຂອບເຂດ, ເສັ້ນທາງໄປຫາມະນຸດ, ຫຼືຄວາມສ່ຽງດ້ານລາຄາ.

ເສັ້ນໂຄ້ງການປັບທຽບ - ເບິ່ງພາບຄວາມເປັນໄປໄດ້ທີ່ຄາດຄະເນໄວ້ ທຽບກັບ ຄວາມຖີ່ຂອງຂໍ້ມູນທີ່ໄດ້ມາຈາກປະສົບການ.
ຄະແນນໜາ - ກົດລະບຽບການໃຫ້ຄະແນນທີ່ເໝາະສົມສຳລັບຄວາມຖືກຕ້ອງຂອງຄວາມເປັນໄປໄດ້; ຕ່ຳກວ່າດີກວ່າ. ມັນເປັນປະໂຫຍດໂດຍສະເພາະເມື່ອທ່ານສົນໃຈ ຄຸນນະພາບ ຂອງຄວາມເປັນໄປໄດ້, ບໍ່ພຽງແຕ່ການຈັດອັນດັບເທົ່ານັ້ນ. [3]

ໝາຍເຫດພາກສະໜາມ: F1 ທີ່ "ຮ້າຍແຮງກວ່າ" ເລັກນ້ອຍ ແຕ່ການປັບທຽບທີ່ດີກວ່າຫຼາຍສາມາດ ຢ່າງຫຼວງຫຼາຍ - ເພາະວ່າໃນທີ່ສຸດຜູ້ຄົນສາມາດໄວ້ວາງໃຈຄະແນນໄດ້.

ຄວາມປອດໄພ, ຄວາມລຳອຽງ, ແລະຄວາມຍຸດຕິທຳ - ວັດແທກສິ່ງທີ່ສຳຄັນ 🛡️⚖️

ລະບົບສາມາດຖືກຕ້ອງໂດຍລວມແລະຍັງເປັນອັນຕະລາຍຕໍ່ກຸ່ມສະເພາະ. ຕິດຕາມ ກຸ່ມ ແລະມາດຕະຖານຄວາມຍຸດຕິທໍາ:

ຄວາມສະເໝີພາບທາງດ້ານປະຊາກອນ - ອັດຕາບວກເທົ່າທຽມກັນໃນທົ່ວກຸ່ມ.
ອັດຕາທີ່ເທົ່າທຽມກັນ / ໂອກາດທີ່ເທົ່າທຽມກັນ - ອັດຕາຄວາມຜິດພາດທີ່ເທົ່າທຽມກັນ ຫຼື ອັດຕາທີ່ເປັນບວກຢ່າງແທ້ຈິງໃນທົ່ວກຸ່ມຕ່າງໆ; ໃຊ້ສິ່ງເຫຼົ່ານີ້ເພື່ອກວດຫາ ແລະ ຈັດການການແລກປ່ຽນ, ບໍ່ແມ່ນເປັນການປະທັບຕາຜ່ານ-ບໍ່ຜ່ານພຽງຄັ້ງດຽວ. [5]

ຄໍາແນະນໍາພາກປະຕິບັດ: ເລີ່ມຕົ້ນດ້ວຍ dashboards ທີ່ຕັດຕົວຊີ້ວັດຫຼັກຕາມຄຸນລັກສະນະທີ່ສໍາຄັນ, ຫຼັງຈາກນັ້ນເພີ່ມຕົວຊີ້ວັດຄວາມຍຸຕິທໍາສະເພາະຕາມນະໂຍບາຍຂອງທ່ານ. ຟັງເບິ່ງເປັນເລື່ອງຕະຫຼົກ, ແຕ່ມັນມີລາຄາຖືກກວ່າເຫດການ.

LLMs ແລະ RAG - ປື້ມບັນທຶກການວັດແທກທີ່ເຮັດວຽກຕົວຈິງ 📚🔍

ການວັດແທກລະບົບການຜະລິດແມ່ນ… squirmy. ເຮັດສິ່ງນີ້:

ກໍານົດຜົນໄດ້ຮັບ ຕໍ່ກໍລະນີການນໍາໃຊ້: ຄວາມຖືກຕ້ອງ, ຄວາມເປັນປະໂຫຍດ, ບໍ່ມີອັນຕະລາຍ, ການຕິດຕາມແບບ, ໂຕນຂອງຍີ່ຫໍ້, ການອ້າງອີງພື້ນຖານ, ຄຸນນະພາບການປະຕິເສດ.
ອັດຕະໂນມັດການປະເມີນພື້ນຖານ ທີ່ມີກອບທີ່ເຂັ້ມແຂງ (ຕົວຢ່າງ, ເຄື່ອງມືການປະເມີນຜົນໃນ stack ຂອງທ່ານ) ແລະຮັກສາໃຫ້ເຂົາເຈົ້າສະບັບພາສາກັບຊຸດຂໍ້ມູນຂອງທ່ານ.
ເພີ່ມການວັດແທກຄວາມໝາຍ (ອີງໃສ່ການຝັງ) ບວກກັບຕົວວັດແທກການທັບຊ້ອນ (BLEU/ROUGE) ເພື່ອສຸຂາພິບານ. [4]
ພື້ນຖານເຄື່ອງມື ໃນ RAG: ອັດຕາການຕີຄືນ, ຄວາມແມ່ນຍໍາຂອງບໍລິບົດ/ການເອີ້ນຄືນ, ການຊ້ອນກັນຂອງຄຳຕອບ.
ການກວດສອບຂອງມະນຸດດ້ວຍຄວາມເຫັນດີເປັນເອກະພາບ - ວັດແທກຄວາມສອດຄ່ອງຂອງຜູ້ໃຫ້ຄະແນນ (ເຊັ່ນ: Cohen's κ ຫຼື Fleiss' κ) ດັ່ງນັ້ນປ້າຍກຳກັບຂອງທ່ານຈຶ່ງບໍ່ແມ່ນ vibes.

ໂບນັດ: ບັນທຶກສ່ວນຮ້ອຍເວລາໃນການຕອບສະໜອງ ແລະ token ຫຼືຄ່າໃຊ້ຈ່າຍໃນການຄິດໄລ່ຕໍ່ໜ້າວຽກ. ບໍ່ມີໃຜຮັກຄໍາຕອບ poetic ທີ່ມາຮອດວັນອັງຄານຕໍ່ໄປ.

ຕາຕະລາງປຽບທຽບ - ເຄື່ອງມືທີ່ຊ່ວຍໃຫ້ທ່ານວັດແທກປະສິດທິພາບ AI 🛠️📊

(ແມ່ນແລ້ວ, ມັນເປັນເລື່ອງທີ່ສັບສົນເລັກນ້ອຍ - ບັນທຶກຕົວຈິງແມ່ນສັບສົນ.)

ເຄື່ອງມື	ຜູ້ຊົມທີ່ດີທີ່ສຸດ	ລາຄາ	ເປັນຫຍັງມັນເຮັດວຽກ - ເອົາໄວ
metrics scikit-ຮຽນຮູ້	ຜູ້ປະຕິບັດ ML	ຟຣີ	ການປະຕິບັດ Canonical ສໍາລັບການຈັດປະເພດ, regression, ການຈັດອັນດັບ; ງ່າຍທີ່ຈະອົບເຂົ້າໄປໃນການທົດສອບ. [2]
MLflow ການປະເມີນຜົນ / GenAI	ນັກວິທະຍາສາດຂໍ້ມູນ, MLOps	ຟຣີ + ຈ່າຍ	ແລ່ນສູນກາງ, ວັດແທກອັດຕະໂນມັດ, ຜູ້ພິພາກສາ LLM, ຜູ້ໃຫ້ຄະແນນທີ່ກໍາຫນົດເອງ; ບັນທຶກວັດຖຸບູຮານຢ່າງສະອາດ.
ເຫັນໄດ້ຊັດເຈນ	ທີມງານຕ້ອງການ dashboards ໄວ	OSS + ຄລາວ	100+ ເມຕຣິກ, ລາຍງານການລອຍລົມ ແລະຄຸນນະພາບ, ຕິດຕາມການຕິດຂັດ - ພາບທີ່ງາມໃນເທື່ອດຽວ.
ນ້ຳໜັກ ແລະ ອະຄະຕິ	orgs ທົດລອງ - ຫນັກ	ຊັ້ນຮຽນຟຣີ	ການປຽບທຽບດ້ານຂ້າງ, ຊຸດຂໍ້ມູນ eval, ຜູ້ພິພາກສາ; ຕາຕະລາງແລະຮ່ອງຮອຍແມ່ນກະທັດຮັດ.
ແລນສະມິດ	ຜູ້ສ້າງແອັບ LLM	ຈ່າຍແລ້ວ	ຕິດຕາມທຸກຂັ້ນຕອນ, ປະສົມການທົບທວນຄືນຂອງມະນຸດກັບກົດລະບຽບຫຼືຜູ້ປະເມີນ LLM; ທີ່ຍິ່ງໃຫຍ່ສໍາລັບ RAG.
TruLens	Open-source LLM lovers eval	OSS	ຫນ້າທີ່ສະແດງຄວາມຄິດເຫັນເພື່ອຄະແນນຄວາມເປັນພິດ, ພື້ນຖານ, ຄວາມກ່ຽວຂ້ອງ; ປະສົມປະສານທຸກບ່ອນ.
ຄວາມຄາດຫວັງອັນຍິ່ງໃຫຍ່	ຄຸນນະພາບຂໍ້ມູນ - orgs ທໍາອິດ	OSS	ກໍານົດຄວາມຄາດຫວັງຂອງຂໍ້ມູນຢ່າງເປັນທາງການ - ເພາະວ່າຂໍ້ມູນທີ່ບໍ່ດີກໍ່ທໍາລາຍທຸກໆ metric ແນວໃດກໍ່ຕາມ.
ການກວດສອບເລິກ	ການທົດສອບ ແລະ CI/CD ສໍາລັບ ML	OSS + ຄລາວ	ການທົດສອບລວມທັງຫມໍ້ໄຟສໍາລັບການ drift ຂໍ້ມູນ, ບັນຫາຕົວແບບ, ແລະການຕິດຕາມ; guardrails ດີ.

ລາຄາມີການປ່ຽນແປງ - ກວດເບິ່ງເອກະສານ. ແລະແມ່ນແລ້ວ, ທ່ານສາມາດປະສົມເຫຼົ່ານີ້ໂດຍບໍ່ມີການຕໍາຫຼວດເຄື່ອງມືສະແດງໃຫ້ເຫັນເຖິງ.

ເກນ, ຄ່າໃຊ້ຈ່າຍ, ແລະເສັ້ນໂຄ້ງການຕັດສິນໃຈ - ຊອດລັບ 🧪

ສິ່ງທີ່ແປກແຕ່ເປັນຄວາມຈິງ: ສອງແບບທີ່ມີ ROC-AUC ດຽວກັນສາມາດມີມູນຄ່າທຸລະກິດທີ່ແຕກຕ່າງກັນຫຼາຍຂຶ້ນຢູ່ກັບ ເກນ ແລະ ອັດຕາສ່ວນຄ່າໃຊ້ຈ່າຍ.

ເອກະສານດ່ວນເພື່ອສ້າງ:

ກໍານົດຄ່າໃຊ້ຈ່າຍຂອງບວກທີ່ບໍ່ຖືກຕ້ອງ vs ລົບທີ່ບໍ່ຖືກຕ້ອງໃນເງິນຫຼືເວລາ.
ກວາດຂອບເຂດແລະຄິດໄລ່ຄ່າໃຊ້ຈ່າຍທີ່ຄາດໄວ້ຕໍ່ການຕັດສິນໃຈ 1k.
ເລືອກ ຄ່າໃຊ້ຈ່າຍຕໍ່າສຸດທີ່ຄາດໄວ້ , ຈາກນັ້ນລັອກມັນດ້ວຍການຕິດຕາມ.

ໃຊ້ເສັ້ນໂຄ້ງ PR ເມື່ອຜົນບວກຫາຍາກ, ເສັ້ນໂຄ້ງ ROC ສໍາລັບຮູບຮ່າງທົ່ວໄປ, ແລະເສັ້ນໂຄ້ງການປັບຕົວເມື່ອການຕັດສິນໃຈອີງໃສ່ຄວາມເປັນໄປໄດ້. [2][3]

ກໍລະນີນ້ອຍ: ຮູບແບບການຄັດເລືອກປີ້ສະໜັບສະໜູນທີ່ມີ F1 ທີ່ພໍປະມານ ແຕ່ມີການຕັດການປັບທຽບທີ່ດີເລີດ ການປ່ຽນເສັ້ນທາງດ້ວຍຕົນເອງຫຼັງຈາກການປະຕິບັດການປ່ຽນຈາກຂອບເຂດທີ່ຍາກໄປສູ່ການກຳນົດເສັ້ນທາງແບບຫຼາຍຊັ້ນ (ເຊັ່ນ: "ແກ້ໄຂອັດຕະໂນມັດ," "ການທົບທວນຂອງມະນຸດ," "ຍົກລະດັບ") ທີ່ເຊື່ອມໂຍງກັບແຖບຄະແນນທີ່ຖືກປັບທຽບ.

ການຕິດຕາມອອນໄລນ໌, ເລື່ອນ, ແລະເຕືອນ 🚨

Offline evals ແມ່ນການເລີ່ມຕົ້ນ, ບໍ່ແມ່ນການສິ້ນສຸດ. ໃນການຜະລິດ:

ຕິດຕາມ input drift, output drift, ແລະ ການເສື່ອມສະພາບປະສິດທິພາບ ຕາມສ່ວນ.
ກໍານົດການກວດສອບ guardrail - ອັດຕາການ hallucination ສູງສຸດ, ເກນຄວາມເປັນພິດ, deltas ຍຸດຕິທໍາ.
ເພີ່ມ ແຜງຄວບຄຸມ canary ສຳລັບຄວາມໜ່ວງເວລາຂອງ p95, ການໝົດເວລາ ແລະ ລາຄາຕໍ່ການຮ້ອງຂໍ.
ໃຊ້ຫ້ອງສະໝຸດທີ່ສ້າງຂຶ້ນໂດຍສະເພາະເພື່ອເລັ່ງຄວາມໄວໃນການເຮັດວຽກນີ້; ພວກມັນສະເໜີການດຸ່ນດ່ຽງ, ຄຸນນະພາບ, ແລະ ການຕິດຕາມກວດກາພື້ນຖານທີ່ທັນສະໄໝ.

ຄຳປຽບທຽບທີ່ມີຂໍ້ບົກຜ່ອງເລັກນ້ອຍ: ລອງຄິດເຖິງຕົວແບບຂອງເຈົ້າຄືກັບເຂົ້າໜົມປັງສົ້ມ - ເຈົ້າບໍ່ພຽງແຕ່ອົບເທື່ອດຽວແລ້ວຍ່າງໜີໄປ; ເຈົ້າກິນ, ເບິ່ງ, ດົມ, ແລະບາງຄັ້ງກໍ່ເລີ່ມຕົ້ນໃໝ່.

🍪ການປະເມີນຂອງມະນຸດທີ່ບໍ່ແຕກ

ໃນເວລາທີ່ປະຊາຊົນໃຫ້ຄະແນນຜົນໄດ້ຮັບ, ຂະບວນການມີຄວາມສໍາຄັນຫຼາຍກ່ວາທີ່ທ່ານຄິດ.

ຂຽນ rubrics ແຫນ້ນ ດ້ວຍຕົວຢ່າງຂອງ pass vs borderline vs fail.
Randomize ແລະຕາບອດຕົວຢ່າງເມື່ອທ່ານສາມາດເຮັດໄດ້.
ວັດແທກ ການຕົກລົງເຫັນດີລະຫວ່າງຜູ້ໃຫ້ຄະແນນ (ຕົວຢ່າງ, κ ຂອງ Cohen ສຳລັບຜູ້ໃຫ້ຄະແນນສອງຄົນ, κ ຂອງ Fleiss ສຳລັບຫຼາຍໆຄົນ) ແລະ ໂຫຼດຄືນ rubrics ຖ້າຂໍ້ຕົກລົງລົ້ມເຫຼວ.

ສິ່ງນີ້ຊ່ວຍປ້ອງກັນບໍ່ໃຫ້ນິໄສຂອງມະນຸດຂອງເຈົ້າປ່ຽນໄປມາພ້ອມກັບອາລົມ ຫຼື ການສະໜອງກາເຟ.

ການເຈາະເລິກ: ວິທີການວັດແທກປະສິດທິພາບ AI ສຳລັບ LLMs ໃນ RAG 🧩

ຄຸນນະພາບການດຶງຂໍ້ມູນ - recall@k, precision@k, nDCG; ການຄຸ້ມຄອງຂໍ້ເທັດຈິງຂອງຄໍາ. [2]
ຕອບຄວາມຊື່ສັດ - ອ້າງເຖິງການກວດສອບ, ຄະແນນພື້ນຖານ, ການສືບສວນຂອງສັດຕູ.
ຄວາມພໍໃຈຂອງຜູ້ໃຊ້ - ໂປ້ມື, ສໍາເລັດວຽກງານ, ແກ້ໄຂໄລຍະຫ່າງຈາກຮ່າງທີ່ແນະນໍາ.
ຄວາມປອດໄພ - ຄວາມເປັນພິດ, ການຮົ່ວໄຫຼ PII, ການປະຕິບັດຕາມນະໂຍບາຍ.
ຄ່າໃຊ້ຈ່າຍ ແລະ ຄວາມຊັກຊ້າ - ໂທເຄັນ, ການເຂົ້າຊົມແຄຊ, ຄວາມຊັກຊ້າຂອງ p95 ແລະ p99.

ຜູກມັດສິ່ງເຫຼົ່ານີ້ກັບການກະທຳທາງທຸລະກິດ: ຖ້າພື້ນຖານຫຼຸດລົງລຸ່ມເສັ້ນ, ເສັ້ນທາງອັດຕະໂນມັດໄປສູ່ໂໝດທີ່ເຄັ່ງຄັດ ຫຼື ການກວດສອບຈາກມະນຸດ.

ປື້ມຫຼິ້ນງ່າຍໆເພື່ອເລີ່ມຕົ້ນມື້ນີ້ 🪄

ກໍານົດວຽກ - ຂຽນຫນຶ່ງປະໂຫຍກ: ສິ່ງທີ່ AI ຕ້ອງເຮັດແລະສໍາລັບໃຜ.
ເລືອກຕົວຊີ້ວັດໜ້າວຽກ 2–3 ຢ່າງ - ບວກກັບການວັດແທກ ແລະ ຢ່າງໜ້ອຍໜຶ່ງສ່ວນຂອງຄວາມຍຸຕິທຳ. [2][3][5]
ຕັດສິນໃຈກ່ຽວກັບເກນໂດຍໃຊ້ຄ່າໃຊ້ຈ່າຍ - ຢ່າຄາດເດົາ.
ສ້າງຊຸດປະເມີນຜົນຂະໜາດນ້ອຍ - ຕົວຢ່າງທີ່ມີປ້າຍກຳກັບ 100–500 ຕົວຢ່າງທີ່ສະທ້ອນເຖິງການປະສົມປະສານການຜະລິດ.
automate evals ຂອງທ່ານ - ການປະເມີນຜົນ / ຕິດຕາມກວດກາສາຍເຂົ້າໄປໃນ CI ເພື່ອໃຫ້ທຸກການປ່ຽນແປງດໍາເນີນການກວດສອບດຽວກັນ.
ຕິດຕາມກວດກາໃນຜະລິດຕະພັນ - ພຽງການລອຍລົມ, latency, ຄ່າໃຊ້ຈ່າຍ, ທຸງເຫດການ.
ທົບທວນເດືອນ -ish - prune metrics ທີ່ບໍ່ມີໃຜໃຊ້; ເພີ່ມຄໍາທີ່ຕອບຄໍາຖາມທີ່ແທ້ຈິງ.
ການຕັດສິນໃຈເອກະສານ - ຕາຕະລາງຄະແນນຊີວິດທີ່ທີມງານຂອງທ່ານອ່ານຕົວຈິງ.

ແມ່ນແລ້ວ, ນັ້ນແມ່ນມັນແທ້ໆ. ແລະມັນກໍ່ໄດ້ຜົນ.

gotchas ທົ່ວໄປແລະວິທີການຫລີກລ້ຽງພວກມັນ 🕳️🐇

Overfitting ກັບ metric ດຽວ - ໃຊ້ ກະຕ່າ metric ທີ່ກົງກັບສະພາບການການຕັດສິນໃຈ. [1][2]
ບໍ່ສົນໃຈ calibration - ຄວາມຫມັ້ນໃຈໂດຍບໍ່ມີການ calibration ແມ່ນພຽງແຕ່ swagger. [3]
ບໍ່ມີການແບ່ງກຸ່ມ - ສະເຫມີຕັດໂດຍກຸ່ມຜູ້ໃຊ້, ພູມສາດ, ອຸປະກອນ, ພາສາ. [5]
ຄ່າໃຊ້ຈ່າຍທີ່ບໍ່ໄດ້ກຳນົດ - ຖ້າທ່ານບໍ່ກຳນົດລາຄາຜິດພາດ, ທ່ານຈະເລືອກເກນທີ່ບໍ່ຖືກຕ້ອງ.
ການປະເມີນຂອງມະນຸດ - ຂໍ້ຕົກລົງການວັດແທກ, rubrics ປັບປຸງ, ທົບທວນຄືນ.
ບໍ່ມີເຄື່ອງມືຄວາມປອດໄພ - ເພີ່ມຄວາມຍຸຕິທໍາ, ຄວາມເປັນພິດ, ແລະການກວດສອບນະໂຍບາຍໃນປັດຈຸບັນ, ບໍ່ແມ່ນໃນພາຍຫຼັງ. [1][5]

ປະໂຫຍກທີ່ເຈົ້າມາສໍາລັບ: ວິທີການວັດແທກປະສິດທິພາບ AI - ດົນເກີນໄປ, ຂ້ອຍບໍ່ໄດ້ອ່ານມັນ 🧾

ເລີ່ມຕົ້ນດ້ວຍ ຜົນໄດ້ຮັບທີ່ຊັດເຈນ, ຫຼັງຈາກນັ້ນ stack task, ລະບົບ, ແລະ ທຸລະກິດ . [1]
ໃຊ້ ຕົວວັດແທກທີ່ເຫມາະສົມສໍາລັບວຽກ - F1 ແລະ ROC-AUC ສໍາລັບການຈັດປະເພດ; nDCG/MRR ສໍາລັບການຈັດອັນດັບ; overlap + metrics semantic ສໍາລັບການຜະລິດ (ຄູ່ກັບມະນຸດ). [2][4]
ປັບຄ່າ ຄວາມເປັນໄປໄດ້ຂອງທ່ານ ແລະ ກຳນົດລາຄາຄວາມຜິດພາດຂອງທ່ານ ເພື່ອເລືອກຂອບເຂດ. [2][3]
ເພີ່ມ ຄວາມຍຸຕິທຳ ດ້ວຍການຕັດສ່ວນກຸ່ມ ແລະ ຈັດການການແລກປ່ຽນຢ່າງຊັດເຈນ. [5]
ເຮັດໃຫ້ການປະເມີນ ແລະ ການຕິດຕາມກວດກາເປັນອັດຕະໂນມັດ ເພື່ອໃຫ້ທ່ານສາມາດເຮັດຊ້ຳໄດ້ໂດຍບໍ່ຕ້ອງຢ້ານກົວ.

ເຈົ້າຮູ້ວ່າມັນເປັນແນວໃດ - ວັດແທກສິ່ງທີ່ສໍາຄັນ, ຫຼືເຈົ້າຈະປັບປຸງສິ່ງທີ່ບໍ່ດີ.

ເອກະສານອ້າງອີງ

[1] NIST. ຂອບການຄຸ້ມຄອງຄວາມສ່ຽງ AI (AI RMF). ອ່ານຕື່ມ
[2] scikit-learn. ການປະເມີນຮູບແບບ: ການວັດແທກຄຸນນະພາບຂອງການຄາດຄະເນ (ຄູ່ມືຜູ້ໃຊ້). ອ່ານຕື່ມ
[3] scikit-learn. ການປັບທຽບຄວາມເປັນໄປໄດ້ (ເສັ້ນໂຄ້ງການປັບທຽບ, ຄະແນນ Brier). ອ່ານຕື່ມ
[4] Papineni et al. (2002). BLEU: ວິທີການປະເມີນອັດຕະໂນມັດຂອງການແປພາສາດ້ວຍເຄື່ອງຈັກ. ACL. ອ່ານຕື່ມ
[5] Hardt, Price, Srebro (2016). ຄວາມສະເໝີພາບຂອງໂອກາດໃນການຮຽນຮູ້ທີ່ມີການຄວບຄຸມ. NeurIPS. ອ່ານຕື່ມ

ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ