ວິທີການສ້າງແບບຈຳລອງ AI. ຂັ້ນຕອນທັງໝົດໄດ້ຖືກອະທິບາຍ.

ການສ້າງແບບຈໍາລອງ AI ມີສຽງດັງຫຼາຍ - ຄືກັບນັກວິທະຍາສາດໃນຮູບເງົາທີ່ຈົ່ມກ່ຽວກັບຄຳນາມ - ຈົນກວ່າເຈົ້າຈະເຮັດມັນເທື່ອດຽວ. ຫຼັງຈາກນັ້ນ, ທ່ານຮູ້ວ່າມັນເປັນວຽກງານ janitorial ຂໍ້ມູນເຄິ່ງຫນຶ່ງ, ເຄິ່ງຫນຶ່ງຂອງທໍ່ນ້ໍາ fiddly, ແລະສິ່ງເສບຕິດ weirdly. ຄູ່ມືນີ້ວາງອອກ ວິທີການເຮັດໃຫ້ AI Model ສິ້ນສຸດລົງ: ການກະກຽມຂໍ້ມູນ, ການຝຶກອົບຮົມ, ການທົດສອບ, ການປະຕິບັດ, ແລະແມ່ນ - ການກວດສອບຄວາມປອດໄພທີ່ຫນ້າເບື່ອແຕ່ສໍາຄັນ. ພວກເຮົາຈະໄປແບບສະບາຍໆ, ເລິກເຊິ່ງໃນລາຍລະອຽດ, ແລະຮັກສາ emojis ໃນການປະສົມປະສານ, ເພາະວ່າດ້ວຍຄວາມຊື່ສັດ, ເປັນຫຍັງການຂຽນດ້ານວິຊາການຄວນມີຄວາມຮູ້ສຶກຄືກັບການຍື່ນພາສີ?

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 arbitrage AI ແມ່ນຫຍັງ: ຄວາມຈິງທີ່ຢູ່ເບື້ອງຫຼັງຄຳສັບທີ່ນິຍົມ
ອະທິບາຍ AI arbitrage, ຄວາມສ່ຽງ, ໂອກາດ, ແລະຜົນສະທ້ອນຂອງໂລກທີ່ແທ້ຈິງ.

🔗 ຄູຝຶກ AI ແມ່ນຫຍັງ
ກວມເອົາພາລະບົດບາດ, ທັກສະ, ແລະຄວາມຮັບຜິດຊອບຂອງຄູຝຶກ AI.

🔗 AI ສັນຍາລັກແມ່ນຫຍັງ: ທຸກຢ່າງທີ່ເຈົ້າຕ້ອງຮູ້
ທໍາລາຍແນວຄວາມຄິດ AI ທີ່ເປັນສັນຍາລັກ, ປະຫວັດສາດ, ແລະການປະຕິບັດຕົວຈິງ.

ສິ່ງທີ່ເຮັດໃຫ້ຕົວແບບ AI - ພື້ນຖານ ✅

ຮູບແບບ "ດີ" ບໍ່ແມ່ນແບບທີ່ພຽງແຕ່ຕີຄວາມຖືກຕ້ອງ 99% ໃນໂນ໊ດບຸ໊ກ dev ຂອງເຈົ້າແລ້ວເຮັດໃຫ້ເຈົ້າອັບອາຍໃນການຜະລິດ. ມັນເປັນຫນຶ່ງທີ່:

ກອບດີ → ບັນຫາແມ່ນ crisp, ວັດສະດຸປ້ອນ / ຜົນໄດ້ຮັບແມ່ນຈະແຈ້ງ, metric ແມ່ນຕົກລົງ.
Data-honest → ຊຸດຂໍ້ມູນຕົວຈິງສະທ້ອນເຖິງໂລກທີ່ແທ້ຈິງທີ່ສັບສົນ, ບໍ່ແມ່ນສະບັບຄວາມຝັນທີ່ຖືກກັ່ນຕອງ. ການແຜ່ກະຈາຍທີ່ຮູ້ຈັກ, ການຮົ່ວໄຫລປະທັບຕາ, ປ້າຍຊື່ສາມາດຕິດຕາມໄດ້.
ແຂງແຮງ → ຕົວແບບບໍ່ຍຸບລົງຖ້າລຳດັບຖັນພິກ ຫຼື ປ້ອນຂໍ້ມູນເລື່ອນເລັກນ້ອຍ.
ການປະເມີນດ້ວຍຄວາມຮູ້ສຶກ → metrics ສອດຄ່ອງກັບຄວາມເປັນຈິງ, ບໍ່ແມ່ນ vanity ຂອງຄະນະຜູ້ນໍາ. ROC AUC ເບິ່ງຄືວ່າເຢັນແຕ່ບາງຄັ້ງ F1 ຫຼືການປັບທຽບແມ່ນສິ່ງທີ່ທຸລະກິດສົນໃຈ.
Deployable → inference time ຄາດຄະເນ, ຊັບພະຍາກອນ sane , ຕິດຕາມກວດກາຫຼັງຈາກການນໍາໃຊ້.
ຄວາມຮັບຜິດຊອບ → ການທົດສອບຄວາມຍຸຕິທໍາ, ການຕີຄວາມຫມາຍ, guardrails ສໍາລັບການນໍາໃຊ້ທີ່ຜິດພາດ [1].

ມົນຕີເຫຼົ່ານີ້ແລະທ່ານແລ້ວຫຼາຍທີ່ສຸດຂອງວິທີການຢູ່ທີ່ນັ້ນ. ສ່ວນທີ່ເຫຼືອແມ່ນພຽງແຕ່ການຊໍ້າຄືນ ... ແລະ "ຄວາມຮູ້ສຶກໃນລໍາໄສ້." 🙂

ເລື່ອງສົງຄາມຂະໜາດນ້ອຍ: ໃນຮູບແບບການສໍ້ໂກງ, F1 ໂດຍລວມເບິ່ງດີເລີດ. ຫຼັງຈາກນັ້ນ, ພວກເຮົາແບ່ງຕາມພູມສາດ + "ບັດປະຈຸບັນທຽບກັບບໍ່ແມ່ນ." ຄວາມແປກໃຈ: ຂໍ້ລົບທີ່ບໍ່ຖືກຕ້ອງຖືກຮວງເຂົ້າໃນໜຶ່ງຊອຍ. ບົດຮຽນທີ່ເຜົາໃນ - ຕັດຕົ້ນ, ຕັດເລື້ອຍໆ.

ເລີ່ມຕົ້ນດ່ວນ: ເສັ້ນທາງສັ້ນທີ່ສຸດໃນການສ້າງ AI Model ⏱️

ກໍານົດຫນ້າທີ່ : ການຈັດປະເພດ, regression, ການຈັດອັນດັບ, ການຕິດສະຫຼາກລໍາດັບ, ການຜະລິດ, ການແນະນໍາ.
ປະກອບຂໍ້ມູນ : ເກັບກໍາ, dedupe, ແບ່ງປັນຢ່າງຖືກຕ້ອງ (ເວລາ / ຫົວຫນ່ວຍ), ເອກະສານມັນ [1].
ພື້ນຖານ : ສະເຫມີເລີ່ມຕົ້ນຂະຫນາດນ້ອຍ - logistic regression, ຕົ້ນໄມ້ຂະຫນາດນ້ອຍ [3].
ເລືອກຄອບຄົວຕົວແບບ : ຕາຕະລາງ → ການເພີ່ມ gradient; text → transformer ຂະຫນາດນ້ອຍ; ວິໄສທັດ → ການຝຶກອົບຮົມ CNN ຫຼືກະດູກສັນຫຼັງ [3][5].
loop ການຝຶກອົບຮົມ : optimizer + ຢຸດຕົ້ນ; ຕິດຕາມທັງການສູນເສຍແລະການກວດສອບ [4].
ການປະເມີນຜົນ : ການກວດສອບຂ້າມ, ການວິເຄາະຄວາມຜິດພາດ, ການທົດສອບພາຍໃຕ້ການປ່ຽນແປງ.
ການຫຸ້ມຫໍ່ : ປະຫຍັດນ້ໍາຫນັກ, preprocessors, API wrapper [2].
ຈໍສະແດງຜົນ : ເບິ່ງ drift, latency, decay ຄວາມຖືກຕ້ອງ [2].

ມັນເບິ່ງດີຢູ່ໃນເຈ້ຍ. ໃນການປະຕິບັດ, messy. ແລະນັ້ນບໍ່ເປັນຫຍັງ.

ຕາຕະລາງປຽບທຽບ: ເຄື່ອງມືສໍາລັບວິທີການສ້າງແບບຈໍາລອງ AI 🛠️

ເຄື່ອງມື / ຫ້ອງສະຫມຸດ	ດີທີ່ສຸດສຳລັບ	ລາຄາ	ເປັນຫຍັງມັນເຮັດວຽກ (ບັນທຶກ)
ຮຽນຮູ້ Scikit	ຕາຕາລາງ, ພື້ນຖານ	ຟຣີ - OSS	API ສະອາດ, ການທົດລອງໄວ; ຍັງຊະນະຄລາສສິກ [3].
PyTorch	ການຮຽນຮູ້ເລິກ	ຟຣີ - OSS	ແບບເຄື່ອນໄຫວ, ສາມາດອ່ານໄດ້, ຊຸມຊົນໃຫຍ່ [4].
TensorFlow + Keras	ການຜະລິດ DL	ຟຣີ - OSS	Keras ເປັນມິດ; TF Serving ເຮັດໃຫ້ການໃຊ້ງານລຽບງ່າຍ.
JAX + Flax	ການຄົ້ນຄວ້າ + ຄວາມໄວ	ຟຣີ - OSS	Autodiff + XLA = ການເພີ່ມປະສິດທິພາບ.
ກອດຕົວຫັນໜ້າ	NLP, CV, ສຽງ	ຟຣີ - OSS	ແບບຝຶກຫັດ + ທໍ່... chef's kiss [5].
XGBoost/LightGBM	ການເດັ່ນໃນຕາຕະລາງ	ຟຣີ - OSS	ມັກຈະຕີ DL ໃນຊຸດຂໍ້ມູນເລັກນ້ອຍ.
ໄວ	DL ເປັນມິດ	ຟຣີ - OSS	ລະດັບສູງ, ໃຫ້ອະໄພຄ່າເລີ່ມຕົ້ນ.
Cloud AutoML (ຕ່າງໆ)	ບໍ່ມີ/ລະຫັດຕ່ຳ	ການນໍາໃຊ້ຕາມ $	Drag, drop, deploy; ແຂງທີ່ຫນ້າປະຫລາດໃຈ.
ເວລາແລ່ນ ONNX	ຄວາມໄວ Inference	ຟຣີ - OSS	ການໃຫ້ບໍລິການທີ່ດີທີ່ສຸດ, ເປັນມິດກັບຂອບ.

ເອກະສານທີ່ເຈົ້າຈະສືບຕໍ່ເປີດໃໝ່: scikit-learn [3], PyTorch [4], Hugging Face [5].

ຂັ້ນຕອນທີ 1 - ຈັດວາງບັນຫາຄືນັກວິທະຍາສາດ, ບໍ່ແມ່ນ hero 🎯

ກ່ອນທີ່ທ່ານຈະຂຽນລະຫັດ, ເວົ້ານີ້ອອກມາດັງໆ: ການຕັດສິນໃຈຂອງຕົວແບບນີ້ຈະແຈ້ງຫຍັງແດ່? ຖ້າມັນບໍ່ເຂົ້າໃຈ, ຊຸດຂໍ້ມູນຈະຮ້າຍແຮງກວ່າເກົ່າ.

ເປົ້າໝາຍການຄາດເດົາ → ຖັນດຽວ, ນິຍາມດຽວ. ຕົວຢ່າງ: ປັ່ນພາຍໃນ 30 ມື້ບໍ?
Granularity → ຕໍ່ຜູ້ໃຊ້, ຕໍ່ເຊດຊັນ, ຕໍ່ລາຍການ - ບໍ່ປະສົມ. ຄວາມສ່ຽງຕໍ່ການຮົ່ວໄຫຼ skyrockets.
ຂໍ້ ຈຳ ກັດ → latency, ຄວາມຊົງ ຈຳ, ຄວາມເປັນສ່ວນຕົວ, ຂອບທຽບກັບເຊີບເວີ.
Metric ຂອງຄວາມສໍາເລັດ → ຫນຶ່ງປະຖົມ + ຄູ່ຂອງກອງ. ຫ້ອງຮຽນບໍ່ສົມດຸນ? ໃຊ້ AUPRC + F1. ການຖົດຖອຍ? MAE ສາມາດຕີ RMSE ເມື່ອ medians ສຳຄັນ.

ຄໍາແນະນໍາຈາກການສູ້ຮົບ: ຂຽນຂໍ້ຈໍາກັດເຫຼົ່ານີ້ + metric ໃນຫນ້າຫນຶ່ງຂອງ README. ບັນທຶກການໂຕ້ແຍ້ງໃນອະນາຄົດເມື່ອປະສິດທິພາບທຽບກັບເວລາແພັກເກັດຕຳກັນ.

ຂັ້ນຕອນທີ 2 - ການເກັບກໍາຂໍ້ມູນ, ທໍາຄວາມສະອາດ, ແລະການແບ່ງປັນທີ່ແທ້ຈິງຖືຂຶ້ນ 🧹📦

ຂໍ້ມູນແມ່ນຕົວແບບ. ທ່ານຮູ້ຈັກມັນ. ຢ່າງໃດກໍຕາມ, ຂຸມ:

Provenance → ມັນມາຈາກໃສ, ໃຜເປັນເຈົ້າຂອງມັນ, ພາຍໃຕ້ນະໂຍບາຍອັນໃດ [1].
ປ້າຍກຳກັບ → ຂໍ້ແນະນຳທີ່ເຄັ່ງຄັດ, ການກວດສອບລະຫວ່າງຜູ້ບັນຍາຍ, ການກວດສອບ.
De-duplication → sneaky duplicates inflate metrics.
ການແຍກ → ແບບສຸ່ມແມ່ນບໍ່ຖືກຕ້ອງສະເໝີໄປ. ໃຊ້ເວລາສໍາລັບການຄາດຄະເນ, ອີງໃສ່ນິຕິບຸກຄົນເພື່ອຫຼີກເວັ້ນການຮົ່ວໄຫຼຂອງຜູ້ໃຊ້.
ການຮົ່ວໄຫຼ → ບໍ່ມີການແນມເບິ່ງອະນາຄົດໃນເວລາຝຶກອົບຮົມ.
Docs → ຂຽນ ບັດຂໍ້ມູນ ດ້ວຍ schema, collection, biases [1].

ພິທີກຳ: ສະແດງພາບການແຈກຢາຍເປົ້າໝາຍ + ຄຸນສົມບັດເທິງສຸດ. ນອກຈາກນັ້ນ, ຍັງຖື ແບບບໍ່ເຄີຍແຕະ ຈົນສຸດຂີດ.

ຂັ້ນຕອນທີ 3 - ພື້ນຖານທໍາອິດ: ຮູບແບບທີ່ຖ່ອມຕົວທີ່ຊ່ວຍປະຢັດເດືອນ 🧪

ພື້ນຖານບໍ່ງາມ, ແຕ່ພວກມັນເຮັດໃຫ້ຄວາມຄາດຫວັງ.

Tabular → scikit-learn LogisticRegression ຫຼື RandomForest, ຈາກນັ້ນ XGBoost/LightGBM [3].
ຂໍ້ຄວາມ → TF-IDF + ຕົວຈັດປະເພດເສັ້ນຊື່. ກວດເບິ່ງສຸຂາພິບານກ່ອນການຫັນປ່ຽນ.
ວິໄສທັດ → CNN ຂະຫນາດນ້ອຍຫຼືກະດູກສັນຫຼັງ pretrained, ຊັ້ນ frozen.

ຖ້າຕາຫນ່າງເລິກຂອງເຈົ້າເກືອບຕີເສັ້ນພື້ນຖານ, ຫາຍໃຈ. ບາງຄັ້ງສັນຍານບໍ່ແຂງແຮງ.

ຂັ້ນຕອນທີ 4 - ເລືອກວິທີການສ້າງແບບຈໍາລອງທີ່ເໝາະສົມກັບຂໍ້ມູນ 🍱

ຕາຕາລາງ

Gradient boosting ທໍາອິດ - ມີປະສິດທິພາບຢ່າງໂຫດຮ້າຍ. ວິສະວະກໍາຄຸນສົມບັດ (ການໂຕ້ຕອບ, ການເຂົ້າລະຫັດ) ຍັງມີຄວາມສໍາຄັນ.

ຂໍ້ຄວາມ

ໝໍ້ແປງໄຟທີ່ໄດ້ຝຶກມາດ້ວຍການປັບນ້ຳໜັກເບົາ. ຮູບແບບການກັ່ນ ຖ້າຄວາມແຝງສຳຄັນ [5]. Tokenizers ກໍ່ສໍາຄັນເຊັ່ນກັນ. ສໍາລັບໄຊຊະນະໄວ: ທໍ່ HF.

ຮູບພາບ

ເລີ່ມຕົ້ນດ້ວຍ backbone pretrained + fine-tune ຫົວ. ເພີ່ມຄວາມສົມຈິງ (flips, ການປູກພືດ, jitter). ສໍາລັບຂໍ້ມູນຂະຫນາດນ້ອຍ, ການສັກຢາບໍ່ຫຼາຍປານໃດຫຼືສາຍ probes.

ຊຸດເວລາ

ພື້ນຖານ: ລັກສະນະ lag, ການເຄື່ອນຍ້າຍສະເລ່ຍ. ໂຮງຮຽນເກົ່າ ARIMA ທຽບກັບຕົ້ນໄມ້ທີ່ທັນສະໄໝ. ສະເຫມີເຄົາລົບຄໍາສັ່ງທີ່ໃຊ້ເວລາໃນການກວດສອບ.

ກົດລະບຽບຂອງໂປ້ມື: ຕົວແບບຂະຫນາດນ້ອຍ, ສະຫມໍ່າສະເຫມີ> monsters overfit .

ຂັ້ນຕອນທີ 5 - loop ການຝຶກອົບຮົມ, ແຕ່ບໍ່ overcomplicate 🔁

ທັງຫມົດທີ່ທ່ານຕ້ອງການ: ຕົວໂຫຼດຂໍ້ມູນ, ຕົວແບບ, ການສູນເສຍ, optimizer, ກໍານົດເວລາ, ການບັນທຶກ. ສຳເລັດແລ້ວ.

Optimizers : Adam ຫຼື SGD w/ momentum. ຫ້າມບິດເກີນ.
ຂະໜາດ batch : ສູງສຸດອອກຄວາມຈໍາອຸປະກອນໂດຍບໍ່ມີການ thrashing.
Regularization : dropout , ຫຼຸດລົງນ້ໍາ, ຢຸດຕົ້ນ.
ຄວາມແມ່ນຍໍາປະສົມ : ເພີ່ມຄວາມໄວຢ່າງຫຼວງຫຼາຍ; ກອບທີ່ທັນສະໄຫມເຮັດໃຫ້ມັນງ່າຍ [4].
ການສືບພັນ : ແກ່ນຕັ້ງ. ມັນຍັງຈະສັ່ນສະເທືອນ. ນັ້ນແມ່ນເລື່ອງປົກກະຕິ.

ເບິ່ງ PyTorch tutorials ສໍາລັບຮູບແບບ canonical [4].

ຂັ້ນຕອນທີ 6 - ການປະເມີນຜົນທີ່ສະທ້ອນໃຫ້ເຫັນຄວາມເປັນຈິງ, ບໍ່ແມ່ນຈຸດຜູ້ນໍາ 🧭

ກວດເບິ່ງຕ່ອນ, ບໍ່ພຽງແຕ່ສະເລ່ຍ:

Calibration → probabilities ຄວນຫມາຍຄວາມວ່າບາງສິ່ງບາງຢ່າງ. ແຜນທີ່ຄວາມຫນ້າເຊື່ອຖືຊ່ວຍ.
ຄວາມເຂົ້າໃຈທີ່ສັບສົນ → ເສັ້ນໂຄ້ງຂອບເຂດ, ການຄ້າທີ່ເຫັນໄດ້.
buckets ຜິດພາດ → ແບ່ງຕາມພາກພື້ນ, ອຸປະກອນ, ພາສາ, ເວລາ. ຈຸດອ່ອນຈຸດ.
ຄວາມທົນທານ → ການທົດສອບພາຍໃຕ້ການປ່ຽນແປງ, ລົບກວນວັດສະດຸປ້ອນ.
Human-in-loop → ຖ້າຄົນໃຊ້ມັນ, ທົດສອບການໃຊ້ງານ.

ຫຍໍ້ໜ້າສັ້ນໆ: ການເອີ້ນຄືນຄັ້ງໜຶ່ງມາຈາກການປັບຕົວ Unicode ທີ່ບໍ່ກົງກັນລະຫວ່າງການຝຶກອົບຮົມກັບການຜະລິດ. ຄ່າໃຊ້ຈ່າຍ? 4 ຄະແນນເຕັມ.

ຂັ້ນຕອນທີ 7 - ການຫຸ້ມຫໍ່, ການຮັບໃຊ້, ແລະ MLOps ໂດຍບໍ່ມີນ້ໍາຕາ 🚚

ນີ້ແມ່ນບ່ອນທີ່ໂຄງການມັກຈະເດີນທາງ.

ສິ່ງປະດິດ : ນ້ຳໜັກຕົວແບບ, ໂປຣເຊສເຊີກ່ອນ, ຄຳໝັ້ນສັນຍາ hash.
Env : pin versions, containerize lean.
ການໂຕ້ຕອບ : REST/gRPC ກັບ /health + /predict .
Latency/throughput : batch requests, ຮູບແບບການອົບອຸ່ນຂຶ້ນ.
ຮາດແວ : CPU ດີສໍາລັບຄລາສສິກ; GPUs ສໍາລັບ DL. ONNX Runtime ເລັ່ງຄວາມໄວ/ການພົກພາ.

ສໍາລັບທໍ່ເຕັມ (CI/CD/CT, ການຕິດຕາມ, rollback), ເອກະສານ MLOps ຂອງ Google ແມ່ນແຂງ [2].

ຂັ້ນຕອນທີ 8 - ການຕິດຕາມ, drift, ແລະ retraining ໂດຍບໍ່ມີການຕົກໃຈ 📈🧭

ຕົວແບບເສື່ອມໂຊມ. ຜູ້ໃຊ້ພັດທະນາ. ທໍ່ຂໍ້ມູນເຮັດວຽກບໍ່ຖືກຕ້ອງ.

ການກວດສອບຂໍ້ມູນ : schema, ranges, nulls.
ການຄາດຄະເນ : ການແຜ່ກະຈາຍ, metrics drift, outliers.
ປະສິດທິພາບ : ເມື່ອປ້າຍມາເຖິງ, ຄິດໄລ່ metrics.
ການແຈ້ງເຕືອນ : latency, ຄວາມຜິດພາດ, drift.
ຝຶກ cadence ຄືນໃໝ່ : trigger-based > calendar-based.

ເອກະສານ loop ໄດ້. wiki ຕີ "ຄວາມຊົງຈໍາຂອງຊົນເຜົ່າ." ເບິ່ງ Google CT playbooks [2].

AI ທີ່ມີຄວາມຮັບຜິດຊອບ: ຄວາມຍຸດຕິທໍາ, ຄວາມເປັນສ່ວນຕົວ, ການຕີຄວາມ ໝາຍ 🧩🧠

ຖ້າປະຊາຊົນໄດ້ຮັບຜົນກະທົບ, ຄວາມຮັບຜິດຊອບບໍ່ແມ່ນທາງເລືອກ.

ການທົດສອບຄວາມຍຸຕິທຳ → ປະເມີນທົ່ວກຸ່ມທີ່ລະອຽດອ່ອນ, ຫຼຸດຜ່ອນຊ່ອງຫວ່າງ [1].
Interpretability → SHAP ສໍາລັບຕາຕະລາງ, attribution ສໍາລັບເລິກ. ຈັດການດ້ວຍຄວາມລະມັດລະວັງ.
ຄວາມເປັນສ່ວນຕົວ/ຄວາມປອດໄພ → ຫຼຸດຜ່ອນ PII, ປິດບັງລັກສະນະ.
ນະໂຍບາຍ → ຂຽນຈຸດປະສົງທຽບກັບການນໍາໃຊ້ທີ່ຫ້າມ. ຊ່ວຍປະຢັດຄວາມເຈັບປວດຕໍ່ມາ [1].

ການຍ່າງຜ່ານນ້ອຍໆໄວ 🚵

ເວົ້າວ່າພວກເຮົາກໍາລັງຈັດປະເພດການທົບທວນຄືນ: ບວກ vs ລົບ.

ຂໍ້ມູນ → ລວບລວມການທົບທວນຄືນ, desupe, ແບ່ງອອກຕາມເວລາ [1].
ພື້ນຖານ → TF-IDF + logistic regression (scikit-learn) [3].
ອັບເກຣດ → ໝໍ້ແປງຂະໜາດນ້ອຍທີ່ຝຶກຝົນໄວ້ພ້ອມດ້ວຍໜ້າກອດ [5].
ລົດໄຟ → ໄລຍະເວລາບໍ່ຫຼາຍປານໃດ, ຢຸດໄວ, ຕິດຕາມ F1 [4].
Eval → confusion matrix, precision@recall, calibration.
Package → tokenizer + model, FastAPI wrapper [2].
ຕິດຕາມກວດກາ → ເບິ່ງ drift ທົ່ວຫມວດຫມູ່ [2].
tweaks ທີ່ຮັບຜິດຊອບ → ການກັ່ນຕອງ PII, ເຄົາລົບຂໍ້ມູນລະອຽດອ່ອນ [1].

ໜຽວແໜ້ນ? ຮູບແບບການກັ່ນ ຫຼືສົ່ງອອກໄປຍັງ ONNX.

ຄວາມຜິດພາດທົ່ວໄປທີ່ເຮັດໃຫ້ຕົວແບບເບິ່ງສະຫລາດແຕ່ເຮັດແບບໂງ່ 🙃

ລັກສະນະຮົ່ວໄຫຼ (ຂໍ້ມູນຫຼັງເຫດການຢູ່ລົດໄຟ).
ເມຕຣິກຜິດ (AUC ເມື່ອທີມງານສົນໃຈການເອີ້ນຄືນ).
ຊຸດ val ຂະຫນາດນ້ອຍ ("ການແຕກແຍກ" noisy).
ຄວາມບໍ່ສົມດຸນຂອງຫ້ອງຮຽນຖືກລະເລີຍ.
ການປະມວນຜົນກ່ອນບໍ່ກົງກັນ (ລົດໄຟທຽບກັບບໍລິການ).
ການປັບແຕ່ງເກີນໄວເກີນໄປ.
ລືມຂໍ້ຈໍາກັດ (ຮູບແບບຍັກໃຫຍ່ໃນແອັບຯມືຖື).

ເຄັດລັບການເພີ່ມປະສິດທິພາບ 🔧

ເພີ່ມ ທີ່ສະຫຼາດກວ່າ : ດ້ານລົບຍາກ, ການຂະຫຍາຍຕົວຈິງ.
Regularize harder: dropout, ຕົວແບບຂະຫນາດນ້ອຍກວ່າ.
ຕາຕະລາງອັດຕາການຮຽນຮູ້ (cosine/ຂັ້ນຕອນ).
batch sweeps - ໃຫຍ່ກວ່າແມ່ນບໍ່ສະເຫມີໄປທີ່ດີກວ່າ.
ຄວາມແມ່ນຍໍາປະສົມ + vectorization ສໍາລັບຄວາມໄວ [4].
ປະລິມານ, pruning ກັບຕົວແບບກະທັດຮັດ.
ການຝັງ cache/pre-compute heavy ops.

ການຕິດສະຫຼາກຂໍ້ມູນທີ່ບໍ່ implode 🏷️

ຄໍາແນະນໍາ: ລາຍລະອຽດ, ມີກໍລະນີແຂບ.
ປ້າຍລົດໄຟ: ວຽກງານການປັບທຽບ, ການກວດສອບຂໍ້ຕົກລົງ.
ຄຸນະພາບ: ຊຸດຄໍາ, ການກວດສອບຈຸດ.
ເຄື່ອງມື: ຊຸດຂໍ້ມູນສະບັບ, ຮູບແບບທີ່ສາມາດສົ່ງອອກໄດ້.
ຈັນຍາບັນ: ເງິນເດືອນຍຸດຕິທຳ, ມີຄວາມຮັບຜິດຊອບ. ຢຸດເຕັມ [1].

ຮູບແບບການນຳໃຊ້ 🚀

batch ຄະແນນ → ວຽກກາງຄືນ, ສາງ.
microservice ໃນເວລາຈິງ → sync API, ເພີ່ມຖານຄວາມຈໍາ.
ການຖ່າຍທອດ → ເຫດການທີ່ຂັບເຄື່ອນ, ຕົວຢ່າງ, ການສໍ້ໂກງ.
Edge → compress, ອຸປະກອນທົດສອບ, ONNX/TensorRT.

ຮັກສາປື້ມບັນທຶກ: ຂັ້ນຕອນການກັບຄືນ, ການຟື້ນຟູສິ່ງປະດິດ [2].

ຊັບພະຍາກອນທີ່ຄຸ້ມຄ່າເວລາຂອງເຈົ້າ 📚

ພື້ນຖານ: ຄູ່ມືຜູ້ໃຊ້ scikit-learn [3]
ຮູບແບບ DL: PyTorch Tutorials [4]
ການຮຽນຮູ້ການໂອນ: ການກອດໃບຫນ້າດ່ວນ [5]
ການປົກຄອງ/ຄວາມສ່ຽງ: NIST AI RMF [1]
MLOps: Google Cloud playbooks [2]

FAQ-ish tidbits 💡

ຕ້ອງການ GPU ບໍ? ບໍ່ແມ່ນສໍາລັບຕາຕະລາງ. ສໍາລັບ DL, ແມ່ນແລ້ວ (ການເຊົ່າຄລາວເຮັດວຽກ).
ຂໍ້ມູນພຽງພໍບໍ? ເພີ່ມເຕີມແມ່ນດີຈົນກ່ວາປ້າຍມີສິ່ງລົບກວນ. ເລີ່ມຕົ້ນຂະຫນາດນ້ອຍ, ເຮັດຊ້ໍາອີກ.
ທາງເລືອກເມຕຣິກ? ຄ່າໃຊ້ຈ່າຍໃນການຕັດສິນໃຈທີ່ກົງກັນ. ຂຽນມາຕຣິກເບື້ອງ.
ຂ້າມເສັ້ນພື້ນຖານບໍ? ເຈົ້າສາມາດ… ຄືກັນກັບເຈົ້າສາມາດຂ້າມອາຫານເຊົ້າ ແລະເສຍໃຈ.
AutoML? ທີ່ດີເລີດສໍາລັບການ bootstrapping. ຍັງເຮັດການກວດສອບຂອງທ່ານເອງ [2].

ຄວາມຈິງທີ່ສັບສົນເລັກນ້ອຍ🎬

ວິທີການສ້າງແບບຈໍາລອງ AI ແມ່ນຫນ້ອຍກ່ຽວກັບຄະນິດສາດທີ່ແປກປະຫຼາດແລະເພີ່ມເຕີມກ່ຽວກັບຫັດຖະກໍາ: ກອບແຫຼມ, ຂໍ້ມູນສະອາດ, ການກວດສອບສຸຂະພາບພື້ນຖານ, ການປະເມີນແຂງ, ການເຮັດຊ້ໍາອີກຄັ້ງ. ເພີ່ມຄວາມຮັບຜິດຊອບເພື່ອໃຫ້ອະນາຄົດ - ເຈົ້າບໍ່ເຮັດຄວາມສະອາດສິ່ງລົບກວນທີ່ສາມາດປ້ອງກັນໄດ້ [1][2].

ຄວາມຈິງແມ່ນ, ຮຸ່ນ "ຫນ້າເບື່ອ" - ເຄັ່ງຄັດແລະວິທີການ - ມັກຈະຕີຕົວແບບທີ່ມີສີສັນທີ່ຟ້າວແລ່ນໃນເວລາ 2 ໂມງເຊົ້າວັນສຸກ. ແລະຖ້າຄວາມພະຍາຍາມທໍາອິດຂອງເຈົ້າຮູ້ສຶກບໍ່ສະບາຍບໍ? ນັ້ນແມ່ນເລື່ອງປົກກະຕິ. ແບບຈໍາລອງແມ່ນຄ້າຍຄືການເລີ່ມຕົ້ນ sourdough: ອາຫານ, ສັງເກດ, restart ບາງຄັ້ງ. 🥖🤷

TL;DR

ບັນຫາກອບ + metric; ຂ້າການຮົ່ວໄຫຼ.
ພື້ນຖານກ່ອນ; ເຄື່ອງມືທີ່ງ່າຍດາຍ rock.
ຕົວແບບທີ່ໄດ້ຝຶກຝົນໄວ້ຊ່ວຍ - ຢ່ານະມັດສະການພວກມັນ.
Eval ທົ່ວ slices; calibrate.
ພື້ນຖານຂອງ MLOps: ສະບັບ, ການຕິດຕາມ, rollbacks.
AI ທີ່ມີຄວາມຮັບຜິດຊອບຖືກອົບເຂົ້າ, ບໍ່ໄດ້ຕິດຢູ່.
Iterate, smile - ທ່ານໄດ້ສ້າງຕົວແບບ AI. 😄

ເອກະສານອ້າງອີງ

NIST — ຂອບການຈັດການຄວາມສ່ຽງດ້ານປັນຍາທຽມ (AI RMF 1.0) . ເຊື່ອມຕໍ່
Google Cloud — MLOps: ການຈັດສົ່ງຢ່າງຕໍ່ເນື່ອງ ແລະທໍ່ອັດຕະໂນມັດໃນການຮຽນຮູ້ເຄື່ອງຈັກ . ເຊື່ອມຕໍ່
scikit-learn — ຄູ່ມືຜູ້ໃຊ້ . ເຊື່ອມຕໍ່
PyTorch — ການສອນທີ່ເປັນທາງການ . ເຊື່ອມຕໍ່
ກອດໜ້າ — Transformers Quickstart . ເຊື່ອມຕໍ່

ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ

ປະເທດ/ພາກພື້ນ