ການສ້າງແບບຈໍາລອງ AI ມີສຽງດັງຫຼາຍ - ຄືກັບນັກວິທະຍາສາດໃນຮູບເງົາທີ່ຈົ່ມກ່ຽວກັບຄຳນາມ - ຈົນກວ່າເຈົ້າຈະເຮັດມັນເທື່ອດຽວ. ຫຼັງຈາກນັ້ນ, ທ່ານຮູ້ວ່າມັນເປັນວຽກງານ janitorial ຂໍ້ມູນເຄິ່ງຫນຶ່ງ, ເຄິ່ງຫນຶ່ງຂອງທໍ່ນ້ໍາ fiddly, ແລະສິ່ງເສບຕິດ weirdly. ຄູ່ມືນີ້ວາງອອກ ວິທີການເຮັດໃຫ້ AI Model ສິ້ນສຸດລົງ: ການກະກຽມຂໍ້ມູນ, ການຝຶກອົບຮົມ, ການທົດສອບ, ການປະຕິບັດ, ແລະແມ່ນ - ການກວດສອບຄວາມປອດໄພທີ່ຫນ້າເບື່ອແຕ່ສໍາຄັນ. ພວກເຮົາຈະໄປແບບສະບາຍໆ, ເລິກເຊິ່ງໃນລາຍລະອຽດ, ແລະຮັກສາ emojis ໃນການປະສົມປະສານ, ເພາະວ່າດ້ວຍຄວາມຊື່ສັດ, ເປັນຫຍັງການຂຽນດ້ານວິຊາການຄວນມີຄວາມຮູ້ສຶກຄືກັບການຍື່ນພາສີ?
ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:
🔗 arbitrage AI ແມ່ນຫຍັງ: ຄວາມຈິງທີ່ຢູ່ເບື້ອງຫຼັງຄຳສັບທີ່ນິຍົມ
ອະທິບາຍ AI arbitrage, ຄວາມສ່ຽງ, ໂອກາດ, ແລະຜົນສະທ້ອນຂອງໂລກທີ່ແທ້ຈິງ.
🔗 ຄູຝຶກ AI ແມ່ນຫຍັງ
ກວມເອົາພາລະບົດບາດ, ທັກສະ, ແລະຄວາມຮັບຜິດຊອບຂອງຄູຝຶກ AI.
🔗 AI ສັນຍາລັກແມ່ນຫຍັງ: ທຸກຢ່າງທີ່ເຈົ້າຕ້ອງຮູ້
ທໍາລາຍແນວຄວາມຄິດ AI ທີ່ເປັນສັນຍາລັກ, ປະຫວັດສາດ, ແລະການປະຕິບັດຕົວຈິງ.
ສິ່ງທີ່ເຮັດໃຫ້ຕົວແບບ AI - ພື້ນຖານ ✅
ຮູບແບບ "ດີ" ບໍ່ແມ່ນແບບທີ່ພຽງແຕ່ຕີຄວາມຖືກຕ້ອງ 99% ໃນໂນ໊ດບຸ໊ກ dev ຂອງເຈົ້າແລ້ວເຮັດໃຫ້ເຈົ້າອັບອາຍໃນການຜະລິດ. ມັນເປັນຫນຶ່ງທີ່:
-
ກອບດີ → ບັນຫາແມ່ນ crisp, ວັດສະດຸປ້ອນ / ຜົນໄດ້ຮັບແມ່ນຈະແຈ້ງ, metric ແມ່ນຕົກລົງ.
-
Data-honest → ຊຸດຂໍ້ມູນຕົວຈິງສະທ້ອນເຖິງໂລກທີ່ແທ້ຈິງທີ່ສັບສົນ, ບໍ່ແມ່ນສະບັບຄວາມຝັນທີ່ຖືກກັ່ນຕອງ. ການແຜ່ກະຈາຍທີ່ຮູ້ຈັກ, ການຮົ່ວໄຫລປະທັບຕາ, ປ້າຍຊື່ສາມາດຕິດຕາມໄດ້.
-
ແຂງແຮງ → ຕົວແບບບໍ່ຍຸບລົງຖ້າລຳດັບຖັນພິກ ຫຼື ປ້ອນຂໍ້ມູນເລື່ອນເລັກນ້ອຍ.
-
ການປະເມີນດ້ວຍຄວາມຮູ້ສຶກ → metrics ສອດຄ່ອງກັບຄວາມເປັນຈິງ, ບໍ່ແມ່ນ vanity ຂອງຄະນະຜູ້ນໍາ. ROC AUC ເບິ່ງຄືວ່າເຢັນແຕ່ບາງຄັ້ງ F1 ຫຼືການປັບທຽບແມ່ນສິ່ງທີ່ທຸລະກິດສົນໃຈ.
-
Deployable → inference time ຄາດຄະເນ, ຊັບພະຍາກອນ sane , ຕິດຕາມກວດກາຫຼັງຈາກການນໍາໃຊ້.
-
ຄວາມຮັບຜິດຊອບ → ການທົດສອບຄວາມຍຸຕິທໍາ, ການຕີຄວາມຫມາຍ, guardrails ສໍາລັບການນໍາໃຊ້ທີ່ຜິດພາດ [1].
ມົນຕີເຫຼົ່ານີ້ແລະທ່ານແລ້ວຫຼາຍທີ່ສຸດຂອງວິທີການຢູ່ທີ່ນັ້ນ. ສ່ວນທີ່ເຫຼືອແມ່ນພຽງແຕ່ການຊໍ້າຄືນ ... ແລະ "ຄວາມຮູ້ສຶກໃນລໍາໄສ້." 🙂
ເລື່ອງສົງຄາມຂະໜາດນ້ອຍ: ໃນຮູບແບບການສໍ້ໂກງ, F1 ໂດຍລວມເບິ່ງດີເລີດ. ຫຼັງຈາກນັ້ນ, ພວກເຮົາແບ່ງຕາມພູມສາດ + "ບັດປະຈຸບັນທຽບກັບບໍ່ແມ່ນ." ຄວາມແປກໃຈ: ຂໍ້ລົບທີ່ບໍ່ຖືກຕ້ອງຖືກຮວງເຂົ້າໃນໜຶ່ງຊອຍ. ບົດຮຽນທີ່ເຜົາໃນ - ຕັດຕົ້ນ, ຕັດເລື້ອຍໆ.
ເລີ່ມຕົ້ນດ່ວນ: ເສັ້ນທາງສັ້ນທີ່ສຸດໃນການສ້າງ AI Model ⏱️
-
ກໍານົດຫນ້າທີ່ : ການຈັດປະເພດ, regression, ການຈັດອັນດັບ, ການຕິດສະຫຼາກລໍາດັບ, ການຜະລິດ, ການແນະນໍາ.
-
ປະກອບຂໍ້ມູນ : ເກັບກໍາ, dedupe, ແບ່ງປັນຢ່າງຖືກຕ້ອງ (ເວລາ / ຫົວຫນ່ວຍ), ເອກະສານມັນ [1].
-
ພື້ນຖານ : ສະເຫມີເລີ່ມຕົ້ນຂະຫນາດນ້ອຍ - logistic regression, ຕົ້ນໄມ້ຂະຫນາດນ້ອຍ [3].
-
ເລືອກຄອບຄົວຕົວແບບ : ຕາຕະລາງ → ການເພີ່ມ gradient; text → transformer ຂະຫນາດນ້ອຍ; ວິໄສທັດ → ການຝຶກອົບຮົມ CNN ຫຼືກະດູກສັນຫຼັງ [3][5].
-
loop ການຝຶກອົບຮົມ : optimizer + ຢຸດຕົ້ນ; ຕິດຕາມທັງການສູນເສຍແລະການກວດສອບ [4].
-
ການປະເມີນຜົນ : ການກວດສອບຂ້າມ, ການວິເຄາະຄວາມຜິດພາດ, ການທົດສອບພາຍໃຕ້ການປ່ຽນແປງ.
-
ການຫຸ້ມຫໍ່ : ປະຫຍັດນ້ໍາຫນັກ, preprocessors, API wrapper [2].
-
ຈໍສະແດງຜົນ : ເບິ່ງ drift, latency, decay ຄວາມຖືກຕ້ອງ [2].
ມັນເບິ່ງດີຢູ່ໃນເຈ້ຍ. ໃນການປະຕິບັດ, messy. ແລະນັ້ນບໍ່ເປັນຫຍັງ.
ຕາຕະລາງປຽບທຽບ: ເຄື່ອງມືສໍາລັບວິທີການສ້າງແບບຈໍາລອງ AI 🛠️
| ເຄື່ອງມື / ຫ້ອງສະຫມຸດ | ດີທີ່ສຸດສຳລັບ | ລາຄາ | ເປັນຫຍັງມັນເຮັດວຽກ (ບັນທຶກ) |
|---|---|---|---|
| ຮຽນຮູ້ Scikit | ຕາຕາລາງ, ພື້ນຖານ | ຟຣີ - OSS | API ສະອາດ, ການທົດລອງໄວ; ຍັງຊະນະຄລາສສິກ [3]. |
| PyTorch | ການຮຽນຮູ້ເລິກ | ຟຣີ - OSS | ແບບເຄື່ອນໄຫວ, ສາມາດອ່ານໄດ້, ຊຸມຊົນໃຫຍ່ [4]. |
| TensorFlow + Keras | ການຜະລິດ DL | ຟຣີ - OSS | Keras ເປັນມິດ; TF Serving ເຮັດໃຫ້ການໃຊ້ງານລຽບງ່າຍ. |
| JAX + Flax | ການຄົ້ນຄວ້າ + ຄວາມໄວ | ຟຣີ - OSS | Autodiff + XLA = ການເພີ່ມປະສິດທິພາບ. |
| ກອດຕົວຫັນໜ້າ | NLP, CV, ສຽງ | ຟຣີ - OSS | ແບບຝຶກຫັດ + ທໍ່... chef's kiss [5]. |
| XGBoost/LightGBM | ການເດັ່ນໃນຕາຕະລາງ | ຟຣີ - OSS | ມັກຈະຕີ DL ໃນຊຸດຂໍ້ມູນເລັກນ້ອຍ. |
| ໄວ | DL ເປັນມິດ | ຟຣີ - OSS | ລະດັບສູງ, ໃຫ້ອະໄພຄ່າເລີ່ມຕົ້ນ. |
| Cloud AutoML (ຕ່າງໆ) | ບໍ່ມີ/ລະຫັດຕ່ຳ | ການນໍາໃຊ້ຕາມ $ | Drag, drop, deploy; ແຂງທີ່ຫນ້າປະຫລາດໃຈ. |
| ເວລາແລ່ນ ONNX | ຄວາມໄວ Inference | ຟຣີ - OSS | ການໃຫ້ບໍລິການທີ່ດີທີ່ສຸດ, ເປັນມິດກັບຂອບ. |
ເອກະສານທີ່ເຈົ້າຈະສືບຕໍ່ເປີດໃໝ່: scikit-learn [3], PyTorch [4], Hugging Face [5].
ຂັ້ນຕອນທີ 1 - ຈັດວາງບັນຫາຄືນັກວິທະຍາສາດ, ບໍ່ແມ່ນ hero 🎯
ກ່ອນທີ່ທ່ານຈະຂຽນລະຫັດ, ເວົ້ານີ້ອອກມາດັງໆ: ການຕັດສິນໃຈຂອງຕົວແບບນີ້ຈະແຈ້ງຫຍັງແດ່? ຖ້າມັນບໍ່ເຂົ້າໃຈ, ຊຸດຂໍ້ມູນຈະຮ້າຍແຮງກວ່າເກົ່າ.
-
ເປົ້າໝາຍການຄາດເດົາ → ຖັນດຽວ, ນິຍາມດຽວ. ຕົວຢ່າງ: ປັ່ນພາຍໃນ 30 ມື້ບໍ?
-
Granularity → ຕໍ່ຜູ້ໃຊ້, ຕໍ່ເຊດຊັນ, ຕໍ່ລາຍການ - ບໍ່ປະສົມ. ຄວາມສ່ຽງຕໍ່ການຮົ່ວໄຫຼ skyrockets.
-
ຂໍ້ ຈຳ ກັດ → latency, ຄວາມຊົງ ຈຳ, ຄວາມເປັນສ່ວນຕົວ, ຂອບທຽບກັບເຊີບເວີ.
-
Metric ຂອງຄວາມສໍາເລັດ → ຫນຶ່ງປະຖົມ + ຄູ່ຂອງກອງ. ຫ້ອງຮຽນບໍ່ສົມດຸນ? ໃຊ້ AUPRC + F1. ການຖົດຖອຍ? MAE ສາມາດຕີ RMSE ເມື່ອ medians ສຳຄັນ.
ຄໍາແນະນໍາຈາກການສູ້ຮົບ: ຂຽນຂໍ້ຈໍາກັດເຫຼົ່ານີ້ + metric ໃນຫນ້າຫນຶ່ງຂອງ README. ບັນທຶກການໂຕ້ແຍ້ງໃນອະນາຄົດເມື່ອປະສິດທິພາບທຽບກັບເວລາແພັກເກັດຕຳກັນ.
ຂັ້ນຕອນທີ 2 - ການເກັບກໍາຂໍ້ມູນ, ທໍາຄວາມສະອາດ, ແລະການແບ່ງປັນທີ່ແທ້ຈິງຖືຂຶ້ນ 🧹📦
ຂໍ້ມູນແມ່ນຕົວແບບ. ທ່ານຮູ້ຈັກມັນ. ຢ່າງໃດກໍຕາມ, ຂຸມ:
-
Provenance → ມັນມາຈາກໃສ, ໃຜເປັນເຈົ້າຂອງມັນ, ພາຍໃຕ້ນະໂຍບາຍອັນໃດ [1].
-
ປ້າຍກຳກັບ → ຂໍ້ແນະນຳທີ່ເຄັ່ງຄັດ, ການກວດສອບລະຫວ່າງຜູ້ບັນຍາຍ, ການກວດສອບ.
-
De-duplication → sneaky duplicates inflate metrics.
-
ການແຍກ → ແບບສຸ່ມແມ່ນບໍ່ຖືກຕ້ອງສະເໝີໄປ. ໃຊ້ເວລາສໍາລັບການຄາດຄະເນ, ອີງໃສ່ນິຕິບຸກຄົນເພື່ອຫຼີກເວັ້ນການຮົ່ວໄຫຼຂອງຜູ້ໃຊ້.
-
ການຮົ່ວໄຫຼ → ບໍ່ມີການແນມເບິ່ງອະນາຄົດໃນເວລາຝຶກອົບຮົມ.
-
Docs → ຂຽນ ບັດຂໍ້ມູນ ດ້ວຍ schema, collection, biases [1].
ພິທີກຳ: ສະແດງພາບການແຈກຢາຍເປົ້າໝາຍ + ຄຸນສົມບັດເທິງສຸດ. ນອກຈາກນັ້ນ, ຍັງຖື ແບບບໍ່ເຄີຍແຕະ ຈົນສຸດຂີດ.
ຂັ້ນຕອນທີ 3 - ພື້ນຖານທໍາອິດ: ຮູບແບບທີ່ຖ່ອມຕົວທີ່ຊ່ວຍປະຢັດເດືອນ 🧪
ພື້ນຖານບໍ່ງາມ, ແຕ່ພວກມັນເຮັດໃຫ້ຄວາມຄາດຫວັງ.
-
Tabular → scikit-learn LogisticRegression ຫຼື RandomForest, ຈາກນັ້ນ XGBoost/LightGBM [3].
-
ຂໍ້ຄວາມ → TF-IDF + ຕົວຈັດປະເພດເສັ້ນຊື່. ກວດເບິ່ງສຸຂາພິບານກ່ອນການຫັນປ່ຽນ.
-
ວິໄສທັດ → CNN ຂະຫນາດນ້ອຍຫຼືກະດູກສັນຫຼັງ pretrained, ຊັ້ນ frozen.
ຖ້າຕາຫນ່າງເລິກຂອງເຈົ້າເກືອບຕີເສັ້ນພື້ນຖານ, ຫາຍໃຈ. ບາງຄັ້ງສັນຍານບໍ່ແຂງແຮງ.
ຂັ້ນຕອນທີ 4 - ເລືອກວິທີການສ້າງແບບຈໍາລອງທີ່ເໝາະສົມກັບຂໍ້ມູນ 🍱
ຕາຕາລາງ
Gradient boosting ທໍາອິດ - ມີປະສິດທິພາບຢ່າງໂຫດຮ້າຍ. ວິສະວະກໍາຄຸນສົມບັດ (ການໂຕ້ຕອບ, ການເຂົ້າລະຫັດ) ຍັງມີຄວາມສໍາຄັນ.
ຂໍ້ຄວາມ
ໝໍ້ແປງໄຟທີ່ໄດ້ຝຶກມາດ້ວຍການປັບນ້ຳໜັກເບົາ. ຮູບແບບການກັ່ນ ຖ້າຄວາມແຝງສຳຄັນ [5]. Tokenizers ກໍ່ສໍາຄັນເຊັ່ນກັນ. ສໍາລັບໄຊຊະນະໄວ: ທໍ່ HF.
ຮູບພາບ
ເລີ່ມຕົ້ນດ້ວຍ backbone pretrained + fine-tune ຫົວ. ເພີ່ມຄວາມສົມຈິງ (flips, ການປູກພືດ, jitter). ສໍາລັບຂໍ້ມູນຂະຫນາດນ້ອຍ, ການສັກຢາບໍ່ຫຼາຍປານໃດຫຼືສາຍ probes.
ຊຸດເວລາ
ພື້ນຖານ: ລັກສະນະ lag, ການເຄື່ອນຍ້າຍສະເລ່ຍ. ໂຮງຮຽນເກົ່າ ARIMA ທຽບກັບຕົ້ນໄມ້ທີ່ທັນສະໄໝ. ສະເຫມີເຄົາລົບຄໍາສັ່ງທີ່ໃຊ້ເວລາໃນການກວດສອບ.
ກົດລະບຽບຂອງໂປ້ມື: ຕົວແບບຂະຫນາດນ້ອຍ, ສະຫມໍ່າສະເຫມີ> monsters overfit .
ຂັ້ນຕອນທີ 5 - loop ການຝຶກອົບຮົມ, ແຕ່ບໍ່ overcomplicate 🔁
ທັງຫມົດທີ່ທ່ານຕ້ອງການ: ຕົວໂຫຼດຂໍ້ມູນ, ຕົວແບບ, ການສູນເສຍ, optimizer, ກໍານົດເວລາ, ການບັນທຶກ. ສຳເລັດແລ້ວ.
-
Optimizers : Adam ຫຼື SGD w/ momentum. ຫ້າມບິດເກີນ.
-
ຂະໜາດ batch : ສູງສຸດອອກຄວາມຈໍາອຸປະກອນໂດຍບໍ່ມີການ thrashing.
-
Regularization : dropout , ຫຼຸດລົງນ້ໍາ, ຢຸດຕົ້ນ.
-
ຄວາມແມ່ນຍໍາປະສົມ : ເພີ່ມຄວາມໄວຢ່າງຫຼວງຫຼາຍ; ກອບທີ່ທັນສະໄຫມເຮັດໃຫ້ມັນງ່າຍ [4].
-
ການສືບພັນ : ແກ່ນຕັ້ງ. ມັນຍັງຈະສັ່ນສະເທືອນ. ນັ້ນແມ່ນເລື່ອງປົກກະຕິ.
ເບິ່ງ PyTorch tutorials ສໍາລັບຮູບແບບ canonical [4].
ຂັ້ນຕອນທີ 6 - ການປະເມີນຜົນທີ່ສະທ້ອນໃຫ້ເຫັນຄວາມເປັນຈິງ, ບໍ່ແມ່ນຈຸດຜູ້ນໍາ 🧭
ກວດເບິ່ງຕ່ອນ, ບໍ່ພຽງແຕ່ສະເລ່ຍ:
-
Calibration → probabilities ຄວນຫມາຍຄວາມວ່າບາງສິ່ງບາງຢ່າງ. ແຜນທີ່ຄວາມຫນ້າເຊື່ອຖືຊ່ວຍ.
-
ຄວາມເຂົ້າໃຈທີ່ສັບສົນ → ເສັ້ນໂຄ້ງຂອບເຂດ, ການຄ້າທີ່ເຫັນໄດ້.
-
buckets ຜິດພາດ → ແບ່ງຕາມພາກພື້ນ, ອຸປະກອນ, ພາສາ, ເວລາ. ຈຸດອ່ອນຈຸດ.
-
ຄວາມທົນທານ → ການທົດສອບພາຍໃຕ້ການປ່ຽນແປງ, ລົບກວນວັດສະດຸປ້ອນ.
-
Human-in-loop → ຖ້າຄົນໃຊ້ມັນ, ທົດສອບການໃຊ້ງານ.
ຫຍໍ້ໜ້າສັ້ນໆ: ການເອີ້ນຄືນຄັ້ງໜຶ່ງມາຈາກການປັບຕົວ Unicode ທີ່ບໍ່ກົງກັນລະຫວ່າງການຝຶກອົບຮົມກັບການຜະລິດ. ຄ່າໃຊ້ຈ່າຍ? 4 ຄະແນນເຕັມ.
ຂັ້ນຕອນທີ 7 - ການຫຸ້ມຫໍ່, ການຮັບໃຊ້, ແລະ MLOps ໂດຍບໍ່ມີນ້ໍາຕາ 🚚
ນີ້ແມ່ນບ່ອນທີ່ໂຄງການມັກຈະເດີນທາງ.
-
ສິ່ງປະດິດ : ນ້ຳໜັກຕົວແບບ, ໂປຣເຊສເຊີກ່ອນ, ຄຳໝັ້ນສັນຍາ hash.
-
Env : pin versions, containerize lean.
-
ການໂຕ້ຕອບ : REST/gRPC ກັບ
/health+/predict. -
Latency/throughput : batch requests, ຮູບແບບການອົບອຸ່ນຂຶ້ນ.
-
ຮາດແວ : CPU ດີສໍາລັບຄລາສສິກ; GPUs ສໍາລັບ DL. ONNX Runtime ເລັ່ງຄວາມໄວ/ການພົກພາ.
ສໍາລັບທໍ່ເຕັມ (CI/CD/CT, ການຕິດຕາມ, rollback), ເອກະສານ MLOps ຂອງ Google ແມ່ນແຂງ [2].
ຂັ້ນຕອນທີ 8 - ການຕິດຕາມ, drift, ແລະ retraining ໂດຍບໍ່ມີການຕົກໃຈ 📈🧭
ຕົວແບບເສື່ອມໂຊມ. ຜູ້ໃຊ້ພັດທະນາ. ທໍ່ຂໍ້ມູນເຮັດວຽກບໍ່ຖືກຕ້ອງ.
-
ການກວດສອບຂໍ້ມູນ : schema, ranges, nulls.
-
ການຄາດຄະເນ : ການແຜ່ກະຈາຍ, metrics drift, outliers.
-
ປະສິດທິພາບ : ເມື່ອປ້າຍມາເຖິງ, ຄິດໄລ່ metrics.
-
ການແຈ້ງເຕືອນ : latency, ຄວາມຜິດພາດ, drift.
-
ຝຶກ cadence ຄືນໃໝ່ : trigger-based > calendar-based.
ເອກະສານ loop ໄດ້. wiki ຕີ "ຄວາມຊົງຈໍາຂອງຊົນເຜົ່າ." ເບິ່ງ Google CT playbooks [2].
AI ທີ່ມີຄວາມຮັບຜິດຊອບ: ຄວາມຍຸດຕິທໍາ, ຄວາມເປັນສ່ວນຕົວ, ການຕີຄວາມ ໝາຍ 🧩🧠
ຖ້າປະຊາຊົນໄດ້ຮັບຜົນກະທົບ, ຄວາມຮັບຜິດຊອບບໍ່ແມ່ນທາງເລືອກ.
-
ການທົດສອບຄວາມຍຸຕິທຳ → ປະເມີນທົ່ວກຸ່ມທີ່ລະອຽດອ່ອນ, ຫຼຸດຜ່ອນຊ່ອງຫວ່າງ [1].
-
Interpretability → SHAP ສໍາລັບຕາຕະລາງ, attribution ສໍາລັບເລິກ. ຈັດການດ້ວຍຄວາມລະມັດລະວັງ.
-
ຄວາມເປັນສ່ວນຕົວ/ຄວາມປອດໄພ → ຫຼຸດຜ່ອນ PII, ປິດບັງລັກສະນະ.
-
ນະໂຍບາຍ → ຂຽນຈຸດປະສົງທຽບກັບການນໍາໃຊ້ທີ່ຫ້າມ. ຊ່ວຍປະຢັດຄວາມເຈັບປວດຕໍ່ມາ [1].
ການຍ່າງຜ່ານນ້ອຍໆໄວ 🚵
ເວົ້າວ່າພວກເຮົາກໍາລັງຈັດປະເພດການທົບທວນຄືນ: ບວກ vs ລົບ.
-
ຂໍ້ມູນ → ລວບລວມການທົບທວນຄືນ, desupe, ແບ່ງອອກຕາມເວລາ [1].
-
ພື້ນຖານ → TF-IDF + logistic regression (scikit-learn) [3].
-
ອັບເກຣດ → ໝໍ້ແປງຂະໜາດນ້ອຍທີ່ຝຶກຝົນໄວ້ພ້ອມດ້ວຍໜ້າກອດ [5].
-
ລົດໄຟ → ໄລຍະເວລາບໍ່ຫຼາຍປານໃດ, ຢຸດໄວ, ຕິດຕາມ F1 [4].
-
Eval → confusion matrix, precision@recall, calibration.
-
Package → tokenizer + model, FastAPI wrapper [2].
-
ຕິດຕາມກວດກາ → ເບິ່ງ drift ທົ່ວຫມວດຫມູ່ [2].
-
tweaks ທີ່ຮັບຜິດຊອບ → ການກັ່ນຕອງ PII, ເຄົາລົບຂໍ້ມູນລະອຽດອ່ອນ [1].
ໜຽວແໜ້ນ? ຮູບແບບການກັ່ນ ຫຼືສົ່ງອອກໄປຍັງ ONNX.
ຄວາມຜິດພາດທົ່ວໄປທີ່ເຮັດໃຫ້ຕົວແບບເບິ່ງສະຫລາດແຕ່ເຮັດແບບໂງ່ 🙃
-
ລັກສະນະຮົ່ວໄຫຼ (ຂໍ້ມູນຫຼັງເຫດການຢູ່ລົດໄຟ).
-
ເມຕຣິກຜິດ (AUC ເມື່ອທີມງານສົນໃຈການເອີ້ນຄືນ).
-
ຊຸດ val ຂະຫນາດນ້ອຍ ("ການແຕກແຍກ" noisy).
-
ຄວາມບໍ່ສົມດຸນຂອງຫ້ອງຮຽນຖືກລະເລີຍ.
-
ການປະມວນຜົນກ່ອນບໍ່ກົງກັນ (ລົດໄຟທຽບກັບບໍລິການ).
-
ການປັບແຕ່ງເກີນໄວເກີນໄປ.
-
ລືມຂໍ້ຈໍາກັດ (ຮູບແບບຍັກໃຫຍ່ໃນແອັບຯມືຖື).
ເຄັດລັບການເພີ່ມປະສິດທິພາບ 🔧
-
ເພີ່ມ ທີ່ສະຫຼາດກວ່າ : ດ້ານລົບຍາກ, ການຂະຫຍາຍຕົວຈິງ.
-
Regularize harder: dropout, ຕົວແບບຂະຫນາດນ້ອຍກວ່າ.
-
ຕາຕະລາງອັດຕາການຮຽນຮູ້ (cosine/ຂັ້ນຕອນ).
-
batch sweeps - ໃຫຍ່ກວ່າແມ່ນບໍ່ສະເຫມີໄປທີ່ດີກວ່າ.
-
ຄວາມແມ່ນຍໍາປະສົມ + vectorization ສໍາລັບຄວາມໄວ [4].
-
ປະລິມານ, pruning ກັບຕົວແບບກະທັດຮັດ.
-
ການຝັງ cache/pre-compute heavy ops.
ການຕິດສະຫຼາກຂໍ້ມູນທີ່ບໍ່ implode 🏷️
-
ຄໍາແນະນໍາ: ລາຍລະອຽດ, ມີກໍລະນີແຂບ.
-
ປ້າຍລົດໄຟ: ວຽກງານການປັບທຽບ, ການກວດສອບຂໍ້ຕົກລົງ.
-
ຄຸນະພາບ: ຊຸດຄໍາ, ການກວດສອບຈຸດ.
-
ເຄື່ອງມື: ຊຸດຂໍ້ມູນສະບັບ, ຮູບແບບທີ່ສາມາດສົ່ງອອກໄດ້.
-
ຈັນຍາບັນ: ເງິນເດືອນຍຸດຕິທຳ, ມີຄວາມຮັບຜິດຊອບ. ຢຸດເຕັມ [1].
ຮູບແບບການນຳໃຊ້ 🚀
-
batch ຄະແນນ → ວຽກກາງຄືນ, ສາງ.
-
microservice ໃນເວລາຈິງ → sync API, ເພີ່ມຖານຄວາມຈໍາ.
-
ການຖ່າຍທອດ → ເຫດການທີ່ຂັບເຄື່ອນ, ຕົວຢ່າງ, ການສໍ້ໂກງ.
-
Edge → compress, ອຸປະກອນທົດສອບ, ONNX/TensorRT.
ຮັກສາປື້ມບັນທຶກ: ຂັ້ນຕອນການກັບຄືນ, ການຟື້ນຟູສິ່ງປະດິດ [2].
ຊັບພະຍາກອນທີ່ຄຸ້ມຄ່າເວລາຂອງເຈົ້າ 📚
-
ພື້ນຖານ: ຄູ່ມືຜູ້ໃຊ້ scikit-learn [3]
-
ຮູບແບບ DL: PyTorch Tutorials [4]
-
ການຮຽນຮູ້ການໂອນ: ການກອດໃບຫນ້າດ່ວນ [5]
-
ການປົກຄອງ/ຄວາມສ່ຽງ: NIST AI RMF [1]
-
MLOps: Google Cloud playbooks [2]
FAQ-ish tidbits 💡
-
ຕ້ອງການ GPU ບໍ? ບໍ່ແມ່ນສໍາລັບຕາຕະລາງ. ສໍາລັບ DL, ແມ່ນແລ້ວ (ການເຊົ່າຄລາວເຮັດວຽກ).
-
ຂໍ້ມູນພຽງພໍບໍ? ເພີ່ມເຕີມແມ່ນດີຈົນກ່ວາປ້າຍມີສິ່ງລົບກວນ. ເລີ່ມຕົ້ນຂະຫນາດນ້ອຍ, ເຮັດຊ້ໍາອີກ.
-
ທາງເລືອກເມຕຣິກ? ຄ່າໃຊ້ຈ່າຍໃນການຕັດສິນໃຈທີ່ກົງກັນ. ຂຽນມາຕຣິກເບື້ອງ.
-
ຂ້າມເສັ້ນພື້ນຖານບໍ? ເຈົ້າສາມາດ… ຄືກັນກັບເຈົ້າສາມາດຂ້າມອາຫານເຊົ້າ ແລະເສຍໃຈ.
-
AutoML? ທີ່ດີເລີດສໍາລັບການ bootstrapping. ຍັງເຮັດການກວດສອບຂອງທ່ານເອງ [2].
ຄວາມຈິງທີ່ສັບສົນເລັກນ້ອຍ🎬
ວິທີການສ້າງແບບຈໍາລອງ AI ແມ່ນຫນ້ອຍກ່ຽວກັບຄະນິດສາດທີ່ແປກປະຫຼາດແລະເພີ່ມເຕີມກ່ຽວກັບຫັດຖະກໍາ: ກອບແຫຼມ, ຂໍ້ມູນສະອາດ, ການກວດສອບສຸຂະພາບພື້ນຖານ, ການປະເມີນແຂງ, ການເຮັດຊ້ໍາອີກຄັ້ງ. ເພີ່ມຄວາມຮັບຜິດຊອບເພື່ອໃຫ້ອະນາຄົດ - ເຈົ້າບໍ່ເຮັດຄວາມສະອາດສິ່ງລົບກວນທີ່ສາມາດປ້ອງກັນໄດ້ [1][2].
ຄວາມຈິງແມ່ນ, ຮຸ່ນ "ຫນ້າເບື່ອ" - ເຄັ່ງຄັດແລະວິທີການ - ມັກຈະຕີຕົວແບບທີ່ມີສີສັນທີ່ຟ້າວແລ່ນໃນເວລາ 2 ໂມງເຊົ້າວັນສຸກ. ແລະຖ້າຄວາມພະຍາຍາມທໍາອິດຂອງເຈົ້າຮູ້ສຶກບໍ່ສະບາຍບໍ? ນັ້ນແມ່ນເລື່ອງປົກກະຕິ. ແບບຈໍາລອງແມ່ນຄ້າຍຄືການເລີ່ມຕົ້ນ sourdough: ອາຫານ, ສັງເກດ, restart ບາງຄັ້ງ. 🥖🤷
TL;DR
-
ບັນຫາກອບ + metric; ຂ້າການຮົ່ວໄຫຼ.
-
ພື້ນຖານກ່ອນ; ເຄື່ອງມືທີ່ງ່າຍດາຍ rock.
-
ຕົວແບບທີ່ໄດ້ຝຶກຝົນໄວ້ຊ່ວຍ - ຢ່ານະມັດສະການພວກມັນ.
-
Eval ທົ່ວ slices; calibrate.
-
ພື້ນຖານຂອງ MLOps: ສະບັບ, ການຕິດຕາມ, rollbacks.
-
AI ທີ່ມີຄວາມຮັບຜິດຊອບຖືກອົບເຂົ້າ, ບໍ່ໄດ້ຕິດຢູ່.
-
Iterate, smile - ທ່ານໄດ້ສ້າງຕົວແບບ AI. 😄
ເອກະສານອ້າງອີງ
-
NIST — ຂອບການຈັດການຄວາມສ່ຽງດ້ານປັນຍາທຽມ (AI RMF 1.0) . ເຊື່ອມຕໍ່
-
Google Cloud — MLOps: ການຈັດສົ່ງຢ່າງຕໍ່ເນື່ອງ ແລະທໍ່ອັດຕະໂນມັດໃນການຮຽນຮູ້ເຄື່ອງຈັກ . ເຊື່ອມຕໍ່
-
scikit-learn — ຄູ່ມືຜູ້ໃຊ້ . ເຊື່ອມຕໍ່
-
PyTorch — ການສອນທີ່ເປັນທາງການ . ເຊື່ອມຕໍ່
-
ກອດໜ້າ — Transformers Quickstart . ເຊື່ອມຕໍ່