ວິທີການສ້າງຮູບແບບ AI

ວິທີການສ້າງແບບຈຳລອງ AI. ຂັ້ນຕອນທັງໝົດໄດ້ຖືກອະທິບາຍ.

ການສ້າງແບບຈໍາລອງ AI ມີສຽງດັງຫຼາຍ - ຄືກັບນັກວິທະຍາສາດໃນຮູບເງົາທີ່ຈົ່ມກ່ຽວກັບຄຳນາມ - ຈົນກວ່າເຈົ້າຈະເຮັດມັນເທື່ອດຽວ. ຫຼັງຈາກນັ້ນ, ທ່ານຮູ້ວ່າມັນເປັນວຽກງານ janitorial ຂໍ້ມູນເຄິ່ງຫນຶ່ງ, ເຄິ່ງຫນຶ່ງຂອງທໍ່ນ້ໍາ fiddly, ແລະສິ່ງເສບຕິດ weirdly. ຄູ່ມືນີ້ວາງອອກ ວິທີການເຮັດໃຫ້ AI Model ສິ້ນສຸດລົງ: ການກະກຽມຂໍ້ມູນ, ການຝຶກອົບຮົມ, ການທົດສອບ, ການປະຕິບັດ, ແລະແມ່ນ - ການກວດສອບຄວາມປອດໄພທີ່ຫນ້າເບື່ອແຕ່ສໍາຄັນ. ພວກເຮົາຈະໄປແບບສະບາຍໆ, ເລິກເຊິ່ງໃນລາຍລະອຽດ, ແລະຮັກສາ emojis ໃນການປະສົມປະສານ, ເພາະວ່າດ້ວຍຄວາມຊື່ສັດ, ເປັນຫຍັງການຂຽນດ້ານວິຊາການຄວນມີຄວາມຮູ້ສຶກຄືກັບການຍື່ນພາສີ?

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 arbitrage AI ແມ່ນຫຍັງ: ຄວາມຈິງທີ່ຢູ່ເບື້ອງຫຼັງຄຳສັບທີ່ນິຍົມ
ອະທິບາຍ AI arbitrage, ຄວາມສ່ຽງ, ໂອກາດ, ແລະຜົນສະທ້ອນຂອງໂລກທີ່ແທ້ຈິງ.

🔗 ຄູຝຶກ AI ແມ່ນຫຍັງ
ກວມເອົາພາລະບົດບາດ, ທັກສະ, ແລະຄວາມຮັບຜິດຊອບຂອງຄູຝຶກ AI.

🔗 AI ສັນຍາລັກແມ່ນຫຍັງ: ທຸກຢ່າງທີ່ເຈົ້າຕ້ອງຮູ້
ທໍາລາຍແນວຄວາມຄິດ AI ທີ່ເປັນສັນຍາລັກ, ປະຫວັດສາດ, ແລະການປະຕິບັດຕົວຈິງ.


ສິ່ງທີ່ເຮັດໃຫ້ຕົວແບບ AI - ພື້ນຖານ ✅

ຮູບແບບ "ດີ" ບໍ່ແມ່ນແບບທີ່ພຽງແຕ່ຕີຄວາມຖືກຕ້ອງ 99% ໃນໂນ໊ດບຸ໊ກ dev ຂອງເຈົ້າແລ້ວເຮັດໃຫ້ເຈົ້າອັບອາຍໃນການຜະລິດ. ມັນ​ເປັນ​ຫນຶ່ງ​ທີ່​:

  • ກອບດີ → ບັນຫາແມ່ນ crisp, ວັດສະດຸປ້ອນ / ຜົນໄດ້ຮັບແມ່ນຈະແຈ້ງ, metric ແມ່ນຕົກລົງ.

  • Data-honest → ຊຸດຂໍ້ມູນຕົວຈິງສະທ້ອນເຖິງໂລກທີ່ແທ້ຈິງທີ່ສັບສົນ, ບໍ່ແມ່ນສະບັບຄວາມຝັນທີ່ຖືກກັ່ນຕອງ. ການແຜ່ກະຈາຍທີ່ຮູ້ຈັກ, ການຮົ່ວໄຫລປະທັບຕາ, ປ້າຍຊື່ສາມາດຕິດຕາມໄດ້.

  • ແຂງແຮງ → ຕົວແບບບໍ່ຍຸບລົງຖ້າລຳດັບຖັນພິກ ຫຼື ປ້ອນຂໍ້ມູນເລື່ອນເລັກນ້ອຍ.

  • ການ​ປະ​ເມີນ​ດ້ວຍ​ຄວາມ​ຮູ້​ສຶກ → metrics ສອດ​ຄ່ອງ​ກັບ​ຄວາມ​ເປັນ​ຈິງ​, ບໍ່​ແມ່ນ vanity ຂອງ​ຄະ​ນະ​ຜູ້​ນໍາ​. ROC AUC ເບິ່ງຄືວ່າເຢັນແຕ່ບາງຄັ້ງ F1 ຫຼືການປັບທຽບແມ່ນສິ່ງທີ່ທຸລະກິດສົນໃຈ.

  • Deployable → inference time ຄາດ​ຄະ​ເນ​, ຊັບ​ພະ​ຍາ​ກອນ sane , ຕິດ​ຕາມ​ກວດ​ກາ​ຫຼັງ​ຈາກ​ການ​ນໍາ​ໃຊ້​.

  • ຄວາມ​ຮັບ​ຜິດ​ຊອບ → ການ​ທົດ​ສອບ​ຄວາມ​ຍຸ​ຕິ​ທໍາ​, ການ​ຕີ​ຄວາມ​ຫມາຍ​, guardrails ສໍາ​ລັບ​ການ​ນໍາ​ໃຊ້​ທີ່​ຜິດ​ພາດ [1​]​.

ມົນຕີເຫຼົ່ານີ້ແລະທ່ານແລ້ວຫຼາຍທີ່ສຸດຂອງວິທີການຢູ່ທີ່ນັ້ນ. ສ່ວນທີ່ເຫຼືອແມ່ນພຽງແຕ່ການຊໍ້າຄືນ ... ແລະ "ຄວາມຮູ້ສຶກໃນລໍາໄສ້." 🙂

ເລື່ອງສົງຄາມຂະໜາດນ້ອຍ: ໃນຮູບແບບການສໍ້ໂກງ, F1 ໂດຍລວມເບິ່ງດີເລີດ. ຫຼັງຈາກນັ້ນ, ພວກເຮົາແບ່ງຕາມພູມສາດ + "ບັດປະຈຸບັນທຽບກັບບໍ່ແມ່ນ." ຄວາມແປກໃຈ: ຂໍ້ລົບທີ່ບໍ່ຖືກຕ້ອງຖືກຮວງເຂົ້າໃນໜຶ່ງຊອຍ. ບົດຮຽນທີ່ເຜົາໃນ - ຕັດຕົ້ນ, ຕັດເລື້ອຍໆ.


ເລີ່ມຕົ້ນດ່ວນ: ເສັ້ນທາງສັ້ນທີ່ສຸດໃນການສ້າງ AI Model ⏱️

  1. ກໍາ​ນົດ​ຫນ້າ​ທີ່ ​: ການ​ຈັດ​ປະ​ເພດ​, regression​, ການ​ຈັດ​ອັນ​ດັບ​, ການ​ຕິດ​ສະ​ຫຼາກ​ລໍາ​ດັບ​, ການ​ຜະ​ລິດ​, ການ​ແນະ​ນໍາ​.

  2. ປະ​ກອບ​ຂໍ້​ມູນ ​: ເກັບ​ກໍາ​, dedupe​, ແບ່ງ​ປັນ​ຢ່າງ​ຖືກ​ຕ້ອງ (ເວ​ລາ / ຫົວ​ຫນ່ວຍ​)​, ເອ​ກະ​ສານ​ມັນ [1​]​.

  3. ພື້ນຖານ : ສະເຫມີເລີ່ມຕົ້ນຂະຫນາດນ້ອຍ - logistic regression, ຕົ້ນໄມ້ຂະຫນາດນ້ອຍ [3].

  4. ເລືອກຄອບຄົວຕົວແບບ : ຕາຕະລາງ → ການເພີ່ມ gradient; text → transformer ຂະ​ຫນາດ​ນ້ອຍ​; ວິໄສທັດ → ການຝຶກອົບຮົມ CNN ຫຼືກະດູກສັນຫຼັງ [3][5].

  5. loop ການຝຶກອົບຮົມ : optimizer + ຢຸດຕົ້ນ; ຕິດຕາມທັງການສູນເສຍແລະການກວດສອບ [4].

  6. ການ​ປະ​ເມີນ​ຜົນ ​: ການ​ກວດ​ສອບ​ຂ້າມ​, ການ​ວິ​ເຄາະ​ຄວາມ​ຜິດ​ພາດ​, ການ​ທົດ​ສອບ​ພາຍ​ໃຕ້​ການ​ປ່ຽນ​ແປງ​.

  7. ການຫຸ້ມຫໍ່ : ປະຫຍັດນ້ໍາຫນັກ, preprocessors, API wrapper [2].

  8. ຈໍສະແດງຜົນ : ເບິ່ງ drift, latency, decay ຄວາມຖືກຕ້ອງ [2].

ມັນເບິ່ງດີຢູ່ໃນເຈ້ຍ. ໃນການປະຕິບັດ, messy. ແລະນັ້ນບໍ່ເປັນຫຍັງ.


ຕາຕະລາງປຽບທຽບ: ເຄື່ອງມືສໍາລັບວິທີການສ້າງແບບຈໍາລອງ AI 🛠️

ເຄື່ອງມື / ຫ້ອງສະຫມຸດ ດີທີ່ສຸດສຳລັບ ລາຄາ ເປັນຫຍັງມັນເຮັດວຽກ (ບັນທຶກ)
ຮຽນຮູ້ Scikit ຕາຕາລາງ, ພື້ນຖານ ຟຣີ - OSS API ສະອາດ, ການທົດລອງໄວ; ຍັງຊະນະຄລາສສິກ [3].
PyTorch ການຮຽນຮູ້ເລິກ ຟຣີ - OSS ແບບເຄື່ອນໄຫວ, ສາມາດອ່ານໄດ້, ຊຸມຊົນໃຫຍ່ [4].
TensorFlow + Keras ການຜະລິດ DL ຟຣີ - OSS Keras ເປັນມິດ; TF Serving ເຮັດໃຫ້ການໃຊ້ງານລຽບງ່າຍ.
JAX + Flax ການຄົ້ນຄວ້າ + ຄວາມໄວ ຟຣີ - OSS Autodiff + XLA = ການເພີ່ມປະສິດທິພາບ.
ກອດຕົວຫັນໜ້າ NLP, CV, ສຽງ ຟຣີ - OSS ແບບຝຶກຫັດ + ທໍ່... chef's kiss [5].
XGBoost/LightGBM ການເດັ່ນໃນຕາຕະລາງ ຟຣີ - OSS ມັກຈະຕີ DL ໃນຊຸດຂໍ້ມູນເລັກນ້ອຍ.
ໄວ DL ເປັນມິດ ຟຣີ - OSS ລະດັບສູງ, ໃຫ້ອະໄພຄ່າເລີ່ມຕົ້ນ.
Cloud AutoML (ຕ່າງໆ) ບໍ່ມີ/ລະຫັດຕ່ຳ ການ​ນໍາ​ໃຊ້​ຕາມ $ Drag, drop, deploy; ແຂງທີ່ຫນ້າປະຫລາດໃຈ.
ເວລາແລ່ນ ONNX ຄວາມໄວ Inference ຟຣີ - OSS ການໃຫ້ບໍລິການທີ່ດີທີ່ສຸດ, ເປັນມິດກັບຂອບ.

ເອກະສານທີ່ເຈົ້າຈະສືບຕໍ່ເປີດໃໝ່: scikit-learn [3], PyTorch [4], Hugging Face [5].


ຂັ້ນ​ຕອນ​ທີ 1 - ຈັດ​ວາງ​ບັນ​ຫາ​ຄື​ນັກ​ວິ​ທະ​ຍາ​ສາດ​, ບໍ່​ແມ່ນ hero 🎯​

ກ່ອນທີ່ທ່ານຈະຂຽນລະຫັດ, ເວົ້ານີ້ອອກມາດັງໆ: ການຕັດສິນໃຈຂອງຕົວແບບນີ້ຈະແຈ້ງຫຍັງແດ່? ຖ້າມັນບໍ່ເຂົ້າໃຈ, ຊຸດຂໍ້ມູນຈະຮ້າຍແຮງກວ່າເກົ່າ.

  • ເປົ້າໝາຍການຄາດເດົາ → ຖັນດຽວ, ນິຍາມດຽວ. ຕົວຢ່າງ: ປັ່ນພາຍໃນ 30 ມື້ບໍ?

  • Granularity → ຕໍ່ຜູ້ໃຊ້, ຕໍ່ເຊດຊັນ, ຕໍ່ລາຍການ - ບໍ່ປະສົມ. ຄວາມສ່ຽງຕໍ່ການຮົ່ວໄຫຼ skyrockets.

  • ຂໍ້ ຈຳ ກັດ → latency, ຄວາມຊົງ ຈຳ, ຄວາມເປັນສ່ວນຕົວ, ຂອບທຽບກັບເຊີບເວີ.

  • Metric ຂອງຄວາມສໍາເລັດ → ຫນຶ່ງປະຖົມ + ຄູ່ຂອງກອງ. ຫ້ອງຮຽນບໍ່ສົມດຸນ? ໃຊ້ AUPRC + F1. ການຖົດຖອຍ? MAE ສາມາດຕີ RMSE ເມື່ອ medians ສຳຄັນ.

ຄໍາແນະນໍາຈາກການສູ້ຮົບ: ຂຽນຂໍ້ຈໍາກັດເຫຼົ່ານີ້ + metric ໃນຫນ້າຫນຶ່ງຂອງ README. ບັນທຶກການໂຕ້ແຍ້ງໃນອະນາຄົດເມື່ອປະສິດທິພາບທຽບກັບເວລາແພັກເກັດຕຳກັນ.


ຂັ້ນ​ຕອນ​ທີ 2 - ການ​ເກັບ​ກໍາ​ຂໍ້​ມູນ​, ທໍາ​ຄວາມ​ສະ​ອາດ​, ແລະ​ການ​ແບ່ງ​ປັນ​ທີ່​ແທ້​ຈິງ​ຖື​ຂຶ້ນ 🧹📦​

ຂໍ້ມູນແມ່ນຕົວແບບ. ທ່ານຮູ້ຈັກມັນ. ຢ່າງໃດກໍຕາມ, ຂຸມ:

  • Provenance → ມັນມາຈາກໃສ, ໃຜເປັນເຈົ້າຂອງມັນ, ພາຍໃຕ້ນະໂຍບາຍອັນໃດ [1].

  • ປ້າຍກຳກັບ → ຂໍ້ແນະນຳທີ່ເຄັ່ງຄັດ, ການກວດສອບລະຫວ່າງຜູ້ບັນຍາຍ, ການກວດສອບ.

  • De-duplication → sneaky duplicates inflate metrics.

  • ການແຍກ → ແບບສຸ່ມແມ່ນບໍ່ຖືກຕ້ອງສະເໝີໄປ. ໃຊ້ເວລາສໍາລັບການຄາດຄະເນ, ອີງໃສ່ນິຕິບຸກຄົນເພື່ອຫຼີກເວັ້ນການຮົ່ວໄຫຼຂອງຜູ້ໃຊ້.

  • ການຮົ່ວໄຫຼ → ບໍ່ມີການແນມເບິ່ງອະນາຄົດໃນເວລາຝຶກອົບຮົມ.

  • Docs → ຂຽນ ບັດຂໍ້ມູນ ດ້ວຍ schema, collection, biases [1].

ພິທີກຳ: ສະແດງພາບການແຈກຢາຍເປົ້າໝາຍ + ຄຸນສົມບັດເທິງສຸດ. ນອກຈາກນັ້ນ, ຍັງຖື ແບບບໍ່ເຄີຍແຕະ ຈົນສຸດຂີດ.


ຂັ້ນຕອນທີ 3 - ພື້ນຖານທໍາອິດ: ຮູບແບບທີ່ຖ່ອມຕົວທີ່ຊ່ວຍປະຢັດເດືອນ 🧪

ພື້ນຖານບໍ່ງາມ, ແຕ່ພວກມັນເຮັດໃຫ້ຄວາມຄາດຫວັງ.

  • Tabular → scikit-learn LogisticRegression ຫຼື RandomForest, ຈາກນັ້ນ XGBoost/LightGBM [3].

  • ຂໍ້ຄວາມ → TF-IDF + ຕົວຈັດປະເພດເສັ້ນຊື່. ກວດເບິ່ງສຸຂາພິບານກ່ອນການຫັນປ່ຽນ.

  • ວິໄສທັດ → CNN ຂະຫນາດນ້ອຍຫຼືກະດູກສັນຫຼັງ pretrained, ຊັ້ນ frozen.

ຖ້າຕາຫນ່າງເລິກຂອງເຈົ້າເກືອບຕີເສັ້ນພື້ນຖານ, ຫາຍໃຈ. ບາງຄັ້ງສັນຍານບໍ່ແຂງແຮງ.


ຂັ້ນຕອນທີ 4 - ເລືອກວິທີການສ້າງແບບຈໍາລອງທີ່ເໝາະສົມກັບຂໍ້ມູນ 🍱

ຕາຕາລາງ

Gradient boosting ທໍາອິດ - ມີປະສິດທິພາບຢ່າງໂຫດຮ້າຍ. ວິສະວະກໍາຄຸນສົມບັດ (ການໂຕ້ຕອບ, ການເຂົ້າລະຫັດ) ຍັງມີຄວາມສໍາຄັນ.

ຂໍ້ຄວາມ

ໝໍ້ແປງໄຟທີ່ໄດ້ຝຶກມາດ້ວຍການປັບນ້ຳໜັກເບົາ. ຮູບແບບການກັ່ນ ຖ້າຄວາມແຝງສຳຄັນ [5]. Tokenizers ກໍ່ສໍາຄັນເຊັ່ນກັນ. ສໍາລັບໄຊຊະນະໄວ: ທໍ່ HF.

ຮູບພາບ

ເລີ່ມຕົ້ນດ້ວຍ backbone pretrained + fine-tune ຫົວ. ເພີ່ມຄວາມສົມຈິງ (flips, ການປູກພືດ, jitter). ສໍາລັບຂໍ້ມູນຂະຫນາດນ້ອຍ, ການສັກຢາບໍ່ຫຼາຍປານໃດຫຼືສາຍ probes.

ຊຸດເວລາ

ພື້ນຖານ: ລັກສະນະ lag, ການເຄື່ອນຍ້າຍສະເລ່ຍ. ໂຮງຮຽນເກົ່າ ARIMA ທຽບກັບຕົ້ນໄມ້ທີ່ທັນສະໄໝ. ສະເຫມີເຄົາລົບຄໍາສັ່ງທີ່ໃຊ້ເວລາໃນການກວດສອບ.

ກົດ​ລະ​ບຽບ​ຂອງ​ໂປ້​ມື​: ຕົວ​ແບບ​ຂະ​ຫນາດ​ນ້ອຍ​, ສະ​ຫມໍ່າ​ສະ​ເຫມີ​> monsters overfit .


ຂັ້ນ​ຕອນ​ທີ 5 - loop ການ​ຝຶກ​ອົບ​ຮົມ​, ແຕ່​ບໍ່ overcomplicate 🔁​

ທັງ​ຫມົດ​ທີ່​ທ່ານ​ຕ້ອງ​ການ​: ຕົວ​ໂຫຼດ​ຂໍ້​ມູນ​, ຕົວ​ແບບ​, ການ​ສູນ​ເສຍ​, optimizer​, ກໍາ​ນົດ​ເວ​ລາ​, ການ​ບັນ​ທຶກ​. ສຳເລັດແລ້ວ.

  • Optimizers : Adam ຫຼື SGD w/ momentum. ຫ້າມບິດເກີນ.

  • ຂະໜາດ batch : ສູງສຸດອອກຄວາມຈໍາອຸປະກອນໂດຍບໍ່ມີການ thrashing.

  • Regularization : dropout , ຫຼຸດ​ລົງ​ນ​້​ໍ​າ​, ຢຸດ​ຕົ້ນ​.

  • ຄວາມແມ່ນຍໍາປະສົມ : ເພີ່ມຄວາມໄວຢ່າງຫຼວງຫຼາຍ; ກອບທີ່ທັນສະໄຫມເຮັດໃຫ້ມັນງ່າຍ [4].

  • ການສືບພັນ : ແກ່ນຕັ້ງ. ມັນ​ຍັງ​ຈະ​ສັ່ນ​ສະ​ເທືອນ. ນັ້ນແມ່ນເລື່ອງປົກກະຕິ.

ເບິ່ງ PyTorch tutorials ສໍາລັບຮູບແບບ canonical [4].


ຂັ້ນ​ຕອນ​ທີ 6 - ການ​ປະ​ເມີນ​ຜົນ​ທີ່​ສະ​ທ້ອນ​ໃຫ້​ເຫັນ​ຄວາມ​ເປັນ​ຈິງ​, ບໍ່​ແມ່ນ​ຈຸດ​ຜູ້​ນໍາ 🧭​

ກວດເບິ່ງຕ່ອນ, ບໍ່ພຽງແຕ່ສະເລ່ຍ:

  • Calibration → probabilities ຄວນຫມາຍຄວາມວ່າບາງສິ່ງບາງຢ່າງ. ແຜນທີ່ຄວາມຫນ້າເຊື່ອຖືຊ່ວຍ.

  • ຄວາມ​ເຂົ້າ​ໃຈ​ທີ່​ສັບສົນ → ເສັ້ນ​ໂຄ້ງ​ຂອບ​ເຂດ, ການ​ຄ້າ​ທີ່​ເຫັນ​ໄດ້.

  • buckets ຜິດພາດ → ແບ່ງຕາມພາກພື້ນ, ອຸປະກອນ, ພາສາ, ເວລາ. ຈຸດອ່ອນຈຸດ.

  • ຄວາມທົນທານ → ການທົດສອບພາຍໃຕ້ການປ່ຽນແປງ, ລົບກວນວັດສະດຸປ້ອນ.

  • Human-in-loop → ຖ້າຄົນໃຊ້ມັນ, ທົດສອບການໃຊ້ງານ.

ຫຍໍ້ໜ້າສັ້ນໆ: ການເອີ້ນຄືນຄັ້ງໜຶ່ງມາຈາກການປັບຕົວ Unicode ທີ່ບໍ່ກົງກັນລະຫວ່າງການຝຶກອົບຮົມກັບການຜະລິດ. ຄ່າໃຊ້ຈ່າຍ? 4 ຄະແນນເຕັມ.


ຂັ້ນຕອນທີ 7 - ການຫຸ້ມຫໍ່, ການຮັບໃຊ້, ແລະ MLOps ໂດຍບໍ່ມີນ້ໍາຕາ 🚚

ນີ້ແມ່ນບ່ອນທີ່ໂຄງການມັກຈະເດີນທາງ.

  • ສິ່ງປະດິດ : ນ້ຳໜັກຕົວແບບ, ໂປຣເຊສເຊີກ່ອນ, ຄຳໝັ້ນສັນຍາ hash.

  • Env : pin versions, containerize lean.

  • ການໂຕ້ຕອບ : REST/gRPC ກັບ /health + /predict .

  • Latency/throughput : batch requests, ຮູບແບບການອົບອຸ່ນຂຶ້ນ.

  • ຮາດແວ : CPU ດີສໍາລັບຄລາສສິກ; GPUs ສໍາລັບ DL. ONNX Runtime ເລັ່ງຄວາມໄວ/ການພົກພາ.

ສໍາລັບທໍ່ເຕັມ (CI/CD/CT, ການຕິດຕາມ, rollback), ເອກະສານ MLOps ຂອງ Google ແມ່ນແຂງ [2].


ຂັ້ນ​ຕອນ​ທີ 8 - ການ​ຕິດ​ຕາມ​, drift​, ແລະ retraining ໂດຍ​ບໍ່​ມີ​ການ​ຕົກ​ໃຈ 📈🧭

ຕົວແບບເສື່ອມໂຊມ. ຜູ້ໃຊ້ພັດທະນາ. ທໍ່ຂໍ້ມູນເຮັດວຽກບໍ່ຖືກຕ້ອງ.

  • ການກວດສອບຂໍ້ມູນ : schema, ranges, nulls.

  • ການ​ຄາດ​ຄະ​ເນ : ການ​ແຜ່​ກະ​ຈາຍ​, metrics drift​, outliers​.

  • ປະສິດທິພາບ : ເມື່ອປ້າຍມາເຖິງ, ຄິດໄລ່ metrics.

  • ການ​ແຈ້ງ​ເຕືອນ ​: latency​, ຄວາມ​ຜິດ​ພາດ​, drift​.

  • ຝຶກ cadence ຄືນໃໝ່ : trigger-based > calendar-based.

ເອ​ກະ​ສານ loop ໄດ້​. wiki ຕີ "ຄວາມຊົງຈໍາຂອງຊົນເຜົ່າ." ເບິ່ງ Google CT playbooks [2].


AI ທີ່ມີຄວາມຮັບຜິດຊອບ: ຄວາມຍຸດຕິທໍາ, ຄວາມເປັນສ່ວນຕົວ, ການຕີຄວາມ ໝາຍ 🧩🧠

ຖ້າປະຊາຊົນໄດ້ຮັບຜົນກະທົບ, ຄວາມຮັບຜິດຊອບບໍ່ແມ່ນທາງເລືອກ.

  • ການທົດສອບຄວາມຍຸຕິທຳ → ປະເມີນທົ່ວກຸ່ມທີ່ລະອຽດອ່ອນ, ຫຼຸດຜ່ອນຊ່ອງຫວ່າງ [1].

  • Interpretability → SHAP ສໍາລັບຕາຕະລາງ, attribution ສໍາລັບເລິກ. ຈັດການດ້ວຍຄວາມລະມັດລະວັງ.

  • ຄວາມ​ເປັນ​ສ່ວນ​ຕົວ/ຄວາມ​ປອດ​ໄພ → ຫຼຸດ​ຜ່ອນ PII, ປິດ​ບັງ​ລັກ​ສະ​ນະ.

  • ນະໂຍບາຍ → ຂຽນຈຸດປະສົງທຽບກັບການນໍາໃຊ້ທີ່ຫ້າມ. ຊ່ວຍປະຢັດຄວາມເຈັບປວດຕໍ່ມາ [1].


ການຍ່າງຜ່ານນ້ອຍໆໄວ 🚵

ເວົ້າວ່າພວກເຮົາກໍາລັງຈັດປະເພດການທົບທວນຄືນ: ບວກ vs ລົບ.

  1. ຂໍ້ມູນ → ລວບລວມການທົບທວນຄືນ, desupe, ແບ່ງອອກຕາມເວລາ [1].

  2. ພື້ນຖານ → TF-IDF + logistic regression (scikit-learn) [3].

  3. ອັບເກຣດ → ໝໍ້ແປງຂະໜາດນ້ອຍທີ່ຝຶກຝົນໄວ້ພ້ອມດ້ວຍໜ້າກອດ [5].

  4. ລົດໄຟ → ໄລຍະເວລາບໍ່ຫຼາຍປານໃດ, ຢຸດໄວ, ຕິດຕາມ F1 [4].

  5. Eval → confusion matrix, precision@recall, calibration.

  6. Package → tokenizer + model, FastAPI wrapper [2].

  7. ຕິດ​ຕາມ​ກວດ​ກາ → ເບິ່ງ drift ທົ່ວຫມວດຫມູ່ [2].

  8. tweaks ທີ່ຮັບຜິດຊອບ → ການກັ່ນຕອງ PII, ເຄົາລົບຂໍ້ມູນລະອຽດອ່ອນ [1].

ໜຽວແໜ້ນ? ຮູບແບບການກັ່ນ ຫຼືສົ່ງອອກໄປຍັງ ONNX.


ຄວາມຜິດພາດທົ່ວໄປທີ່ເຮັດໃຫ້ຕົວແບບເບິ່ງສະຫລາດແຕ່ເຮັດແບບໂງ່ 🙃

  • ລັກສະນະຮົ່ວໄຫຼ (ຂໍ້ມູນຫຼັງເຫດການຢູ່ລົດໄຟ).

  • ເມຕຣິກຜິດ (AUC ເມື່ອທີມງານສົນໃຈການເອີ້ນຄືນ).

  • ຊຸດ val ຂະຫນາດນ້ອຍ ("ການແຕກແຍກ" noisy).

  • ຄວາມບໍ່ສົມດຸນຂອງຫ້ອງຮຽນຖືກລະເລີຍ.

  • ການປະມວນຜົນກ່ອນບໍ່ກົງກັນ (ລົດໄຟທຽບກັບບໍລິການ).

  • ການປັບແຕ່ງເກີນໄວເກີນໄປ.

  • ລືມຂໍ້ຈໍາກັດ (ຮູບແບບຍັກໃຫຍ່ໃນແອັບຯມືຖື).


ເຄັດລັບການເພີ່ມປະສິດທິພາບ 🔧

  • ເພີ່ມ ທີ່ສະຫຼາດກວ່າ : ດ້ານລົບຍາກ, ການຂະຫຍາຍຕົວຈິງ.

  • Regularize harder: dropout, ຕົວແບບຂະຫນາດນ້ອຍກວ່າ.

  • ຕາຕະລາງອັດຕາການຮຽນຮູ້ (cosine/ຂັ້ນຕອນ).

  • batch sweeps - ໃຫຍ່ກວ່າແມ່ນບໍ່ສະເຫມີໄປທີ່ດີກວ່າ.

  • ຄວາມແມ່ນຍໍາປະສົມ + vectorization ສໍາລັບຄວາມໄວ [4].

  • ປະລິມານ, pruning ກັບຕົວແບບກະທັດຮັດ.

  • ການຝັງ cache/pre-compute heavy ops.


ການຕິດສະຫຼາກຂໍ້ມູນທີ່ບໍ່ implode 🏷️

  • ຄໍາແນະນໍາ: ລາຍລະອຽດ, ມີກໍລະນີແຂບ.

  • ປ້າຍລົດໄຟ: ວຽກງານການປັບທຽບ, ການກວດສອບຂໍ້ຕົກລົງ.

  • ຄຸນະພາບ: ຊຸດຄໍາ, ການກວດສອບຈຸດ.

  • ເຄື່ອງມື: ຊຸດຂໍ້ມູນສະບັບ, ຮູບແບບທີ່ສາມາດສົ່ງອອກໄດ້.

  • ຈັນຍາບັນ: ເງິນເດືອນຍຸດຕິທຳ, ມີຄວາມຮັບຜິດຊອບ. ຢຸດເຕັມ [1].


ຮູບແບບການນຳໃຊ້ 🚀

  • batch ຄະແນນ → ວຽກກາງຄືນ, ສາງ.

  • microservice ໃນເວລາຈິງ → sync API, ເພີ່ມຖານຄວາມຈໍາ.

  • ການຖ່າຍທອດ → ເຫດການທີ່ຂັບເຄື່ອນ, ຕົວຢ່າງ, ການສໍ້ໂກງ.

  • Edge → compress, ອຸປະກອນທົດສອບ, ONNX/TensorRT.

ຮັກສາປື້ມບັນທຶກ: ຂັ້ນຕອນການກັບຄືນ, ການຟື້ນຟູສິ່ງປະດິດ [2].


ຊັບພະຍາກອນທີ່ຄຸ້ມຄ່າເວລາຂອງເຈົ້າ 📚

  • ພື້ນຖານ: ຄູ່ມືຜູ້ໃຊ້ scikit-learn [3]

  • ຮູບແບບ DL: PyTorch Tutorials [4]

  • ການ​ຮຽນ​ຮູ້​ການ​ໂອນ​: ການ​ກອດ​ໃບ​ຫນ້າ​ດ່ວນ [5​]

  • ການປົກຄອງ/ຄວາມສ່ຽງ: NIST AI RMF [1]

  • MLOps: Google Cloud playbooks [2]


FAQ-ish tidbits 💡

  • ຕ້ອງການ GPU ບໍ? ບໍ່ແມ່ນສໍາລັບຕາຕະລາງ. ສໍາລັບ DL, ແມ່ນແລ້ວ (ການເຊົ່າຄລາວເຮັດວຽກ).

  • ຂໍ້ມູນພຽງພໍບໍ? ເພີ່ມເຕີມແມ່ນດີຈົນກ່ວາປ້າຍມີສິ່ງລົບກວນ. ເລີ່ມຕົ້ນຂະຫນາດນ້ອຍ, ເຮັດຊ້ໍາອີກ.

  • ທາງເລືອກເມຕຣິກ? ຄ່າໃຊ້ຈ່າຍໃນການຕັດສິນໃຈທີ່ກົງກັນ. ຂຽນມາຕຣິກເບື້ອງ.

  • ຂ້າມເສັ້ນພື້ນຖານບໍ? ເຈົ້າສາມາດ… ຄືກັນກັບເຈົ້າສາມາດຂ້າມອາຫານເຊົ້າ ແລະເສຍໃຈ.

  • AutoML? ທີ່ດີເລີດສໍາລັບການ bootstrapping. ຍັງເຮັດການກວດສອບຂອງທ່ານເອງ [2].


ຄວາມຈິງທີ່ສັບສົນເລັກນ້ອຍ🎬

ວິທີການສ້າງແບບຈໍາລອງ AI ແມ່ນຫນ້ອຍກ່ຽວກັບຄະນິດສາດທີ່ແປກປະຫຼາດແລະເພີ່ມເຕີມກ່ຽວກັບຫັດຖະກໍາ: ກອບແຫຼມ, ຂໍ້ມູນສະອາດ, ການກວດສອບສຸຂະພາບພື້ນຖານ, ການປະເມີນແຂງ, ການເຮັດຊ້ໍາອີກຄັ້ງ. ເພີ່ມຄວາມຮັບຜິດຊອບເພື່ອໃຫ້ອະນາຄົດ - ເຈົ້າບໍ່ເຮັດຄວາມສະອາດສິ່ງລົບກວນທີ່ສາມາດປ້ອງກັນໄດ້ [1][2].

ຄວາມຈິງແມ່ນ, ຮຸ່ນ "ຫນ້າເບື່ອ" - ເຄັ່ງຄັດແລະວິທີການ - ມັກຈະຕີຕົວແບບທີ່ມີສີສັນທີ່ຟ້າວແລ່ນໃນເວລາ 2 ໂມງເຊົ້າວັນສຸກ. ແລະຖ້າຄວາມພະຍາຍາມທໍາອິດຂອງເຈົ້າຮູ້ສຶກບໍ່ສະບາຍບໍ? ນັ້ນແມ່ນເລື່ອງປົກກະຕິ. ແບບຈໍາລອງແມ່ນຄ້າຍຄືການເລີ່ມຕົ້ນ sourdough: ອາຫານ, ສັງເກດ, restart ບາງຄັ້ງ. 🥖🤷


TL;DR

  • ບັນຫາກອບ + metric; ຂ້າ​ການ​ຮົ່ວ​ໄຫຼ​.

  • ພື້ນຖານກ່ອນ; ເຄື່ອງ​ມື​ທີ່​ງ່າຍ​ດາຍ rock​.

  • ຕົວແບບທີ່ໄດ້ຝຶກຝົນໄວ້ຊ່ວຍ - ຢ່ານະມັດສະການພວກມັນ.

  • Eval ທົ່ວ slices; calibrate.

  • ພື້ນຖານຂອງ MLOps: ສະບັບ, ການຕິດຕາມ, rollbacks.

  • AI ທີ່ມີຄວາມຮັບຜິດຊອບຖືກອົບເຂົ້າ, ບໍ່ໄດ້ຕິດຢູ່.

  • Iterate, smile - ທ່ານໄດ້ສ້າງຕົວແບບ AI. 😄


ເອກະສານອ້າງອີງ

  1. NIST — ຂອບການຈັດການຄວາມສ່ຽງດ້ານປັນຍາທຽມ (AI RMF 1.0) . ເຊື່ອມຕໍ່

  2. Google Cloud — MLOps: ການຈັດສົ່ງຢ່າງຕໍ່ເນື່ອງ ແລະທໍ່ອັດຕະໂນມັດໃນການຮຽນຮູ້ເຄື່ອງຈັກ . ເຊື່ອມຕໍ່

  3. scikit-learn — ຄູ່​ມື​ຜູ້​ໃຊ້ . ເຊື່ອມຕໍ່

  4. PyTorch — ການສອນທີ່ເປັນທາງການ . ເຊື່ອມຕໍ່

  5. ກອດໜ້າ — Transformers Quickstart . ເຊື່ອມຕໍ່


ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ