ຖ້າທ່ານເຄີຍເບິ່ງແບບຈໍາລອງການສາທິດ crush ການທົດສອບຂະຫນາດນ້ອຍແລະຫຼັງຈາກນັ້ນ freeze ເວລາທີ່ຜູ້ໃຊ້ທີ່ແທ້ຈິງສະແດງໃຫ້ເຫັນເຖິງ, ທ່ານໄດ້ພົບກັບຄົນຮ້າຍ: scaling. AI ແມ່ນຄວາມໂລບມາກສໍາລັບຂໍ້ມູນ, ຄອມພິວເຕີ້, ຫນ່ວຍຄວາມຈໍາ, ແບນວິດ - ແລະແປກ, ຄວາມສົນໃຈ. ດັ່ງນັ້ນ, AI Scalability ແມ່ນຫຍັງ, ແທ້ຈິງແລ້ວ, ແລະເຈົ້າຈະໄດ້ຮັບມັນໄດ້ແນວໃດໂດຍບໍ່ມີການຂຽນຄືນໃຫມ່ທຸກໆອາທິດ?
ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:
🔗 ອະຄະຕິ AI ແມ່ນຫຍັງ ອະທິບາຍງ່າຍໆ
ຮຽນຮູ້ວ່າຄວາມລຳອຽງທີ່ເຊື່ອງໄວ້ເຮັດໃຫ້ການຕັດສິນໃຈຂອງ AI ແລະຜົນໄດ້ຮັບຂອງຕົວແບບແນວໃດ.
🔗 ຄູ່ມືເລີ່ມຕົ້ນ: ປັນຍາປະດິດແມ່ນຫຍັງ
ພາບລວມຂອງ AI, ແນວຄວາມຄິດຫຼັກ, ປະເພດ, ແລະຄໍາຮ້ອງສະຫມັກປະຈໍາວັນ.
🔗 AI ທີ່ສາມາດອະທິບາຍໄດ້ແມ່ນຫຍັງ ແລະເປັນຫຍັງມັນຈຶ່ງສຳຄັນ
ຄົ້ນພົບວິທີທີ່ AI ທີ່ສາມາດອະທິບາຍໄດ້ເພີ່ມຄວາມໂປ່ງໃສ, ຄວາມໄວ້ວາງໃຈ, ແລະການປະຕິບັດຕາມກົດລະບຽບ.
🔗 AI ຄາດຄະເນແມ່ນຫຍັງແລະວິທີການເຮັດວຽກ
ເຂົ້າໃຈ AI ຄາດຄະເນ, ກໍລະນີການນໍາໃຊ້ທົ່ວໄປ, ຜົນປະໂຫຍດ, ແລະຂໍ້ຈໍາກັດ.
AI Scalability ແມ່ນຫຍັງ? 📈
AI Scalability ແມ່ນຄວາມສາມາດຂອງລະບົບ AI ເພື່ອຈັດການຂໍ້ມູນ, ການຮ້ອງຂໍ, ຜູ້ໃຊ້, ແລະກໍລະນີການນໍາໃຊ້ໃນຂະນະທີ່ຮັກສາການປະຕິບັດ, ຄວາມຫນ້າເຊື່ອຖື, ແລະຄ່າໃຊ້ຈ່າຍພາຍໃນຂອບເຂດທີ່ຍອມຮັບ. ບໍ່ພຽງແຕ່ເຊີບເວີທີ່ໃຫຍ່ກວ່າເທົ່ານັ້ນ - ສະຖາປັດຕະຍະກຳທີ່ສະຫຼາດກວ່າທີ່ຮັກສາເວລາແບັກທີເຣຍຕ່ຳ, ກະແສໄຟຟ້າສູງ ແລະຄຸນນະພາບທີ່ສອດຄ່ອງກັນເມື່ອເສັ້ນໂຄ້ງເພີ່ມຂຶ້ນ. ຄິດວ່າໂຄງສ້າງພື້ນຖານທີ່ຍືດຫຍຸ່ນ, ຮູບແບບທີ່ເຫມາະສົມ, ແລະການສັງເກດການທີ່ຕົວຈິງແລ້ວບອກທ່ານວ່າໄຟໄຫມ້ແມ່ນຫຍັງ.

ສິ່ງທີ່ເຮັດໃຫ້ AI Scalability ທີ່ດີ ✅
ເມື່ອ AI Scalability ເຮັດໄດ້ດີ, ທ່ານໄດ້ຮັບ:
-
latency ທີ່ຄາດເດົາໄດ້ ພາຍໃຕ້ການໂຫຼດ spiky ຫຼືແບບຍືນຍົງ 🙂
-
ຂໍ້ມູນຜ່ານທີ່ເຕີບໂຕ ປະມານອັດຕາສ່ວນຂອງຮາດແວ ຫຼືເຄື່ອງຈຳລອງທີ່ເພີ່ມເຂົ້າມາ
-
ປະສິດທິພາບຄ່າໃຊ້ຈ່າຍ ທີ່ບໍ່ປູມເປົ້າຕໍ່ການຮ້ອງຂໍ
-
ຄວາມໝັ້ນຄົງດ້ານຄຸນນະພາບ ເນື່ອງຈາກວັດສະດຸປ້ອນມີຄວາມຫຼາກຫຼາຍ ແລະປະລິມານເພີ່ມຂຶ້ນ
-
ການເຮັດວຽກສະຫງົບ ຍ້ອນການປັບຂະໜາດອັດຕະໂນມັດ, ການຕິດຕາມ, ແລະ SLOs ທີ່ປອດໄພ
ພາຍໃຕ້ຝາອັດປາກມົດລູກນີ້ປົກກະຕິແລ້ວຈະຜະສົມການປັບຂະຫນາດຕາມລວງນອນ, batching, caching, quantization, ການປະຕິບັດທີ່ເຂັ້ມແຂງ, ແລະນະໂຍບາຍການປ່ອຍຄວາມຄິດທີ່ກ່ຽວຂ້ອງກັບງົບປະມານຄວາມຜິດພາດ [5].
AI Scalability vs Performance vs ຄວາມອາດສາມາດ 🧠
-
ການປະຕິບັດ ແມ່ນໄວເທົ່າໃດການຮ້ອງຂໍດຽວສໍາເລັດໃນການໂດດດ່ຽວ.
-
ຄວາມອາດສາມາດ ແມ່ນຈໍານວນຄໍາຮ້ອງຂໍເຫຼົ່ານັ້ນທີ່ທ່ານສາມາດຈັດການໃນເວລາດຽວກັນ.
-
AI Scalability ແມ່ນການເພີ່ມຊັບພະຍາກອນ ຫຼືການໃຊ້ເທັກນິກທີ່ສະຫຼາດກວ່າຈະເພີ່ມຂີດຄວາມສາມາດ ແລະຮັກສາປະສິດທິພາບທີ່ສອດຄ່ອງ - ໂດຍບໍ່ເຮັດໃຫ້ໃບເກັບເງິນ ຫຼື pager ຂອງທ່ານອອກມາ.
ຄວາມແຕກຕ່າງເລັກນ້ອຍ, ຜົນສະທ້ອນອັນໃຫຍ່ຫຼວງ.
ເປັນຫຍັງຂະຫນາດຈຶ່ງເຮັດວຽກຢູ່ໃນ AI ທັງຫມົດ: ແນວຄວາມຄິດຂອງກົດຫມາຍຂະຫນາດ 📚
ຄວາມເຂົ້າໃຈທີ່ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນ ML ທີ່ທັນສະໄຫມແມ່ນວ່າການສູນເສຍຈະປັບປຸງໃນແບບທີ່ຄາດເດົາໄດ້ໃນຂະນະທີ່ທ່ານປັບ ຂະຫນາດຕົວແບບ, ຂໍ້ມູນ, ແລະຄອມພິວເຕີ້ ພາຍໃນເຫດຜົນ. ນອກຈາກນີ້ຍັງມີ ການດຸ່ນດ່ຽງການຄິດໄລ່ທີ່ດີທີ່ສຸດ ລະຫວ່າງຂະຫນາດຕົວແບບແລະ tokens ການຝຶກອົບຮົມ; ການຂະຫຍາຍຕົວທັງສອງຮ່ວມກັນ beats scaling ພຽງແຕ່ຫນຶ່ງ. ໃນທາງປະຕິບັດ, ແນວຄວາມຄິດເຫຼົ່ານີ້ແຈ້ງງົບປະມານການຝຶກອົບຮົມ, ການວາງແຜນຊຸດຂໍ້ມູນ, ແລະການຮັບໃຊ້ການຄ້າ [4].
ການແປພາສາດ່ວນ: ໃຫຍ່ກວ່າສາມາດດີກວ່າ, ແຕ່ວ່າພຽງແຕ່ເມື່ອທ່ານຂະຫນາດວັດສະດຸປ້ອນແລະຄິດໄລ່ອັດຕາສ່ວນ - ຖ້າບໍ່ດັ່ງນັ້ນ, ມັນຄ້າຍຄືກັບການວາງຢາງລົດໄຖນາໃສ່ລົດຖີບ. ມັນເບິ່ງຄືວ່າເຂັ້ມແຂງ, ໄປ nowhere.
Horizontal vs vertical: ສອງ levers scaling 🔩
-
ການປັບຂະໜາດຕາມແນວຕັ້ງ : ກ່ອງໃຫຍ່ກວ່າ, GPUs ອ່ອນກວ່າ, ໜ່ວຍຄວາມຈຳຫຼາຍ. ງ່າຍດາຍ, ບາງຄັ້ງລາຄາ. ດີສໍາລັບການຝຶກອົບຮົມໂຫນດດຽວ, ການຊີ້ບອກເວລາ latency ຕ່ໍາ, ຫຼືໃນເວລາທີ່ຕົວແບບຂອງທ່ານປະຕິເສດທີ່ຈະ shard ງາມ.
-
ການຂະຫຍາຍອອກຕາມລວງນອນ : replicas ຫຼາຍ. ໃຊ້ໄດ້ດີທີ່ສຸດກັບ ຕົວປັບຂະໜາດອັດຕະໂນມັດ ທີ່ເພີ່ມ ຫຼືລຶບພອດໂດຍອີງໃສ່ CPU/GPU ຫຼືຕົວວັດແທກແອັບທີ່ກຳນົດເອງ. ໃນ Kubernetes, HorizontalPodAutoscaler scales pods ເພື່ອຕອບສະຫນອງຄວາມຕ້ອງການ - ການຄວບຄຸມຝູງຊົນພື້ນຖານຂອງທ່ານສໍາລັບການຈະລາຈອນເພີ່ມຂຶ້ນ [1].
Anecdote (composite): ໃນລະຫວ່າງການເປີດຕົວທີ່ມີຄວາມລະອຽດສູງ, ພຽງແຕ່ເປີດການບີບອັດດ້ານເຊີຟເວີແລະປ່ອຍໃຫ້ຕົວຂະຫຍາຍອັດຕະໂນມັດປະຕິກິລິຍາກັບຄວາມເລິກຂອງແຖວທີ່ຄົງທີ່ p95 ໂດຍບໍ່ມີການປ່ຽນລູກຄ້າໃດໆ. ໄຊຊະນະທີ່ບໍ່ປ່ຽນແປງແມ່ນຍັງຊະນະ.
ການຈັດເຕັມຂອງ AI Scalability 🥞
-
ຊັ້ນຂໍ້ມູນ : ເກັບຮັກສາວັດຖຸໄວ, ດັດສະນີ vector, ແລະ streaming ingestion ທີ່ຈະບໍ່ກະຕຸ້ນຄູຝຶກຂອງທ່ານ.
-
ຊັ້ນການຝຶກອົບຮົມ : ກອບການແຈກຢາຍແລະຕາຕະລາງຕາຕະລາງທີ່ຈັດການກັບຂໍ້ມູນ / ຕົວແບບຂະຫນານ, ການກວດສອບ, ພະຍາຍາມໃຫມ່.
-
ຊັ້ນຂໍ້ມູນການໃຫ້ບໍລິການ : ເວລາແລ່ນທີ່ປັບໃຫ້ເໝາະສົມ, ການຈັດກຸ່ມແບບໄດນາມິກ , ການຈັດໜ້າຄວາມສົນໃຈ ສຳລັບ LLMs, ການເກັບຂໍ້ມູນ, ການຖ່າຍທອດໂທເຄັນ. Triton ແລະ vLLM ແມ່ນ heroes ເລື້ອຍໆຢູ່ທີ່ນີ້ [2][3].
-
Orchestration : Kubernetes ສໍາລັບ elasticity ຜ່ານ HPA ຫຼື custom autoscalers [1].
-
ການສັງເກດການ : ຮ່ອງຮອຍ, ວັດແທກ ແລະບັນທຶກທີ່ຕິດຕາມການເດີນທາງຂອງຜູ້ໃຊ້ ແລະພຶດຕິກໍາຕົວແບບໃນການຜະລິດ; ອອກແບບໃຫ້ເຂົາເຈົ້າອ້ອມຮອບ SLOs ຂອງທ່ານ [5].
-
ການຄຸ້ມຄອງແລະຄ່າໃຊ້ຈ່າຍ : ຕໍ່ການຮ້ອງຂໍເສດຖະກິດ, ງົບປະມານ, ແລະ kill-switches ສໍາລັບການເຮັດວຽກທີ່ຫນີ.
ຕາຕະລາງປຽບທຽບ: ເຄື່ອງມື & ຮູບແບບການປັບຂະ ໜາດ AI 🧰
ບໍ່ສະເຫມີພາບເລັກນ້ອຍກ່ຽວກັບຈຸດປະສົງ - ເພາະວ່າຊີວິດທີ່ແທ້ຈິງແມ່ນ.
| ເຄື່ອງມື / ຮູບແບບ | ຜູ້ຊົມ | ລາຄາປະມານ | ເປັນຫຍັງມັນຈຶ່ງໃຊ້ໄດ້ | ບັນທຶກ |
|---|---|---|---|---|
| Kubernetes + HPA | ທີມງານແພລດຟອມ | ແຫຼ່ງເປີດ + infra | ເກັດຝັກຕາມລວງນອນເປັນຮວງຕັ້ງແຈບ | ການວັດແທກແບບກຳນົດເອງແມ່ນຄຳ [1] |
| NVIDIA Triton | Inference SRE | ເຄື່ອງແມ່ຂ່າຍຟຣີ; GPU $ | batching ແບບໄດນາມິກ ຊ່ວຍເພີ່ມການຖ່າຍທອດ | ຕັ້ງຄ່າຜ່ານ config.pbtxt [2] |
| vLLM (PagedAttention) | ທີມງານ LLM | ໂອເພນຊອສ | ອັດຕາການສົ່ງຜ່ານສູງຜ່ານໜ້າ KV-cache ທີ່ມີປະສິດທິພາບ | ທີ່ຍິ່ງໃຫຍ່ສໍາລັບການເຕືອນຍາວ [3] |
| ONNX Runtime / TensorRT | Perf nerds | ເຄື່ອງມືຟຣີ / ຜູ້ຂາຍ | ການເພີ່ມປະສິດທິພາບລະດັບ Kernel ຫຼຸດຜ່ອນເວລາ latency | ເສັ້ນທາງການສົ່ງອອກສາມາດ fiddly |
| ຮູບແບບ RAG | ທີມງານ App | Infra + ດັດຊະນີ | Offloads ຄວາມຮູ້ເພື່ອດຶງ; ປັບຂະຫນາດດັດຊະນີ | ທີ່ດີເລີດສໍາລັບຄວາມສົດ |
Deep dive 1: ການຮັບໃຊ້ tricks ທີ່ຍ້າຍເຂັມ 🚀
-
Dynamic batching group call inference small in batches larger on the server, ເພີ່ມຂຶ້ນຢ່າງຫຼວງຫຼາຍການນໍາໃຊ້ GPU ໂດຍບໍ່ມີການປ່ຽນລູກຄ້າ [2].
-
Paged ເອົາໃຈໃສ່ ເຮັດໃຫ້ການສົນທະນາໄກຫຼາຍໃນຄວາມຊົງຈໍາໂດຍການຈັດຫນ້າ KV cache, ເຊິ່ງປັບປຸງການຜ່ານພາຍໃຕ້ການສອດຄ່ອງ [3].
-
ຮ້ອງຂໍການ coalescing & caching ສໍາລັບການ prompts ຄືກັນຫຼື embeddings ຫຼີກເວັ້ນການເຮັດວຽກຊ້ໍາກັນ.
-
ການຖອດລະຫັດແບບຄາດເດົາ ແລະການຖ່າຍທອດໂທເຄັນຫຼຸດຜ່ອນຄວາມລ່າຊ້າທີ່ຮັບຮູ້ໄດ້, ເຖິງແມ່ນວ່າໂມງຕິດຝາຈະເກືອບບໍ່ໄຫວ.
Deep dive 2: ປະສິດທິພາບລະດັບຕົວແບບ - ປະລິມານ, ກັ່ນ, ຕັດ 🧪
-
Quantization ຫຼຸດຜ່ອນຄວາມແມ່ນຍໍາຂອງພາລາມິເຕີ (ຕົວຢ່າງ: 8-bit / 4-bit) ເພື່ອຫົດຫນ່ວຍຄວາມຈໍາແລະເລັ່ງການ inference; ສະເຫມີປະເມີນຄຸນນະພາບຂອງວຽກງານຫຼັງຈາກການປ່ຽນແປງ.
-
ການຕົ້ມກັ່ນ ໂອນຄວາມຮູ້ຈາກຄູສອນໃຫຍ່ໄປຫານັກຮຽນຂະຫນາດນ້ອຍກວ່າຮາດແວທີ່ເຈົ້າມັກ.
-
ການຕັດໄມ້ທີ່ມີໂຄງສ້າງ ຕັດນ້ຳໜັກ/ຫົວທີ່ປະກອບສ່ວນໜ້ອຍທີ່ສຸດ.
ໃຫ້ຄວາມຊື່ສັດ, ມັນຄ້າຍຄືກັບການຫຼຸດກະເປົ໋າຂອງເຈົ້າລົງເລັກນ້ອຍ, ແລ້ວຢືນຢັນວ່າເກີບຂອງເຈົ້າຍັງເຫມາະ. somehow ມັນເຮັດ, ສ່ວນຫຼາຍແມ່ນ.
Deep dive 3: ຂໍ້ມູນ ແລະ ການເຝິກຊ້ອມການປັບຂະໜາດໂດຍບໍ່ມີນໍ້າຕາ🧵
-
ໃຊ້ການຝຶກອົບຮົມແບບແຈກຢາຍທີ່ເຊື່ອງພາກສ່ວນຂອງຂະໜານຂະໜານເພື່ອໃຫ້ທ່ານສາມາດຈັດສົ່ງການທົດລອງໄດ້ໄວຂຶ້ນ.
-
ຈື່ຈໍາ ກົດຫມາຍການຂະຫຍາຍ : ຈັດສັນງົບປະມານໃນທົ່ວຂະຫນາດຂອງຕົວແບບແລະ tokens ຄວາມຄິດ; ການຂະຫຍາຍທັງສອງຮ່ວມກັນແມ່ນປະສິດທິພາບການຄິດໄລ່ [4].
-
ຫຼັກສູດ ແລະຄຸນນະພາບຂໍ້ມູນ ມັກຈະແກວ່ງຜົນອອກມາຫຼາຍກວ່າຄົນຍອມຮັບ. ບາງຄັ້ງຂໍ້ມູນທີ່ດີກວ່າຈະຕີຂໍ້ມູນຫຼາຍກວ່າ - ເຖິງແມ່ນວ່າທ່ານໄດ້ສັ່ງໃຫ້ກຸ່ມໃຫຍ່ກວ່າແລ້ວ.
Deep dive 4: RAG ເປັນຍຸດທະສາດການຂະຫຍາຍຄວາມຮູ້ 🧭
ແທນທີ່ຈະ retraining ຮູບແບບເພື່ອໃຫ້ທັນກັບການປ່ຽນແປງຂໍ້ເທັດຈິງ, RAG ເພີ່ມຂັ້ນຕອນການດຶງຂໍ້ມູນໃນ inference. ທ່ານສາມາດຮັກສາຕົວແບບຄົງທີ່ແລະຂະຫນາດ ດັດຊະນີ ແລະ retrievers ຍ້ອນວ່າ corpus ຂອງທ່ານເຕີບໂຕ. Elegant- ແລະມັກຈະລາຄາຖືກກວ່າ retrains ເຕັມສໍາລັບກິດທີ່ມີຄວາມຮູ້.
ການສັງເກດທີ່ຈ່າຍໃຫ້ກັບຕົວມັນເອງ 🕵️♀️
ທ່ານບໍ່ສາມາດຂະຫຍາຍສິ່ງທີ່ເຈົ້າເບິ່ງບໍ່ເຫັນ. ສອງສິ່ງຈໍາເປັນ:
-
Metrics ສໍາລັບການວາງແຜນຄວາມອາດສາມາດແລະການປັບຂະຫນາດອັດຕະໂນມັດ: ເປີເຊັນການເລັ່ງເວລາ, ຄວາມເລິກແຖວ, ຫນ່ວຍຄວາມຈໍາ GPU, ຂະຫນາດ batch, token throughput, cache hit rates.
-
ການຕິດຕາມ ທີ່ປະຕິບັດຕາມຄໍາຮ້ອງຂໍດຽວໃນທົ່ວ gateway → retrieval → model → post-processing. ຜູກສິ່ງທີ່ທ່ານວັດແທກກັບ SLOs ຂອງທ່ານເພື່ອ dashboards ຕອບຄໍາຖາມພາຍໃນນາທີ [5].
ເມື່ອ dashboards ຕອບຄໍາຖາມພາຍໃນຫນຶ່ງນາທີ, ປະຊາຊົນໃຊ້ພວກມັນ. ເມື່ອພວກເຂົາເຮັດບໍ່ໄດ້, ພວກເຂົາສົມມຸດວ່າພວກເຂົາເຮັດ.
ຮົ້ວປ້ອງກັນຄວາມຫນ້າເຊື່ອຖື: SLOs, ງົບປະມານຄວາມຜິດພາດ, ການເປີດຕົວຢ່າງມີສະຕິ 🧯
-
ກໍານົດ SLOs ສໍາລັບຄວາມລ່າຊ້າ, ຄວາມພ້ອມ, ແລະຄຸນນະພາບຜົນໄດ້ຮັບ, ແລະນໍາໃຊ້ ງົບປະມານຄວາມຜິດພາດ ເພື່ອດຸ່ນດ່ຽງຄວາມຫນ້າເຊື່ອຖືກັບຄວາມໄວການປ່ອຍ [5].
-
ນຳໃຊ້ຢູ່ເບື້ອງຫຼັງການແບ່ງການສັນຈອນ, ເຮັດສວນສັດ, ແລະ ດຳ ເນີນການທົດສອບເງົາກ່ອນການຕັດຜ່ານທົ່ວໂລກ. ອະນາຄົດຂອງເຈົ້າເອງຈະສົ່ງອາຫານຫວ່າງ.
ຄຸ້ມຄ່າບໍ່ແພງ 💸
ຂະຫນາດບໍ່ພຽງແຕ່ດ້ານວິຊາການ; ມັນເປັນທາງດ້ານການເງິນ. ປະຕິບັດຊົ່ວໂມງ GPU ແລະໂທເຄັນເປັນຊັບພະຍາກອນອັນດັບໜຶ່ງດ້ວຍຫົວໜ່ວຍເສດຖະກິດ (ຄ່າໃຊ້ຈ່າຍຕໍ່ 1k tokens, ຕໍ່ການຝັງ, ຕໍ່ການສອບຖາມ vector). ເພີ່ມງົບປະມານ ແລະການແຈ້ງເຕືອນ; ສະເຫຼີມສະຫຼອງການລຶບສິ່ງຕ່າງໆ.
ແຜນທີ່ເສັ້ນທາງທີ່ງ່າຍດາຍຕໍ່ກັບ AI Scalability 🗺️
-
ເລີ່ມຕົ້ນດ້ວຍ SLOs ສໍາລັບ p95 latency, ມີ, ແລະຄວາມຖືກຕ້ອງຂອງວຽກງານ; ການວັດແທກສາຍ/ຮອຍໃນມື້ໜຶ່ງ [5].
-
ເລືອກຊຸດການໃຫ້ບໍລິການ ທີ່ຮອງຮັບ batching ແລະ batching ຢ່າງຕໍ່ເນື່ອງ: Triton, vLLM, ຫຼືທຽບເທົ່າ [2][3].
-
ເພີ່ມປະສິດທິພາບຂອງຕົວແບບ : quantize ບ່ອນທີ່ມັນຊ່ວຍ, ເປີດໃຊ້ແກ່ນໄວ, ຫຼືກັ່ນສໍາລັບວຽກງານສະເພາະ; ກວດສອບຄຸນນະພາບດ້ວຍ evals ທີ່ແທ້ຈິງ.
-
ສະຖາປະນິກສໍາລັບຄວາມຍືດຫຍຸ່ນ : Kubernetes HPA ທີ່ມີສັນຍານທີ່ຖືກຕ້ອງ, ເສັ້ນທາງການອ່ານ / ຂຽນແຍກຕ່າງຫາກ, ແລະ replicas inferences stateless [1].
-
ຮັບຮອງເອົາການດຶງຂໍ້ມູນ ເມື່ອຄວາມສົດມີຄວາມສຳຄັນເພື່ອໃຫ້ເຈົ້າປັບຂະໜາດດັດຊະນີຂອງເຈົ້າແທນການຝຶກຄືນທຸກໆອາທິດ.
-
ປິດວົງດ້ວຍຄ່າໃຊ້ຈ່າຍ : ສ້າງຫົວໜ່ວຍເສດຖະກິດ ແລະ ການທົບທວນຄືນປະຈໍາອາທິດ.
ຮູບແບບຄວາມລົ້ມເຫລວທົ່ວໄປ & ການແກ້ໄຂດ່ວນ🧨
-
GPU ຢູ່ທີ່ 30% ການນໍາໃຊ້ໃນຂະນະທີ່ latency ບໍ່ດີ
-
ເປີດ batch dynamic , ຍົກ batch caps ລະມັດລະວັງ, ແລະ recheck server concurrency [2].
-
-
ຊ່ອງຫວ່າງຫຼຸດລົງດ້ວຍການກະຕຸ້ນເຕືອນທີ່ຍາວນານ
-
ໃຊ້ການຮັບໃຊ້ທີ່ສະຫນັບສະຫນູນ ຄວາມສົນໃຈໃນຫນ້າ ແລະປັບລໍາດັບສູງສຸດ concurrent [3].
-
-
ຕົວຂະຫຍາຍອັດຕະໂນມັດ
-
metrics ກ້ຽງກັບປ່ອງຢ້ຽມ; ຂະໜາດຄວາມເລິກຂອງແຖວ ຫຼືໂທເຄັນແບບກຳນົດເອງຕໍ່ວິນາທີແທນ CPU ບໍລິສຸດ [1].
-
-
ຄ່າໃຊ້ຈ່າຍຈະລະເບີດຫຼັງຈາກການເປີດຕົວ
-
ຕື່ມການວັດແທກຄ່າໃຊ້ຈ່າຍໃນລະດັບຄໍາຮ້ອງຂໍ, ເປີດໃຊ້ປະລິມານທີ່ປອດໄພ, cache top queries, ແລະອັດຕາຈໍາກັດຜູ້ກະທໍາຜິດທີ່ຮ້າຍແຮງທີ່ສຸດ.
-
AI Scalability playbook: ລາຍການກວດສອບດ່ວນ ✅
-
SLOs ແລະຄວາມຜິດພາດງົບປະມານມີຢູ່ແລະເຫັນໄດ້
-
Metrics: latency, tps, GPU mem, batch size, token/s, cache hit
-
ຕິດຕາມຈາກ ingress ໄປຫາຕົວແບບໄປຫາ post-proc
-
ການໃຫ້ບໍລິການ: batching on, concurrency tuned, cache ອົບອຸ່ນ
-
ຮູບແບບ: ປະລິມານຫຼືກັ່ນທີ່ມັນຊ່ວຍ
-
Infra: HPA ຕັ້ງຄ່າດ້ວຍສັນຍານທີ່ຖືກຕ້ອງ
-
ເສັ້ນທາງການດຶງຂໍ້ມູນເພື່ອຄວາມສົດຊື່ນດ້ານຄວາມຮູ້
-
ຫົວໜ່ວຍເສດຖະສາດທົບທວນເລື້ອຍໆ
ດົນເກີນໄປບໍ່ໄດ້ອ່ານມັນແລະຂໍ້ສັງເກດສຸດທ້າຍ 🧩
AI Scalability ບໍ່ແມ່ນຄຸນສົມບັດດຽວ ຫຼືສະວິດລັບ. ມັນເປັນພາສາຮູບແບບ: ການປັບຂະຫນາດຕາມແນວນອນກັບ autoscalers, batching ຂ້າງເຊີບເວີສໍາລັບການນໍາໃຊ້, ປະສິດທິພາບລະດັບຕົວແບບ, ດຶງຂໍ້ມູນເພື່ອ offload ຄວາມຮູ້, ແລະການສັງເກດການທີ່ເຮັດໃຫ້ rollouts ຫນ້າເບື່ອ. Sprinkle ໃນ SLOs ແລະການອະນາໄມຄ່າໃຊ້ຈ່າຍເພື່ອຮັກສາທຸກຄົນສອດຄ່ອງ. ເຈົ້າຈະບໍ່ໄດ້ຮັບມັນສົມບູນແບບໃນຄັ້ງທຳອິດທີ່ບໍ່ມີໃຜເຮັດ - ແຕ່ດ້ວຍການຕອບຮັບທີ່ຖືກຕ້ອງ, ລະບົບຂອງເຈົ້າຈະເຕີບໃຫຍ່ຂຶ້ນໂດຍບໍ່ຮູ້ສຶກເຖິງເຫື່ອເຢັນໃນເວລາ 2 ໂມງເຊົ້າ 😅
ເອກະສານອ້າງອີງ
[1] Kubernetes Docs - Horizontal Pod Autoscaling - ອ່ານຕື່ມ
[2] NVIDIA Triton - Dynamic Batcher - ອ່ານຕື່ມ
[3] vLLM Docs - Paged Attention - ອ່ານຕື່ມ
[4] Hoffmann et al. (2022) - Training Compute-Optimal Large Language Models - ອ່ານຕື່ມ
[5] Google SRE Workbook - ການປະຕິບັດ SLOs - ອ່ານຕື່ມ