AI Scalability ແມ່ນຫຍັງ?

AI Scalability ແມ່ນຫຍັງ?

ຖ້າທ່ານເຄີຍເບິ່ງແບບຈໍາລອງການສາທິດ crush ການທົດສອບຂະຫນາດນ້ອຍແລະຫຼັງຈາກນັ້ນ freeze ເວລາທີ່ຜູ້ໃຊ້ທີ່ແທ້ຈິງສະແດງໃຫ້ເຫັນເຖິງ, ທ່ານໄດ້ພົບກັບຄົນຮ້າຍ: scaling. AI ແມ່ນຄວາມໂລບມາກສໍາລັບຂໍ້ມູນ, ຄອມພິວເຕີ້, ຫນ່ວຍຄວາມຈໍາ, ແບນວິດ - ແລະແປກ, ຄວາມສົນໃຈ. ດັ່ງນັ້ນ, AI Scalability ແມ່ນຫຍັງ, ແທ້ຈິງແລ້ວ, ແລະເຈົ້າຈະໄດ້ຮັບມັນໄດ້ແນວໃດໂດຍບໍ່ມີການຂຽນຄືນໃຫມ່ທຸກໆອາທິດ?

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 ອະຄະຕິ AI ແມ່ນຫຍັງ ອະທິບາຍງ່າຍໆ
ຮຽນຮູ້ວ່າຄວາມລຳອຽງທີ່ເຊື່ອງໄວ້ເຮັດໃຫ້ການຕັດສິນໃຈຂອງ AI ແລະຜົນໄດ້ຮັບຂອງຕົວແບບແນວໃດ.

🔗 ຄູ່ມືເລີ່ມຕົ້ນ: ປັນຍາປະດິດແມ່ນຫຍັງ
ພາບລວມຂອງ AI, ແນວຄວາມຄິດຫຼັກ, ປະເພດ, ແລະຄໍາຮ້ອງສະຫມັກປະຈໍາວັນ.

🔗 AI ທີ່ສາມາດອະທິບາຍໄດ້ແມ່ນຫຍັງ ແລະເປັນຫຍັງມັນຈຶ່ງສຳຄັນ
ຄົ້ນພົບວິທີທີ່ AI ທີ່ສາມາດອະທິບາຍໄດ້ເພີ່ມຄວາມໂປ່ງໃສ, ຄວາມໄວ້ວາງໃຈ, ແລະການປະຕິບັດຕາມກົດລະບຽບ.

🔗 AI ຄາດຄະເນແມ່ນຫຍັງແລະວິທີການເຮັດວຽກ
ເຂົ້າໃຈ AI ຄາດຄະເນ, ກໍລະນີການນໍາໃຊ້ທົ່ວໄປ, ຜົນປະໂຫຍດ, ແລະຂໍ້ຈໍາກັດ.


AI Scalability ແມ່ນຫຍັງ? 📈

AI Scalability ແມ່ນຄວາມສາມາດຂອງລະບົບ AI ເພື່ອຈັດການຂໍ້ມູນ, ການຮ້ອງຂໍ, ຜູ້ໃຊ້, ແລະກໍລະນີການນໍາໃຊ້ໃນຂະນະທີ່ຮັກສາການປະຕິບັດ, ຄວາມຫນ້າເຊື່ອຖື, ແລະຄ່າໃຊ້ຈ່າຍພາຍໃນຂອບເຂດທີ່ຍອມຮັບ. ບໍ່ພຽງແຕ່ເຊີບເວີທີ່ໃຫຍ່ກວ່າເທົ່ານັ້ນ - ສະຖາປັດຕະຍະກຳທີ່ສະຫຼາດກວ່າທີ່ຮັກສາເວລາແບັກທີເຣຍຕ່ຳ, ກະແສໄຟຟ້າສູງ ແລະຄຸນນະພາບທີ່ສອດຄ່ອງກັນເມື່ອເສັ້ນໂຄ້ງເພີ່ມຂຶ້ນ. ຄິດວ່າໂຄງສ້າງພື້ນຖານທີ່ຍືດຫຍຸ່ນ, ຮູບແບບທີ່ເຫມາະສົມ, ແລະການສັງເກດການທີ່ຕົວຈິງແລ້ວບອກທ່ານວ່າໄຟໄຫມ້ແມ່ນຫຍັງ.

 

ຄວາມສາມາດໃນການຂະຫຍາຍ AI

ສິ່ງທີ່ເຮັດໃຫ້ AI Scalability ທີ່ດີ ✅

ເມື່ອ AI Scalability ເຮັດໄດ້ດີ, ທ່ານໄດ້ຮັບ:

  • latency ທີ່ຄາດເດົາໄດ້ ພາຍໃຕ້ການໂຫຼດ spiky ຫຼືແບບຍືນຍົງ 🙂

  • ຂໍ້ມູນຜ່ານທີ່ເຕີບໂຕ ປະມານອັດຕາສ່ວນຂອງຮາດແວ ຫຼືເຄື່ອງຈຳລອງທີ່ເພີ່ມເຂົ້າມາ

  • ປະສິດທິພາບຄ່າໃຊ້ຈ່າຍ ທີ່ບໍ່ປູມເປົ້າຕໍ່ການຮ້ອງຂໍ

  • ຄວາມໝັ້ນຄົງດ້ານຄຸນນະພາບ ເນື່ອງຈາກວັດສະດຸປ້ອນມີຄວາມຫຼາກຫຼາຍ ແລະປະລິມານເພີ່ມຂຶ້ນ

  • ການເຮັດວຽກສະຫງົບ ຍ້ອນການປັບຂະໜາດອັດຕະໂນມັດ, ການຕິດຕາມ, ແລະ SLOs ທີ່ປອດໄພ

ພາຍໃຕ້ຝາອັດປາກມົດລູກນີ້ປົກກະຕິແລ້ວຈະຜະສົມການປັບຂະຫນາດຕາມລວງນອນ, batching, caching, quantization, ການປະຕິບັດທີ່ເຂັ້ມແຂງ, ແລະນະໂຍບາຍການປ່ອຍຄວາມຄິດທີ່ກ່ຽວຂ້ອງກັບງົບປະມານຄວາມຜິດພາດ [5].


AI Scalability vs Performance vs ຄວາມອາດສາມາດ 🧠

  • ການປະຕິບັດ ແມ່ນໄວເທົ່າໃດການຮ້ອງຂໍດຽວສໍາເລັດໃນການໂດດດ່ຽວ.

  • ຄວາມອາດສາມາດ ແມ່ນຈໍານວນຄໍາຮ້ອງຂໍເຫຼົ່ານັ້ນທີ່ທ່ານສາມາດຈັດການໃນເວລາດຽວກັນ.

  • AI Scalability ແມ່ນການເພີ່ມຊັບພະຍາກອນ ຫຼືການໃຊ້ເທັກນິກທີ່ສະຫຼາດກວ່າຈະເພີ່ມຂີດຄວາມສາມາດ ແລະຮັກສາປະສິດທິພາບທີ່ສອດຄ່ອງ - ໂດຍບໍ່ເຮັດໃຫ້ໃບເກັບເງິນ ຫຼື pager ຂອງທ່ານອອກມາ.

ຄວາມແຕກຕ່າງເລັກນ້ອຍ, ຜົນສະທ້ອນອັນໃຫຍ່ຫຼວງ.


ເປັນຫຍັງຂະຫນາດຈຶ່ງເຮັດວຽກຢູ່ໃນ AI ທັງຫມົດ: ແນວຄວາມຄິດຂອງກົດຫມາຍຂະຫນາດ 📚

ຄວາມເຂົ້າໃຈທີ່ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນ ML ທີ່ທັນສະໄຫມແມ່ນວ່າການສູນເສຍຈະປັບປຸງໃນແບບທີ່ຄາດເດົາໄດ້ໃນຂະນະທີ່ທ່ານປັບ ຂະຫນາດຕົວແບບ, ຂໍ້ມູນ, ແລະຄອມພິວເຕີ້ ພາຍໃນເຫດຜົນ. ນອກຈາກນີ້ຍັງມີ ການດຸ່ນດ່ຽງການຄິດໄລ່ທີ່ດີທີ່ສຸດ ລະຫວ່າງຂະຫນາດຕົວແບບແລະ tokens ການຝຶກອົບຮົມ; ການ​ຂະ​ຫຍາຍ​ຕົວ​ທັງ​ສອງ​ຮ່ວມ​ກັນ beats scaling ພຽງ​ແຕ່​ຫນຶ່ງ​. ໃນທາງປະຕິບັດ, ແນວຄວາມຄິດເຫຼົ່ານີ້ແຈ້ງງົບປະມານການຝຶກອົບຮົມ, ການວາງແຜນຊຸດຂໍ້ມູນ, ແລະການຮັບໃຊ້ການຄ້າ [4].

ການແປພາສາດ່ວນ: ໃຫຍ່ກວ່າສາມາດດີກວ່າ, ແຕ່ວ່າພຽງແຕ່ເມື່ອທ່ານຂະຫນາດວັດສະດຸປ້ອນແລະຄິດໄລ່ອັດຕາສ່ວນ - ຖ້າບໍ່ດັ່ງນັ້ນ, ມັນຄ້າຍຄືກັບການວາງຢາງລົດໄຖນາໃສ່ລົດຖີບ. ມັນ​ເບິ່ງ​ຄື​ວ່າ​ເຂັ້ມ​ແຂງ, ໄປ nowhere.


Horizontal vs vertical: ສອງ levers scaling 🔩

  • ການປັບຂະໜາດຕາມແນວຕັ້ງ : ກ່ອງໃຫຍ່ກວ່າ, GPUs ອ່ອນກວ່າ, ໜ່ວຍຄວາມຈຳຫຼາຍ. ງ່າຍດາຍ, ບາງຄັ້ງລາຄາ. ດີສໍາລັບການຝຶກອົບຮົມໂຫນດດຽວ, ການຊີ້ບອກເວລາ latency ຕ່ໍາ, ຫຼືໃນເວລາທີ່ຕົວແບບຂອງທ່ານປະຕິເສດທີ່ຈະ shard ງາມ.

  • ການ​ຂະ​ຫຍາຍ​ອອກ​ຕາມ​ລວງ​ນອນ ​: replicas ຫຼາຍ​. ໃຊ້ໄດ້ດີທີ່ສຸດກັບ ຕົວປັບຂະໜາດອັດຕະໂນມັດ ທີ່ເພີ່ມ ຫຼືລຶບພອດໂດຍອີງໃສ່ CPU/GPU ຫຼືຕົວວັດແທກແອັບທີ່ກຳນົດເອງ. ໃນ Kubernetes, HorizontalPodAutoscaler scales pods ເພື່ອຕອບສະຫນອງຄວາມຕ້ອງການ - ການຄວບຄຸມຝູງຊົນພື້ນຖານຂອງທ່ານສໍາລັບການຈະລາຈອນເພີ່ມຂຶ້ນ [1].

Anecdote (composite): ໃນລະຫວ່າງການເປີດຕົວທີ່ມີຄວາມລະອຽດສູງ, ພຽງແຕ່ເປີດການບີບອັດດ້ານເຊີຟເວີແລະປ່ອຍໃຫ້ຕົວຂະຫຍາຍອັດຕະໂນມັດປະຕິກິລິຍາກັບຄວາມເລິກຂອງແຖວທີ່ຄົງທີ່ p95 ໂດຍບໍ່ມີການປ່ຽນລູກຄ້າໃດໆ. ໄຊຊະນະທີ່ບໍ່ປ່ຽນແປງແມ່ນຍັງຊະນະ.


ການຈັດເຕັມຂອງ AI Scalability 🥞

  1. ຊັ້ນຂໍ້ມູນ : ເກັບຮັກສາວັດຖຸໄວ, ດັດສະນີ vector, ແລະ streaming ingestion ທີ່ຈະບໍ່ກະຕຸ້ນຄູຝຶກຂອງທ່ານ.

  2. ຊັ້ນການຝຶກອົບຮົມ : ກອບການແຈກຢາຍແລະຕາຕະລາງຕາຕະລາງທີ່ຈັດການກັບຂໍ້ມູນ / ຕົວແບບຂະຫນານ, ການກວດສອບ, ພະຍາຍາມໃຫມ່.

  3. ຊັ້ນຂໍ້ມູນການໃຫ້ບໍລິການ : ເວລາແລ່ນທີ່ປັບໃຫ້ເໝາະສົມ, ການຈັດກຸ່ມແບບໄດນາມິກ , ການຈັດໜ້າຄວາມສົນໃຈ ສຳລັບ LLMs, ການເກັບຂໍ້ມູນ, ການຖ່າຍທອດໂທເຄັນ. Triton ແລະ vLLM ແມ່ນ heroes ເລື້ອຍໆຢູ່ທີ່ນີ້ [2][3].

  4. Orchestration : Kubernetes ສໍາລັບ elasticity ຜ່ານ HPA ຫຼື custom autoscalers [1].

  5. ການສັງເກດການ : ຮ່ອງຮອຍ, ວັດແທກ ແລະບັນທຶກທີ່ຕິດຕາມການເດີນທາງຂອງຜູ້ໃຊ້ ແລະພຶດຕິກໍາຕົວແບບໃນການຜະລິດ; ອອກແບບໃຫ້ເຂົາເຈົ້າອ້ອມຮອບ SLOs ຂອງທ່ານ [5].

  6. ການ​ຄຸ້ມ​ຄອງ​ແລະ​ຄ່າ​ໃຊ້​ຈ່າຍ : ຕໍ່​ການ​ຮ້ອງ​ຂໍ​ເສດ​ຖະ​ກິດ​, ງົບ​ປະ​ມານ​, ແລະ kill-switches ສໍາ​ລັບ​ການ​ເຮັດ​ວຽກ​ທີ່​ຫນີ​.


ຕາຕະລາງປຽບທຽບ: ເຄື່ອງມື & ຮູບແບບການປັບຂະ ໜາດ AI 🧰

ບໍ່ສະເຫມີພາບເລັກນ້ອຍກ່ຽວກັບຈຸດປະສົງ - ເພາະວ່າຊີວິດທີ່ແທ້ຈິງແມ່ນ.

ເຄື່ອງມື / ຮູບແບບ ຜູ້ຊົມ ລາຄາປະມານ ເປັນຫຍັງມັນຈຶ່ງໃຊ້ໄດ້ ບັນທຶກ
Kubernetes + HPA ທີມງານແພລດຟອມ ແຫຼ່ງເປີດ + infra ເກັດຝັກຕາມລວງນອນເປັນຮວງຕັ້ງແຈບ ການວັດແທກແບບກຳນົດເອງແມ່ນຄຳ [1]
NVIDIA Triton Inference SRE ເຄື່ອງແມ່ຂ່າຍຟຣີ; GPU $ batching ແບບໄດນາມິກ ຊ່ວຍເພີ່ມການຖ່າຍທອດ ຕັ້ງຄ່າຜ່ານ config.pbtxt [2]
vLLM (PagedAttention) ທີມງານ LLM ໂອເພນຊອສ ອັດຕາການສົ່ງຜ່ານສູງຜ່ານໜ້າ KV-cache ທີ່ມີປະສິດທິພາບ ທີ່​ຍິ່ງ​ໃຫຍ່​ສໍາ​ລັບ​ການ​ເຕືອນ​ຍາວ [3​]
ONNX Runtime / TensorRT Perf nerds ເຄື່ອງມືຟຣີ / ຜູ້ຂາຍ ການເພີ່ມປະສິດທິພາບລະດັບ Kernel ຫຼຸດຜ່ອນເວລາ latency ເສັ້ນທາງການສົ່ງອອກສາມາດ fiddly
ຮູບແບບ RAG ທີມ​ງານ App Infra + ດັດຊະນີ Offloads ຄວາມຮູ້ເພື່ອດຶງ; ປັບ​ຂະ​ຫນາດ​ດັດ​ຊະ​ນີ​ ທີ່ດີເລີດສໍາລັບຄວາມສົດ

Deep dive 1: ການຮັບໃຊ້ tricks ທີ່ຍ້າຍເຂັມ 🚀

  • Dynamic batching group call inference small in batches larger on the server, ເພີ່ມຂຶ້ນຢ່າງຫຼວງຫຼາຍການນໍາໃຊ້ GPU ໂດຍບໍ່ມີການປ່ຽນລູກຄ້າ [2].

  • Paged ເອົາ​ໃຈ​ໃສ່ ​ເຮັດ​ໃຫ້​ການ​ສົນ​ທະ​ນາ​ໄກ​ຫຼາຍ​ໃນ​ຄວາມ​ຊົງ​ຈໍາ​ໂດຍ​ການ​ຈັດ​ຫນ້າ KV cache​, ເຊິ່ງ​ປັບ​ປຸງ​ການ​ຜ່ານ​ພາຍ​ໃຕ້​ການ​ສອດ​ຄ່ອງ [3​]​.

  • ຮ້ອງຂໍການ coalescing & caching ສໍາລັບການ prompts ຄືກັນຫຼື embeddings ຫຼີກເວັ້ນການເຮັດວຽກຊ້ໍາກັນ.

  • ການຖອດລະຫັດແບບຄາດເດົາ ແລະການຖ່າຍທອດໂທເຄັນຫຼຸດຜ່ອນຄວາມລ່າຊ້າທີ່ຮັບຮູ້ໄດ້, ເຖິງແມ່ນວ່າໂມງຕິດຝາຈະເກືອບບໍ່ໄຫວ.


Deep dive 2: ປະສິດທິພາບລະດັບຕົວແບບ - ປະລິມານ, ກັ່ນ, ຕັດ 🧪

  • Quantization ຫຼຸດຜ່ອນຄວາມແມ່ນຍໍາຂອງພາລາມິເຕີ (ຕົວຢ່າງ: 8-bit / 4-bit) ເພື່ອຫົດຫນ່ວຍຄວາມຈໍາແລະເລັ່ງການ inference; ສະເຫມີປະເມີນຄຸນນະພາບຂອງວຽກງານຫຼັງຈາກການປ່ຽນແປງ.

  • ການຕົ້ມກັ່ນ ໂອນຄວາມຮູ້ຈາກຄູສອນໃຫຍ່ໄປຫານັກຮຽນຂະຫນາດນ້ອຍກວ່າຮາດແວທີ່ເຈົ້າມັກ.

  • ການຕັດໄມ້ທີ່ມີໂຄງສ້າງ ຕັດນ້ຳໜັກ/ຫົວທີ່ປະກອບສ່ວນໜ້ອຍທີ່ສຸດ.

ໃຫ້ຄວາມຊື່ສັດ, ມັນຄ້າຍຄືກັບການຫຼຸດກະເປົ໋າຂອງເຈົ້າລົງເລັກນ້ອຍ, ແລ້ວຢືນຢັນວ່າເກີບຂອງເຈົ້າຍັງເຫມາະ. somehow ມັນເຮັດ, ສ່ວນຫຼາຍແມ່ນ.


Deep dive 3: ຂໍ້ມູນ ແລະ ການເຝິກຊ້ອມການປັບຂະໜາດໂດຍບໍ່ມີນໍ້າຕາ🧵

  • ໃຊ້ການຝຶກອົບຮົມແບບແຈກຢາຍທີ່ເຊື່ອງພາກສ່ວນຂອງຂະໜານຂະໜານເພື່ອໃຫ້ທ່ານສາມາດຈັດສົ່ງການທົດລອງໄດ້ໄວຂຶ້ນ.

  • ຈື່ຈໍາ ກົດຫມາຍການຂະຫຍາຍ : ຈັດສັນງົບປະມານໃນທົ່ວຂະຫນາດຂອງຕົວແບບແລະ tokens ຄວາມຄິດ; ການ​ຂະ​ຫຍາຍ​ທັງ​ສອງ​ຮ່ວມ​ກັນ​ແມ່ນ​ປະ​ສິດ​ທິ​ພາບ​ການ​ຄິດ​ໄລ່ [4​]​.

  • ຫຼັກສູດ ແລະຄຸນນະພາບຂໍ້ມູນ ມັກຈະແກວ່ງຜົນອອກມາຫຼາຍກວ່າຄົນຍອມຮັບ. ບາງຄັ້ງຂໍ້ມູນທີ່ດີກວ່າຈະຕີຂໍ້ມູນຫຼາຍກວ່າ - ເຖິງແມ່ນວ່າທ່ານໄດ້ສັ່ງໃຫ້ກຸ່ມໃຫຍ່ກວ່າແລ້ວ.


Deep dive 4: RAG ເປັນຍຸດທະສາດການຂະຫຍາຍຄວາມຮູ້ 🧭

ແທນທີ່ຈະ retraining ຮູບແບບເພື່ອໃຫ້ທັນກັບການປ່ຽນແປງຂໍ້ເທັດຈິງ, RAG ເພີ່ມຂັ້ນຕອນການດຶງຂໍ້ມູນໃນ inference. ທ່ານສາມາດຮັກສາຕົວແບບຄົງທີ່ແລະຂະຫນາດ ດັດຊະນີ ແລະ retrievers ຍ້ອນວ່າ corpus ຂອງທ່ານເຕີບໂຕ. Elegant- ແລະມັກຈະລາຄາຖືກກວ່າ retrains ເຕັມສໍາລັບກິດທີ່ມີຄວາມຮູ້.


ການສັງເກດທີ່ຈ່າຍໃຫ້ກັບຕົວມັນເອງ 🕵️‍♀️

ທ່ານບໍ່ສາມາດຂະຫຍາຍສິ່ງທີ່ເຈົ້າເບິ່ງບໍ່ເຫັນ. ສອງ​ສິ່ງ​ຈໍາ​ເປັນ​:

  • Metrics ສໍາລັບການວາງແຜນຄວາມອາດສາມາດແລະການປັບຂະຫນາດອັດຕະໂນມັດ: ເປີເຊັນການເລັ່ງເວລາ, ຄວາມເລິກແຖວ, ຫນ່ວຍຄວາມຈໍາ GPU, ຂະຫນາດ batch, token throughput, cache hit rates.

  • ການຕິດຕາມ ທີ່ປະຕິບັດຕາມຄໍາຮ້ອງຂໍດຽວໃນທົ່ວ gateway → retrieval → model → post-processing. ຜູກສິ່ງທີ່ທ່ານວັດແທກກັບ SLOs ຂອງທ່ານເພື່ອ dashboards ຕອບຄໍາຖາມພາຍໃນນາທີ [5].

ເມື່ອ dashboards ຕອບຄໍາຖາມພາຍໃນຫນຶ່ງນາທີ, ປະຊາຊົນໃຊ້ພວກມັນ. ເມື່ອພວກເຂົາເຮັດບໍ່ໄດ້, ພວກເຂົາສົມມຸດວ່າພວກເຂົາເຮັດ.


ຮົ້ວປ້ອງກັນຄວາມຫນ້າເຊື່ອຖື: SLOs, ງົບປະມານຄວາມຜິດພາດ, ການເປີດຕົວຢ່າງມີສະຕິ 🧯

  • ກໍານົດ SLOs ສໍາລັບຄວາມລ່າຊ້າ, ຄວາມພ້ອມ, ແລະຄຸນນະພາບຜົນໄດ້ຮັບ, ແລະນໍາໃຊ້ ງົບປະມານຄວາມຜິດພາດ ເພື່ອດຸ່ນດ່ຽງຄວາມຫນ້າເຊື່ອຖືກັບຄວາມໄວການປ່ອຍ [5].

  • ນຳໃຊ້ຢູ່ເບື້ອງຫຼັງການແບ່ງການສັນຈອນ, ເຮັດສວນສັດ, ແລະ ດຳ ເນີນການທົດສອບເງົາກ່ອນການຕັດຜ່ານທົ່ວໂລກ. ອະນາຄົດຂອງເຈົ້າເອງຈະສົ່ງອາຫານຫວ່າງ.


ຄຸ້ມຄ່າບໍ່ແພງ 💸

ຂະຫນາດບໍ່ພຽງແຕ່ດ້ານວິຊາການ; ມັນເປັນທາງດ້ານການເງິນ. ປະຕິບັດຊົ່ວໂມງ GPU ແລະໂທເຄັນເປັນຊັບພະຍາກອນອັນດັບໜຶ່ງດ້ວຍຫົວໜ່ວຍເສດຖະກິດ (ຄ່າໃຊ້ຈ່າຍຕໍ່ 1k tokens, ຕໍ່ການຝັງ, ຕໍ່ການສອບຖາມ vector). ເພີ່ມງົບປະມານ ແລະການແຈ້ງເຕືອນ; ສະເຫຼີມສະຫຼອງການລຶບສິ່ງຕ່າງໆ.


ແຜນທີ່ເສັ້ນທາງທີ່ງ່າຍດາຍຕໍ່ກັບ AI Scalability 🗺️

  1. ເລີ່ມຕົ້ນດ້ວຍ SLOs ສໍາລັບ p95 latency, ມີ, ແລະຄວາມຖືກຕ້ອງຂອງວຽກງານ; ການວັດແທກສາຍ/ຮອຍໃນມື້ໜຶ່ງ [5].

  2. ເລືອກຊຸດການໃຫ້ບໍລິການ ທີ່ຮອງຮັບ batching ແລະ batching ຢ່າງຕໍ່ເນື່ອງ: Triton, vLLM, ຫຼືທຽບເທົ່າ [2][3].

  3. ເພີ່ມປະສິດທິພາບຂອງຕົວແບບ : quantize ບ່ອນທີ່ມັນຊ່ວຍ, ເປີດໃຊ້ແກ່ນໄວ, ຫຼືກັ່ນສໍາລັບວຽກງານສະເພາະ; ກວດສອບຄຸນນະພາບດ້ວຍ evals ທີ່ແທ້ຈິງ.

  4. ສະຖາປະນິກສໍາລັບຄວາມຍືດຫຍຸ່ນ : Kubernetes HPA ທີ່ມີສັນຍານທີ່ຖືກຕ້ອງ, ເສັ້ນທາງການອ່ານ / ຂຽນແຍກຕ່າງຫາກ, ແລະ replicas inferences stateless [1].

  5. ຮັບຮອງເອົາການດຶງຂໍ້ມູນ ເມື່ອຄວາມສົດມີຄວາມສຳຄັນເພື່ອໃຫ້ເຈົ້າປັບຂະໜາດດັດຊະນີຂອງເຈົ້າແທນການຝຶກຄືນທຸກໆອາທິດ.

  6. ປິດວົງດ້ວຍຄ່າໃຊ້ຈ່າຍ : ສ້າງຫົວໜ່ວຍເສດຖະກິດ ແລະ ການທົບທວນຄືນປະຈໍາອາທິດ.


ຮູບແບບຄວາມລົ້ມເຫລວທົ່ວໄປ & ການແກ້ໄຂດ່ວນ🧨

  • GPU ຢູ່ທີ່ 30% ການນໍາໃຊ້ໃນຂະນະທີ່ latency ບໍ່ດີ

    • ເປີດ batch dynamic , ຍົກ batch caps ລະມັດລະວັງ, ແລະ recheck server concurrency [2].

  • ຊ່ອງຫວ່າງຫຼຸດລົງດ້ວຍການກະຕຸ້ນເຕືອນທີ່ຍາວນານ

    • ໃຊ້ການຮັບໃຊ້ທີ່ສະຫນັບສະຫນູນ ຄວາມສົນໃຈໃນຫນ້າ ແລະປັບລໍາດັບສູງສຸດ concurrent [3].

  • ຕົວຂະຫຍາຍອັດຕະໂນມັດ

    • metrics ກ້ຽງກັບປ່ອງຢ້ຽມ; ຂະໜາດຄວາມເລິກຂອງແຖວ ຫຼືໂທເຄັນແບບກຳນົດເອງຕໍ່ວິນາທີແທນ CPU ບໍລິສຸດ [1].

  • ຄ່າໃຊ້ຈ່າຍຈະລະເບີດຫຼັງຈາກການເປີດຕົວ

    • ຕື່ມການວັດແທກຄ່າໃຊ້ຈ່າຍໃນລະດັບຄໍາຮ້ອງຂໍ, ເປີດໃຊ້ປະລິມານທີ່ປອດໄພ, cache top queries, ແລະອັດຕາຈໍາກັດຜູ້ກະທໍາຜິດທີ່ຮ້າຍແຮງທີ່ສຸດ.


AI Scalability playbook: ລາຍການກວດສອບດ່ວນ ✅

  • SLOs ແລະຄວາມຜິດພາດງົບປະມານມີຢູ່ແລະເຫັນໄດ້

  • Metrics: latency, tps, GPU mem, batch size, token/s, cache hit

  • ຕິດຕາມຈາກ ingress ໄປຫາຕົວແບບໄປຫາ post-proc

  • ການໃຫ້ບໍລິການ: batching on, concurrency tuned, cache ອົບອຸ່ນ

  • ຮູບແບບ: ປະລິມານຫຼືກັ່ນທີ່ມັນຊ່ວຍ

  • Infra: HPA ຕັ້ງຄ່າດ້ວຍສັນຍານທີ່ຖືກຕ້ອງ

  • ເສັ້ນທາງການດຶງຂໍ້ມູນເພື່ອຄວາມສົດຊື່ນດ້ານຄວາມຮູ້

  • ຫົວໜ່ວຍເສດຖະສາດທົບທວນເລື້ອຍໆ


ດົນເກີນໄປບໍ່ໄດ້ອ່ານມັນແລະຂໍ້ສັງເກດສຸດທ້າຍ 🧩

AI Scalability ບໍ່ແມ່ນຄຸນສົມບັດດຽວ ຫຼືສະວິດລັບ. ມັນເປັນພາສາຮູບແບບ: ການປັບຂະຫນາດຕາມແນວນອນກັບ autoscalers, batching ຂ້າງເຊີບເວີສໍາລັບການນໍາໃຊ້, ປະສິດທິພາບລະດັບຕົວແບບ, ດຶງຂໍ້ມູນເພື່ອ offload ຄວາມຮູ້, ແລະການສັງເກດການທີ່ເຮັດໃຫ້ rollouts ຫນ້າເບື່ອ. Sprinkle ໃນ SLOs ແລະການອະນາໄມຄ່າໃຊ້ຈ່າຍເພື່ອຮັກສາທຸກຄົນສອດຄ່ອງ. ເຈົ້າຈະບໍ່ໄດ້ຮັບມັນສົມບູນແບບໃນຄັ້ງທຳອິດທີ່ບໍ່ມີໃຜເຮັດ - ແຕ່ດ້ວຍການຕອບຮັບທີ່ຖືກຕ້ອງ, ລະບົບຂອງເຈົ້າຈະເຕີບໃຫຍ່ຂຶ້ນໂດຍບໍ່ຮູ້ສຶກເຖິງເຫື່ອເຢັນໃນເວລາ 2 ໂມງເຊົ້າ 😅


ເອກະສານອ້າງອີງ

[1] Kubernetes Docs - Horizontal Pod Autoscaling - ອ່ານຕື່ມ
[2] NVIDIA Triton - Dynamic Batcher - ອ່ານຕື່ມ
[3] vLLM Docs - Paged Attention - ອ່ານຕື່ມ
[4​] Hoffmann et al​. (2022) - Training Compute-Optimal Large Language Models - ອ່ານຕື່ມ
[5] Google SRE Workbook - ການປະຕິບັດ SLOs - ອ່ານຕື່ມ

ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ