AI Scalability ແມ່ນຫຍັງ?

ຖ້າທ່ານເຄີຍເບິ່ງແບບຈໍາລອງການສາທິດ crush ການທົດສອບຂະຫນາດນ້ອຍແລະຫຼັງຈາກນັ້ນ freeze ເວລາທີ່ຜູ້ໃຊ້ທີ່ແທ້ຈິງສະແດງໃຫ້ເຫັນເຖິງ, ທ່ານໄດ້ພົບກັບຄົນຮ້າຍ: scaling. AI ແມ່ນຄວາມໂລບມາກສໍາລັບຂໍ້ມູນ, ຄອມພິວເຕີ້, ຫນ່ວຍຄວາມຈໍາ, ແບນວິດ - ແລະແປກ, ຄວາມສົນໃຈ. ດັ່ງນັ້ນ, AI Scalability ແມ່ນຫຍັງ, ແທ້ຈິງແລ້ວ, ແລະເຈົ້າຈະໄດ້ຮັບມັນໄດ້ແນວໃດໂດຍບໍ່ມີການຂຽນຄືນໃຫມ່ທຸກໆອາທິດ?

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 ອະຄະຕິ AI ແມ່ນຫຍັງ ອະທິບາຍງ່າຍໆ
ຮຽນຮູ້ວ່າຄວາມລຳອຽງທີ່ເຊື່ອງໄວ້ເຮັດໃຫ້ການຕັດສິນໃຈຂອງ AI ແລະຜົນໄດ້ຮັບຂອງຕົວແບບແນວໃດ.

🔗 ຄູ່ມືເລີ່ມຕົ້ນ: ປັນຍາປະດິດແມ່ນຫຍັງ
ພາບລວມຂອງ AI, ແນວຄວາມຄິດຫຼັກ, ປະເພດ, ແລະຄໍາຮ້ອງສະຫມັກປະຈໍາວັນ.

🔗 AI ທີ່ສາມາດອະທິບາຍໄດ້ແມ່ນຫຍັງ ແລະເປັນຫຍັງມັນຈຶ່ງສຳຄັນ
ຄົ້ນພົບວິທີທີ່ AI ທີ່ສາມາດອະທິບາຍໄດ້ເພີ່ມຄວາມໂປ່ງໃສ, ຄວາມໄວ້ວາງໃຈ, ແລະການປະຕິບັດຕາມກົດລະບຽບ.

🔗 AI ຄາດຄະເນແມ່ນຫຍັງແລະວິທີການເຮັດວຽກ
ເຂົ້າໃຈ AI ຄາດຄະເນ, ກໍລະນີການນໍາໃຊ້ທົ່ວໄປ, ຜົນປະໂຫຍດ, ແລະຂໍ້ຈໍາກັດ.

AI Scalability ແມ່ນຫຍັງ? 📈

AI Scalability ແມ່ນຄວາມສາມາດຂອງລະບົບ AI ເພື່ອຈັດການຂໍ້ມູນ, ການຮ້ອງຂໍ, ຜູ້ໃຊ້, ແລະກໍລະນີການນໍາໃຊ້ໃນຂະນະທີ່ຮັກສາການປະຕິບັດ, ຄວາມຫນ້າເຊື່ອຖື, ແລະຄ່າໃຊ້ຈ່າຍພາຍໃນຂອບເຂດທີ່ຍອມຮັບ. ບໍ່ພຽງແຕ່ເຊີບເວີທີ່ໃຫຍ່ກວ່າເທົ່ານັ້ນ - ສະຖາປັດຕະຍະກຳທີ່ສະຫຼາດກວ່າທີ່ຮັກສາເວລາແບັກທີເຣຍຕ່ຳ, ກະແສໄຟຟ້າສູງ ແລະຄຸນນະພາບທີ່ສອດຄ່ອງກັນເມື່ອເສັ້ນໂຄ້ງເພີ່ມຂຶ້ນ. ຄິດວ່າໂຄງສ້າງພື້ນຖານທີ່ຍືດຫຍຸ່ນ, ຮູບແບບທີ່ເຫມາະສົມ, ແລະການສັງເກດການທີ່ຕົວຈິງແລ້ວບອກທ່ານວ່າໄຟໄຫມ້ແມ່ນຫຍັງ.

ສິ່ງທີ່ເຮັດໃຫ້ AI Scalability ທີ່ດີ ✅

ເມື່ອ AI Scalability ເຮັດໄດ້ດີ, ທ່ານໄດ້ຮັບ:

latency ທີ່ຄາດເດົາໄດ້ ພາຍໃຕ້ການໂຫຼດ spiky ຫຼືແບບຍືນຍົງ 🙂
ຂໍ້ມູນຜ່ານທີ່ເຕີບໂຕ ປະມານອັດຕາສ່ວນຂອງຮາດແວ ຫຼືເຄື່ອງຈຳລອງທີ່ເພີ່ມເຂົ້າມາ
ປະສິດທິພາບຄ່າໃຊ້ຈ່າຍ ທີ່ບໍ່ປູມເປົ້າຕໍ່ການຮ້ອງຂໍ
ຄວາມໝັ້ນຄົງດ້ານຄຸນນະພາບ ເນື່ອງຈາກວັດສະດຸປ້ອນມີຄວາມຫຼາກຫຼາຍ ແລະປະລິມານເພີ່ມຂຶ້ນ
ການເຮັດວຽກສະຫງົບ ຍ້ອນການປັບຂະໜາດອັດຕະໂນມັດ, ການຕິດຕາມ, ແລະ SLOs ທີ່ປອດໄພ

ພາຍໃຕ້ຝາອັດປາກມົດລູກນີ້ປົກກະຕິແລ້ວຈະຜະສົມການປັບຂະຫນາດຕາມລວງນອນ, batching, caching, quantization, ການປະຕິບັດທີ່ເຂັ້ມແຂງ, ແລະນະໂຍບາຍການປ່ອຍຄວາມຄິດທີ່ກ່ຽວຂ້ອງກັບງົບປະມານຄວາມຜິດພາດ [5].

AI Scalability vs Performance vs ຄວາມອາດສາມາດ 🧠

ການປະຕິບັດ ແມ່ນໄວເທົ່າໃດການຮ້ອງຂໍດຽວສໍາເລັດໃນການໂດດດ່ຽວ.
ຄວາມອາດສາມາດ ແມ່ນຈໍານວນຄໍາຮ້ອງຂໍເຫຼົ່ານັ້ນທີ່ທ່ານສາມາດຈັດການໃນເວລາດຽວກັນ.
AI Scalability ແມ່ນການເພີ່ມຊັບພະຍາກອນ ຫຼືການໃຊ້ເທັກນິກທີ່ສະຫຼາດກວ່າຈະເພີ່ມຂີດຄວາມສາມາດ ແລະຮັກສາປະສິດທິພາບທີ່ສອດຄ່ອງ - ໂດຍບໍ່ເຮັດໃຫ້ໃບເກັບເງິນ ຫຼື pager ຂອງທ່ານອອກມາ.

ຄວາມແຕກຕ່າງເລັກນ້ອຍ, ຜົນສະທ້ອນອັນໃຫຍ່ຫຼວງ.

ເປັນຫຍັງຂະຫນາດຈຶ່ງເຮັດວຽກຢູ່ໃນ AI ທັງຫມົດ: ແນວຄວາມຄິດຂອງກົດຫມາຍຂະຫນາດ 📚

ຄວາມເຂົ້າໃຈທີ່ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນ ML ທີ່ທັນສະໄຫມແມ່ນວ່າການສູນເສຍຈະປັບປຸງໃນແບບທີ່ຄາດເດົາໄດ້ໃນຂະນະທີ່ທ່ານປັບ ຂະຫນາດຕົວແບບ, ຂໍ້ມູນ, ແລະຄອມພິວເຕີ້ ພາຍໃນເຫດຜົນ. ນອກຈາກນີ້ຍັງມີ ການດຸ່ນດ່ຽງການຄິດໄລ່ທີ່ດີທີ່ສຸດ ລະຫວ່າງຂະຫນາດຕົວແບບແລະ tokens ການຝຶກອົບຮົມ; ການຂະຫຍາຍຕົວທັງສອງຮ່ວມກັນ beats scaling ພຽງແຕ່ຫນຶ່ງ. ໃນທາງປະຕິບັດ, ແນວຄວາມຄິດເຫຼົ່ານີ້ແຈ້ງງົບປະມານການຝຶກອົບຮົມ, ການວາງແຜນຊຸດຂໍ້ມູນ, ແລະການຮັບໃຊ້ການຄ້າ [4].

ການແປພາສາດ່ວນ: ໃຫຍ່ກວ່າສາມາດດີກວ່າ, ແຕ່ວ່າພຽງແຕ່ເມື່ອທ່ານຂະຫນາດວັດສະດຸປ້ອນແລະຄິດໄລ່ອັດຕາສ່ວນ - ຖ້າບໍ່ດັ່ງນັ້ນ, ມັນຄ້າຍຄືກັບການວາງຢາງລົດໄຖນາໃສ່ລົດຖີບ. ມັນເບິ່ງຄືວ່າເຂັ້ມແຂງ, ໄປ nowhere.

Horizontal vs vertical: ສອງ levers scaling 🔩

ການປັບຂະໜາດຕາມແນວຕັ້ງ : ກ່ອງໃຫຍ່ກວ່າ, GPUs ອ່ອນກວ່າ, ໜ່ວຍຄວາມຈຳຫຼາຍ. ງ່າຍດາຍ, ບາງຄັ້ງລາຄາ. ດີສໍາລັບການຝຶກອົບຮົມໂຫນດດຽວ, ການຊີ້ບອກເວລາ latency ຕ່ໍາ, ຫຼືໃນເວລາທີ່ຕົວແບບຂອງທ່ານປະຕິເສດທີ່ຈະ shard ງາມ.
ການຂະຫຍາຍອອກຕາມລວງນອນ : replicas ຫຼາຍ. ໃຊ້ໄດ້ດີທີ່ສຸດກັບ ຕົວປັບຂະໜາດອັດຕະໂນມັດ ທີ່ເພີ່ມ ຫຼືລຶບພອດໂດຍອີງໃສ່ CPU/GPU ຫຼືຕົວວັດແທກແອັບທີ່ກຳນົດເອງ. ໃນ Kubernetes, HorizontalPodAutoscaler scales pods ເພື່ອຕອບສະຫນອງຄວາມຕ້ອງການ - ການຄວບຄຸມຝູງຊົນພື້ນຖານຂອງທ່ານສໍາລັບການຈະລາຈອນເພີ່ມຂຶ້ນ [1].

Anecdote (composite): ໃນລະຫວ່າງການເປີດຕົວທີ່ມີຄວາມລະອຽດສູງ, ພຽງແຕ່ເປີດການບີບອັດດ້ານເຊີຟເວີແລະປ່ອຍໃຫ້ຕົວຂະຫຍາຍອັດຕະໂນມັດປະຕິກິລິຍາກັບຄວາມເລິກຂອງແຖວທີ່ຄົງທີ່ p95 ໂດຍບໍ່ມີການປ່ຽນລູກຄ້າໃດໆ. ໄຊຊະນະທີ່ບໍ່ປ່ຽນແປງແມ່ນຍັງຊະນະ.

ການຈັດເຕັມຂອງ AI Scalability 🥞

ຊັ້ນຂໍ້ມູນ : ເກັບຮັກສາວັດຖຸໄວ, ດັດສະນີ vector, ແລະ streaming ingestion ທີ່ຈະບໍ່ກະຕຸ້ນຄູຝຶກຂອງທ່ານ.
ຊັ້ນການຝຶກອົບຮົມ : ກອບການແຈກຢາຍແລະຕາຕະລາງຕາຕະລາງທີ່ຈັດການກັບຂໍ້ມູນ / ຕົວແບບຂະຫນານ, ການກວດສອບ, ພະຍາຍາມໃຫມ່.
ຊັ້ນຂໍ້ມູນການໃຫ້ບໍລິການ : ເວລາແລ່ນທີ່ປັບໃຫ້ເໝາະສົມ, ການຈັດກຸ່ມແບບໄດນາມິກ , ການຈັດໜ້າຄວາມສົນໃຈ ສຳລັບ LLMs, ການເກັບຂໍ້ມູນ, ການຖ່າຍທອດໂທເຄັນ. Triton ແລະ vLLM ແມ່ນ heroes ເລື້ອຍໆຢູ່ທີ່ນີ້ [2][3].
Orchestration : Kubernetes ສໍາລັບ elasticity ຜ່ານ HPA ຫຼື custom autoscalers [1].
ການສັງເກດການ : ຮ່ອງຮອຍ, ວັດແທກ ແລະບັນທຶກທີ່ຕິດຕາມການເດີນທາງຂອງຜູ້ໃຊ້ ແລະພຶດຕິກໍາຕົວແບບໃນການຜະລິດ; ອອກແບບໃຫ້ເຂົາເຈົ້າອ້ອມຮອບ SLOs ຂອງທ່ານ [5].
ການຄຸ້ມຄອງແລະຄ່າໃຊ້ຈ່າຍ : ຕໍ່ການຮ້ອງຂໍເສດຖະກິດ, ງົບປະມານ, ແລະ kill-switches ສໍາລັບການເຮັດວຽກທີ່ຫນີ.

ຕາຕະລາງປຽບທຽບ: ເຄື່ອງມື & ຮູບແບບການປັບຂະ ໜາດ AI 🧰

ບໍ່ສະເຫມີພາບເລັກນ້ອຍກ່ຽວກັບຈຸດປະສົງ - ເພາະວ່າຊີວິດທີ່ແທ້ຈິງແມ່ນ.

ເຄື່ອງມື / ຮູບແບບ	ຜູ້ຊົມ	ລາຄາປະມານ	ເປັນຫຍັງມັນຈຶ່ງໃຊ້ໄດ້	ບັນທຶກ
Kubernetes + HPA	ທີມງານແພລດຟອມ	ແຫຼ່ງເປີດ + infra	ເກັດຝັກຕາມລວງນອນເປັນຮວງຕັ້ງແຈບ	ການວັດແທກແບບກຳນົດເອງແມ່ນຄຳ [1]
NVIDIA Triton	Inference SRE	ເຄື່ອງແມ່ຂ່າຍຟຣີ; GPU $	batching ແບບໄດນາມິກ ຊ່ວຍເພີ່ມການຖ່າຍທອດ	ຕັ້ງຄ່າຜ່ານ `config.pbtxt` [2]
vLLM (PagedAttention)	ທີມງານ LLM	ໂອເພນຊອສ	ອັດຕາການສົ່ງຜ່ານສູງຜ່ານໜ້າ KV-cache ທີ່ມີປະສິດທິພາບ	ທີ່ຍິ່ງໃຫຍ່ສໍາລັບການເຕືອນຍາວ [3]
ONNX Runtime / TensorRT	Perf nerds	ເຄື່ອງມືຟຣີ / ຜູ້ຂາຍ	ການເພີ່ມປະສິດທິພາບລະດັບ Kernel ຫຼຸດຜ່ອນເວລາ latency	ເສັ້ນທາງການສົ່ງອອກສາມາດ fiddly
ຮູບແບບ RAG	ທີມງານ App	Infra + ດັດຊະນີ	Offloads ຄວາມຮູ້ເພື່ອດຶງ; ປັບຂະຫນາດດັດຊະນີ	ທີ່ດີເລີດສໍາລັບຄວາມສົດ

Deep dive 1: ການຮັບໃຊ້ tricks ທີ່ຍ້າຍເຂັມ 🚀

Dynamic batching group call inference small in batches larger on the server, ເພີ່ມຂຶ້ນຢ່າງຫຼວງຫຼາຍການນໍາໃຊ້ GPU ໂດຍບໍ່ມີການປ່ຽນລູກຄ້າ [2].
Paged ເອົາໃຈໃສ່ ເຮັດໃຫ້ການສົນທະນາໄກຫຼາຍໃນຄວາມຊົງຈໍາໂດຍການຈັດຫນ້າ KV cache, ເຊິ່ງປັບປຸງການຜ່ານພາຍໃຕ້ການສອດຄ່ອງ [3].
ຮ້ອງຂໍການ coalescing & caching ສໍາລັບການ prompts ຄືກັນຫຼື embeddings ຫຼີກເວັ້ນການເຮັດວຽກຊ້ໍາກັນ.
ການຖອດລະຫັດແບບຄາດເດົາ ແລະການຖ່າຍທອດໂທເຄັນຫຼຸດຜ່ອນຄວາມລ່າຊ້າທີ່ຮັບຮູ້ໄດ້, ເຖິງແມ່ນວ່າໂມງຕິດຝາຈະເກືອບບໍ່ໄຫວ.

Deep dive 2: ປະສິດທິພາບລະດັບຕົວແບບ - ປະລິມານ, ກັ່ນ, ຕັດ 🧪

Quantization ຫຼຸດຜ່ອນຄວາມແມ່ນຍໍາຂອງພາລາມິເຕີ (ຕົວຢ່າງ: 8-bit / 4-bit) ເພື່ອຫົດຫນ່ວຍຄວາມຈໍາແລະເລັ່ງການ inference; ສະເຫມີປະເມີນຄຸນນະພາບຂອງວຽກງານຫຼັງຈາກການປ່ຽນແປງ.
ການຕົ້ມກັ່ນ ໂອນຄວາມຮູ້ຈາກຄູສອນໃຫຍ່ໄປຫານັກຮຽນຂະຫນາດນ້ອຍກວ່າຮາດແວທີ່ເຈົ້າມັກ.
ການຕັດໄມ້ທີ່ມີໂຄງສ້າງ ຕັດນ້ຳໜັກ/ຫົວທີ່ປະກອບສ່ວນໜ້ອຍທີ່ສຸດ.

ໃຫ້ຄວາມຊື່ສັດ, ມັນຄ້າຍຄືກັບການຫຼຸດກະເປົ໋າຂອງເຈົ້າລົງເລັກນ້ອຍ, ແລ້ວຢືນຢັນວ່າເກີບຂອງເຈົ້າຍັງເຫມາະ. somehow ມັນເຮັດ, ສ່ວນຫຼາຍແມ່ນ.

Deep dive 3: ຂໍ້ມູນ ແລະ ການເຝິກຊ້ອມການປັບຂະໜາດໂດຍບໍ່ມີນໍ້າຕາ🧵

ໃຊ້ການຝຶກອົບຮົມແບບແຈກຢາຍທີ່ເຊື່ອງພາກສ່ວນຂອງຂະໜານຂະໜານເພື່ອໃຫ້ທ່ານສາມາດຈັດສົ່ງການທົດລອງໄດ້ໄວຂຶ້ນ.
ຈື່ຈໍາ ກົດຫມາຍການຂະຫຍາຍ : ຈັດສັນງົບປະມານໃນທົ່ວຂະຫນາດຂອງຕົວແບບແລະ tokens ຄວາມຄິດ; ການຂະຫຍາຍທັງສອງຮ່ວມກັນແມ່ນປະສິດທິພາບການຄິດໄລ່ [4].
ຫຼັກສູດ ແລະຄຸນນະພາບຂໍ້ມູນ ມັກຈະແກວ່ງຜົນອອກມາຫຼາຍກວ່າຄົນຍອມຮັບ. ບາງຄັ້ງຂໍ້ມູນທີ່ດີກວ່າຈະຕີຂໍ້ມູນຫຼາຍກວ່າ - ເຖິງແມ່ນວ່າທ່ານໄດ້ສັ່ງໃຫ້ກຸ່ມໃຫຍ່ກວ່າແລ້ວ.

Deep dive 4: RAG ເປັນຍຸດທະສາດການຂະຫຍາຍຄວາມຮູ້ 🧭

ແທນທີ່ຈະ retraining ຮູບແບບເພື່ອໃຫ້ທັນກັບການປ່ຽນແປງຂໍ້ເທັດຈິງ, RAG ເພີ່ມຂັ້ນຕອນການດຶງຂໍ້ມູນໃນ inference. ທ່ານສາມາດຮັກສາຕົວແບບຄົງທີ່ແລະຂະຫນາດ ດັດຊະນີ ແລະ retrievers ຍ້ອນວ່າ corpus ຂອງທ່ານເຕີບໂຕ. Elegant- ແລະມັກຈະລາຄາຖືກກວ່າ retrains ເຕັມສໍາລັບກິດທີ່ມີຄວາມຮູ້.

ການສັງເກດທີ່ຈ່າຍໃຫ້ກັບຕົວມັນເອງ 🕵️‍♀️

ທ່ານບໍ່ສາມາດຂະຫຍາຍສິ່ງທີ່ເຈົ້າເບິ່ງບໍ່ເຫັນ. ສອງສິ່ງຈໍາເປັນ:

Metrics ສໍາລັບການວາງແຜນຄວາມອາດສາມາດແລະການປັບຂະຫນາດອັດຕະໂນມັດ: ເປີເຊັນການເລັ່ງເວລາ, ຄວາມເລິກແຖວ, ຫນ່ວຍຄວາມຈໍາ GPU, ຂະຫນາດ batch, token throughput, cache hit rates.
ການຕິດຕາມ ທີ່ປະຕິບັດຕາມຄໍາຮ້ອງຂໍດຽວໃນທົ່ວ gateway → retrieval → model → post-processing. ຜູກສິ່ງທີ່ທ່ານວັດແທກກັບ SLOs ຂອງທ່ານເພື່ອ dashboards ຕອບຄໍາຖາມພາຍໃນນາທີ [5].

ເມື່ອ dashboards ຕອບຄໍາຖາມພາຍໃນຫນຶ່ງນາທີ, ປະຊາຊົນໃຊ້ພວກມັນ. ເມື່ອພວກເຂົາເຮັດບໍ່ໄດ້, ພວກເຂົາສົມມຸດວ່າພວກເຂົາເຮັດ.

ຮົ້ວປ້ອງກັນຄວາມຫນ້າເຊື່ອຖື: SLOs, ງົບປະມານຄວາມຜິດພາດ, ການເປີດຕົວຢ່າງມີສະຕິ 🧯

ກໍານົດ SLOs ສໍາລັບຄວາມລ່າຊ້າ, ຄວາມພ້ອມ, ແລະຄຸນນະພາບຜົນໄດ້ຮັບ, ແລະນໍາໃຊ້ ງົບປະມານຄວາມຜິດພາດ ເພື່ອດຸ່ນດ່ຽງຄວາມຫນ້າເຊື່ອຖືກັບຄວາມໄວການປ່ອຍ [5].
ນຳໃຊ້ຢູ່ເບື້ອງຫຼັງການແບ່ງການສັນຈອນ, ເຮັດສວນສັດ, ແລະ ດຳ ເນີນການທົດສອບເງົາກ່ອນການຕັດຜ່ານທົ່ວໂລກ. ອະນາຄົດຂອງເຈົ້າເອງຈະສົ່ງອາຫານຫວ່າງ.

ຄຸ້ມຄ່າບໍ່ແພງ 💸

ຂະຫນາດບໍ່ພຽງແຕ່ດ້ານວິຊາການ; ມັນເປັນທາງດ້ານການເງິນ. ປະຕິບັດຊົ່ວໂມງ GPU ແລະໂທເຄັນເປັນຊັບພະຍາກອນອັນດັບໜຶ່ງດ້ວຍຫົວໜ່ວຍເສດຖະກິດ (ຄ່າໃຊ້ຈ່າຍຕໍ່ 1k tokens, ຕໍ່ການຝັງ, ຕໍ່ການສອບຖາມ vector). ເພີ່ມງົບປະມານ ແລະການແຈ້ງເຕືອນ; ສະເຫຼີມສະຫຼອງການລຶບສິ່ງຕ່າງໆ.

ແຜນທີ່ເສັ້ນທາງທີ່ງ່າຍດາຍຕໍ່ກັບ AI Scalability 🗺️

ເລີ່ມຕົ້ນດ້ວຍ SLOs ສໍາລັບ p95 latency, ມີ, ແລະຄວາມຖືກຕ້ອງຂອງວຽກງານ; ການວັດແທກສາຍ/ຮອຍໃນມື້ໜຶ່ງ [5].
ເລືອກຊຸດການໃຫ້ບໍລິການ ທີ່ຮອງຮັບ batching ແລະ batching ຢ່າງຕໍ່ເນື່ອງ: Triton, vLLM, ຫຼືທຽບເທົ່າ [2][3].
ເພີ່ມປະສິດທິພາບຂອງຕົວແບບ : quantize ບ່ອນທີ່ມັນຊ່ວຍ, ເປີດໃຊ້ແກ່ນໄວ, ຫຼືກັ່ນສໍາລັບວຽກງານສະເພາະ; ກວດສອບຄຸນນະພາບດ້ວຍ evals ທີ່ແທ້ຈິງ.
ສະຖາປະນິກສໍາລັບຄວາມຍືດຫຍຸ່ນ : Kubernetes HPA ທີ່ມີສັນຍານທີ່ຖືກຕ້ອງ, ເສັ້ນທາງການອ່ານ / ຂຽນແຍກຕ່າງຫາກ, ແລະ replicas inferences stateless [1].
ຮັບຮອງເອົາການດຶງຂໍ້ມູນ ເມື່ອຄວາມສົດມີຄວາມສຳຄັນເພື່ອໃຫ້ເຈົ້າປັບຂະໜາດດັດຊະນີຂອງເຈົ້າແທນການຝຶກຄືນທຸກໆອາທິດ.
ປິດວົງດ້ວຍຄ່າໃຊ້ຈ່າຍ : ສ້າງຫົວໜ່ວຍເສດຖະກິດ ແລະ ການທົບທວນຄືນປະຈໍາອາທິດ.

ຮູບແບບຄວາມລົ້ມເຫລວທົ່ວໄປ & ການແກ້ໄຂດ່ວນ🧨

GPU ຢູ່ທີ່ 30% ການນໍາໃຊ້ໃນຂະນະທີ່ latency ບໍ່ດີ
- ເປີດ batch dynamic , ຍົກ batch caps ລະມັດລະວັງ, ແລະ recheck server concurrency [2].
ຊ່ອງຫວ່າງຫຼຸດລົງດ້ວຍການກະຕຸ້ນເຕືອນທີ່ຍາວນານ
- ໃຊ້ການຮັບໃຊ້ທີ່ສະຫນັບສະຫນູນ ຄວາມສົນໃຈໃນຫນ້າ ແລະປັບລໍາດັບສູງສຸດ concurrent [3].
ຕົວຂະຫຍາຍອັດຕະໂນມັດ
- metrics ກ້ຽງກັບປ່ອງຢ້ຽມ; ຂະໜາດຄວາມເລິກຂອງແຖວ ຫຼືໂທເຄັນແບບກຳນົດເອງຕໍ່ວິນາທີແທນ CPU ບໍລິສຸດ [1].
ຄ່າໃຊ້ຈ່າຍຈະລະເບີດຫຼັງຈາກການເປີດຕົວ
- ຕື່ມການວັດແທກຄ່າໃຊ້ຈ່າຍໃນລະດັບຄໍາຮ້ອງຂໍ, ເປີດໃຊ້ປະລິມານທີ່ປອດໄພ, cache top queries, ແລະອັດຕາຈໍາກັດຜູ້ກະທໍາຜິດທີ່ຮ້າຍແຮງທີ່ສຸດ.

AI Scalability playbook: ລາຍການກວດສອບດ່ວນ ✅

SLOs ແລະຄວາມຜິດພາດງົບປະມານມີຢູ່ແລະເຫັນໄດ້
Metrics: latency, tps, GPU mem, batch size, token/s, cache hit
ຕິດຕາມຈາກ ingress ໄປຫາຕົວແບບໄປຫາ post-proc
ການໃຫ້ບໍລິການ: batching on, concurrency tuned, cache ອົບອຸ່ນ
ຮູບແບບ: ປະລິມານຫຼືກັ່ນທີ່ມັນຊ່ວຍ
Infra: HPA ຕັ້ງຄ່າດ້ວຍສັນຍານທີ່ຖືກຕ້ອງ
ເສັ້ນທາງການດຶງຂໍ້ມູນເພື່ອຄວາມສົດຊື່ນດ້ານຄວາມຮູ້
ຫົວໜ່ວຍເສດຖະສາດທົບທວນເລື້ອຍໆ

ດົນເກີນໄປບໍ່ໄດ້ອ່ານມັນແລະຂໍ້ສັງເກດສຸດທ້າຍ 🧩

AI Scalability ບໍ່ແມ່ນຄຸນສົມບັດດຽວ ຫຼືສະວິດລັບ. ມັນເປັນພາສາຮູບແບບ: ການປັບຂະຫນາດຕາມແນວນອນກັບ autoscalers, batching ຂ້າງເຊີບເວີສໍາລັບການນໍາໃຊ້, ປະສິດທິພາບລະດັບຕົວແບບ, ດຶງຂໍ້ມູນເພື່ອ offload ຄວາມຮູ້, ແລະການສັງເກດການທີ່ເຮັດໃຫ້ rollouts ຫນ້າເບື່ອ. Sprinkle ໃນ SLOs ແລະການອະນາໄມຄ່າໃຊ້ຈ່າຍເພື່ອຮັກສາທຸກຄົນສອດຄ່ອງ. ເຈົ້າຈະບໍ່ໄດ້ຮັບມັນສົມບູນແບບໃນຄັ້ງທຳອິດທີ່ບໍ່ມີໃຜເຮັດ - ແຕ່ດ້ວຍການຕອບຮັບທີ່ຖືກຕ້ອງ, ລະບົບຂອງເຈົ້າຈະເຕີບໃຫຍ່ຂຶ້ນໂດຍບໍ່ຮູ້ສຶກເຖິງເຫື່ອເຢັນໃນເວລາ 2 ໂມງເຊົ້າ 😅

ເອກະສານອ້າງອີງ

[1] Kubernetes Docs - Horizontal Pod Autoscaling - ອ່ານຕື່ມ
[2] NVIDIA Triton - Dynamic Batcher - ອ່ານຕື່ມ
[3] vLLM Docs - Paged Attention - ອ່ານຕື່ມ
[4] Hoffmann et al. (2022) - Training Compute-Optimal Large Language Models - ອ່ານຕື່ມ
[5] Google SRE Workbook - ການປະຕິບັດ SLOs - ອ່ານຕື່ມ

ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ

ປະເທດ/ພາກພື້ນ