AI ບໍ່ແມ່ນພຽງແຕ່ຮູບແບບທີ່ໂດດເດັ່ນ ຫຼື ຜູ້ຊ່ວຍເວົ້າທີ່ລອກລຽນແບບຄົນ. ຢູ່ເບື້ອງຫຼັງທັງໝົດນັ້ນ, ມີຂໍ້ມູນຫຼາຍຫຼວງ - ບາງຄັ້ງກໍ່ເປັນມະຫາສະໝຸດ -. ແລະ ແທ້ໆແລ້ວ, ການເກັບຮັກສາຂໍ້ມູນນັ້ນບໍ? ນັ້ນແມ່ນບ່ອນທີ່ສິ່ງຕ່າງໆມັກຈະວຸ້ນວາຍ. ບໍ່ວ່າທ່ານຈະເວົ້າເຖິງທໍ່ສົ່ງການຮັບຮູ້ຮູບພາບ ຫຼື ການຝຶກອົບຮົມຮູບແບບພາສາຍັກໃຫຍ່, ຄວາມຕ້ອງການດ້ານການເກັບຮັກສາຂໍ້ມູນສຳລັບ AI ສາມາດປ່ຽນແປງອອກຈາກການຄວບຄຸມໄດ້ໄວຖ້າທ່ານບໍ່ຄິດຢ່າງລະອຽດ. ໃຫ້ພວກເຮົາແຍກແຍະວ່າເປັນຫຍັງການເກັບຮັກສາຈຶ່ງເປັນສັດຮ້າຍ, ມີທາງເລືອກຫຍັງແດ່, ແລະ ທ່ານສາມາດຈັດການຄ່າໃຊ້ຈ່າຍ, ຄວາມໄວ, ແລະ ຂະໜາດໄດ້ແນວໃດໂດຍບໍ່ຕ້ອງໃຊ້ພະລັງງານຫຼາຍເກີນໄປ.
ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:
🔗 ວິທະຍາສາດຂໍ້ມູນ ແລະ ປັນຍາປະດິດ: ອະນາຄົດຂອງນະວັດຕະກຳ
ສຳຫຼວດວິທີທີ່ AI ແລະວິທະຍາສາດຂໍ້ມູນຂັບເຄື່ອນນະວັດຕະກໍາທີ່ທັນສະໄໝ.
🔗 ປັນຍາປະດິດຂອງແຫຼວ: ອະນາຄົດຂອງ AI ແລະຂໍ້ມູນແບບກະຈາຍອຳນາດ
ການພິຈາລະນາເບິ່ງຂໍ້ມູນ AI ແບບກະຈາຍອຳນາດ ແລະ ນະວັດຕະກຳທີ່ພົ້ນເດັ່ນຂຶ້ນມາ.
🔗 ການຈັດການຂໍ້ມູນສຳລັບເຄື່ອງມື AI ທີ່ທ່ານຄວນພິຈາລະນາ
ຍຸດທະສາດຫຼັກເພື່ອປັບປຸງການເກັບຮັກສາ ແລະ ປະສິດທິພາບຂໍ້ມູນ AI.
🔗 ເຄື່ອງມື AI ທີ່ດີທີ່ສຸດສຳລັບນັກວິເຄາະຂໍ້ມູນ: ເສີມຂະຫຍາຍການຕັດສິນໃຈວິເຄາະ
ເຄື່ອງມື AI ຊັ້ນນໍາທີ່ຊ່ວຍເພີ່ມການວິເຄາະຂໍ້ມູນ ແລະ ການຕັດສິນໃຈ.
ສະນັ້ນ... ສິ່ງໃດທີ່ເຮັດໃຫ້ການເກັບຮັກສາຂໍ້ມູນ AI ມີປະໂຫຍດ? ✅
ມັນບໍ່ພຽງແຕ່ "ເທຣາໄບຕ໌ຫຼາຍຂຶ້ນ". ບ່ອນເກັບຂໍ້ມູນທີ່ເປັນມິດກັບ AI ທີ່ແທ້ຈິງແມ່ນກ່ຽວກັບການ ໃຊ້ງານໄດ້, ໜ້າເຊື່ອຖື, ແລະໄວພຽງພໍ ສຳລັບທັງການຝຶກອົບຮົມ ແລະ ວຽກງານການອະນຸມານ.
ບາງຈຸດເດັ່ນທີ່ຄວນສັງເກດ:
-
ຄວາມສາມາດໃນການຂະຫຍາຍ : ການກະໂດດຈາກ GBs ໄປຫາ PBs ໂດຍບໍ່ຕ້ອງຂຽນສະຖາປັດຕະຍະກຳຂອງທ່ານຄືນໃໝ່.
-
ປະສິດທິພາບ : ຄວາມໜ່ວງເວລາສູງຈະເຮັດໃຫ້ GPU ບໍ່ມີແຮງ; ພວກມັນບໍ່ສາມາດໃຫ້ອະໄພບັນຫາຄໍຂວດໄດ້.
-
ຄວາມຊ້ຳຊ້ອນ : ພາບຖ່າຍ, ການຊ້ຳຊ້ອນ, ການປ່ຽນເວີຊັນ - ເພາະວ່າການທົດລອງແຕກ, ແລະຜູ້ຄົນກໍ່ເຮັດເຊັ່ນກັນ.
-
ປະສິດທິພາບດ້ານຕົ້ນທຶນ : ລະດັບທີ່ເໝາະສົມ, ເວລາທີ່ເໝາະສົມ; ຖ້າບໍ່ດັ່ງນັ້ນ, ຮ່າງກົດໝາຍຈະຄ່ອຍໆປາກົດຂຶ້ນຄືກັບການກວດສອບພາສີ.
-
ຄວາມໃກ້ຊິດກັບການຄິດໄລ່ : ວາງບ່ອນເກັບຂໍ້ມູນໄວ້ຂ້າງ GPU/TPU ຫຼື ຕິດຕາມເບິ່ງການຈັດສົ່ງຂໍ້ມູນ.
ຖ້າບໍ່ດັ່ງນັ້ນ, ມັນຄືກັບການພະຍາຍາມຂັບລົດ Ferrari ໂດຍໃຊ້ນໍ້າມັນເຄື່ອງຕັດຫຍ້າ - ໂດຍວິທີທາງການແລ້ວມັນຈະເຄື່ອນທີ່, ແຕ່ບໍ່ດົນ.
ຕາຕະລາງປຽບທຽບ: ທາງເລືອກການເກັບຮັກສາທົ່ວໄປສຳລັບ AI
| ປະເພດການເກັບຮັກສາ | ເໝາະສົມທີ່ສຸດ | ສະໜາມກິລາຄ່າໃຊ້ຈ່າຍ | ເປັນຫຍັງມັນຈຶ່ງເຮັດວຽກ (ຫຼືບໍ່ໄດ້ຜົນ) |
|---|---|---|---|
| ບ່ອນເກັບຂໍ້ມູນວັດຖຸຄລາວ | ບໍລິສັດ Startup ແລະ ຜູ້ປະກອບການຂະໜາດກາງ | $$ (ຕົວແປ) | ຍືດຫຍຸ່ນ, ທົນທານ, ເໝາະສຳລັບທະເລສາບຂໍ້ມູນ; ຈົ່ງລະວັງ ຄ່າທຳນຽມການອອກນອກ + ການຮ້ອງຂໍ hits. |
| NAS ໃນສະຖານທີ່ | ອົງກອນຂະໜາດໃຫຍ່ທີ່ມີທີມງານໄອທີ | $$$$ | ຄວາມໜ່ວງເວລາທີ່ສາມາດຄາດເດົາໄດ້, ການຄວບຄຸມຢ່າງເຕັມທີ່; ການລົງທຶນເບື້ອງຕົ້ນ + ຄ່າໃຊ້ຈ່າຍໃນການດຳເນີນງານຢ່າງຕໍ່ເນື່ອງ. |
| ຄລາວໄຮບຣິດ | ການຕັ້ງຄ່າທີ່ຕ້ອງປະຕິບັດຕາມກົດລະບຽບຫຼາຍ | $$$ | ລວມເອົາຄວາມໄວທ້ອງຖິ່ນເຂົ້າກັບຄລາວທີ່ຍືດຫຍຸ່ນ; ການປະສານສຽງເພີ່ມຄວາມເຈັບຫົວ. |
| ອາເຣທັງໝົດແບບແຟລດ | ນັກຄົ້ນຄວ້າທີ່ມີຄວາມຫຼົງໄຫຼໃນວຽກງານ | $$$$$ | IOPS/throughput ທີ່ໄວຫຼາຍ; ແຕ່ TCO ບໍ່ແມ່ນເລື່ອງຕະຫຼົກ. |
| ລະບົບໄຟລ໌ແບບກະຈາຍ | ກຸ່ມພັດທະນາ AI / HPC | $$–$$$ | I/O ຂະໜານໃນຂະໜາດທີ່ຮ້າຍແຮງ (Lustre, Spectrum Scale); ພາລະ ops ແມ່ນມີຢູ່ຈິງ. |
ເປັນຫຍັງຄວາມຕ້ອງການຂໍ້ມູນ AI ຈຶ່ງເພີ່ມຂຶ້ນຢ່າງໄວວາ 🚀
AI ບໍ່ພຽງແຕ່ເກັບມ້ຽນຮູບ selfie ເທົ່ານັ້ນ. ມັນຍັງມີຄວາມກະຕືລືລົ້ນຫຼາຍ.
-
ຊຸດການຝຶກອົບຮົມ : ILSVRC ຂອງ ImageNet ພຽງຢ່າງດຽວກໍ່ບັນຈຸຮູບພາບທີ່ມີປ້າຍກຳກັບປະມານ 1.2 ລ້ານຮູບ, ແລະ corpora ສະເພາະໂດເມນກໍ່ເກີນກວ່ານັ້ນ [1].
-
ການແກ້ໄຂເວີຊັນ : ທຸກໆການປັບແຕ່ງ - ປ້າຍກຳກັບ, ການແຍກ, ການເພີ່ມເຕີມ - ສ້າງ "ຄວາມຈິງ" ອີກອັນໜຶ່ງ.
-
ການປ້ອນຂໍ້ມູນແບບສະຕຣີມມິງ : ວິໄສທັດສົດ, ການວັດແທກ ແລະ ສົ່ງຂໍ້ມູນທາງໄກ, ເຊັນເຊີຟີດ... ມັນເປັນສິ່ງທີ່ຕ້ອງເຮັດຢູ່ສະເໝີ.
-
ຮູບແບບທີ່ບໍ່ມີໂຄງສ້າງ : ຂໍ້ຄວາມ, ວິດີໂອ, ສຽງ, ບັນທຶກ - ໃຫຍ່ກວ່າຕາຕະລາງ SQL ທີ່ເປັນລະບຽບຫຼາຍ.
ມັນເປັນບຸບເຟ້ທີ່ກິນໄດ້ບໍ່ຈຳກັດ, ແລະ ນາງແບບກໍກັບມາກິນຂອງຫວານສະເໝີ.
ຄລາວ ທຽບກັບ ໃນສະຖານທີ່: ການໂຕ້ວາທີທີ່ບໍ່ມີວັນສິ້ນສຸດ 🌩️🏢
ຄລາວເບິ່ງຄືວ່າໜ້າສົນໃຈ: ເກືອບບໍ່ມີຂອບເຂດ, ທົ່ວໂລກ, ຈ່າຍຕາມທີ່ທ່ານໃຊ້. ຈົນກວ່າໃບແຈ້ງໜີ້ຂອງທ່ານຈະສະແດງ ຄ່າບໍລິການອອກ - ແລະທັນໃດນັ້ນບ່ອນເກັບຂໍ້ມູນ "ລາຄາຖືກ" ຂອງທ່ານກໍ່ມີລາຄາແພງກວ່າຄ່າໃຊ້ຈ່າຍໃນການປະມວນຜົນ [2].
ໃນທາງກົງກັນຂ້າມ, ຢູ່ໃນສະຖານທີ່ໃຫ້ການຄວບຄຸມ ແລະ ປະສິດທິພາບທີ່ແຂງແກ່ນ, ແຕ່ທ່ານຍັງຈ່າຍຄ່າຮາດແວ, ພະລັງງານ, ຄວາມເຢັນ, ແລະ ມະນຸດໄປຫາຊັ້ນວາງເບິ່ງແຍງເດັກ.
ທີມສ່ວນໃຫຍ່ຕັ້ງຖິ່ນຖານຢູ່ໃຈກາງທີ່ສັບສົນ: ແບບປະສົມ . ເກັບຮັກສາຂໍ້ມູນທີ່ຮ້ອນ, ລະອຽດອ່ອນ, ແລະ ມີປະລິມານຂໍ້ມູນສູງໄວ້ໃກ້ກັບ GPU, ແລະ ເກັບສ່ວນທີ່ເຫຼືອໄວ້ໃນຊັ້ນຄລາວ.
ຄ່າໃຊ້ຈ່າຍໃນການເກັບຮັກສາທີ່ເພີ່ມຂຶ້ນຢ່າງໄວວາ 💸
ຄວາມອາດສາມາດເປັນພຽງຊັ້ນໜ້າດິນເທົ່ານັ້ນ. ຄ່າໃຊ້ຈ່າຍທີ່ເຊື່ອງໄວ້ສະສົມຢູ່:
-
ການຍ້າຍຂໍ້ມູນ : ສຳເນົາລະຫວ່າງພາກພື້ນ, ການໂອນຂ້າມຄລາວດ໌, ແມ່ນແຕ່ການອອກຈາກລະບົບຂອງຜູ້ໃຊ້ [2].
-
ຄວາມຊ້ຳຊ້ອນ : ການຕິດຕາມ 3-2-1 (ສາມສຳເນົາ, ສອງສື່, ໜຶ່ງນອກສະຖານທີ່) ກິນພື້ນທີ່ແຕ່ຊ່ວຍປະຢັດມື້ໄດ້ [3].
-
ພະລັງງານ ແລະ ຄວາມເຢັນ : ຖ້າມັນເປັນຊັ້ນວາງຂອງເຈົ້າ, ມັນແມ່ນບັນຫາຄວາມຮ້ອນຂອງເຈົ້າ.
-
ການແລກປ່ຽນຄວາມຊັກຊ້າ : ລະດັບລາຄາຖືກກວ່າມັກຈະໝາຍເຖິງຄວາມໄວໃນການຟື້ນຕົວຈາກກ້ອນນ້ຳກ້ອນ.
ຄວາມປອດໄພ ແລະ ການປະຕິບັດຕາມ: ຜູ້ທຳລາຍຂໍ້ຕົກລົງທີ່ງຽບສະຫງົບ 🔒
ກົດລະບຽບສາມາດກຳນົດໄດ້ຢ່າງແທ້ຈິງວ່າໄບຕ໌ຢູ່ໃສ. ພາຍໃຕ້ GDPR ຂອງອັງກິດ , ການຍ້າຍຂໍ້ມູນສ່ວນຕົວອອກຈາກອັງກິດຮຽກຮ້ອງໃຫ້ມີເສັ້ນທາງການໂອນຍ້າຍທີ່ຖືກຕ້ອງຕາມກົດໝາຍ (SCCs, IDTAs, ຫຼືກົດລະບຽບຄວາມພຽງພໍ). ການແປ: ການອອກແບບບ່ອນເກັບຂໍ້ມູນຂອງທ່ານຕ້ອງ "ຮູ້" ພູມສາດ [5].
ພື້ນຖານທີ່ຕ້ອງອົບຕັ້ງແຕ່ມື້ທຳອິດ:
-
ການເຂົ້າລະຫັດ - ທັງການພັກຜ່ອນ ແລະ ການເດີນທາງ.
-
ການເຂົ້າເຖິງທີ່ມີສິດທິພິເສດໜ້ອຍທີ່ສຸດ + ເສັ້ນທາງການກວດສອບ.
-
ລຶບການປົກປ້ອງ ເຊັ່ນ: ຄວາມບໍ່ປ່ຽນແປງ ຫຼື ການລັອກວັດຖຸ.
ບັນຫາຂໍ້ຈຳກັດດ້ານປະສິດທິພາບ: ຄວາມຊັກຊ້າແມ່ນຕົວຂ້າທີ່ງຽບສະຫງັດ ⚡
GPU ບໍ່ມັກການລໍຖ້າ. ຖ້າການເກັບຮັກສາມີຄວາມຊັກຊ້າ, ພວກມັນກໍ່ເປັນຕົວເລັ່ງຄວາມຮ້ອນທີ່ດີເລີດ. ເຄື່ອງມືຕ່າງໆເຊັ່ນ NVIDIA GPUDirect Storage ຫຼຸດຜ່ອນຕົວກາງຂອງ CPU, ການໂອນຂໍ້ມູນໂດຍກົງຈາກ NVMe ໄປຫາໜ່ວຍຄວາມຈຳ GPU - ແນ່ນອນວ່າການຝຶກອົບຮົມແບບ big-batch ຕ້ອງການຫຍັງ [4].
ວິທີແກ້ໄຂທົ່ວໄປ:
-
NVMe all-flash ສຳລັບ shards ການຝຶກອົບຮົມທີ່ຮ້ອນແຮງ.
-
ລະບົບໄຟລ໌ຂະໜານ (Lustre, Spectrum Scale) ສຳລັບປະລິມານຂໍ້ມູນຫຼາຍໂຫນດ.
-
ຕົວໂຫຼດແບບ Async ທີ່ມີ sharding + prefetch ເພື່ອປ້ອງກັນບໍ່ໃຫ້ GPU ເຮັດວຽກບໍ່ໄດ້.
ການເຄື່ອນໄຫວທີ່ເປັນປະໂຫຍດສຳລັບການຄຸ້ມຄອງການເກັບຮັກສາ AI 🛠️
-
ການຈັດລະດັບ : Hot shards ໃນ NVMe/SSD; ເກັບຊຸດເກົ່າໄວ້ໃນຊັ້ນວັດຖຸ ຫຼື ຊັ້ນເຢັນ.
-
Dedup + delta : ເກັບຮັກສາເສັ້ນຖານພຽງຄັ້ງດຽວ, ເກັບໄວ້ສະເພາະ diffs + manifests.
-
ກົດລະບຽບວົງຈອນຊີວິດ : ຈັດລະດັບອັດຕະໂນມັດ ແລະ ຜົນຜະລິດເກົ່າທີ່ໝົດອາຍຸ [2].
-
ຄວາມຢືດຢຸ່ນ 3-2-1 : ເກັບຮັກສາສຳເນົາຫຼາຍສະບັບໄວ້ໃນສື່ທີ່ແຕກຕ່າງກັນສະເໝີ, ໂດຍໃຫ້ແຍກສຳເນົາໜຶ່ງສະບັບແຍກຕ່າງຫາກ [3].
-
ເຄື່ອງມືວັດແທກ : ຕິດຕາມປະລິມານວຽກ, ເວລາຊັກຊ້າຂອງ p95/p99, ການອ່ານທີ່ລົ້ມເຫຼວ, ການສົ່ງອອກໄປຕາມປະລິມານວຽກ.
ກໍລະນີທີ່ໄວ (ແຕ່ງຂຶ້ນແຕ່ເປັນເລື່ອງທຳມະດາ) 📚
ທີມງານວິໄສທັດເລີ່ມຕົ້ນດ້ວຍພື້ນທີ່ເກັບຂໍ້ມູນວັດຖຸໃນຄລາວປະມານ 20 TB. ຕໍ່ມາ, ພວກເຂົາເລີ່ມໂຄນຊຸດຂໍ້ມູນໃນທົ່ວພາກພື້ນເພື່ອການທົດລອງ. ຄ່າໃຊ້ຈ່າຍຂອງພວກເຂົາເພີ່ມຂຶ້ນ - ບໍ່ແມ່ນມາຈາກບ່ອນເກັບຂໍ້ມູນເອງ, ແຕ່ມາຈາກ ການຈະລາຈອນອອກ . ພວກເຂົາຍ້າຍ hot shards ໄປຫາ NVMe ໃກ້ກັບກຸ່ມ GPU, ເກັບຮັກສາສຳເນົາມາດຕະຖານໄວ້ໃນບ່ອນເກັບຂໍ້ມູນວັດຖຸ (ດ້ວຍກົດລະບຽບວົງຈອນຊີວິດ), ແລະປັກໝຸດພຽງແຕ່ຕົວຢ່າງທີ່ພວກເຂົາຕ້ອງການ. ຜົນໄດ້ຮັບ: GPU ມີວຽກຫຼາຍ, ໃບບິນມີໜ້ອຍລົງ, ແລະສຸຂະອະນາໄມຂໍ້ມູນດີຂຶ້ນ.
ການວາງແຜນຄວາມອາດສາມາດດ້ານຫຼັງຂອງຊອງຈົດໝາຍ 🧮
ສູດຫຍາບຄາຍສຳລັບການປະເມີນ:
ຄວາມອາດສາມາດ ≈ (ຊຸດຂໍ້ມູນດິບ) × (ປັດໄຈການສຳເນົາຂໍ້ມູນ) + (ຂໍ້ມູນປະມວນຜົນລ່ວງໜ້າ / ຂໍ້ມູນເພີ່ມຂຶ້ນ) + (ຈຸດກວດສອບ + ບັນທຶກ) + (ຂອບເຂດຄວາມປອດໄພ ~15–30%)
ຫຼັງຈາກນັ້ນ, ໃຫ້ກວດສອບ sanity ທຽບກັບ throughput. ຖ້າຕົວໂຫຼດຕໍ່ໂຫນດຕ້ອງການ ~2–4 GB/s ທີ່ຍືນຍົງ, ທ່ານກຳລັງເບິ່ງ NVMe ຫຼື parallel FS ສຳລັບເສັ້ນທາງຮ້ອນ, ໂດຍມີການເກັບຮັກສາວັດຖຸເປັນຄວາມຈິງພື້ນຖານ.
ມັນບໍ່ພຽງແຕ່ກ່ຽວກັບອະວະກາດເທົ່ານັ້ນ📊
ເມື່ອຄົນເວົ້າວ່າ ຄວາມຕ້ອງການດ້ານການເກັບຮັກສາ AI , ເຂົາເຈົ້າຈະນຶກພາບເຖິງ terabytes ຫຼື petabytes. ແຕ່ເຄັດລັບທີ່ແທ້ຈິງແມ່ນຄວາມສົມດຸນ: ຕົ້ນທຶນທຽບກັບປະສິດທິພາບ, ຄວາມຍືດຫຍຸ່ນທຽບກັບການປະຕິບັດຕາມ, ນະວັດຕະກໍາທຽບກັບຄວາມໝັ້ນຄົງ. ຂໍ້ມູນ AI ຈະບໍ່ຫົດຕົວໃນໄວໆນີ້. ທີມງານທີ່ລວມການເກັບຮັກສາເຂົ້າໃນການອອກແບບຮູບແບບແຕ່ຫົວທີຈະຫຼີກລ່ຽງການຈົມຢູ່ໃນໜອງຂໍ້ມູນ - ແລະພວກເຂົາກໍ່ໄດ້ຮັບການຝຶກອົບຮົມໄວຂຶ້ນເຊັ່ນກັນ.
ເອກະສານອ້າງອີງ
[1] Russakovsky ແລະ ຄະນະ. ສິ່ງທ້າທາຍການຮັບຮູ້ພາບຂະໜາດໃຫຍ່ຂອງ ImageNet (IJCV) — ຂະໜາດຊຸດຂໍ້ມູນ ແລະ ສິ່ງທ້າທາຍ. ລິ້ງ
[2] AWS — ລາຄາ ແລະ ຄ່າໃຊ້ຈ່າຍຂອງ Amazon S3 (ການໂອນຂໍ້ມູນ, ການອອກ, ລະດັບວົງຈອນຊີວິດ). ລິ້ງ
[3] CISA — ຄຳແນະນຳກ່ຽວກັບກົດລະບຽບສຳຮອງຂໍ້ມູນ 3-2-1. ລິ້ງ
[4] NVIDIA Docs — ພາບລວມຂອງບ່ອນເກັບຂໍ້ມູນ GPUDirect. ລິ້ງ
[5] ICO — ກົດລະບຽບ GDPR ຂອງອັງກິດກ່ຽວກັບການໂອນຂໍ້ມູນສາກົນ. ລິ້ງ