ຂໍ້ກຳນົດການເກັບຮັກສາຂໍ້ມູນສຳລັບ AI

ຂໍ້ກຳນົດການເກັບຮັກສາຂໍ້ມູນສຳລັບ AI: ສິ່ງທີ່ທ່ານຈຳເປັນຕ້ອງຮູ້ແທ້ໆ

AI ບໍ່ແມ່ນພຽງແຕ່ຮູບແບບທີ່ໂດດເດັ່ນ ຫຼື ຜູ້ຊ່ວຍເວົ້າທີ່ລອກລຽນແບບຄົນ. ຢູ່ເບື້ອງຫຼັງທັງໝົດນັ້ນ, ມີຂໍ້ມູນຫຼາຍຫຼວງ - ບາງຄັ້ງກໍ່ເປັນມະຫາສະໝຸດ -. ແລະ ແທ້ໆແລ້ວ, ການເກັບຮັກສາຂໍ້ມູນນັ້ນບໍ? ນັ້ນແມ່ນບ່ອນທີ່ສິ່ງຕ່າງໆມັກຈະວຸ້ນວາຍ. ບໍ່ວ່າທ່ານຈະເວົ້າເຖິງທໍ່ສົ່ງການຮັບຮູ້ຮູບພາບ ຫຼື ການຝຶກອົບຮົມຮູບແບບພາສາຍັກໃຫຍ່, ຄວາມຕ້ອງການດ້ານການເກັບຮັກສາຂໍ້ມູນສຳລັບ AI ສາມາດປ່ຽນແປງອອກຈາກການຄວບຄຸມໄດ້ໄວຖ້າທ່ານບໍ່ຄິດຢ່າງລະອຽດ. ໃຫ້ພວກເຮົາແຍກແຍະວ່າເປັນຫຍັງການເກັບຮັກສາຈຶ່ງເປັນສັດຮ້າຍ, ມີທາງເລືອກຫຍັງແດ່, ແລະ ທ່ານສາມາດຈັດການຄ່າໃຊ້ຈ່າຍ, ຄວາມໄວ, ແລະ ຂະໜາດໄດ້ແນວໃດໂດຍບໍ່ຕ້ອງໃຊ້ພະລັງງານຫຼາຍເກີນໄປ.

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 ວິທະຍາສາດຂໍ້ມູນ ແລະ ປັນຍາປະດິດ: ອະນາຄົດຂອງນະວັດຕະກຳ
ສຳຫຼວດວິທີທີ່ AI ແລະວິທະຍາສາດຂໍ້ມູນຂັບເຄື່ອນນະວັດຕະກໍາທີ່ທັນສະໄໝ.

🔗 ປັນຍາປະດິດຂອງແຫຼວ: ອະນາຄົດຂອງ AI ແລະຂໍ້ມູນແບບກະຈາຍອຳນາດ
ການພິຈາລະນາເບິ່ງຂໍ້ມູນ AI ​​ແບບກະຈາຍອຳນາດ ແລະ ນະວັດຕະກຳທີ່ພົ້ນເດັ່ນຂຶ້ນມາ.

🔗 ການຈັດການຂໍ້ມູນສຳລັບເຄື່ອງມື AI ທີ່ທ່ານຄວນພິຈາລະນາ
ຍຸດທະສາດຫຼັກເພື່ອປັບປຸງການເກັບຮັກສາ ແລະ ປະສິດທິພາບຂໍ້ມູນ AI.

🔗 ເຄື່ອງມື AI ທີ່ດີທີ່ສຸດສຳລັບນັກວິເຄາະຂໍ້ມູນ: ເສີມຂະຫຍາຍການຕັດສິນໃຈວິເຄາະ
ເຄື່ອງມື AI ຊັ້ນນໍາທີ່ຊ່ວຍເພີ່ມການວິເຄາະຂໍ້ມູນ ແລະ ການຕັດສິນໃຈ.


ສະນັ້ນ... ສິ່ງໃດທີ່ເຮັດໃຫ້ການເກັບຮັກສາຂໍ້ມູນ AI ​​ມີປະໂຫຍດ? ✅

ມັນບໍ່ພຽງແຕ່ "ເທຣາໄບຕ໌ຫຼາຍຂຶ້ນ". ບ່ອນເກັບຂໍ້ມູນທີ່ເປັນມິດກັບ AI ທີ່ແທ້ຈິງແມ່ນກ່ຽວກັບການ ໃຊ້ງານໄດ້, ໜ້າເຊື່ອຖື, ແລະໄວພຽງພໍ ສຳລັບທັງການຝຶກອົບຮົມ ແລະ ວຽກງານການອະນຸມານ.

ບາງຈຸດເດັ່ນທີ່ຄວນສັງເກດ:

  • ຄວາມສາມາດໃນການຂະຫຍາຍ : ການກະໂດດຈາກ GBs ໄປຫາ PBs ໂດຍບໍ່ຕ້ອງຂຽນສະຖາປັດຕະຍະກຳຂອງທ່ານຄືນໃໝ່.

  • ປະສິດທິພາບ : ຄວາມໜ່ວງເວລາສູງຈະເຮັດໃຫ້ GPU ບໍ່ມີແຮງ; ພວກມັນບໍ່ສາມາດໃຫ້ອະໄພບັນຫາຄໍຂວດໄດ້.

  • ຄວາມຊ້ຳຊ້ອນ : ພາບຖ່າຍ, ການຊ້ຳຊ້ອນ, ການປ່ຽນເວີຊັນ - ເພາະວ່າການທົດລອງແຕກ, ແລະຜູ້ຄົນກໍ່ເຮັດເຊັ່ນກັນ.

  • ປະສິດທິພາບດ້ານຕົ້ນທຶນ : ລະດັບທີ່ເໝາະສົມ, ເວລາທີ່ເໝາະສົມ; ຖ້າບໍ່ດັ່ງນັ້ນ, ຮ່າງກົດໝາຍຈະຄ່ອຍໆປາກົດຂຶ້ນຄືກັບການກວດສອບພາສີ.

  • ຄວາມໃກ້ຊິດກັບການຄິດໄລ່ : ວາງບ່ອນເກັບຂໍ້ມູນໄວ້ຂ້າງ GPU/TPU ຫຼື ຕິດຕາມເບິ່ງການຈັດສົ່ງຂໍ້ມູນ.

ຖ້າບໍ່ດັ່ງນັ້ນ, ມັນຄືກັບການພະຍາຍາມຂັບລົດ Ferrari ໂດຍໃຊ້ນໍ້າມັນເຄື່ອງຕັດຫຍ້າ - ໂດຍວິທີທາງການແລ້ວມັນຈະເຄື່ອນທີ່, ແຕ່ບໍ່ດົນ.


ຕາຕະລາງປຽບທຽບ: ທາງເລືອກການເກັບຮັກສາທົ່ວໄປສຳລັບ AI

ປະເພດການເກັບຮັກສາ ເໝາະສົມທີ່ສຸດ ສະໜາມກິລາຄ່າໃຊ້ຈ່າຍ ເປັນຫຍັງມັນຈຶ່ງເຮັດວຽກ (ຫຼືບໍ່ໄດ້ຜົນ)
ບ່ອນເກັບຂໍ້ມູນວັດຖຸຄລາວ ບໍລິສັດ Startup ແລະ ຜູ້ປະກອບການຂະໜາດກາງ $$ (ຕົວແປ) ຍືດຫຍຸ່ນ, ທົນທານ, ເໝາະສຳລັບທະເລສາບຂໍ້ມູນ; ຈົ່ງລະວັງ ຄ່າທຳນຽມການອອກນອກ + ການຮ້ອງຂໍ hits.
NAS ໃນສະຖານທີ່ ອົງກອນຂະໜາດໃຫຍ່ທີ່ມີທີມງານໄອທີ $$$$ ຄວາມໜ່ວງເວລາທີ່ສາມາດຄາດເດົາໄດ້, ການຄວບຄຸມຢ່າງເຕັມທີ່; ການລົງທຶນເບື້ອງຕົ້ນ + ຄ່າໃຊ້ຈ່າຍໃນການດຳເນີນງານຢ່າງຕໍ່ເນື່ອງ.
ຄລາວໄຮບຣິດ ການຕັ້ງຄ່າທີ່ຕ້ອງປະຕິບັດຕາມກົດລະບຽບຫຼາຍ $$$ ລວມເອົາຄວາມໄວທ້ອງຖິ່ນເຂົ້າກັບຄລາວທີ່ຍືດຫຍຸ່ນ; ການປະສານສຽງເພີ່ມຄວາມເຈັບຫົວ.
ອາເຣທັງໝົດແບບແຟລດ ນັກຄົ້ນຄວ້າທີ່ມີຄວາມຫຼົງໄຫຼໃນວຽກງານ $$$$$ IOPS/throughput ທີ່ໄວຫຼາຍ; ແຕ່ TCO ບໍ່ແມ່ນເລື່ອງຕະຫຼົກ.
ລະບົບໄຟລ໌ແບບກະຈາຍ ກຸ່ມພັດທະນາ AI / HPC $$–$$$ I/O ຂະໜານໃນຂະໜາດທີ່ຮ້າຍແຮງ (Lustre, Spectrum Scale); ພາລະ ops ແມ່ນມີຢູ່ຈິງ.

ເປັນຫຍັງຄວາມຕ້ອງການຂໍ້ມູນ AI ​​ຈຶ່ງເພີ່ມຂຶ້ນຢ່າງໄວວາ 🚀

AI ບໍ່ພຽງແຕ່ເກັບມ້ຽນຮູບ selfie ເທົ່ານັ້ນ. ມັນຍັງມີຄວາມກະຕືລືລົ້ນຫຼາຍ.

  • ຊຸດການຝຶກອົບຮົມ : ILSVRC ຂອງ ImageNet ພຽງຢ່າງດຽວກໍ່ບັນຈຸຮູບພາບທີ່ມີປ້າຍກຳກັບປະມານ 1.2 ລ້ານຮູບ, ແລະ corpora ສະເພາະໂດເມນກໍ່ເກີນກວ່ານັ້ນ [1].

  • ການແກ້ໄຂເວີຊັນ : ທຸກໆການປັບແຕ່ງ - ປ້າຍກຳກັບ, ການແຍກ, ການເພີ່ມເຕີມ - ສ້າງ "ຄວາມຈິງ" ອີກອັນໜຶ່ງ.

  • ການປ້ອນຂໍ້ມູນແບບສະຕຣີມມິງ : ວິໄສທັດສົດ, ການວັດແທກ ແລະ ສົ່ງຂໍ້ມູນທາງໄກ, ເຊັນເຊີຟີດ... ມັນເປັນສິ່ງທີ່ຕ້ອງເຮັດຢູ່ສະເໝີ.

  • ຮູບແບບທີ່ບໍ່ມີໂຄງສ້າງ : ຂໍ້ຄວາມ, ວິດີໂອ, ສຽງ, ບັນທຶກ - ໃຫຍ່ກວ່າຕາຕະລາງ SQL ທີ່ເປັນລະບຽບຫຼາຍ.

ມັນເປັນບຸບເຟ້ທີ່ກິນໄດ້ບໍ່ຈຳກັດ, ແລະ ນາງແບບກໍກັບມາກິນຂອງຫວານສະເໝີ.


ຄລາວ ທຽບກັບ ໃນສະຖານທີ່: ການໂຕ້ວາທີທີ່ບໍ່ມີວັນສິ້ນສຸດ 🌩️🏢

ຄລາວເບິ່ງຄືວ່າໜ້າສົນໃຈ: ເກືອບບໍ່ມີຂອບເຂດ, ທົ່ວໂລກ, ຈ່າຍຕາມທີ່ທ່ານໃຊ້. ຈົນກວ່າໃບແຈ້ງໜີ້ຂອງທ່ານຈະສະແດງ ຄ່າບໍລິການອອກ - ແລະທັນໃດນັ້ນບ່ອນເກັບຂໍ້ມູນ "ລາຄາຖືກ" ຂອງທ່ານກໍ່ມີລາຄາແພງກວ່າຄ່າໃຊ້ຈ່າຍໃນການປະມວນຜົນ [2].

ໃນທາງກົງກັນຂ້າມ, ຢູ່ໃນສະຖານທີ່ໃຫ້ການຄວບຄຸມ ແລະ ປະສິດທິພາບທີ່ແຂງແກ່ນ, ແຕ່ທ່ານຍັງຈ່າຍຄ່າຮາດແວ, ພະລັງງານ, ຄວາມເຢັນ, ແລະ ມະນຸດໄປຫາຊັ້ນວາງເບິ່ງແຍງເດັກ.

ທີມສ່ວນໃຫຍ່ຕັ້ງຖິ່ນຖານຢູ່ໃຈກາງທີ່ສັບສົນ: ແບບປະສົມ . ເກັບຮັກສາຂໍ້ມູນທີ່ຮ້ອນ, ລະອຽດອ່ອນ, ແລະ ມີປະລິມານຂໍ້ມູນສູງໄວ້ໃກ້ກັບ GPU, ແລະ ເກັບສ່ວນທີ່ເຫຼືອໄວ້ໃນຊັ້ນຄລາວ.


ຄ່າໃຊ້ຈ່າຍໃນການເກັບຮັກສາທີ່ເພີ່ມຂຶ້ນຢ່າງໄວວາ 💸

ຄວາມອາດສາມາດເປັນພຽງຊັ້ນໜ້າດິນເທົ່ານັ້ນ. ຄ່າໃຊ້ຈ່າຍທີ່ເຊື່ອງໄວ້ສະສົມຢູ່:

  • ການຍ້າຍຂໍ້ມູນ : ສຳເນົາລະຫວ່າງພາກພື້ນ, ການໂອນຂ້າມຄລາວດ໌, ແມ່ນແຕ່ການອອກຈາກລະບົບຂອງຜູ້ໃຊ້ [2].

  • ຄວາມຊ້ຳຊ້ອນ : ການຕິດຕາມ 3-2-1 (ສາມສຳເນົາ, ສອງສື່, ໜຶ່ງນອກສະຖານທີ່) ກິນພື້ນທີ່ແຕ່ຊ່ວຍປະຢັດມື້ໄດ້ [3].

  • ພະລັງງານ ແລະ ຄວາມເຢັນ : ຖ້າມັນເປັນຊັ້ນວາງຂອງເຈົ້າ, ມັນແມ່ນບັນຫາຄວາມຮ້ອນຂອງເຈົ້າ.

  • ການແລກປ່ຽນຄວາມຊັກຊ້າ : ລະດັບລາຄາຖືກກວ່າມັກຈະໝາຍເຖິງຄວາມໄວໃນການຟື້ນຕົວຈາກກ້ອນນ້ຳກ້ອນ.


ຄວາມປອດໄພ ແລະ ການປະຕິບັດຕາມ: ຜູ້ທຳລາຍຂໍ້ຕົກລົງທີ່ງຽບສະຫງົບ 🔒

ກົດລະບຽບສາມາດກຳນົດໄດ້ຢ່າງແທ້ຈິງວ່າໄບຕ໌ຢູ່ໃສ. ພາຍໃຕ້ GDPR ຂອງອັງກິດ , ການຍ້າຍຂໍ້ມູນສ່ວນຕົວອອກຈາກອັງກິດຮຽກຮ້ອງໃຫ້ມີເສັ້ນທາງການໂອນຍ້າຍທີ່ຖືກຕ້ອງຕາມກົດໝາຍ (SCCs, IDTAs, ຫຼືກົດລະບຽບຄວາມພຽງພໍ). ການແປ: ການອອກແບບບ່ອນເກັບຂໍ້ມູນຂອງທ່ານຕ້ອງ "ຮູ້" ພູມສາດ [5].

ພື້ນຖານທີ່ຕ້ອງອົບຕັ້ງແຕ່ມື້ທຳອິດ:

  • ການເຂົ້າລະຫັດ - ທັງການພັກຜ່ອນ ແລະ ການເດີນທາງ.

  • ການເຂົ້າເຖິງທີ່ມີສິດທິພິເສດໜ້ອຍທີ່ສຸດ + ເສັ້ນທາງການກວດສອບ.

  • ລຶບການປົກປ້ອງ ເຊັ່ນ: ຄວາມບໍ່ປ່ຽນແປງ ຫຼື ການລັອກວັດຖຸ.


ບັນຫາຂໍ້ຈຳກັດດ້ານປະສິດທິພາບ: ຄວາມຊັກຊ້າແມ່ນຕົວຂ້າທີ່ງຽບສະຫງັດ ⚡

GPU ບໍ່ມັກການລໍຖ້າ. ຖ້າການເກັບຮັກສາມີຄວາມຊັກຊ້າ, ພວກມັນກໍ່ເປັນຕົວເລັ່ງຄວາມຮ້ອນທີ່ດີເລີດ. ເຄື່ອງມືຕ່າງໆເຊັ່ນ NVIDIA GPUDirect Storage ຫຼຸດຜ່ອນຕົວກາງຂອງ CPU, ການໂອນຂໍ້ມູນໂດຍກົງຈາກ NVMe ໄປຫາໜ່ວຍຄວາມຈຳ GPU - ແນ່ນອນວ່າການຝຶກອົບຮົມແບບ big-batch ຕ້ອງການຫຍັງ [4].

ວິທີແກ້ໄຂທົ່ວໄປ:

  • NVMe all-flash ສຳລັບ shards ການຝຶກອົບຮົມທີ່ຮ້ອນແຮງ.

  • ລະບົບໄຟລ໌ຂະໜານ (Lustre, Spectrum Scale) ສຳລັບປະລິມານຂໍ້ມູນຫຼາຍໂຫນດ.

  • ຕົວໂຫຼດແບບ Async ທີ່ມີ sharding + prefetch ເພື່ອປ້ອງກັນບໍ່ໃຫ້ GPU ເຮັດວຽກບໍ່ໄດ້.


ການເຄື່ອນໄຫວທີ່ເປັນປະໂຫຍດສຳລັບການຄຸ້ມຄອງການເກັບຮັກສາ AI 🛠️

  • ການຈັດລະດັບ : Hot shards ໃນ NVMe/SSD; ເກັບຊຸດເກົ່າໄວ້ໃນຊັ້ນວັດຖຸ ຫຼື ຊັ້ນເຢັນ.

  • Dedup + delta : ເກັບຮັກສາເສັ້ນຖານພຽງຄັ້ງດຽວ, ເກັບໄວ້ສະເພາະ diffs + manifests.

  • ກົດລະບຽບວົງຈອນຊີວິດ : ຈັດລະດັບອັດຕະໂນມັດ ແລະ ຜົນຜະລິດເກົ່າທີ່ໝົດອາຍຸ [2].

  • ຄວາມຢືດຢຸ່ນ 3-2-1 : ເກັບຮັກສາສຳເນົາຫຼາຍສະບັບໄວ້ໃນສື່ທີ່ແຕກຕ່າງກັນສະເໝີ, ໂດຍໃຫ້ແຍກສຳເນົາໜຶ່ງສະບັບແຍກຕ່າງຫາກ [3].

  • ເຄື່ອງມືວັດແທກ : ຕິດຕາມປະລິມານວຽກ, ເວລາຊັກຊ້າຂອງ p95/p99, ການອ່ານທີ່ລົ້ມເຫຼວ, ການສົ່ງອອກໄປຕາມປະລິມານວຽກ.


ກໍລະນີທີ່ໄວ (ແຕ່ງຂຶ້ນແຕ່ເປັນເລື່ອງທຳມະດາ) 📚

ທີມງານວິໄສທັດເລີ່ມຕົ້ນດ້ວຍພື້ນທີ່ເກັບຂໍ້ມູນວັດຖຸໃນຄລາວປະມານ 20 TB. ຕໍ່ມາ, ພວກເຂົາເລີ່ມໂຄນຊຸດຂໍ້ມູນໃນທົ່ວພາກພື້ນເພື່ອການທົດລອງ. ຄ່າໃຊ້ຈ່າຍຂອງພວກເຂົາເພີ່ມຂຶ້ນ - ບໍ່ແມ່ນມາຈາກບ່ອນເກັບຂໍ້ມູນເອງ, ແຕ່ມາຈາກ ການຈະລາຈອນອອກ . ພວກເຂົາຍ້າຍ hot shards ໄປຫາ NVMe ໃກ້ກັບກຸ່ມ GPU, ເກັບຮັກສາສຳເນົາມາດຕະຖານໄວ້ໃນບ່ອນເກັບຂໍ້ມູນວັດຖຸ (ດ້ວຍກົດລະບຽບວົງຈອນຊີວິດ), ແລະປັກໝຸດພຽງແຕ່ຕົວຢ່າງທີ່ພວກເຂົາຕ້ອງການ. ຜົນໄດ້ຮັບ: GPU ມີວຽກຫຼາຍ, ໃບບິນມີໜ້ອຍລົງ, ແລະສຸຂະອະນາໄມຂໍ້ມູນດີຂຶ້ນ.


ການວາງແຜນຄວາມອາດສາມາດດ້ານຫຼັງຂອງຊອງຈົດໝາຍ 🧮

ສູດຫຍາບຄາຍສຳລັບການປະເມີນ:

ຄວາມອາດສາມາດ ≈ (ຊຸດຂໍ້ມູນດິບ) × (ປັດໄຈການສຳເນົາຂໍ້ມູນ) + (ຂໍ້ມູນປະມວນຜົນລ່ວງໜ້າ / ຂໍ້ມູນເພີ່ມຂຶ້ນ) + (ຈຸດກວດສອບ + ບັນທຶກ) + (ຂອບເຂດຄວາມປອດໄພ ~15–30%)

ຫຼັງຈາກນັ້ນ, ໃຫ້ກວດສອບ sanity ທຽບກັບ throughput. ຖ້າຕົວໂຫຼດຕໍ່ໂຫນດຕ້ອງການ ~2–4 GB/s ທີ່ຍືນຍົງ, ທ່ານກຳລັງເບິ່ງ NVMe ຫຼື parallel FS ສຳລັບເສັ້ນທາງຮ້ອນ, ໂດຍມີການເກັບຮັກສາວັດຖຸເປັນຄວາມຈິງພື້ນຖານ.


ມັນບໍ່ພຽງແຕ່ກ່ຽວກັບອະວະກາດເທົ່ານັ້ນ📊

ເມື່ອຄົນເວົ້າວ່າ ຄວາມຕ້ອງການດ້ານການເກັບຮັກສາ AI , ເຂົາເຈົ້າຈະນຶກພາບເຖິງ terabytes ຫຼື petabytes. ແຕ່ເຄັດລັບທີ່ແທ້ຈິງແມ່ນຄວາມສົມດຸນ: ຕົ້ນທຶນທຽບກັບປະສິດທິພາບ, ຄວາມຍືດຫຍຸ່ນທຽບກັບການປະຕິບັດຕາມ, ນະວັດຕະກໍາທຽບກັບຄວາມໝັ້ນຄົງ. ຂໍ້ມູນ AI ​​ຈະບໍ່ຫົດຕົວໃນໄວໆນີ້. ທີມງານທີ່ລວມການເກັບຮັກສາເຂົ້າໃນການອອກແບບຮູບແບບແຕ່ຫົວທີຈະຫຼີກລ່ຽງການຈົມຢູ່ໃນໜອງຂໍ້ມູນ - ແລະພວກເຂົາກໍ່ໄດ້ຮັບການຝຶກອົບຮົມໄວຂຶ້ນເຊັ່ນກັນ.


ເອກະສານອ້າງອີງ

[1] Russakovsky ແລະ ຄະນະ. ສິ່ງທ້າທາຍການຮັບຮູ້ພາບຂະໜາດໃຫຍ່ຂອງ ImageNet (IJCV) — ຂະໜາດຊຸດຂໍ້ມູນ ແລະ ສິ່ງທ້າທາຍ. ລິ້ງ
[2] AWS — ລາຄາ ແລະ ຄ່າໃຊ້ຈ່າຍຂອງ Amazon S3 (ການໂອນຂໍ້ມູນ, ການອອກ, ລະດັບວົງຈອນຊີວິດ). ລິ້ງ
[3] CISA — ຄຳແນະນຳກ່ຽວກັບກົດລະບຽບສຳຮອງຂໍ້ມູນ 3-2-1. ລິ້ງ
[4] NVIDIA Docs — ພາບລວມຂອງບ່ອນເກັບຂໍ້ມູນ GPUDirect. ລິ້ງ
[5] ICO — ກົດລະບຽບ GDPR ຂອງອັງກິດກ່ຽວກັບການໂອນຂໍ້ມູນສາກົນ. ລິ້ງ


ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ