ຂໍ້ກຳນົດການເກັບຮັກສາຂໍ້ມູນສຳລັບ AI

ຄວາມຕ້ອງການເກັບຮັກສາຂໍ້ມູນສໍາລັບ AI: ສິ່ງທີ່ທ່ານຈໍາເປັນຕ້ອງຮູ້ແທ້ໆ

AI ບໍ່ພຽງແຕ່ເປັນຕົວແບບທີ່ເຫຼື້ອມໃສ ຫຼື ຜູ້ຊ່ວຍເວົ້າທີ່ເຮັດຕາມຄົນ. ຫລັງ​ຈາກ​ນັ້ນ​ທັງ​ຫມົດ​, ມີ​ພູ​ເຂົາ - ບາງ​ຄັ້ງ​ມະ​ຫາ​ສະ​ຫມຸດ - ຂອງ​ຂໍ້​ມູນ​. ແລະດ້ວຍຄວາມຊື່ສັດ, ການເກັບຮັກສາຂໍ້ມູນນັ້ນ? ນັ້ນແມ່ນບ່ອນທີ່ສິ່ງຕ່າງໆມັກຈະສັບສົນ. ບໍ່ວ່າທ່ານກໍາລັງເວົ້າທໍ່ການຮັບຮູ້ຮູບພາບຫຼືການຝຶກອົບຮົມຮູບແບບພາສາຍັກໃຫຍ່, ຂໍ້ກໍານົດການເກັບຮັກສາຂໍ້ມູນສໍາລັບ AI ສາມາດຫມຸນອອກຈາກການຄວບຄຸມຢ່າງໄວວາຖ້າທ່ານບໍ່ຄິດມັນຜ່ານ. ຂໍໃຫ້ເຮົາແບ່ງອອກວ່າເປັນຫຍັງການເກັບຮັກສາຈຶ່ງເປັນສັດເດຍລະສານ, ທາງເລືອກໃດຢູ່ໃນຕາຕະລາງ, ແລະວິທີທີ່ທ່ານສາມາດ juggle ຄ່າໃຊ້ຈ່າຍ, ຄວາມໄວ, ແລະຂະຫນາດໂດຍບໍ່ມີການເຜົາໄຫມ້ອອກ.

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 ວິທະຍາສາດຂໍ້ມູນ ແລະ ປັນຍາປະດິດ: ອະນາຄົດຂອງນະວັດຕະກຳ
ການຄົ້ນຄວ້າວິທີການ AI ແລະວິທະຍາສາດຂໍ້ມູນຂັບເຄື່ອນນະວັດກໍາທີ່ທັນສະໄຫມ.

🔗 ປັນຍາປະດິດ: ອະນາຄົດຂອງ AI ແລະຂໍ້ມູນການກະຈາຍ
ການເບິ່ງຂໍ້ມູນ AI ​​ທີ່ມີການແຈກຢາຍແລະການປະດິດສ້າງທີ່ພົ້ນເດັ່ນ.

🔗 ການຈັດການຂໍ້ມູນສຳລັບເຄື່ອງມື AI ທີ່ທ່ານຄວນພິຈາລະນາ
ຍຸດທະສາດຫຼັກເພື່ອປັບປຸງການເກັບຮັກສາຂໍ້ມູນ AI ​​ແລະປະສິດທິພາບ.

🔗 ເຄື່ອງມື AI ທີ່ດີທີ່ສຸດສໍາລັບນັກວິເຄາະຂໍ້ມູນ: ປັບປຸງການຕັດສິນໃຈການວິເຄາະ
ເຄື່ອງມື AI ຍອດນິຍົມທີ່ຊ່ວຍເພີ່ມການວິເຄາະຂໍ້ມູນ ແລະການຕັດສິນໃຈ.


ດັ່ງນັ້ນ… ແມ່ນຫຍັງເຮັດໃຫ້ການເກັບຮັກສາຂໍ້ມູນ AI ​​ດີ? ✅

ມັນບໍ່ແມ່ນພຽງແຕ່ "terabytes ຫຼາຍ." ບ່ອນຈັດເກັບຂໍ້ມູນທີ່ເປັນມິດກັບ AI ທີ່ແທ້ຈິງແມ່ນກ່ຽວກັບ ການໃຊ້ງານໄດ້, ເຊື່ອຖືໄດ້, ແລະໄວພຽງພໍ ສໍາລັບທັງການແລ່ນການຝຶກອົບຮົມ ແລະວຽກງານທີ່ສົມມຸດຕິຖານ.

ບາງຈຸດເດັ່ນທີ່ຄວນສັງເກດ:

  • ຄວາມສາມາດໃນການຂະຫຍາຍ : ໂດດຈາກ GBs ໄປຫາ PBs ໂດຍບໍ່ຕ້ອງຂຽນສະຖາປັດຕະຍະກໍາຂອງເຈົ້າຄືນໃຫມ່.

  • ປະສິດທິພາບ : latency ສູງຈະເຮັດໃຫ້ GPUs starve; ພວກ​ເຂົາ​ເຈົ້າ​ບໍ່​ໃຫ້​ອະ​ໄພ​ຄໍ​ຂວດ​.

  • ຄວາມຊ້ຳຊ້ອນ : ຮູບຖ່າຍ, ການຈຳລອງ, ການສ້າງເວີຊັນ - ເພາະວ່າການທົດລອງແຕກ, ແລະຄົນກໍ່ເຮັດຄືກັນ.

  • ປະສິດທິພາບຄ່າໃຊ້ຈ່າຍ : ລະດັບສິດ, ປັດຈຸບັນທີ່ຖືກຕ້ອງ; ຖ້າບໍ່ດັ່ງນັ້ນ, ບັນຊີລາຍການ sneaks ຂຶ້ນຄືກັບການກວດສອບພາສີ.

  • ຄວາມໃກ້ຄຽງກັບການຄິດໄລ່ : ວາງບ່ອນເກັບຂໍ້ມູນໄວ້ຂ້າງ GPUs/TPUs ຫຼື watch choke ການຈັດສົ່ງຂໍ້ມູນ.

ຖ້າບໍ່ດັ່ງນັ້ນ, ມັນຄ້າຍຄືກັບການພະຍາຍາມແລ່ນ Ferrari ໃນນໍ້າມັນເຊື້ອໄຟຂອງເຄື່ອງຕັດຫຍ້າ - ທາງດ້ານເຕັກນິກມັນເຄື່ອນຍ້າຍ, ແຕ່ບໍ່ດົນ.


ຕາຕະລາງປຽບທຽບ: ທາງເລືອກການເກັບຮັກສາທົ່ວໄປສໍາລັບ AI

ປະເພດການເກັບຮັກສາ ເໝາະສົມທີ່ສຸດ ສະໜາມກິລາຄ່າໃຊ້ຈ່າຍ ເປັນຫຍັງມັນຈຶ່ງເຮັດວຽກ (ຫຼືບໍ່ໄດ້ຜົນ)
ການເກັບຮັກສາ Cloud Object Startups ແລະ ops ຂະຫນາດກາງ $$ (ຕົວແປ) ຢືດຢຸ່ນ, ທົນທານ, ທີ່ສົມບູນແບບສໍາລັບ lakes ຂໍ້ມູນ; ລະວັງ ຄ່າທໍານຽມ egress + ຮ້ອງຂໍ hits.
NAS ຢູ່ສະຖານທີ່ ອົງການຈັດຕັ້ງທີ່ໃຫຍ່ກວ່າກັບທີມ IT $$$$ latency ຄາດຄະເນ, ການຄວບຄຸມຢ່າງເຕັມທີ່; capex ລ່ວງໜ້າ + ຄ່າໃຊ້ຈ່າຍຕໍ່ເນື່ອງ.
Hybrid Cloud ການ​ປະ​ຕິ​ບັດ​ຕາມ​ການ​ຕິດ​ຕັ້ງ​ຢ່າງ​ຮຸນ​ແຮງ​ $$$ ສົມທົບຄວາມໄວທ້ອງຖິ່ນກັບຟັງ elastic; orchestration ເພີ່ມອາການເຈັບຫົວ.
All-Flash Arrays ນັກຄົ້ນຄວ້າທີ່ຫຼົງໄຫຼ $$$$$ IOPS/throughput ໄວ ridiculously; ແຕ່ TCO ບໍ່ແມ່ນເລື່ອງຕະຫລົກ.
ລະບົບໄຟລ໌ທີ່ແຈກຢາຍ ກຸ່ມ AI devs / HPC $$–$$$ ຂະຫນານ I/O ໃນລະດັບທີ່ຮ້າຍແຮງ (Lustre, Spectrum Scale); ພາລະ ops ແມ່ນແທ້ຈິງ.

ເປັນຫຍັງຄວາມຕ້ອງການຂໍ້ມູນ AI ​​ຈຶ່ງລະເບີດ 🚀

AI ບໍ່ພຽງແຕ່ເກັບຮັກສາ selfies ເທົ່ານັ້ນ. ມັນເປັນ ravenous.

  • ຊຸດຝຶກອົບຮົມ : ImageNet's ILSVRC ດຽວຫຸ້ມຫໍ່ຮູບພາບທີ່ມີປ້າຍກຳກັບ ~1.2M, ແລະ corpora ສະເພາະໂດເມນໄປໄກກວ່ານັ້ນ [1].

  • Versioning : ທຸກ tweak - labels, splits, augmentations - ສ້າງ "ຄວາມຈິງ."

  • ການປ້ອນຂໍ້ມູນການຖ່າຍທອດ : ວິໄສທັດສົດ, telemetry, ເຊັນເຊີ feeds… ມັນເປັນທໍ່ໄຟຄົງທີ່.

  • ຮູບແບບທີ່ບໍ່ມີໂຄງສ້າງ : ຂໍ້ຄວາມ, ວິດີໂອ, ສຽງ, ບັນທຶກ - ວິທີການ bulkier ກວ່າຕາຕະລາງ SQL tidy.

ມັນເປັນບຸບເຟ່ທີ່ເຈົ້າສາມາດກິນໄດ້ທັງໝົດ, ແລະຮູບແບບດັ່ງກ່າວກັບມາສໍາລັບຂອງຫວານສະເໝີ.


Cloud vs On-Premises: ການໂຕ້ວາທີທີ່ບໍ່ມີວັນສິ້ນສຸດ 🌩️🏢

Cloud ເບິ່ງເປັນທີ່ລໍ້ລວງ: ໃກ້ບໍ່ມີຂອບເຂດ, ທົ່ວໂລກ, ຈ່າຍຕາມທີ່ທ່ານໄປ. ຈົນກ່ວາໃບແຈ້ງຫນີ້ຂອງທ່ານສະແດງໃຫ້ເຫັນ ການເກັບຄ່າທໍານຽມ - ແລະທັນທີທັນໃດຄ່າໃຊ້ຈ່າຍໃນການເກັບຮັກສາ "ລາຄາຖືກ" ຄູ່ແຂ່ງຂອງຄອມພິວເຕີ້ໃຊ້ຈ່າຍ [2].

On-prem, ໃນທາງກົງກັນຂ້າມ, ໃຫ້ການຄວບຄຸມແລະການປະຕິບັດທີ່ແຂງ, ແຕ່ທ່ານຍັງຈ່າຍຄ່າຮາດແວ, ພະລັງງານ, ຄວາມເຢັນ, ແລະມະນຸດກັບ racks ນັ່ງເດັກນ້ອຍ.

ທີມງານສ່ວນໃຫຍ່ຕົກລົງຢູ່ເຄິ່ງກາງທີ່ສັບສົນ: ແບບປະສົມ . ຮັກສາຂໍ້ມູນທີ່ຮ້ອນ, ລະອຽດອ່ອນ, ຂໍ້ມູນຜ່ານສູງຢູ່ໃກ້ກັບ GPUs, ແລະເກັບສ່ວນທີ່ເຫຼືອໄວ້ໃນຊັ້ນຟັງ.


ຄ່າໃຊ້ຈ່າຍໃນການເກັບຮັກສາ 💸

ຄວາມອາດສາມາດແມ່ນພຽງແຕ່ຊັ້ນຫນ້າດິນ. ຄ່າ​ໃຊ້​ຈ່າຍ​ທີ່​ເຊື່ອງ​ໄວ້​ຫຼາຍ​ຂຶ້ນ​:

  • ການເຄື່ອນໄຫວຂໍ້ມູນ : ສຳເນົາລະຫວ່າງພາກພື້ນ, ການໂອນຂ້າມຄລາວ, ແມ້ກະທັ້ງຜູ້ໃຊ້ egress [2].

  • ການຊໍ້າຊ້ອນ : ປະຕິບັດຕາມ 3-2-1 (ສາມສະບັບ, ສອງສື່, ຫນຶ່ງນອກສະຖານທີ່) ກິນພື້ນທີ່ແຕ່ປະຫຍັດມື້ [3].

  • ພະລັງງານ & ຄວາມເຢັນ : ຖ້າມັນເປັນ rack ຂອງທ່ານ, ມັນແມ່ນບັນຫາຄວາມຮ້ອນຂອງທ່ານ.

  • ການຊື້ຂາຍເວລາແພັກເກັດ : ລະດັບລາຄາຖືກກວ່າປົກກະຕິຫມາຍເຖິງຄວາມໄວການຟື້ນຟູ glacial.


ຄວາມປອດໄພແລະການປະຕິບັດຕາມ: ຕົວແທນແບ່ງເຂດງຽບ 🔒

ກົດລະບຽບສາມາດລະບຸໄດ້ວ່າ bytes ຢູ່ໃສ. ພາຍໃຕ້ GDPR ຂອງອັງກິດ , ການເຄື່ອນຍ້າຍຂໍ້ມູນສ່ວນບຸກຄົນອອກຈາກອັງກິດຮຽກຮ້ອງໃຫ້ມີເສັ້ນທາງການໂອນທີ່ຖືກຕ້ອງຕາມກົດຫມາຍ (SCCs, IDTAs, ຫຼືກົດລະບຽບທີ່ພຽງພໍ). ການແປພາສາ: ການອອກແບບການເກັບຮັກສາຂອງທ່ານຕ້ອງ "ຮູ້" ພູມສາດ [5].

ພື້ນ​ຖານ​ທີ່​ຈະ​ອົບ​ໃນ​ມື້​ຫນຶ່ງ​:

  • ການເຂົ້າລະຫັດ - ທັງພັກຜ່ອນແລະການເດີນທາງ.

  • ການເຂົ້າເຖິງສິດທິພິເສດຕໍ່າສຸດ + ເສັ້ນທາງການກວດສອບ.

  • ລົບ​ການ​ປົກ​ປ້ອງ ​ເຊັ່ນ​: ຄວາມ​ບໍ່​ສາ​ມາດ​ປ່ຽນ​ແປງ​ຫຼື​ການ​ລັອກ​ວັດ​ຖຸ​.


ຄໍປະສິດຕິພາບ: ຄວາມລັບແມ່ນຕົວຂ້າທີ່ງຽບ ⚡

GPUs ບໍ່ມັກລໍຖ້າ. ຖ້າການເກັບຮັກສາຊ້າ, ພວກມັນແມ່ນເຄື່ອງເຮັດຄວາມຮ້ອນທີ່ສະຫງ່າງາມ. ເຄື່ອງມືເຊັ່ນ: NVIDIA GPUDirect Storage ຕັດ CPU ກາງ, ປິດຂໍ້ມູນໂດຍກົງຈາກ NVMe ໄປຫາຫນ່ວຍຄວາມຈໍາ GPU - ສິ່ງທີ່ຕ້ອງການການຝຶກອົບຮົມຊຸດໃຫຍ່ [4].

ການແກ້ໄຂທົ່ວໄປ:

  • NVMe all-flash ສໍາລັບ shards ການຝຶກອົບຮົມຮ້ອນ.

  • ລະບົບໄຟລ໌ຂະໜານ (Lustre, Spectrum Scale) ສຳລັບການປ້ອນຂໍ້ມູນຫຼາຍຂໍ້.

  • Async loaders ດ້ວຍການ sharding + prefetch ເພື່ອຮັກສາ GPUs ຈາກການ idling.


ການເຄື່ອນໄຫວປະຕິບັດສໍາລັບການຄຸ້ມຄອງການເກັບຮັກສາ AI 🛠️

  • Tiering : Hot shards ໃນ NVMe/SSD; stale archive ກໍານົດເຂົ້າໄປໃນຊັ້ນວັດຖຸຫຼືເຢັນ.

  • Dedup + delta : ເກັບຮັກສາພື້ນຖານຫນຶ່ງຄັ້ງ, ຮັກສາພຽງແຕ່ຄວາມແຕກຕ່າງ + manifests.

  • ກົດລະບຽບຂອງວົງຈອນຊີວິດ : ອັດຕະໂນມັດລະດັບ ແລະໝົດອາຍຸຜົນຜະລິດເກົ່າ [2].

  • 3-2-1 ຄວາມຢືດຢຸ່ນ : ສະເຫມີຮັກສາຫຼາຍໆສໍາເນົາ, ໃນທົ່ວສື່ຕ່າງໆ, ໂດຍມີຫນຶ່ງແຍກ [3].

  • ເຄື່ອງມື : ຕິດຕາມການສົ່ງຜ່ານ, p95/p99 latencies, ອ່ານບໍ່ສໍາເລັດ, egress ໂດຍ workload.


ກໍລະນີດ່ວນ (ສ້າງຂຶ້ນແຕ່ປົກກະຕິ) 📚

ທີມງານວິໄສທັດເລີ່ມຕົ້ນດ້ວຍ ~20 TB ໃນການເກັບຮັກສາວັດຖຸໃນຄລາວ. ຕໍ່ມາ, ພວກເຂົາເຈົ້າເລີ່ມ cloning ຊຸດຂໍ້ມູນໃນທົ່ວພາກພື້ນສໍາລັບການທົດລອງ. ຄ່າ​ໃຊ້​ຈ່າຍ​ຂອງ​ເຂົາ​ເຈົ້າ​ປູມ​ເປົ້າ - ບໍ່​ໄດ້​ຈາກ​ການ​ເກັບ​ຮັກ​ສາ​ຕົວ​ມັນ​ເອງ​, ແຕ່​ວ່າ​ຈາກ ​ການ​ຈະ​ລາ​ຈອນ egress . ພວກເຂົາປ່ຽນ shards ຮ້ອນໄປຫາ NVMe ໃກ້ກັບກຸ່ມ GPU, ຮັກສາສໍາເນົາ canonical ໃນການເກັບຮັກສາວັດຖຸ (ມີກົດລະບຽບ lifecycle), ແລະ pin ພຽງແຕ່ຕົວຢ່າງທີ່ເຂົາເຈົ້າຕ້ອງການ. ຜົນໄດ້ຮັບ: GPUs ແມ່ນ busier, ໃບບິນແມ່ນ leaner, ແລະການອະນາໄມຂໍ້ມູນປັບປຸງ.


ການວາງແຜນຄວາມອາດສາມາດດ້ານຫຼັງຂອງຊອງຈົດໝາຍ 🧮

ສູດ​ການ​ຄາດ​ຄະ​ເນ​ການ​ຄາດ​ຄະ​ເນ​:

ຄວາມອາດສາມາດ ≈ (ຊຸດຂໍ້ມູນດິບ) × (ປັດໄຈການຈໍາລອງ) + (ຂໍ້ມູນເບື້ອງຕົ້ນ / ເພີ່ມຂໍ້ມູນ) + (ຈຸດກວດກາ + ບັນທຶກ) + (ຂອບຄວາມປອດໄພ ~15–30%)

ຫຼັງຈາກນັ້ນ, sanity ກວດເບິ່ງມັນຕໍ່ກັບ throughput. ຖ້າເຄື່ອງໂຫຼດຕໍ່ໂນດຕ້ອງການ ~ 2–4 GB / s ຍືນຍົງ, ທ່ານກໍາລັງເບິ່ງ NVMe ຫຼື FS ຂະຫນານສໍາລັບເສັ້ນທາງຮ້ອນ, ດ້ວຍການເກັບຮັກສາວັດຖຸເປັນຄວາມຈິງພື້ນຖານ.


ມັນບໍ່ແມ່ນພຽງແຕ່ກ່ຽວກັບອາວະກາດ📊

ເມື່ອຄົນເວົ້າ ຄວາມຕ້ອງການການເກັບຮັກສາ AI , ພວກເຂົາຮູບພາບ terabytes ຫຼື petabytes. ແຕ່ເຄັດລັບທີ່ແທ້ຈິງແມ່ນການດຸ່ນດ່ຽງ: ຄ່າໃຊ້ຈ່າຍທຽບກັບການປະຕິບັດ, ຄວາມຍືດຫຍຸ່ນທຽບກັບການປະຕິບັດຕາມ, ນະວັດຕະກໍາທຽບກັບຄວາມຫມັ້ນຄົງ. ຂໍ້ມູນ AI ​​ຈະບໍ່ຫຼຸດລົງໃນໄວໆນີ້. ທີມງານທີ່ພັບການເກັບຮັກສາເຂົ້າໄປໃນການອອກແບບຕົວແບບໃນຕອນຕົ້ນຫຼີກເວັ້ນການຈົມນ້ໍາໃນ swamps ຂໍ້ມູນ - ແລະພວກເຂົາສິ້ນສຸດການຝຶກອົບຮົມໄວ, ເຊັ່ນກັນ.


ເອກະສານອ້າງອີງ

[1​] Russakovsky et al​. ImageNet ສິ່ງທ້າທາຍການຮັບຮູ້ສາຍຕາຂະໜາດໃຫຍ່ (IJCV) — ຂະໜາດຊຸດຂໍ້ມູນ ແລະສິ່ງທ້າທາຍ. Link
[2] AWS — Amazon S3 ລາຄາ & ຄ່າໃຊ້ຈ່າຍ (ການໂອນຂໍ້ມູນ, egress, lifecycle tiers). ເຊື່ອມຕໍ່
[3] CISA — 3-2-1 ຄໍາແນະນໍາກົດລະບຽບສໍາຮອງຂໍ້ມູນ. ລິ້ງ
[4] NVIDIA Docs — ພາບລວມຂອງ GPUDirect Storage. ເຊື່ອມຕໍ່
[5] ICO — ກົດລະບຽບ GDPR ຂອງອັງກິດກ່ຽວກັບການໂອນຂໍ້ມູນລະຫວ່າງປະເທດ. ເຊື່ອມຕໍ່


ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ