AI ບໍ່ພຽງແຕ່ເປັນຕົວແບບທີ່ເຫຼື້ອມໃສ ຫຼື ຜູ້ຊ່ວຍເວົ້າທີ່ເຮັດຕາມຄົນ. ຫລັງຈາກນັ້ນທັງຫມົດ, ມີພູເຂົາ - ບາງຄັ້ງມະຫາສະຫມຸດ - ຂອງຂໍ້ມູນ. ແລະດ້ວຍຄວາມຊື່ສັດ, ການເກັບຮັກສາຂໍ້ມູນນັ້ນ? ນັ້ນແມ່ນບ່ອນທີ່ສິ່ງຕ່າງໆມັກຈະສັບສົນ. ບໍ່ວ່າທ່ານກໍາລັງເວົ້າທໍ່ການຮັບຮູ້ຮູບພາບຫຼືການຝຶກອົບຮົມຮູບແບບພາສາຍັກໃຫຍ່, ຂໍ້ກໍານົດການເກັບຮັກສາຂໍ້ມູນສໍາລັບ AI ສາມາດຫມຸນອອກຈາກການຄວບຄຸມຢ່າງໄວວາຖ້າທ່ານບໍ່ຄິດມັນຜ່ານ. ຂໍໃຫ້ເຮົາແບ່ງອອກວ່າເປັນຫຍັງການເກັບຮັກສາຈຶ່ງເປັນສັດເດຍລະສານ, ທາງເລືອກໃດຢູ່ໃນຕາຕະລາງ, ແລະວິທີທີ່ທ່ານສາມາດ juggle ຄ່າໃຊ້ຈ່າຍ, ຄວາມໄວ, ແລະຂະຫນາດໂດຍບໍ່ມີການເຜົາໄຫມ້ອອກ.
ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:
🔗 ວິທະຍາສາດຂໍ້ມູນ ແລະ ປັນຍາປະດິດ: ອະນາຄົດຂອງນະວັດຕະກຳ
ການຄົ້ນຄວ້າວິທີການ AI ແລະວິທະຍາສາດຂໍ້ມູນຂັບເຄື່ອນນະວັດກໍາທີ່ທັນສະໄຫມ.
🔗 ປັນຍາປະດິດ: ອະນາຄົດຂອງ AI ແລະຂໍ້ມູນການກະຈາຍ
ການເບິ່ງຂໍ້ມູນ AI ທີ່ມີການແຈກຢາຍແລະການປະດິດສ້າງທີ່ພົ້ນເດັ່ນ.
🔗 ການຈັດການຂໍ້ມູນສຳລັບເຄື່ອງມື AI ທີ່ທ່ານຄວນພິຈາລະນາ
ຍຸດທະສາດຫຼັກເພື່ອປັບປຸງການເກັບຮັກສາຂໍ້ມູນ AI ແລະປະສິດທິພາບ.
🔗 ເຄື່ອງມື AI ທີ່ດີທີ່ສຸດສໍາລັບນັກວິເຄາະຂໍ້ມູນ: ປັບປຸງການຕັດສິນໃຈການວິເຄາະ
ເຄື່ອງມື AI ຍອດນິຍົມທີ່ຊ່ວຍເພີ່ມການວິເຄາະຂໍ້ມູນ ແລະການຕັດສິນໃຈ.
ດັ່ງນັ້ນ… ແມ່ນຫຍັງເຮັດໃຫ້ການເກັບຮັກສາຂໍ້ມູນ AI ດີ? ✅
ມັນບໍ່ແມ່ນພຽງແຕ່ "terabytes ຫຼາຍ." ບ່ອນຈັດເກັບຂໍ້ມູນທີ່ເປັນມິດກັບ AI ທີ່ແທ້ຈິງແມ່ນກ່ຽວກັບ ການໃຊ້ງານໄດ້, ເຊື່ອຖືໄດ້, ແລະໄວພຽງພໍ ສໍາລັບທັງການແລ່ນການຝຶກອົບຮົມ ແລະວຽກງານທີ່ສົມມຸດຕິຖານ.
ບາງຈຸດເດັ່ນທີ່ຄວນສັງເກດ:
-
ຄວາມສາມາດໃນການຂະຫຍາຍ : ໂດດຈາກ GBs ໄປຫາ PBs ໂດຍບໍ່ຕ້ອງຂຽນສະຖາປັດຕະຍະກໍາຂອງເຈົ້າຄືນໃຫມ່.
-
ປະສິດທິພາບ : latency ສູງຈະເຮັດໃຫ້ GPUs starve; ພວກເຂົາເຈົ້າບໍ່ໃຫ້ອະໄພຄໍຂວດ.
-
ຄວາມຊ້ຳຊ້ອນ : ຮູບຖ່າຍ, ການຈຳລອງ, ການສ້າງເວີຊັນ - ເພາະວ່າການທົດລອງແຕກ, ແລະຄົນກໍ່ເຮັດຄືກັນ.
-
ປະສິດທິພາບຄ່າໃຊ້ຈ່າຍ : ລະດັບສິດ, ປັດຈຸບັນທີ່ຖືກຕ້ອງ; ຖ້າບໍ່ດັ່ງນັ້ນ, ບັນຊີລາຍການ sneaks ຂຶ້ນຄືກັບການກວດສອບພາສີ.
-
ຄວາມໃກ້ຄຽງກັບການຄິດໄລ່ : ວາງບ່ອນເກັບຂໍ້ມູນໄວ້ຂ້າງ GPUs/TPUs ຫຼື watch choke ການຈັດສົ່ງຂໍ້ມູນ.
ຖ້າບໍ່ດັ່ງນັ້ນ, ມັນຄ້າຍຄືກັບການພະຍາຍາມແລ່ນ Ferrari ໃນນໍ້າມັນເຊື້ອໄຟຂອງເຄື່ອງຕັດຫຍ້າ - ທາງດ້ານເຕັກນິກມັນເຄື່ອນຍ້າຍ, ແຕ່ບໍ່ດົນ.
ຕາຕະລາງປຽບທຽບ: ທາງເລືອກການເກັບຮັກສາທົ່ວໄປສໍາລັບ AI
| ປະເພດການເກັບຮັກສາ | ເໝາະສົມທີ່ສຸດ | ສະໜາມກິລາຄ່າໃຊ້ຈ່າຍ | ເປັນຫຍັງມັນຈຶ່ງເຮັດວຽກ (ຫຼືບໍ່ໄດ້ຜົນ) |
|---|---|---|---|
| ການເກັບຮັກສາ Cloud Object | Startups ແລະ ops ຂະຫນາດກາງ | $$ (ຕົວແປ) | ຢືດຢຸ່ນ, ທົນທານ, ທີ່ສົມບູນແບບສໍາລັບ lakes ຂໍ້ມູນ; ລະວັງ ຄ່າທໍານຽມ egress + ຮ້ອງຂໍ hits. |
| NAS ຢູ່ສະຖານທີ່ | ອົງການຈັດຕັ້ງທີ່ໃຫຍ່ກວ່າກັບທີມ IT | $$$$ | latency ຄາດຄະເນ, ການຄວບຄຸມຢ່າງເຕັມທີ່; capex ລ່ວງໜ້າ + ຄ່າໃຊ້ຈ່າຍຕໍ່ເນື່ອງ. |
| Hybrid Cloud | ການປະຕິບັດຕາມການຕິດຕັ້ງຢ່າງຮຸນແຮງ | $$$ | ສົມທົບຄວາມໄວທ້ອງຖິ່ນກັບຟັງ elastic; orchestration ເພີ່ມອາການເຈັບຫົວ. |
| All-Flash Arrays | ນັກຄົ້ນຄວ້າທີ່ຫຼົງໄຫຼ | $$$$$ | IOPS/throughput ໄວ ridiculously; ແຕ່ TCO ບໍ່ແມ່ນເລື່ອງຕະຫລົກ. |
| ລະບົບໄຟລ໌ທີ່ແຈກຢາຍ | ກຸ່ມ AI devs / HPC | $$–$$$ | ຂະຫນານ I/O ໃນລະດັບທີ່ຮ້າຍແຮງ (Lustre, Spectrum Scale); ພາລະ ops ແມ່ນແທ້ຈິງ. |
ເປັນຫຍັງຄວາມຕ້ອງການຂໍ້ມູນ AI ຈຶ່ງລະເບີດ 🚀
AI ບໍ່ພຽງແຕ່ເກັບຮັກສາ selfies ເທົ່ານັ້ນ. ມັນເປັນ ravenous.
-
ຊຸດຝຶກອົບຮົມ : ImageNet's ILSVRC ດຽວຫຸ້ມຫໍ່ຮູບພາບທີ່ມີປ້າຍກຳກັບ ~1.2M, ແລະ corpora ສະເພາະໂດເມນໄປໄກກວ່ານັ້ນ [1].
-
Versioning : ທຸກ tweak - labels, splits, augmentations - ສ້າງ "ຄວາມຈິງ."
-
ການປ້ອນຂໍ້ມູນການຖ່າຍທອດ : ວິໄສທັດສົດ, telemetry, ເຊັນເຊີ feeds… ມັນເປັນທໍ່ໄຟຄົງທີ່.
-
ຮູບແບບທີ່ບໍ່ມີໂຄງສ້າງ : ຂໍ້ຄວາມ, ວິດີໂອ, ສຽງ, ບັນທຶກ - ວິທີການ bulkier ກວ່າຕາຕະລາງ SQL tidy.
ມັນເປັນບຸບເຟ່ທີ່ເຈົ້າສາມາດກິນໄດ້ທັງໝົດ, ແລະຮູບແບບດັ່ງກ່າວກັບມາສໍາລັບຂອງຫວານສະເໝີ.
Cloud vs On-Premises: ການໂຕ້ວາທີທີ່ບໍ່ມີວັນສິ້ນສຸດ 🌩️🏢
Cloud ເບິ່ງເປັນທີ່ລໍ້ລວງ: ໃກ້ບໍ່ມີຂອບເຂດ, ທົ່ວໂລກ, ຈ່າຍຕາມທີ່ທ່ານໄປ. ຈົນກ່ວາໃບແຈ້ງຫນີ້ຂອງທ່ານສະແດງໃຫ້ເຫັນ ການເກັບຄ່າທໍານຽມ - ແລະທັນທີທັນໃດຄ່າໃຊ້ຈ່າຍໃນການເກັບຮັກສາ "ລາຄາຖືກ" ຄູ່ແຂ່ງຂອງຄອມພິວເຕີ້ໃຊ້ຈ່າຍ [2].
On-prem, ໃນທາງກົງກັນຂ້າມ, ໃຫ້ການຄວບຄຸມແລະການປະຕິບັດທີ່ແຂງ, ແຕ່ທ່ານຍັງຈ່າຍຄ່າຮາດແວ, ພະລັງງານ, ຄວາມເຢັນ, ແລະມະນຸດກັບ racks ນັ່ງເດັກນ້ອຍ.
ທີມງານສ່ວນໃຫຍ່ຕົກລົງຢູ່ເຄິ່ງກາງທີ່ສັບສົນ: ແບບປະສົມ . ຮັກສາຂໍ້ມູນທີ່ຮ້ອນ, ລະອຽດອ່ອນ, ຂໍ້ມູນຜ່ານສູງຢູ່ໃກ້ກັບ GPUs, ແລະເກັບສ່ວນທີ່ເຫຼືອໄວ້ໃນຊັ້ນຟັງ.
ຄ່າໃຊ້ຈ່າຍໃນການເກັບຮັກສາ 💸
ຄວາມອາດສາມາດແມ່ນພຽງແຕ່ຊັ້ນຫນ້າດິນ. ຄ່າໃຊ້ຈ່າຍທີ່ເຊື່ອງໄວ້ຫຼາຍຂຶ້ນ:
-
ການເຄື່ອນໄຫວຂໍ້ມູນ : ສຳເນົາລະຫວ່າງພາກພື້ນ, ການໂອນຂ້າມຄລາວ, ແມ້ກະທັ້ງຜູ້ໃຊ້ egress [2].
-
ການຊໍ້າຊ້ອນ : ປະຕິບັດຕາມ 3-2-1 (ສາມສະບັບ, ສອງສື່, ຫນຶ່ງນອກສະຖານທີ່) ກິນພື້ນທີ່ແຕ່ປະຫຍັດມື້ [3].
-
ພະລັງງານ & ຄວາມເຢັນ : ຖ້າມັນເປັນ rack ຂອງທ່ານ, ມັນແມ່ນບັນຫາຄວາມຮ້ອນຂອງທ່ານ.
-
ການຊື້ຂາຍເວລາແພັກເກັດ : ລະດັບລາຄາຖືກກວ່າປົກກະຕິຫມາຍເຖິງຄວາມໄວການຟື້ນຟູ glacial.
ຄວາມປອດໄພແລະການປະຕິບັດຕາມ: ຕົວແທນແບ່ງເຂດງຽບ 🔒
ກົດລະບຽບສາມາດລະບຸໄດ້ວ່າ bytes ຢູ່ໃສ. ພາຍໃຕ້ GDPR ຂອງອັງກິດ , ການເຄື່ອນຍ້າຍຂໍ້ມູນສ່ວນບຸກຄົນອອກຈາກອັງກິດຮຽກຮ້ອງໃຫ້ມີເສັ້ນທາງການໂອນທີ່ຖືກຕ້ອງຕາມກົດຫມາຍ (SCCs, IDTAs, ຫຼືກົດລະບຽບທີ່ພຽງພໍ). ການແປພາສາ: ການອອກແບບການເກັບຮັກສາຂອງທ່ານຕ້ອງ "ຮູ້" ພູມສາດ [5].
ພື້ນຖານທີ່ຈະອົບໃນມື້ຫນຶ່ງ:
-
ການເຂົ້າລະຫັດ - ທັງພັກຜ່ອນແລະການເດີນທາງ.
-
ການເຂົ້າເຖິງສິດທິພິເສດຕໍ່າສຸດ + ເສັ້ນທາງການກວດສອບ.
-
ລົບການປົກປ້ອງ ເຊັ່ນ: ຄວາມບໍ່ສາມາດປ່ຽນແປງຫຼືການລັອກວັດຖຸ.
ຄໍປະສິດຕິພາບ: ຄວາມລັບແມ່ນຕົວຂ້າທີ່ງຽບ ⚡
GPUs ບໍ່ມັກລໍຖ້າ. ຖ້າການເກັບຮັກສາຊ້າ, ພວກມັນແມ່ນເຄື່ອງເຮັດຄວາມຮ້ອນທີ່ສະຫງ່າງາມ. ເຄື່ອງມືເຊັ່ນ: NVIDIA GPUDirect Storage ຕັດ CPU ກາງ, ປິດຂໍ້ມູນໂດຍກົງຈາກ NVMe ໄປຫາຫນ່ວຍຄວາມຈໍາ GPU - ສິ່ງທີ່ຕ້ອງການການຝຶກອົບຮົມຊຸດໃຫຍ່ [4].
ການແກ້ໄຂທົ່ວໄປ:
-
NVMe all-flash ສໍາລັບ shards ການຝຶກອົບຮົມຮ້ອນ.
-
ລະບົບໄຟລ໌ຂະໜານ (Lustre, Spectrum Scale) ສຳລັບການປ້ອນຂໍ້ມູນຫຼາຍຂໍ້.
-
Async loaders ດ້ວຍການ sharding + prefetch ເພື່ອຮັກສາ GPUs ຈາກການ idling.
ການເຄື່ອນໄຫວປະຕິບັດສໍາລັບການຄຸ້ມຄອງການເກັບຮັກສາ AI 🛠️
-
Tiering : Hot shards ໃນ NVMe/SSD; stale archive ກໍານົດເຂົ້າໄປໃນຊັ້ນວັດຖຸຫຼືເຢັນ.
-
Dedup + delta : ເກັບຮັກສາພື້ນຖານຫນຶ່ງຄັ້ງ, ຮັກສາພຽງແຕ່ຄວາມແຕກຕ່າງ + manifests.
-
ກົດລະບຽບຂອງວົງຈອນຊີວິດ : ອັດຕະໂນມັດລະດັບ ແລະໝົດອາຍຸຜົນຜະລິດເກົ່າ [2].
-
3-2-1 ຄວາມຢືດຢຸ່ນ : ສະເຫມີຮັກສາຫຼາຍໆສໍາເນົາ, ໃນທົ່ວສື່ຕ່າງໆ, ໂດຍມີຫນຶ່ງແຍກ [3].
-
ເຄື່ອງມື : ຕິດຕາມການສົ່ງຜ່ານ, p95/p99 latencies, ອ່ານບໍ່ສໍາເລັດ, egress ໂດຍ workload.
ກໍລະນີດ່ວນ (ສ້າງຂຶ້ນແຕ່ປົກກະຕິ) 📚
ທີມງານວິໄສທັດເລີ່ມຕົ້ນດ້ວຍ ~20 TB ໃນການເກັບຮັກສາວັດຖຸໃນຄລາວ. ຕໍ່ມາ, ພວກເຂົາເຈົ້າເລີ່ມ cloning ຊຸດຂໍ້ມູນໃນທົ່ວພາກພື້ນສໍາລັບການທົດລອງ. ຄ່າໃຊ້ຈ່າຍຂອງເຂົາເຈົ້າປູມເປົ້າ - ບໍ່ໄດ້ຈາກການເກັບຮັກສາຕົວມັນເອງ, ແຕ່ວ່າຈາກ ການຈະລາຈອນ egress . ພວກເຂົາປ່ຽນ shards ຮ້ອນໄປຫາ NVMe ໃກ້ກັບກຸ່ມ GPU, ຮັກສາສໍາເນົາ canonical ໃນການເກັບຮັກສາວັດຖຸ (ມີກົດລະບຽບ lifecycle), ແລະ pin ພຽງແຕ່ຕົວຢ່າງທີ່ເຂົາເຈົ້າຕ້ອງການ. ຜົນໄດ້ຮັບ: GPUs ແມ່ນ busier, ໃບບິນແມ່ນ leaner, ແລະການອະນາໄມຂໍ້ມູນປັບປຸງ.
ການວາງແຜນຄວາມອາດສາມາດດ້ານຫຼັງຂອງຊອງຈົດໝາຍ 🧮
ສູດການຄາດຄະເນການຄາດຄະເນ:
ຄວາມອາດສາມາດ ≈ (ຊຸດຂໍ້ມູນດິບ) × (ປັດໄຈການຈໍາລອງ) + (ຂໍ້ມູນເບື້ອງຕົ້ນ / ເພີ່ມຂໍ້ມູນ) + (ຈຸດກວດກາ + ບັນທຶກ) + (ຂອບຄວາມປອດໄພ ~15–30%)
ຫຼັງຈາກນັ້ນ, sanity ກວດເບິ່ງມັນຕໍ່ກັບ throughput. ຖ້າເຄື່ອງໂຫຼດຕໍ່ໂນດຕ້ອງການ ~ 2–4 GB / s ຍືນຍົງ, ທ່ານກໍາລັງເບິ່ງ NVMe ຫຼື FS ຂະຫນານສໍາລັບເສັ້ນທາງຮ້ອນ, ດ້ວຍການເກັບຮັກສາວັດຖຸເປັນຄວາມຈິງພື້ນຖານ.
ມັນບໍ່ແມ່ນພຽງແຕ່ກ່ຽວກັບອາວະກາດ📊
ເມື່ອຄົນເວົ້າ ຄວາມຕ້ອງການການເກັບຮັກສາ AI , ພວກເຂົາຮູບພາບ terabytes ຫຼື petabytes. ແຕ່ເຄັດລັບທີ່ແທ້ຈິງແມ່ນການດຸ່ນດ່ຽງ: ຄ່າໃຊ້ຈ່າຍທຽບກັບການປະຕິບັດ, ຄວາມຍືດຫຍຸ່ນທຽບກັບການປະຕິບັດຕາມ, ນະວັດຕະກໍາທຽບກັບຄວາມຫມັ້ນຄົງ. ຂໍ້ມູນ AI ຈະບໍ່ຫຼຸດລົງໃນໄວໆນີ້. ທີມງານທີ່ພັບການເກັບຮັກສາເຂົ້າໄປໃນການອອກແບບຕົວແບບໃນຕອນຕົ້ນຫຼີກເວັ້ນການຈົມນ້ໍາໃນ swamps ຂໍ້ມູນ - ແລະພວກເຂົາສິ້ນສຸດການຝຶກອົບຮົມໄວ, ເຊັ່ນກັນ.
ເອກະສານອ້າງອີງ
[1] Russakovsky et al. ImageNet ສິ່ງທ້າທາຍການຮັບຮູ້ສາຍຕາຂະໜາດໃຫຍ່ (IJCV) — ຂະໜາດຊຸດຂໍ້ມູນ ແລະສິ່ງທ້າທາຍ. Link
[2] AWS — Amazon S3 ລາຄາ & ຄ່າໃຊ້ຈ່າຍ (ການໂອນຂໍ້ມູນ, egress, lifecycle tiers). ເຊື່ອມຕໍ່
[3] CISA — 3-2-1 ຄໍາແນະນໍາກົດລະບຽບສໍາຮອງຂໍ້ມູນ. ລິ້ງ
[4] NVIDIA Docs — ພາບລວມຂອງ GPUDirect Storage. ເຊື່ອມຕໍ່
[5] ICO — ກົດລະບຽບ GDPR ຂອງອັງກິດກ່ຽວກັບການໂອນຂໍ້ມູນລະຫວ່າງປະເທດ. ເຊື່ອມຕໍ່