ຂໍ້ກຳນົດການເກັບຮັກສາຂໍ້ມູນສຳລັບ AI: ສິ່ງທີ່ທ່ານຈຳເປັນຕ້ອງຮູ້ແທ້ໆ

AI ບໍ່ແມ່ນພຽງແຕ່ຮູບແບບທີ່ໂດດເດັ່ນ ຫຼື ຜູ້ຊ່ວຍເວົ້າທີ່ລອກລຽນແບບຄົນ. ຢູ່ເບື້ອງຫຼັງທັງໝົດນັ້ນ, ມີຂໍ້ມູນຫຼາຍຫຼວງ - ບາງຄັ້ງກໍ່ເປັນມະຫາສະໝຸດ -. ແລະ ແທ້ໆແລ້ວ, ການເກັບຮັກສາຂໍ້ມູນນັ້ນບໍ? ນັ້ນແມ່ນບ່ອນທີ່ສິ່ງຕ່າງໆມັກຈະວຸ້ນວາຍ. ບໍ່ວ່າທ່ານຈະເວົ້າເຖິງທໍ່ສົ່ງການຮັບຮູ້ຮູບພາບ ຫຼື ການຝຶກອົບຮົມຮູບແບບພາສາຍັກໃຫຍ່, ຄວາມຕ້ອງການດ້ານການເກັບຮັກສາຂໍ້ມູນສຳລັບ AI ສາມາດປ່ຽນແປງອອກຈາກການຄວບຄຸມໄດ້ໄວຖ້າທ່ານບໍ່ຄິດຢ່າງລະອຽດ. ໃຫ້ພວກເຮົາແຍກແຍະວ່າເປັນຫຍັງການເກັບຮັກສາຈຶ່ງເປັນສັດຮ້າຍ, ມີທາງເລືອກຫຍັງແດ່, ແລະ ທ່ານສາມາດຈັດການຄ່າໃຊ້ຈ່າຍ, ຄວາມໄວ, ແລະ ຂະໜາດໄດ້ແນວໃດໂດຍບໍ່ຕ້ອງໃຊ້ພະລັງງານຫຼາຍເກີນໄປ.

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 ວິທະຍາສາດຂໍ້ມູນ ແລະ ປັນຍາປະດິດ: ອະນາຄົດຂອງນະວັດຕະກຳ
ສຳຫຼວດວິທີທີ່ AI ແລະວິທະຍາສາດຂໍ້ມູນຂັບເຄື່ອນນະວັດຕະກໍາທີ່ທັນສະໄໝ.

🔗 ປັນຍາປະດິດຂອງແຫຼວ: ອະນາຄົດຂອງ AI ແລະຂໍ້ມູນແບບກະຈາຍອຳນາດ
ການພິຈາລະນາເບິ່ງຂໍ້ມູນ AI ແບບກະຈາຍອຳນາດ ແລະ ນະວັດຕະກຳທີ່ພົ້ນເດັ່ນຂຶ້ນມາ.

🔗 ການຈັດການຂໍ້ມູນສຳລັບເຄື່ອງມື AI ທີ່ທ່ານຄວນພິຈາລະນາ
ຍຸດທະສາດຫຼັກເພື່ອປັບປຸງການເກັບຮັກສາ ແລະ ປະສິດທິພາບຂໍ້ມູນ AI.

🔗 ເຄື່ອງມື AI ທີ່ດີທີ່ສຸດສຳລັບນັກວິເຄາະຂໍ້ມູນ: ເສີມຂະຫຍາຍການຕັດສິນໃຈວິເຄາະ
ເຄື່ອງມື AI ຊັ້ນນໍາທີ່ຊ່ວຍເພີ່ມການວິເຄາະຂໍ້ມູນ ແລະ ການຕັດສິນໃຈ.

ສະນັ້ນ... ສິ່ງໃດທີ່ເຮັດໃຫ້ການເກັບຮັກສາຂໍ້ມູນ AI ມີປະໂຫຍດ? ✅

ມັນບໍ່ພຽງແຕ່ "ເທຣາໄບຕ໌ຫຼາຍຂຶ້ນ". ບ່ອນເກັບຂໍ້ມູນທີ່ເປັນມິດກັບ AI ທີ່ແທ້ຈິງແມ່ນກ່ຽວກັບການ ໃຊ້ງານໄດ້, ໜ້າເຊື່ອຖື, ແລະໄວພຽງພໍ ສຳລັບທັງການຝຶກອົບຮົມ ແລະ ວຽກງານການອະນຸມານ.

ບາງຈຸດເດັ່ນທີ່ຄວນສັງເກດ:

ຄວາມສາມາດໃນການຂະຫຍາຍ: ການກະໂດດຈາກ GBs ໄປຫາ PBs ໂດຍບໍ່ຕ້ອງຂຽນສະຖາປັດຕະຍະກຳຂອງທ່ານຄືນໃໝ່.
ປະສິດທິພາບ: ຄວາມໜ່ວງເວລາສູງຈະເຮັດໃຫ້ GPU ບໍ່ມີແຮງ; ພວກມັນບໍ່ສາມາດໃຫ້ອະໄພບັນຫາຄໍຂວດໄດ້.
ຄວາມຊ້ຳຊ້ອນ: ພາບຖ່າຍ, ການຊ້ຳຊ້ອນ, ການປ່ຽນເວີຊັນ - ເພາະວ່າການທົດລອງແຕກ, ແລະຜູ້ຄົນກໍ່ເຮັດເຊັ່ນກັນ.
ປະສິດທິພາບດ້ານຕົ້ນທຶນ: ລະດັບທີ່ເໝາະສົມ, ເວລາທີ່ເໝາະສົມ; ຖ້າບໍ່ດັ່ງນັ້ນ, ຮ່າງກົດໝາຍຈະຄ່ອຍໆປາກົດຂຶ້ນຄືກັບການກວດສອບພາສີ.
ຄວາມໃກ້ຊິດກັບການຄິດໄລ່: ວາງບ່ອນເກັບຂໍ້ມູນໄວ້ຂ້າງ GPU/TPU ຫຼື ຕິດຕາມເບິ່ງການຈັດສົ່ງຂໍ້ມູນ.

ຖ້າບໍ່ດັ່ງນັ້ນ, ມັນຄືກັບການພະຍາຍາມຂັບລົດ Ferrari ໂດຍໃຊ້ນໍ້າມັນເຄື່ອງຕັດຫຍ້າ - ໂດຍວິທີທາງການແລ້ວມັນຈະເຄື່ອນທີ່, ແຕ່ບໍ່ດົນ.

ຕາຕະລາງປຽບທຽບ: ທາງເລືອກການເກັບຮັກສາທົ່ວໄປສຳລັບ AI

ປະເພດການເກັບຮັກສາ	ເໝາະສົມທີ່ສຸດ	ສະໜາມກິລາຄ່າໃຊ້ຈ່າຍ	ເປັນຫຍັງມັນຈຶ່ງເຮັດວຽກ (ຫຼືບໍ່ໄດ້ຜົນ)
ບ່ອນເກັບຂໍ້ມູນວັດຖຸຄລາວ	ບໍລິສັດ Startup ແລະ ຜູ້ປະກອບການຂະໜາດກາງ	$$ (ຕົວແປ)	ຍືດຫຍຸ່ນ, ທົນທານ, ເໝາະສຳລັບທະເລສາບຂໍ້ມູນ; ຈົ່ງລະວັງ ຄ່າທຳນຽມການອອກນອກ + ການຮ້ອງຂໍ hits.
NAS ໃນສະຖານທີ່	ອົງກອນຂະໜາດໃຫຍ່ທີ່ມີທີມງານໄອທີ	$$$$	ຄວາມໜ່ວງເວລາທີ່ສາມາດຄາດເດົາໄດ້, ການຄວບຄຸມຢ່າງເຕັມທີ່; ການລົງທຶນເບື້ອງຕົ້ນ + ຄ່າໃຊ້ຈ່າຍໃນການດຳເນີນງານຢ່າງຕໍ່ເນື່ອງ.
ຄລາວໄຮບຣິດ	ການຕັ້ງຄ່າທີ່ຕ້ອງປະຕິບັດຕາມກົດລະບຽບຫຼາຍ	$$$	ລວມເອົາຄວາມໄວທ້ອງຖິ່ນເຂົ້າກັບຄລາວທີ່ຍືດຫຍຸ່ນ; ການປະສານສຽງເພີ່ມຄວາມເຈັບຫົວ.
ອາເຣທັງໝົດແບບແຟລດ	ນັກຄົ້ນຄວ້າທີ່ມີຄວາມຫຼົງໄຫຼໃນວຽກງານ	$$$$$	IOPS/throughput ທີ່ໄວຫຼາຍ; ແຕ່ TCO ບໍ່ແມ່ນເລື່ອງຕະຫຼົກ.
ລະບົບໄຟລ໌ແບບກະຈາຍ	ກຸ່ມພັດທະນາ AI / HPC	$$–$$$	I/O ຂະໜານໃນຂະໜາດທີ່ຮ້າຍແຮງ (Lustre, Spectrum Scale); ພາລະ ops ແມ່ນມີຢູ່ຈິງ.

ເປັນຫຍັງຄວາມຕ້ອງການຂໍ້ມູນ AI ຈຶ່ງເພີ່ມຂຶ້ນຢ່າງໄວວາ 🚀

AI ບໍ່ພຽງແຕ່ເກັບມ້ຽນຮູບ selfie ເທົ່ານັ້ນ. ມັນຍັງມີຄວາມກະຕືລືລົ້ນຫຼາຍ.

ຊຸດການຝຶກອົບຮົມ: ILSVRC ຂອງ ImageNet ພຽງຢ່າງດຽວກໍ່ບັນຈຸຮູບພາບທີ່ມີປ້າຍກຳກັບປະມານ 1.2 ລ້ານຮູບ, ແລະ corpora ສະເພາະໂດເມນກໍ່ເກີນກວ່ານັ້ນ [1].
ການແກ້ໄຂເວີຊັນ: ທຸກໆການປັບແຕ່ງ - ປ້າຍກຳກັບ, ການແຍກ, ການເພີ່ມເຕີມ - ສ້າງ "ຄວາມຈິງ" ອີກອັນໜຶ່ງ.
ການປ້ອນຂໍ້ມູນແບບສະຕຣີມມິງ: ວິໄສທັດສົດ, ການວັດແທກ ແລະ ສົ່ງຂໍ້ມູນທາງໄກ, ເຊັນເຊີຟີດ... ມັນເປັນສິ່ງທີ່ຕ້ອງເຮັດຢູ່ສະເໝີ.
ຮູບແບບທີ່ບໍ່ມີໂຄງສ້າງ: ຂໍ້ຄວາມ, ວິດີໂອ, ສຽງ, ບັນທຶກ - ໃຫຍ່ກວ່າຕາຕະລາງ SQL ທີ່ເປັນລະບຽບຫຼາຍ.

ມັນເປັນບຸບເຟ້ທີ່ກິນໄດ້ບໍ່ຈຳກັດ, ແລະ ນາງແບບກໍກັບມາກິນຂອງຫວານສະເໝີ.

ຄລາວ ທຽບກັບ ໃນສະຖານທີ່: ການໂຕ້ວາທີທີ່ບໍ່ມີວັນສິ້ນສຸດ 🌩️🏢

ຄລາວເບິ່ງຄືວ່າໜ້າສົນໃຈ: ເກືອບບໍ່ມີຂອບເຂດ, ທົ່ວໂລກ, ຈ່າຍຕາມທີ່ທ່ານໃຊ້. ຈົນກວ່າໃບແຈ້ງໜີ້ຂອງທ່ານຈະສະແດງ ຄ່າບໍລິການອອກ - ແລະທັນໃດນັ້ນບ່ອນເກັບຂໍ້ມູນ "ລາຄາຖືກ" ຂອງທ່ານກໍ່ມີລາຄາແພງກວ່າຄ່າໃຊ້ຈ່າຍໃນການປະມວນຜົນ [2].

ໃນທາງກົງກັນຂ້າມ, ຢູ່ໃນສະຖານທີ່ໃຫ້ການຄວບຄຸມ ແລະ ປະສິດທິພາບທີ່ແຂງແກ່ນ, ແຕ່ທ່ານຍັງຈ່າຍຄ່າຮາດແວ, ພະລັງງານ, ຄວາມເຢັນ, ແລະ ມະນຸດໄປຫາຊັ້ນວາງເບິ່ງແຍງເດັກ.

ທີມສ່ວນໃຫຍ່ຕັ້ງຖິ່ນຖານຢູ່ໃຈກາງທີ່ສັບສົນ: ແບບປະສົມ . ເກັບຮັກສາຂໍ້ມູນທີ່ຮ້ອນ, ລະອຽດອ່ອນ, ແລະ ມີປະລິມານຂໍ້ມູນສູງໄວ້ໃກ້ກັບ GPU, ແລະ ເກັບສ່ວນທີ່ເຫຼືອໄວ້ໃນຊັ້ນຄລາວ.

ຄ່າໃຊ້ຈ່າຍໃນການເກັບຮັກສາທີ່ເພີ່ມຂຶ້ນຢ່າງໄວວາ 💸

ຄວາມອາດສາມາດເປັນພຽງຊັ້ນໜ້າດິນເທົ່ານັ້ນ. ຄ່າໃຊ້ຈ່າຍທີ່ເຊື່ອງໄວ້ສະສົມຢູ່:

ການຍ້າຍຂໍ້ມູນ: ສຳເນົາລະຫວ່າງພາກພື້ນ, ການໂອນຂ້າມຄລາວດ໌, ແມ່ນແຕ່ການອອກຈາກລະບົບຂອງຜູ້ໃຊ້ [2].
ຄວາມຊ້ຳຊ້ອນ: ການຕິດຕາມ 3-2-1 (ສາມສຳເນົາ, ສອງສື່, ໜຶ່ງນອກສະຖານທີ່) ກິນພື້ນທີ່ແຕ່ຊ່ວຍປະຢັດມື້ໄດ້ [3].
ພະລັງງານ ແລະ ຄວາມເຢັນ: ຖ້າມັນເປັນຊັ້ນວາງຂອງເຈົ້າ, ມັນແມ່ນບັນຫາຄວາມຮ້ອນຂອງເຈົ້າ.
ການແລກປ່ຽນຄວາມຊັກຊ້າ: ລະດັບລາຄາຖືກກວ່າມັກຈະໝາຍເຖິງຄວາມໄວໃນການຟື້ນຕົວຈາກກ້ອນນ້ຳກ້ອນ.

ຄວາມປອດໄພ ແລະ ການປະຕິບັດຕາມ: ຜູ້ທຳລາຍຂໍ້ຕົກລົງທີ່ງຽບສະຫງົບ 🔒

ກົດລະບຽບສາມາດກຳນົດໄດ້ຢ່າງແທ້ຈິງວ່າໄບຕ໌ຢູ່ໃສ. ພາຍໃຕ້ GDPR ຂອງອັງກິດ, ການຍ້າຍຂໍ້ມູນສ່ວນຕົວອອກຈາກອັງກິດຮຽກຮ້ອງໃຫ້ມີເສັ້ນທາງການໂອນຍ້າຍທີ່ຖືກຕ້ອງຕາມກົດໝາຍ (SCCs, IDTAs, ຫຼືກົດລະບຽບຄວາມພຽງພໍ). ການແປ: ການອອກແບບບ່ອນເກັບຂໍ້ມູນຂອງທ່ານຕ້ອງ "ຮູ້" ພູມສາດ [5].

ພື້ນຖານທີ່ຕ້ອງອົບຕັ້ງແຕ່ມື້ທຳອິດ:

ການເຂົ້າລະຫັດ - ທັງການພັກຜ່ອນ ແລະ ການເດີນທາງ.
ການເຂົ້າເຖິງທີ່ມີສິດທິພິເສດໜ້ອຍທີ່ສຸດ + ເສັ້ນທາງການກວດສອບ.
ລຶບການປົກປ້ອງ ເຊັ່ນ: ຄວາມບໍ່ປ່ຽນແປງ ຫຼື ການລັອກວັດຖຸ.

ບັນຫາຂໍ້ຈຳກັດດ້ານປະສິດທິພາບ: ຄວາມຊັກຊ້າແມ່ນຕົວຂ້າທີ່ງຽບສະຫງັດ ⚡

GPU ບໍ່ມັກການລໍຖ້າ. ຖ້າການເກັບຮັກສາມີຄວາມຊັກຊ້າ, ພວກມັນກໍ່ເປັນຕົວເລັ່ງຄວາມຮ້ອນທີ່ດີເລີດ. ເຄື່ອງມືຕ່າງໆເຊັ່ນ NVIDIA GPUDirect Storage ຫຼຸດຜ່ອນຕົວກາງຂອງ CPU, ການໂອນຂໍ້ມູນໂດຍກົງຈາກ NVMe ໄປຫາໜ່ວຍຄວາມຈຳ GPU - ແນ່ນອນວ່າການຝຶກອົບຮົມແບບ big-batch ຕ້ອງການຫຍັງ [4].

ວິທີແກ້ໄຂທົ່ວໄປ:

NVMe all-flash ສຳລັບ shards ການຝຶກອົບຮົມທີ່ຮ້ອນແຮງ.
ລະບົບໄຟລ໌ຂະໜານ (Lustre, Spectrum Scale) ສຳລັບປະລິມານຂໍ້ມູນຫຼາຍໂຫນດ.
ຕົວໂຫຼດແບບ Async ທີ່ມີ sharding + prefetch ເພື່ອປ້ອງກັນບໍ່ໃຫ້ GPU ເຮັດວຽກບໍ່ໄດ້.

ການເຄື່ອນໄຫວທີ່ເປັນປະໂຫຍດສຳລັບການຄຸ້ມຄອງການເກັບຮັກສາ AI 🛠️

ການຈັດລະດັບ: Hot shards ໃນ NVMe/SSD; ເກັບຊຸດເກົ່າໄວ້ໃນຊັ້ນວັດຖຸ ຫຼື ຊັ້ນເຢັນ.
Dedup + delta: ເກັບຮັກສາເສັ້ນຖານພຽງຄັ້ງດຽວ, ເກັບໄວ້ສະເພາະ diffs + manifests.
ກົດລະບຽບວົງຈອນຊີວິດ: ຈັດລະດັບອັດຕະໂນມັດ ແລະ ຜົນຜະລິດເກົ່າທີ່ໝົດອາຍຸ [2].
ຄວາມຢືດຢຸ່ນ 3-2-1: ເກັບຮັກສາສຳເນົາຫຼາຍສະບັບໄວ້ໃນສື່ທີ່ແຕກຕ່າງກັນສະເໝີ, ໂດຍໃຫ້ແຍກສຳເນົາໜຶ່ງສະບັບແຍກຕ່າງຫາກ [3].
ເຄື່ອງມືວັດແທກ: ຕິດຕາມປະລິມານວຽກ, ເວລາຊັກຊ້າຂອງ p95/p99, ການອ່ານທີ່ລົ້ມເຫຼວ, ການສົ່ງອອກໄປຕາມປະລິມານວຽກ.

ກໍລະນີທີ່ໄວ (ແຕ່ງຂຶ້ນແຕ່ເປັນເລື່ອງທຳມະດາ) 📚

ທີມງານວິໄສທັດເລີ່ມຕົ້ນດ້ວຍພື້ນທີ່ເກັບຂໍ້ມູນວັດຖຸໃນຄລາວປະມານ 20 TB. ຕໍ່ມາ, ພວກເຂົາເລີ່ມໂຄນຊຸດຂໍ້ມູນໃນທົ່ວພາກພື້ນເພື່ອການທົດລອງ. ຄ່າໃຊ້ຈ່າຍຂອງພວກເຂົາເພີ່ມຂຶ້ນ - ບໍ່ແມ່ນມາຈາກບ່ອນເກັບຂໍ້ມູນເອງ, ແຕ່ມາຈາກ ການຈະລາຈອນອອກ. ພວກເຂົາຍ້າຍ hot shards ໄປຫາ NVMe ໃກ້ກັບກຸ່ມ GPU, ເກັບຮັກສາສຳເນົາມາດຕະຖານໄວ້ໃນບ່ອນເກັບຂໍ້ມູນວັດຖຸ (ດ້ວຍກົດລະບຽບວົງຈອນຊີວິດ), ແລະປັກໝຸດພຽງແຕ່ຕົວຢ່າງທີ່ພວກເຂົາຕ້ອງການ. ຜົນໄດ້ຮັບ: GPU ມີວຽກຫຼາຍ, ໃບບິນມີໜ້ອຍລົງ, ແລະສຸຂະອະນາໄມຂໍ້ມູນດີຂຶ້ນ.

ການວາງແຜນຄວາມອາດສາມາດດ້ານຫຼັງຂອງຊອງຈົດໝາຍ 🧮

ສູດຫຍາບຄາຍສຳລັບການປະເມີນ:

ຄວາມອາດສາມາດ ≈ (ຊຸດຂໍ້ມູນດິບ) × (ປັດໄຈການສຳເນົາຂໍ້ມູນ) + (ຂໍ້ມູນປະມວນຜົນລ່ວງໜ້າ / ຂໍ້ມູນເພີ່ມຂຶ້ນ) + (ຈຸດກວດສອບ + ບັນທຶກ) + (ຂອບເຂດຄວາມປອດໄພ ~15–30%)

ຫຼັງຈາກນັ້ນ, ໃຫ້ກວດສອບ sanity ທຽບກັບ throughput. ຖ້າຕົວໂຫຼດຕໍ່ໂຫນດຕ້ອງການ ~2–4 GB/s ທີ່ຍືນຍົງ, ທ່ານກຳລັງເບິ່ງ NVMe ຫຼື parallel FS ສຳລັບເສັ້ນທາງຮ້ອນ, ໂດຍມີການເກັບຮັກສາວັດຖຸເປັນຄວາມຈິງພື້ນຖານ.

ມັນບໍ່ພຽງແຕ່ກ່ຽວກັບອະວະກາດເທົ່ານັ້ນ📊

ເມື່ອຄົນເວົ້າວ່າ ຄວາມຕ້ອງການດ້ານການເກັບຮັກສາ AI, ເຂົາເຈົ້າຈະນຶກພາບເຖິງ terabytes ຫຼື petabytes. ແຕ່ເຄັດລັບທີ່ແທ້ຈິງແມ່ນຄວາມສົມດຸນ: ຕົ້ນທຶນທຽບກັບປະສິດທິພາບ, ຄວາມຍືດຫຍຸ່ນທຽບກັບການປະຕິບັດຕາມ, ນະວັດຕະກໍາທຽບກັບຄວາມໝັ້ນຄົງ. ຂໍ້ມູນ AI ຈະບໍ່ຫົດຕົວໃນໄວໆນີ້. ທີມງານທີ່ລວມການເກັບຮັກສາເຂົ້າໃນການອອກແບບຮູບແບບແຕ່ຫົວທີຈະຫຼີກລ່ຽງການຈົມຢູ່ໃນໜອງຂໍ້ມູນ - ແລະພວກເຂົາກໍ່ໄດ້ຮັບການຝຶກອົບຮົມໄວຂຶ້ນເຊັ່ນກັນ.

ເອກະສານອ້າງອີງ

[1] Russakovsky ແລະ ຄະນະ. ສິ່ງທ້າທາຍການຮັບຮູ້ພາບຂະໜາດໃຫຍ່ຂອງ ImageNet (IJCV) — ຂະໜາດຊຸດຂໍ້ມູນ ແລະ ສິ່ງທ້າທາຍ. ລິ້ງ
[2] AWS — ລາຄາ ແລະ ຄ່າໃຊ້ຈ່າຍຂອງ Amazon S3 (ການໂອນຂໍ້ມູນ, ການອອກ, ລະດັບວົງຈອນຊີວິດ). ລິ້ງ
[3] CISA — ຄຳແນະນຳກ່ຽວກັບກົດລະບຽບສຳຮອງຂໍ້ມູນ 3-2-1. ລິ້ງ
[4] NVIDIA Docs — ພາບລວມຂອງບ່ອນເກັບຂໍ້ມູນ GPUDirect. ລິ້ງ
[5] ICO — ກົດລະບຽບ GDPR ຂອງອັງກິດກ່ຽວກັບການໂອນຂໍ້ມູນສາກົນ. ລິ້ງ

ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ

ສະນັ້ນ... ສິ່ງໃດທີ່ເຮັດໃຫ້ການເກັບຮັກສາຂໍ້ມູນ AI ​​ມີປະໂຫຍດ? ✅