ເມື່ອຄົນສ່ວນໃຫຍ່ໄດ້ຍິນຄຳວ່າ "ປັນຍາປະດິດ", ເຂົາເຈົ້າຈະນຶກພາບເຖິງເຄືອຂ່າຍປະສາດ, ອັລກໍຣິທຶມທີ່ທັນສະໄໝ, ຫຼື ບາງທີອາດເປັນຫຸ່ນຍົນທີ່ຄ້າຍຄືກັບມະນຸດທີ່ແປກປະຫຼາດເຫຼົ່ານັ້ນ. ສິ່ງທີ່ບໍ່ຄ່ອຍໄດ້ກ່າວເຖິງລ່ວງໜ້າຄື: AI ກິນບ່ອນເກັບຂໍ້ມູນຢ່າງໜັກໜ່ວງຄືກັບທີ່ມັນຄິດໄລ່ . ແລະ ບໍ່ແມ່ນພຽງແຕ່ບ່ອນເກັບຂໍ້ມູນວັດຖຸໃດໆທີ່ນັ່ງຢູ່ຢ່າງງຽບໆໃນພື້ນຫຼັງ, ເຮັດວຽກທີ່ບໍ່ໜ້າສົນໃຈແຕ່ຈຳເປັນຢ່າງແທ້ຈິງໃນການປ້ອນຂໍ້ມູນໃຫ້ແບບຈຳລອງທີ່ພວກເຂົາຕ້ອງການ.
ໃຫ້ພວກເຮົາແຍກອອກສິ່ງທີ່ເຮັດໃຫ້ການເກັບຮັກສາວັດຖຸມີຄວາມສຳຄັນຫຼາຍສຳລັບ AI, ມັນແຕກຕ່າງຈາກ "ລະບົບເກັບຮັກສາແບບເກົ່າ" ແນວໃດ, ແລະເປັນຫຍັງມັນຈຶ່ງກາຍເປັນໜຶ່ງໃນຕົວກະຕຸ້ນທີ່ສຳຄັນສຳລັບການຂະຫຍາຍ ແລະ ປະສິດທິພາບ.
ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:
🔗 ເຕັກໂນໂລຊີໃດທີ່ຕ້ອງມີເພື່ອນໍາໃຊ້ AI ທີ່ສ້າງສັນໃນຂະໜາດໃຫຍ່ສໍາລັບທຸລະກິດ
ເຕັກໂນໂລຊີທີ່ສຳຄັນທີ່ທຸລະກິດຕ້ອງການສຳລັບການຂະຫຍາຍ AI ທີ່ສ້າງສັນໄດ້ຢ່າງມີປະສິດທິພາບ.
🔗 ການຈັດການຂໍ້ມູນສຳລັບເຄື່ອງມື AI ທີ່ທ່ານຄວນພິຈາລະນາ
ວິທີປະຕິບັດທີ່ດີທີ່ສຸດສຳລັບການຈັດການຂໍ້ມູນເພື່ອເພີ່ມປະສິດທິພາບການເຮັດວຽກຂອງ AI.
🔗 ຜົນສະທ້ອນຂອງປັນຍາປະດິດສຳລັບຍຸດທະສາດທຸລະກິດ
ວິທີທີ່ AI ສົ່ງຜົນກະທົບຕໍ່ຍຸດທະສາດທາງທຸລະກິດ ແລະ ການຕັດສິນໃຈໄລຍະຍາວ.
ສິ່ງໃດທີ່ເຮັດໃຫ້ການເກັບຮັກສາວັດຖຸເປັນໄປຢ່າງດີສຳລັບ AI? 🌟
ແນວຄວາມຄິດໃຫຍ່: ການເກັບຮັກສາວັດຖຸບໍ່ໄດ້ລົບກວນກັບໂຟນເດີ ຫຼື ຮູບແບບບລັອກແຂງ. ມັນແບ່ງຂໍ້ມູນອອກເປັນ "ວັດຖຸ", ແຕ່ລະອັນຖືກແທັກດ້ວຍ metadata. metadata ນັ້ນສາມາດເປັນສິ່ງທີ່ຢູ່ໃນລະດັບລະບົບ (ຂະໜາດ, ເວລາ, ຄລາສບ່ອນເກັບຂໍ້ມູນ) ແລະ ແທັກ key:value ທີ່ຜູ້ໃຊ້ກຳນົດເອງ [1]. ຄິດເຖິງມັນຄືກັບທຸກໆໄຟລ໌ທີ່ມີກອງບັນທຶກທີ່ບອກເຈົ້າຢ່າງແນ່ນອນວ່າມັນແມ່ນຫຍັງ, ມັນຖືກສ້າງຂຶ້ນແນວໃດ, ແລະ ມັນພໍດີກັບບ່ອນໃດໃນ pipeline ຂອງເຈົ້າ.
ສຳລັບທີມ AI, ຄວາມຍືດຫຍຸ່ນນັ້ນແມ່ນຕົວປ່ຽນແປງເກມ:
-
ຂະໜາດໂດຍບໍ່ມີອາການເຈັບຫົວ - ທະເລສາບຂໍ້ມູນຂະຫຍາຍອອກໄປເປັນ petabytes, ແລະບ່ອນເກັບມ້ຽນວັດຖຸສາມາດຈັດການມັນໄດ້ຢ່າງສະດວກສະບາຍ. ພວກມັນຖືກອອກແບບມາເພື່ອການເຕີບໂຕທີ່ເກືອບບໍ່ມີຂີດຈຳກັດ ແລະ ຄວາມທົນທານຂອງຫຼາຍ AZ (Amazon S3 ອວດອ້າງກ່ຽວກັບ "11 nines" ແລະການຊ້ຳຊ້ອນຂ້າມເຂດໂດຍຄ່າເລີ່ມຕົ້ນ) [2].
-
ຄວາມອຸດົມສົມບູນຂອງຂໍ້ມູນເມຕາ - ການຄົ້ນຫາໄວຂຶ້ນ, ຕົວກອງທີ່ສະອາດກວ່າ, ແລະ ທໍ່ສົ່ງທີ່ສະຫຼາດກວ່າ ເນື່ອງຈາກສະພາບການເຄື່ອນທີ່ໄປພ້ອມກັບແຕ່ລະວັດຖຸ [1].
-
Cloud-native - ຂໍ້ມູນເຂົ້າມາຜ່ານ HTTP(S), ຊຶ່ງໝາຍຄວາມວ່າທ່ານສາມາດດຶງຂໍ້ມູນແບບຂະໜານ ແລະ ຮັກສາການຝຶກຊ້ອມແບບກະຈາຍໄດ້.
-
ຄວາມຢືດຢຸ່ນຝັງຢູ່ໃນຕົວ - ເມື່ອທ່ານຝຶກຊ້ອມເປັນເວລາຫຼາຍມື້, ທ່ານບໍ່ສາມາດສ່ຽງຕໍ່ການທຳລາຍຊິ້ນສ່ວນທີ່ເສຍຫາຍໄດ້ໃນຍຸກ 12. ການເກັບຮັກສາວັດຖຸຫຼີກລ່ຽງສິ່ງນັ້ນໄດ້ໂດຍການອອກແບບ [2].
ມັນເປັນກະເປົ໋າເປ້ທີ່ບໍ່ມີກົ້ນ: ອາດຈະເປື້ອນຢູ່ພາຍໃນ, ແຕ່ທຸກຢ່າງຍັງສາມາດເອົາຄືນໄດ້ເມື່ອເຈົ້າເອື້ອມມືໄປຫາມັນ.
ຕາຕະລາງປຽບທຽບດ່ວນສຳລັບການເກັບຮັກສາວັດຖຸ AI 🗂️
| ເຄື່ອງມື / ການບໍລິການ | ດີທີ່ສຸດສຳລັບ (ຜູ້ຊົມ) | ລະດັບລາຄາ | ເປັນຫຍັງມັນຈຶ່ງໃຊ້ໄດ້ (ໝາຍເຫດໃນຂອບ) |
|---|---|---|---|
| ອາເມຊອນ S3 | ວິສາຫະກິດ + ທີມງານທີ່ເນັ້ນໃສ່ຄລາວເປັນຫຼັກ | ຈ່າຍຕາມທີ່ທ່ານໃຊ້ | ທົນທານຫຼາຍ, ທົນທານຕໍ່ພາກພື້ນ [2] |
| ບ່ອນເກັບຂໍ້ມູນ Google Cloud | ນັກວິທະຍາສາດຂໍ້ມູນ ແລະ ນັກພັດທະນາ ML | ຊັ້ນທີ່ມີຄວາມຍືດຫຍຸ່ນ | ການເຊື່ອມໂຍງ ML ທີ່ເຂັ້ມແຂງ, ເຮັດວຽກໄດ້ຢ່າງສົມບູນແບບໃນຄລາວດ໌ |
| ບ່ອນເກັບຂໍ້ມູນ Azure Blob | ຮ້ານຄ້າທີ່ເນັ້ນ Microsoft ຫຼາຍ | ຊັ້ນ (ຮ້ອນ/ເຢັນ) | ໃຊ້ງານໄດ້ຢ່າງບໍ່ມີຂໍ້ບົກຜ່ອງກັບເຄື່ອງມືຂໍ້ມູນ + ML ຂອງ Azure |
| ມິນິໂອ | ການຕັ້ງຄ່າແບບໂອເພນຊອສ / DIY | ຟຣີ/ເປັນເຈົ້າພາບດ້ວຍຕົນເອງ | ເຂົ້າກັນໄດ້ກັບ S3, ນ້ຳໜັກເບົາ, ໃຊ້ງານໄດ້ທຸກບ່ອນ 🚀 |
| ເມກຮ້ອນວາຊາບິ | ອົງກອນທີ່ລະອຽດອ່ອນຕໍ່ຄ່າໃຊ້ຈ່າຍ | ອັດຕາດອກເບ້ຍຕໍ່າແບບຄົງທີ່ $ | ບໍ່ມີຄ່າທຳນຽມການອອກນອກ ຫຼື ຄ່າທຳນຽມການຮ້ອງຂໍ API (ຕໍ່ນະໂຍບາຍ) [3] |
| ບ່ອນເກັບຂໍ້ມູນວັດຖຸ IBM Cloud | ວິສາຫະກິດຂະໜາດໃຫຍ່ | ແຕກຕ່າງກັນ | ຊຸດສະສົມທີ່ສົມບູນພ້ອມດ້ວຍຕົວເລືອກຄວາມປອດໄພຂອງວິສາຫະກິດທີ່ເຂັ້ມແຂງ |
ໃຫ້ກວດສອບລາຄາຢ່າງລະມັດລະວັງສະເໝີທຽບກັບການນຳໃຊ້ໃນໂລກຕົວຈິງຂອງທ່ານ - ໂດຍສະເພາະແມ່ນການອອກເດີນທາງ, ປະລິມານການຮ້ອງຂໍ, ແລະ ການປະສົມປະສານລະດັບການເກັບຮັກສາ.
ເປັນຫຍັງການຝຶກອົບຮົມ AI ຈຶ່ງມັກການເກັບຮັກສາວັດຖຸ 🧠
ການຝຶກອົບຮົມບໍ່ແມ່ນ "ໄຟລ໌ຈຳນວນໜຶ່ງ." ມັນແມ່ນບັນທຶກຫຼາຍລ້ານບັນທຶກທີ່ຖືກທຳລາຍພ້ອມໆກັນ. ລະບົບໄຟລ໌ແບບລຳດັບຊັ້ນຈະມີບັນຫາພາຍໃຕ້ການເຮັດວຽກພ້ອມກັນຢ່າງຫຼວງຫຼາຍ. ການເກັບຮັກສາວັດຖຸຫຼີກລ່ຽງສິ່ງນັ້ນດ້ວຍ namespaces ທີ່ຮາບພຽງ ແລະ APIs ທີ່ສະອາດ. ທຸກໆວັດຖຸມີກະແຈທີ່ເປັນເອກະລັກ; ຜູ້ເຮັດວຽກກະຈາຍອອກ ແລະ ດຶງຂໍ້ມູນພ້ອມໆກັນ. ຊຸດຂໍ້ມູນທີ່ແບ່ງປັນ + I/O ຂະໜານ = GPU ຍັງຄົງຫຍຸ້ງຢູ່ແທນທີ່ຈະລໍຖ້າຢູ່ອ້ອມຂ້າງ.
ຄຳແນະນຳຈາກຄູສອນ: ຮັກສາ hot shards ໄວ້ໃກ້ກັບ cluster compute (ພາກພື້ນ ຫຼື ເຂດດຽວກັນ), ແລະ cache ຢ່າງໜັກໜ່ວງໃນ SSD. ຖ້າທ່ານຕ້ອງການສົ່ງຂໍ້ມູນເຂົ້າ GPU ໂດຍກົງ, NVIDIA GPUDirect Storage ຄຸ້ມຄ່າທີ່ຈະພິຈາລະນາ - ມັນຊ່ວຍຫຼຸດຜ່ອນ bounce buffers ຂອງ CPU, ຫຼຸດ latency, ແລະ ເພີ່ມ bandwidth ໄປຫາຕົວເລັ່ງຄວາມໄວໂດຍກົງ [4].
ຂໍ້ມູນເມຕາ: ມະຫາອຳນາດທີ່ຖືກປະເມີນຄ່າຕໍ່າເກີນໄປ 🪄
ນີ້ແມ່ນບ່ອນທີ່ການເກັບຮັກສາວັດຖຸມີຄວາມໂດດເດັ່ນໃນວິທີທີ່ບໍ່ຊັດເຈນ. ໃນເວລາອັບໂຫຼດ, ທ່ານສາມາດແນບ metadata ທີ່ກຳນົດເອງ (ເຊັ່ນ x-amz-meta-… ສຳລັບ S3). ຕົວຢ່າງ, ຊຸດຂໍ້ມູນວິໄສທັດສາມາດຕິດແທັກຮູບພາບດ້ວຍ lighting=low ຫຼື blur=high . ເຊິ່ງຊ່ວຍໃຫ້ທໍ່ສົ່ງສາມາດກັ່ນຕອງ, ດຸ່ນດ່ຽງ, ຫຼືຈັດຊັ້ນ ໂດຍບໍ່ຕ້ອງສະແກນໄຟລ໌ດິບຄືນໃໝ່ [1].
ແລະຫຼັງຈາກນັ້ນກໍ່ມີ ການຈັດລຽງເວີຊັນ . ຮ້ານວັດຖຸຫຼາຍແຫ່ງເກັບຮັກສາຫຼາຍເວີຊັນຂອງວັດຖຸຄຽງຄູ່ກັນ - ເໝາະສຳລັບການທົດລອງທີ່ສາມາດຜະລິດຊ້ຳໄດ້ ຫຼື ນະໂຍບາຍການຄຸ້ມຄອງທີ່ຕ້ອງການການຍ້ອນກັບ [5].
ວັດຖຸ ທຽບກັບ ບລັອກ ທຽບກັບ ການເກັບຮັກສາໄຟລ໌ ⚔️
-
ການເກັບຮັກສາແບບບລັອກ : ດີເລີດສຳລັບຖານຂໍ້ມູນການເຮັດທຸລະກຳ - ໄວ ແລະ ຊັດເຈນ - ແຕ່ແພງເກີນໄປສຳລັບຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງຂະໜາດ petabyte.
-
ການເກັບຮັກສາໄຟລ໌ : ຄຸ້ນເຄີຍ, ເປັນມິດກັບ POSIX, ແຕ່ໄດເລກະທໍລີຈະຕັນພາຍໃຕ້ການໂຫຼດຂະໜານກັນຢ່າງຫຼວງຫຼາຍ.
-
ການເກັບຮັກສາວັດຖຸ : ອອກແບບມາຕັ້ງແຕ່ເລີ່ມຕົ້ນເພື່ອຂະໜາດ, ຄວາມຂະໜານ, ແລະການເຂົ້າເຖິງທີ່ຂັບເຄື່ອນດ້ວຍ metadata [1].
ຖ້າທ່ານຕ້ອງການຄຳປຽບທຽບທີ່ງຸ່ມງ່າມ: ການເກັບຮັກສາແບບບລັອກແມ່ນຕູ້ເກັບເອກະສານ, ການເກັບຮັກສາໄຟລ໌ແມ່ນໂຟນເດີໃນຄອມພິວເຕີຕັ້ງໂຕະ, ແລະ ການເກັບຮັກສາວັດຖຸແມ່ນ... ຂຸມທີ່ບໍ່ມີກົ້ນທີ່ມີບັນທຶກທີ່ໜຽວເຊິ່ງເຮັດໃຫ້ມັນສາມາດໃຊ້ໄດ້.
ຂະບວນການເຮັດວຽກ AI ແບບປະສົມ 🔀
ມັນບໍ່ແມ່ນພຽງແຕ່ຄລາວເທົ່ານັ້ນສະເໝີໄປ. ການປະສົມປະສານທົ່ວໄປເບິ່ງຄືວ່າ:
-
ບ່ອນເກັບຂໍ້ມູນວັດຖຸໃນສະຖານທີ່ (MinIO, Dell ECS) ສຳລັບຂໍ້ມູນທີ່ລະອຽດອ່ອນ ຫຼື ຂໍ້ມູນທີ່ຄວບຄຸມ.
-
ບ່ອນເກັບຂໍ້ມູນວັດຖຸໃນຄລາວ ສຳລັບວຽກງານທີ່ເກີດຂຶ້ນຢ່າງຕໍ່ເນື່ອງ, ການທົດລອງ ຫຼື ການຮ່ວມມື.
ຄວາມສົມດຸນນີ້ສົ່ງຜົນກະທົບຕໍ່ຄ່າໃຊ້ຈ່າຍ, ການປະຕິບັດຕາມ, ແລະ ຄວາມວ່ອງໄວ. ຂ້ອຍໄດ້ເຫັນທີມງານຖິ້ມຂໍ້ມູນ terabytes ທັງໝົດລົງໃນຖັງ S3 ໃນຕອນກາງຄືນເພື່ອເປີດກຸ່ມ GPU ຊົ່ວຄາວ - ຈາກນັ້ນກໍ່ໃຊ້ມັນທັງໝົດເມື່ອການແຂ່ງຂັນສິ້ນສຸດລົງ. ສຳລັບງົບປະມານທີ່ຈຳກັດ, ຮູບແບບອັດຕາຄ່າບໍລິການແບບຮາບພຽງ/ບໍ່ມີຄ່າອອກຂອງ Wasabi [3] ເຮັດໃຫ້ການຄາດຄະເນຊີວິດງ່າຍຂຶ້ນ.
ສ່ວນທີ່ບໍ່ມີໃຜອວດອ້າງ 😅
ການກວດສອບຄວາມເປັນຈິງ: ມັນບໍ່ແມ່ນເລື່ອງທີ່ບໍ່ມີຂໍ້ບົກຜ່ອງ.
-
ຄວາມໜ่วงເວລາ - ວາງການປະມວນຜົນ ແລະ ບ່ອນເກັບຂໍ້ມູນໄວ້ໄກກັນເກີນໄປ ແລະ GPU ຂອງເຈົ້າຈະເລື່ອນໄປຂ້າງໜ້າ. GDS ຊ່ວຍໄດ້, ແຕ່ສະຖາປັດຕະຍະກຳຍັງສຳຄັນຢູ່ [4].
-
ເຫດການທີ່ບໍ່ຄາດຄິດກ່ຽວກັບຄ່າໃຊ້ຈ່າຍ - ຄ່າບໍລິການ Egress ແລະ API-request ເກີດຂຶ້ນຢ່າງກະທັນຫັນ. ຜູ້ໃຫ້ບໍລິການບາງຄົນຍົກເວັ້ນພວກມັນ (Wasabi ເຮັດ; ຄົນອື່ນບໍ່ເຮັດ) [3].
-
ຄວາມວຸ້ນວາຍຂອງຂໍ້ມູນເມຕາໃນຂອບເຂດໃຫຍ່ - ໃຜເປັນຜູ້ກຳນົດ “ຄວາມຈິງ” ໃນແທັກ ແລະ ເວີຊັນຕ່າງໆ? ທ່ານຈະຕ້ອງການສັນຍາ, ນະໂຍບາຍ ແລະ ອຳນາດການປົກຄອງບາງຢ່າງ [5].
ການເກັບຮັກສາວັດຖຸແມ່ນວຽກງານປະປາພື້ນຖານໂຄງລ່າງ: ສຳຄັນຫຼາຍ, ແຕ່ບໍ່ແມ່ນເລື່ອງທີ່ໜ້າສົນໃຈ.
ມັນກຳລັງມຸ່ງໜ້າໄປໃສ🚀
-
ບ່ອນເກັບຂໍ້ມູນແບບສະຫຼາດກວ່າ, ຮັບຮູ້ຂໍ້ມູນດ້ວຍ AI ເຊິ່ງແທັກອັດຕະໂນມັດ ແລະ ເປີດເຜີຍຂໍ້ມູນຜ່ານຊັ້ນສອບຖາມທີ່ຄ້າຍຄືກັບ SQL [1].
-
ການເຊື່ອມໂຍງຮາດແວທີ່ໃກ້ຊິດກວ່າ (ເສັ້ນທາງ DMA, ການອອບໂຫຼດ NIC) ດັ່ງນັ້ນ GPU ຈຶ່ງບໍ່ຂາດ I/O [4].
-
ລາຄາທີ່ໂປ່ງໃສ ແລະ ຄາດເດົາໄດ້ (ຮູບແບບທີ່ງ່າຍດາຍ, ຍົກເວັ້ນຄ່າທຳນຽມການອອກນອກ) [3].
ຜູ້ຄົນເວົ້າກ່ຽວກັບການຄຳນວນວ່າເປັນອະນາຄົດຂອງ AI. ແຕ່ໃນຄວາມເປັນຈິງແລ້ວ? ບັນຫາຄໍຂວດແມ່ນກ່ຽວກັບ ການປ້ອນຂໍ້ມູນເຂົ້າໃນຕົວແບບຢ່າງໄວວາໂດຍບໍ່ເຮັດໃຫ້ງົບປະມານ ຫຼຸດລົງ. ນັ້ນແມ່ນເຫດຜົນທີ່ບົດບາດຂອງການເກັບຮັກສາວັດຖຸເພີ່ມຂຶ້ນເທົ່ານັ້ນ.
ສະຫຼຸບ 📝
ການເກັບຮັກສາວັດຖຸບໍ່ແມ່ນເລື່ອງທີ່ໜ້າສົນໃຈ, ແຕ່ມັນເປັນພື້ນຖານ. ຖ້າບໍ່ມີການເກັບຮັກສາທີ່ສາມາດຂະຫຍາຍໄດ້, ຮັບຮູ້ metadata ແລະ ທົນທານ, ການຝຶກອົບຮົມແບບຈຳລອງໃຫຍ່ໆຈະຮູ້ສຶກຄືກັບການແລ່ນມາຣາທອນໃນເກີບແຕະ.
ສະນັ້ນແມ່ນແລ້ວ - GPU ມີຄວາມສຳຄັນ, ເຟຣມເວີກກໍ່ມີຄວາມສຳຄັນ. ແຕ່ຖ້າທ່ານເອົາຈິງເອົາຈັງກັບ AI, ຢ່າລະເລີຍບ່ອນທີ່ຂໍ້ມູນຂອງທ່ານຢູ່ . ມັນອາດຈະເປັນໄປໄດ້ວ່າການເກັບຮັກສາວັດຖຸກຳລັງຮັກສາການດຳເນີນງານທັງໝົດໄວ້ຢ່າງງຽບໆແລ້ວ.
ເອກະສານອ້າງອີງ
[1] AWS S3 – ຂໍ້ມູນເມຕາວັດຖຸ - ລະບົບ ແລະ ຂໍ້ມູນເມຕາທີ່ກຳນົດເອງ
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html
[2] AWS S3 – ຊັ້ນການເກັບຮັກສາ - ຄວາມທົນທານ (“11 ເກົ້າ”) + ຄວາມຢືດຢຸ່ນ
https://aws.amazon.com/s3/storage-classes/
[3] Wasabi Hot Cloud – ລາຄາ - ອັດຕາຄົງທີ່, ບໍ່ມີຄ່າທຳນຽມ egress/API
https://wasabi.com/pricing
[4] NVIDIA GPUDirect Storage – ເອກະສານ - ເສັ້ນທາງ DMA ໄປຫາ GPUs
https://docs.nvidia.com/gpudirect-storage/
[5] AWS S3 – ການຈັດລຽງເວີຊັນ - ຫຼາຍເວີຊັນສຳລັບການຄຸ້ມຄອງ/ການສຳເນົາ
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html