ຖ້າທ່ານກໍາລັງສ້າງ, ການຊື້, ຫຼືແມ້ກະທັ້ງພຽງແຕ່ປະເມີນລະບົບ AI, ທ່ານຈະເຂົ້າໄປໃນຄໍາຖາມທີ່ຫຼອກລວງຫນຶ່ງແລະຊຸດຂໍ້ມູນ AI ແມ່ນຫຍັງແລະເປັນຫຍັງມັນຈຶ່ງສໍາຄັນຫຼາຍ? ສະບັບສັ້ນ: ມັນແມ່ນນໍ້າມັນເຊື້ອໄຟ, ປື້ມຄູ່ມື, ແລະບາງຄັ້ງເຂັມທິດສໍາລັບຕົວແບບຂອງທ່ານ.
ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:
🔗 AI ຄາດຄະເນແນວໂນ້ມແນວໃດ
ສຳຫຼວດວິທີການ AI ວິເຄາະຮູບແບບເພື່ອຄາດຄະເນເຫດການ ແລະ ພຶດຕິກຳໃນອະນາຄົດ.
🔗 ວິທີການວັດແທກປະສິດທິພາບ AI
ຕົວຊີ້ວັດ ແລະ ວິທີການສຳລັບການປະເມີນຄວາມຖືກຕ້ອງ, ປະສິດທິພາບ ແລະ ຄວາມໜ້າເຊື່ອຖືຂອງຮູບແບບ.
🔗 ວິທີການສົນທະນາກັບ AI
ຄຳແນະນຳກ່ຽວກັບການສ້າງການໂຕ້ຕອບທີ່ດີຂຶ້ນເພື່ອປັບປຸງການຕອບສະໜອງທີ່ສ້າງຂຶ້ນໂດຍ AI.
🔗 AI ແມ່ນການກະຕຸ້ນເຕືອນແມ່ນຫຍັງ
ພາບລວມຂອງວິທີທີ່ການກະຕຸ້ນມີຜົນກະທົບຂອງ AI ແລະຄຸນນະພາບການສື່ສານໂດຍລວມ.
ຊຸດຂໍ້ມູນ AI ແມ່ນຫຍັງ? ຄໍານິຍາມໄວ🧩
ຊຸດຂໍ້ມູນ AI ແມ່ນຫຍັງ? ມັນເປັນ ການລວບລວມຕົວຢ່າງທີ່ ຕົວແບບຂອງເຈົ້າຮຽນຮູ້ຈາກຫຼືຖືກປະເມີນ. ຕົວຢ່າງແຕ່ລະຄົນມີ:
-
ອິນພຸດ - ຄຸນສົມບັດທີ່ໂມເດວເຫັນ, ເຊັ່ນ: ສ່ວນຂໍ້ຄວາມ, ຮູບພາບ, ສຽງ, ແຖວຕາຕະລາງ, ການອ່ານເຊັນເຊີ, ກຣາຟ.
-
ເປົ້າໝາຍ - ປ້າຍກຳກັບ ຫຼືຜົນໄດ້ຮັບທີ່ຕົວແບບຄວນຄາດຄະເນ, ເຊັ່ນ: ໝວດໝູ່, ຕົວເລກ, ຂອບເຂດຂອງຂໍ້ຄວາມ, ການກະທຳ ຫຼືບາງຄັ້ງກໍ່ບໍ່ມີຫຍັງເລີຍ.
-
ເມຕາເດຕາ - ບໍລິບົດເຊັ່ນ: ແຫຼ່ງທີ່ມາ, ວິທີການເກັບກຳ, ເວລາ, ໃບອະນຸຍາດ, ຂໍ້ມູນການຍິນຍອມ, ແລະບັນທຶກກ່ຽວກັບຄຸນນະພາບ.
ຄິດວ່າມັນຄ້າຍຄືກ່ອງອາຫານທ່ຽງທີ່ບັນຈຸຢ່າງລະມັດລະວັງສໍາລັບຕົວແບບຂອງທ່ານ: ສ່ວນປະກອບ, ປ້າຍຊື່, ຂໍ້ເທັດຈິງດ້ານໂພຊະນາການ, ແລະແມ່ນແລ້ວ, ບັນທຶກຫນຽວທີ່ເວົ້າວ່າ "ຢ່າກິນສ່ວນນີ້." 🍱
ສຳລັບໜ້າວຽກທີ່ມີການເບິ່ງແຍງກວດກາ, ທ່ານຈະເຫັນການປ້ອນຂໍ້ມູນເຂົ້າຄູ່ກັບປ້າຍກຳກັບທີ່ຈະແຈ້ງ. ສຳລັບໜ້າວຽກທີ່ບໍ່ມີການເບິ່ງແຍງກວດກາ, ທ່ານຈະເຫັນການປ້ອນຂໍ້ມູນທີ່ບໍ່ມີປ້າຍກຳກັບ. ສໍາລັບການຮຽນຮູ້ເສີມ, ຂໍ້ມູນມັກຈະມີລັກສະນະເປັນຕອນ ຫຼື ເສັ້ນທາງທີ່ມີລັດ, ການກະທຳ, ລາງວັນ. ສໍາລັບການເຮັດວຽກ multimodal, ຕົວຢ່າງສາມາດສົມທົບຂໍ້ຄວາມ + ຮູບພາບ + ສຽງໃນບັນທຶກດຽວ. ສຽງ fancy; ສ່ວນຫຼາຍແມ່ນທໍ່ນ້ໍາ.
ຫຼັກການພື້ນຖານ ແລະການປະຕິບັດທີ່ເປັນປະໂຫຍດ: ແນວຄວາມຄິດຂອງ Datasheets for Datasets ຊ່ວຍໃຫ້ທີມງານອະທິບາຍສິ່ງທີ່ຢູ່ພາຍໃນ ແລະວິທີການທີ່ມັນຄວນຈະຖືກນໍາໃຊ້ [1], ແລະ Model Cards ປະກອບເອກະສານຂໍ້ມູນໃນດ້ານຕົວແບບ [2].

ສິ່ງທີ່ເຮັດໃຫ້ຊຸດຂໍ້ມູນ AI ທີ່ດີ ✅
ໃຫ້ມີຄວາມຊື່ສັດ, ຫຼາຍຕົວແບບປະສົບຜົນສໍາເລັດເພາະວ່າຊຸດຂໍ້ມູນບໍ່ຂີ້ຮ້າຍ. ຊຸດຂໍ້ມູນ "ດີ" ແມ່ນ:
-
ຜູ້ຕາງຫນ້າ ຂອງກໍລະນີການນໍາໃຊ້ທີ່ແທ້ຈິງ, ບໍ່ພຽງແຕ່ເງື່ອນໄຂຫ້ອງທົດລອງ.
-
ການຕິດສະຫຼາກຢ່າງຖືກຕ້ອງ , ມີຄໍາແນະນໍາທີ່ຊັດເຈນແລະການຕັດສິນເປັນໄລຍະ. ການວັດແທກຂໍ້ຕົກລົງ (ຕົວຢ່າງ, ມາດຕະການແບບ kappa) ຊ່ວຍໃຫ້ການກວດສອບຄວາມສອດຄ່ອງ.
-
ສົມບູນແລະມີຄວາມສົມດູນ ພຽງພໍທີ່ຈະຫຼີກເວັ້ນຄວາມລົ້ມເຫຼວທີ່ງຽບໆກ່ຽວກັບຫາງຍາວ. ຄວາມບໍ່ສົມດຸນເປັນເລື່ອງປົກກະຕິ; ການລະເລີຍບໍ່ແມ່ນ.
-
ແຫຼ່ງທີ່ມາທີ່ຊັດເຈນ , ມີການຍິນຍອມ, ໃບອະນຸຍາດ ແລະ ການອະນຸຍາດທີ່ບັນທຶກໄວ້. ເອກະສານທີ່ໜ້າເບື່ອຊ່ວຍປ້ອງກັນການຟ້ອງຮ້ອງທີ່ໜ້າຕື່ນເຕັ້ນ.
-
ເອກະສານທີ່ດີ ໂດຍໃຊ້ບັດຂໍ້ມູນ ຫຼືແຜ່ນຂໍ້ມູນທີ່ສະກົດເອົາຈຸດປະສົງການນຳໃຊ້, ຂໍ້ຈຳກັດ ແລະຮູບແບບຄວາມລົ້ມເຫລວທີ່ຮູ້ຈັກ [1]
-
ຄວບຄຸມ ດ້ວຍການສ້າງເວີຊັນ, ການປ່ຽນແປງ, ແລະການອະນຸມັດ. ຖ້າທ່ານບໍ່ສາມາດຜະລິດຊຸດຂໍ້ມູນໄດ້, ທ່ານບໍ່ສາມາດຜະລິດແບບຈໍາລອງໄດ້. ຄໍາແນະນໍາຈາກ ກອບການຄຸ້ມຄອງຄວາມສ່ຽງ AI ຂອງ NIST ປະຕິບັດຕໍ່ຄຸນນະພາບຂໍ້ມູນແລະເອກະສານເປັນຄວາມກັງວົນອັນດັບຫນຶ່ງ [3].
ປະເພດຂອງຊຸດຂໍ້ມູນ AI, ໂດຍສິ່ງທີ່ທ່ານກໍາລັງເຮັດ🧰
ໂດຍວຽກງານ
-
ການຈັດປະເພດ - ຕົວຢ່າງ, ສະແປມ ທຽບກັບ ບໍ່ແມ່ນສະແປມ, ໝວດໝູ່ຮູບພາບ.
-
Regression - ຄາດຄະເນມູນຄ່າຢ່າງຕໍ່ເນື່ອງເຊັ່ນ: ລາຄາ ຫຼືອຸນຫະພູມ.
-
ການຕິດສະຫຼາກຕາມລໍາດັບ - ຫນ່ວຍງານທີ່ມີຊື່, ສ່ວນຂອງການປາກເວົ້າ.
-
ການຜະລິດ - ສະຫຼຸບ, ການແປພາສາ, ຄໍາອະທິບາຍຮູບພາບ.
-
ຄໍາແນະນໍາ - ຜູ້ໃຊ້, ລາຍການ, ການໂຕ້ຕອບ, ສະພາບການ.
-
ການກວດຫາຄວາມຜິດປົກກະຕິ - ເຫດການທີ່ຫາຍາກໃນຊຸດເວລາ ຫຼືບັນທຶກ.
-
ການຮຽນຮູ້ເສີມ - ລັດ, ການປະຕິບັດ, ລາງວັນ, ລໍາດັບຕໍ່ໄປຂອງລັດ.
-
retrieval - ເອກະສານ, ການສອບຖາມ, ຄໍາຕັດສິນຂອງຄວາມກ່ຽວຂ້ອງ.
ໂດຍ modality
-
Tabular - ຖັນເຊັ່ນ: ອາຍຸ, ລາຍໄດ້, churn. ຕໍ່າກວ່າ, ມີປະສິດທິພາບຢ່າງໂຫດຮ້າຍ.
-
ຂໍ້ຄວາມ - ເອກະສານ, ສົນທະນາລະຫັດ, ກະທູ້ forum, ລາຍລະອຽດຜະລິດຕະພັນ.
-
ຮູບພາບ - ຮູບພາບ, ການສະແກນທາງການແພດ, ກະເບື້ອງດາວທຽມ; ມີຫຼືບໍ່ມີຫນ້າກາກ, ກ່ອງ, ຈຸດສໍາຄັນ.
-
ສຽງ - waveforms, transcripts, speaker tags.
-
ວິດີໂອ - ກອບ, ຄໍາບັນຍາຍຊົ່ວຄາວ, ປ້າຍປະຕິບັດງານ.
-
Graphs - nodes, edges, attributes.
-
ຊຸດເວລາ - ເຊັນເຊີ, ການເງິນ, ໂທລະເລກ.
ໂດຍການຊີ້ນໍາ
-
ມີປ້າຍ (ຄຳ, ເງິນ, ຕິດປ້າຍອັດຕະໂນມັດ), ຕິດປ້າຍບໍ່ລະອຽດ , ບໍ່ມີປ້າຍ , ສັງເຄາະ . ແປ້ງເຄັກທີ່ຊື້ຈາກຮ້ານສາມາດຊື້ໄດ້ດີ - ຖ້າທ່ານອ່ານລາຍລະອຽດໃນກ່ອງ.
ພາຍໃນກ່ອງ: ໂຄງສ້າງ, ການແຍກ, ແລະເມຕາເດຕາ 📦
ຊຸດຂໍ້ມູນທີ່ເຂັ້ມແຂງປົກກະຕິແລ້ວປະກອບມີ:
-
Schema - ຊ່ອງທີ່ພິມ, ຫົວໜ່ວຍ, ຄ່າທີ່ອະນຸຍາດ, ການຈັດການ null.
-
Splits - ການຝຶກອົບຮົມ, ການກວດສອບ, ການທົດສອບ. ຮັກສາຂໍ້ມູນການທົດສອບປະທັບຕາ - ປະຕິບັດມັນຄືກັບຊັອກໂກແລັດຊິ້ນສຸດທ້າຍ.
-
ແຜນຕົວຢ່າງ - ວິທີທີ່ທ່ານດຶງຕົວຢ່າງຈາກປະຊາກອນ; ຫຼີກເວັ້ນຕົວຢ່າງຄວາມສະດວກສະບາຍຈາກພາກພື້ນຫນຶ່ງຫຼືອຸປະກອນ.
-
Augmentations - flips, ການປູກພືດ, ສິ່ງລົບກວນ, paraphrases, ຫນ້າກາກ. ດີເມື່ອມີຄວາມຊື່ສັດ; ເປັນອັນຕະລາຍເມື່ອພວກເຂົາປະດິດຮູບແບບທີ່ບໍ່ເຄີຍເກີດຂຶ້ນໃນປ່າທໍາມະຊາດ.
-
ເວີຊັນ - ຊຸດຂໍ້ມູນ v0.1, v0.2… ພ້ອມກັບບັນທຶກການປ່ຽນແປງທີ່ອະທິບາຍ deltas.
-
ໃບອະນຸຍາດແລະການຍິນຍອມ - ສິດໃນການນໍາໃຊ້, ການແຜ່ກະຈາຍ, ແລະການລົບການໄຫຼເຂົ້າ. ລະບຽບການຄຸ້ມຄອງຂໍ້ມູນແຫ່ງຊາດ (ເຊັ່ນ: ICO ຂອງອັງກິດ) ສະໜອງລາຍການກວດສອບທີ່ປະຕິບັດໄດ້ຕາມກົດໝາຍ [4].
ວົງຈອນຊີວິດຂອງຊຸດຂໍ້ມູນ, ເທື່ອລະຂັ້ນຕອນ 🔁
-
ກໍານົດການຕັດສິນໃຈ - ສິ່ງທີ່ຕົວແບບຈະຕັດສິນໃຈ, ແລະສິ່ງທີ່ເກີດຂື້ນຖ້າມັນຜິດພາດ.
-
ຂອບເຂດຄຸນສົມບັດ ແລະປ້າຍກຳກັບ - ສາມາດວັດແທກໄດ້, ສາມາດສັງເກດໄດ້, ມີຈັນຍາບັນໃນການເກັບກໍາ.
-
ຂໍ້ມູນແຫຼ່ງຂໍ້ມູນ - ເຄື່ອງມື, ບັນທຶກ, ການສໍາຫຼວດ, ບໍລິສັດສາທາລະນະ, ຄູ່ຮ່ວມງານ.
-
ການຍິນຍອມເຫັນດີ ແລະທາງກົດໝາຍ - ປະກາດຄວາມເປັນສ່ວນຕົວ, ການເລືອກອອກ, ການຫຼຸດຜ່ອນຂໍ້ມູນ. ເບິ່ງຄໍາແນະນໍາຂອງຜູ້ຄວບຄຸມສໍາລັບ "ເປັນຫຍັງ" ແລະ "ແນວໃດ" [4].
-
ເກັບກໍາແລະເກັບຮັກສາ - ການເກັບຮັກສາທີ່ປອດໄພ, ການເຂົ້າເຖິງໂດຍອີງໃສ່ບົດບາດ, ການຈັດການ PII.
-
ປ້າຍກຳກັບ - ຕົວຊີ້ບອກພາຍໃນ, ແຫຼ່ງທີ່ມາ, ຜູ້ຊ່ຽວຊານ; ຄຸ້ມຄອງຄຸນນະພາບກັບວຽກງານຄໍາ, ການກວດສອບ, ແລະມາດຕະການຂໍ້ຕົກລົງ.
-
ເຮັດຄວາມສະອາດແລະປົກກະຕິ - desupe, ຈັດການການຂາດ, ມາດຕະຖານຫນ່ວຍງານ, ແກ້ໄຂການເຂົ້າລະຫັດ. ໜ້າເບື່ອ, ເຮັດວຽກຢ່າງກ້າຫານ.
-
ແຍກແລະກວດສອບ - ປ້ອງກັນການຮົ່ວໄຫຼ; stratify ບ່ອນທີ່ກ່ຽວຂ້ອງ; ມັກການແບ່ງປັນທີ່ຮູ້ເວລາສໍາລັບຂໍ້ມູນຊົ່ວຄາວ; ແລະນໍາໃຊ້ການກວດສອບຂ້າມຢ່າງລະມັດລະວັງສໍາລັບການຄາດຄະເນທີ່ເຂັ້ມແຂງ [5].
-
ເອກະສານ - datasheet ຫຼືບັດຂໍ້ມູນ; ການນໍາໃຊ້ຈຸດປະສົງ, ຂໍ້ຈໍາກັດ, ຂໍ້ຈໍາກັດ [1].
-
ຕິດຕາມກວດກາແລະປັບປຸງ - drift detection, refresh cadence, sunset ແຜນການ. AI RMF ຂອງ NIST ກໍານົດຂອບເຂດການປົກຄອງຢ່າງຕໍ່ເນື່ອງນີ້ [3].
ເຄັດລັບທີ່ເປັນຮູບຊົງທີ່ແທ້ຈິງຂອງໂລກໄວ: ທີມງານມັກຈະ "ຊະນະການສາທິດ" ແຕ່ສະດຸດໃນການຜະລິດເນື່ອງຈາກຊຸດຂໍ້ມູນຂອງພວກເຂົາເລື່ອນສາຍຜະລິດຕະພັນໃໝ່, ພາກສະຫນາມທີ່ຖືກປ່ຽນຊື່, ຫຼືນະໂຍບາຍທີ່ມີການປ່ຽນແປງ. ບັນທຶກການປ່ຽນແປງແບບງ່າຍໆ + ບັນທຶກການຕອບຄືນເປັນໄລຍະເພື່ອປ້ອງກັນຄວາມເຈັບປວດນັ້ນ.
ຄຸນນະພາບຂອງຂໍ້ມູນແລະການປະເມີນຜົນ - ບໍ່ເປັນຂີ້ເທົ່າທີ່ມັນເປັນສຽງ 🧪
ຄຸນນະພາບແມ່ນຫຼາຍມິຕິລະດັບ:
-
ຄວາມຖືກຕ້ອງ - ປ້າຍຊື່ແມ່ນຖືກຕ້ອງບໍ? ໃຊ້ຕົວວັດແທກຂໍ້ຕົກລົງແລະການຕັດສິນແຕ່ລະໄລຍະ.
-
ຄວາມສົມບູນ - ກວມເອົາທົ່ງນາແລະຫ້ອງຮຽນທີ່ທ່ານຕ້ອງການຢ່າງແທ້ຈິງ.
-
ຄວາມສອດຄ່ອງ - ຫຼີກເວັ້ນປ້າຍທີ່ກົງກັນຂ້າມສໍາລັບການປ້ອນຂໍ້ມູນທີ່ຄ້າຍຄືກັນ.
-
Timeliness - stale data fossilizes ສົມມຸດຕິຖານ.
-
ຄວາມຍຸຕິທຳ & ຄວາມລຳອຽງ - ການຄຸ້ມຄອງໃນທົ່ວປະຊາກອນ, ພາສາ, ອຸປະກອນ, ສະພາບແວດລ້ອມ; ເລີ່ມຕົ້ນດ້ວຍການກວດສອບແບບອະທິບາຍ, ຈາກນັ້ນການທົດສອບຄວາມຄຽດ. Documentation-first practices (datasheets, model cards) ເຮັດໃຫ້ການກວດສອບເຫຼົ່ານີ້ສັງເກດເຫັນ [1], ແລະໂຄງການປົກຄອງເນັ້ນຫນັກໃສ່ພວກເຂົາເປັນການຄວບຄຸມຄວາມສ່ຽງ [3].
ສໍາລັບການປະເມີນແບບຈໍາລອງ, ໃຊ້ ການແບ່ງປັນທີ່ເຫມາະສົມ ແລະຕິດຕາມທັງສອງຕົວຊີ້ວັດສະເລ່ຍແລະການວັດແທກກຸ່ມທີ່ບໍ່ດີທີ່ສຸດ. ສະເລ່ຍເຫຼື້ອມສາມາດເຊື່ອງຂຸມໄດ້. ພື້ນຖານການກວດສອບຄວາມຖືກຕ້ອງແມ່ນກວມເອົາດີໃນເອກະສານມາດຕະຖານເຄື່ອງມື ML [5].
ຈັນຍາບັນ, ຄວາມເປັນສ່ວນຕົວ, ແລະການອອກໃບອະນຸຍາດ - the guardrails 🛡️
ຂໍ້ມູນດ້ານຈັນຍາບັນບໍ່ແມ່ນ vibe, ມັນເປັນຂະບວນການ:
-
ການຍິນຍອມ & ການຈໍາກັດຈຸດປະສົງ - ຈະແຈ້ງກ່ຽວກັບການນໍາໃຊ້ແລະພື້ນຖານທາງດ້ານກົດຫມາຍ [4].
-
ການຈັດການ PII - ຫຍໍ້, pseudonymize, ຫຼື anonymize ຕາມຄວາມເຫມາະສົມ; ພິຈາລະນາເທກໂນໂລຍີເສີມສ້າງຄວາມເປັນສ່ວນຕົວໃນເວລາທີ່ຄວາມສ່ຽງສູງ.
-
ແຫຼ່ງທີ່ມາ & ໃບອະນຸຍາດ - ເຄົາລົບຂໍ້ຈຳກັດການນຳໃຊ້ແບບແບ່ງປັນ ແລະການຄ້າ.
-
ຄວາມລຳອຽງ & ອັນຕະລາຍ - ການກວດສອບຄວາມສຳພັນທີ່ແປກປະຫຼາດ (“ກາງເວັນ = ປອດໄພ” ຈະສັບສົນຫຼາຍໃນຕອນກາງຄືນ).
-
Redress - ຮູ້ວິທີການເອົາຂໍ້ມູນຕາມການຮ້ອງຂໍແລະວິທີການກັບຄືນໄປບ່ອນແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບມັນ (ເອກະສານນີ້ໃນເອກະສານຂອງທ່ານ) [1].
ໃຫຍ່ພໍເທົ່າໃດ? 📏 ຂະໜາດ ແລະ ສັນຍານຫາສຽງ 📏
ກົດລະບຽບຂອງໂປ້ມື: ຕົວຢ່າງຫຼາຍໂດຍປົກກະຕິຈະຊ່ວຍໄດ້ ຖ້າຫາກວ່າ ພວກເຂົາເຈົ້າກ່ຽວຂ້ອງແລະບໍ່ແມ່ນຢູ່ໃກ້ກັບການຊໍ້າກັນ. ແຕ່ບາງເທື່ອເຈົ້າມີຕົວຢ່າງ ໜ້ອຍກວ່າ, ສະອາດກວ່າ, ມີປ້າຍຊື່ດີກ ວ່າກັບພູເຂົາທີ່ສັບສົນ.
ສັງເກດເບິ່ງສໍາລັບ:
-
ເສັ້ນໂຄ້ງການຮຽນຮູ້ - ການປະຕິບັດແຜນການທຽບກັບຂະຫນາດຕົວຢ່າງເພື່ອເບິ່ງວ່າທ່ານກໍາລັງຜູກມັດຂໍ້ມູນຫຼືຕົວແບບ.
-
ການຄຸ້ມຄອງຫາງຍາວ - ຫ້ອງຮຽນທີ່ຫາຍາກແຕ່ສໍາຄັນມັກຈະຕ້ອງການການເກັບກໍາເປົ້າຫມາຍ, ບໍ່ພຽງແຕ່ເປັນຈໍານວນຫຼາຍ.
-
ສິ່ງລົບກວນປ້າຍ - ວັດແທກ, ຫຼັງຈາກນັ້ນຫຼຸດລົງ; ເລັກນ້ອຍແມ່ນທົນທານໄດ້, ຄື້ນ tidal ບໍ່ແມ່ນ.
-
ການປ່ຽນແປງການແຈກຢາຍ - ຂໍ້ມູນການຝຶກອົບຮົມຈາກພາກພື້ນ ຫຼື ຊ່ອງທາງໜຶ່ງອາດຈະບໍ່ລວມເຂົ້າກັບອີກພາກພື້ນໜຶ່ງ; ກວດສອບຄວາມຖືກຕ້ອງຂອງຂໍ້ມູນການທົດສອບທີ່ຄ້າຍຄືກັບເປົ້າໝາຍ [5].
ເມື່ອມີຄວາມສົງໄສ, ໃຫ້ໃຊ້ການທົດລອງຂະໜາດນ້ອຍ ແລະ ຂະຫຍາຍ. ມັນຄືກັບເຄື່ອງປຸງ - ຕື່ມ, ຊີມ, ປັບ, ແລະ ເຮັດຊ້ຳອີກ.
ບ່ອນທີ່ຊອກຫາ ແລະຈັດການຊຸດຂໍ້ມູນ 🗂️
ຊັບພະຍາກອນທີ່ນິຍົມແລະເຄື່ອງມື (ບໍ່ຈໍາເປັນຕ້ອງຈື່ URLs ໃນປັດຈຸບັນ):
-
Hugging Face Datasets - ການໂຫຼດແບບເປັນໂປຣແກຣມ, ການປະມວນຜົນ, ການແບ່ງປັນ.
-
Google Dataset Search - ການຄົ້ນຫາແບບ meta ໃນທົ່ວເວັບ.
-
UCI ML Repository - curated classics ສໍາລັບພື້ນຖານແລະການສອນ.
-
OpenML - ວຽກ + ຊຸດຂໍ້ມູນ + ແລ່ນດ້ວຍຫຼັກຖານ.
-
AWS Open Data / Google Cloud Public Datasets - host, large-scale corpora.
ຄໍາແນະນໍາ Pro: ບໍ່ພຽງແຕ່ດາວໂຫລດ. ອ່ານໃບອະນຸຍາດ ແລະເອກະສານຂໍ້ມູນ , ຫຼັງຈາກນັ້ນບັນທຶກສໍາເນົາຂອງທ່ານເອງດ້ວຍຕົວເລກສະບັບແລະຫຼັກຖານ [1].
ການຕິດສະຫຼາກ ແລະຄຳບັນຍາຍ - ບ່ອນທີ່ຄວາມຈິງໄດ້ຮັບການເຈລະຈາ ✍️
ຄໍາບັນຍາຍແມ່ນບ່ອນທີ່ຄໍາແນະນໍາດ້ານທິດສະດີຂອງທ່ານຕໍ່ສູ້ກັບຄວາມເປັນຈິງ:
-
ການອອກແບບຫນ້າວຽກ - ຂຽນຄໍາແນະນໍາທີ່ຊັດເຈນດ້ວຍຕົວຢ່າງແລະຕົວຢ່າງຕ້ານ.
-
ການຝຶກອົບຮົມ Annotator - ແນວພັນທີ່ມີຄໍາຕອບຄໍາ, ແລ່ນຮອບການປັບທຽບ.
-
ການຄວບຄຸມຄຸນນະພາບ - ການນໍາໃຊ້ມາດຕະການຂໍ້ຕົກລົງ, ກົນໄກການເປັນເອກະພາບ, ແລະການກວດສອບໄລຍະ.
-
ເຄື່ອງມື - ເລືອກເຄື່ອງມືທີ່ບັງຄັບໃຊ້ການກວດສອບ schema ແລະຄິວການທົບທວນຄືນ; ເຖິງແມ່ນວ່າສະເປຣດຊີດສາມາດເຮັດວຽກກັບກົດລະບຽບແລະການກວດສອບ.
-
ວົງການຕິຊົມ - ບັນທຶກບັນທຶກຂອງຕົວປະກອບ ແລະຄວາມຜິດພາດແບບຈໍາລອງເພື່ອປັບປ່ຽນຄູ່ມື.
ຖ້າມັນຮູ້ສຶກຄືກັບການດັດແກ້ວັດຈະນານຸກົມກັບໝູ່ສາມຄົນທີ່ບໍ່ເຫັນດີນຳເຄື່ອງໝາຍຈຸດ... ນັ້ນເປັນເລື່ອງປົກກະຕິ. 🙃
ເອກະສານຂໍ້ມູນ - ການສ້າງຄວາມຮູ້ທີ່ຊັດເຈນ 📒
ແຜ່ນຂໍ້ມູນ ຫຼື ບັດຂໍ້ມູນ ທີ່ມີນ້ໍາຫນັກເບົາ ຄວນກວມເອົາ:
-
ໃຜເກັບມັນ, ເກັບມາແນວໃດ, ແລະ ເປັນຫຍັງ.
-
ການນຳໃຊ້ທີ່ຕັ້ງໃຈໄວ້ ແລະ ການນຳໃຊ້ນອກຂອບເຂດ.
-
ຊ່ອງຫວ່າງທີ່ຮູ້ຈັກ, ອະຄະຕິ, ແລະຮູບແບບຄວາມລົ້ມເຫຼວ.
-
ພິທີການຕິດປ້າຍກຳກັບ, ຂັ້ນຕອນ QA, ແລະສະຖິຕິຂໍ້ຕົກລົງ.
-
ໃບອະນຸຍາດ, ການຍິນຍອມ, ຕິດຕໍ່ສໍາລັບບັນຫາ, ຂະບວນການໂຍກຍ້າຍ.
ແມ່ແບບແລະຕົວຢ່າງ: ແຜ່ນຂໍ້ມູນສໍາລັບຊຸດຂໍ້ມູນ ແລະ ບັດແບບຈໍາລອງ ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງຈຸດເລີ່ມຕົ້ນ [1].
ຂຽນມັນໃນຂະນະທີ່ເຈົ້າສ້າງ, ບໍ່ແມ່ນຫຼັງຈາກນັ້ນ. ໜ່ວຍຄວາມຈຳແມ່ນສື່ເກັບຮັກສາທີ່ບໍ່ແນ່ນອນ.
ຕາຕະລາງປຽບທຽບ - ສະຖານທີ່ຊອກຫາ ຫຼືເປັນເຈົ້າພາບຊຸດຂໍ້ມູນ AI 📊
ແມ່ນແລ້ວ, ນີ້ແມ່ນຄວາມຄິດເຫັນເລັກນ້ອຍ. ແລະຄໍາສັບແມ່ນບໍ່ສະເຫມີກັນເລັກນ້ອຍກ່ຽວກັບຈຸດປະສົງ. ມັນດີ.
| ເຄື່ອງມື / Repo | ຜູ້ຊົມ | ລາຄາ | ເປັນຫຍັງມັນຈຶ່ງເຮັດວຽກໃນການປະຕິບັດ |
|---|---|---|---|
| ຊຸດຂໍ້ມູນໃບໜ້າກອດ | ນັກຄົ້ນຄວ້າ, ວິສະວະກອນ | ຊັ້ນຟຣີ | ການໂຫຼດໄວ, ການຖ່າຍທອດ, ສະຄຣິບຊຸມຊົນ; ເອກະສານທີ່ດີເລີດ; ຊຸດຂໍ້ມູນສະບັບ |
| Google Dataset ຊອກຫາ | ທຸກໆຄົນ | ຟຣີ | ພື້ນທີ່ກ້ວາງ; ທີ່ຍິ່ງໃຫຍ່ສໍາລັບການຄົ້ນພົບ; ບາງຄັ້ງ metadata ທີ່ບໍ່ສອດຄ່ອງກັນ |
| UCI ML Repository | ນັກສຶກສາ, ການສຶກສາ | ຟຣີ | ຄລາສສິກ curated; ຂະຫນາດນ້ອຍແຕ່ກະທັດຮັດ; ທີ່ດີສໍາລັບພື້ນຖານແລະການສອນ |
| OpenML | ນັກຄົ້ນຄວ້າ Repro | ຟຣີ | Tasks + datasets + ແລ່ນເຂົ້າກັນ; ເສັ້ນທາງການພິສູດທີ່ດີ |
| AWS Open Data Registry | ວິສະວະກອນຂໍ້ມູນ | ສ່ວນຫຼາຍແມ່ນບໍ່ເສຍຄ່າ | Petabyte-scale hosting; cloud-native ການເຂົ້າເຖິງ; ສັງເກດເບິ່ງຄ່າໃຊ້ຈ່າຍ egress |
| ຊຸດຂໍ້ມູນ Kaggle | ຜູ້ປະຕິບັດ | ຟຣີ | ການແບ່ງປັນງ່າຍ, ສະຄິບ, ການແຂ່ງຂັນ; ສັນຍານຊຸມຊົນຊ່ວຍການກັ່ນຕອງສຽງ |
| ຊຸດຂໍ້ມູນສາທາລະນະຂອງ Google Cloud | ນັກວິເຄາະ, ທີມງານ | ຟຣີ + ຟັງ | ເປັນເຈົ້າພາບຢູ່ໃກ້ກັບຄອມພິວເຕີ້; ການເຊື່ອມໂຍງ BigQuery; ລະມັດລະວັງກັບການຮຽກເກັບເງິນ |
| ປະຕູວິຊາການ, ຫ້ອງທົດລອງ | ຜູ້ຊ່ຽວຊານດ້ານນິເວດ | ແຕກຕ່າງກັນ | ພິເສດສູງ; ບາງຄັ້ງພາຍໃຕ້ເອກະສານ-ຍັງມີມູນຄ່າການລ່າສັດ |
(ຖ້າຫາກວ່າໂທລະສັບມືຖືມີຄວາມສົນໃຈ, ນັ້ນແມ່ນຄວາມຕັ້ງໃຈ.
ການສ້າງອັນທໍາອິດຂອງເຈົ້າ - ຊຸດເລີ່ມຕົ້ນປະຕິບັດໄດ້ 🛠️
ທ່ານຕ້ອງການຍ້າຍຈາກ "ຊຸດຂໍ້ມູນ AI ແມ່ນຫຍັງ" ໄປ "ຂ້ອຍສ້າງຫນຶ່ງ, ມັນເຮັດວຽກ." ລອງເສັ້ນທາງນ້ອຍທີ່ສຸດນີ້:
-
ຂຽນການຕັດສິນໃຈແລະ metric - e. g. ຫຼຸດຜ່ອນການເຂົ້າມາຂອງການສະຫນັບສະຫນູນທີ່ຜິດພາດໂດຍການຄາດຄະເນທີມທີ່ຖືກຕ້ອງ. ເມຕຣິກ: macro-F1.
-
ລາຍຊື່ 5 ບວກແລະ 5 ຕົວຢ່າງທາງລົບ - ຕົວຢ່າງປີ້ທີ່ແທ້ຈິງ; ບໍ່ fabricate.
-
ຮ່າງຄູ່ມືການຕິດສະຫຼາກ - ຫນຶ່ງຫນ້າ; ກົດລະບຽບການລວມ/ການຍົກເວັ້ນຢ່າງຈະແຈ້ງ.
-
ເກັບກໍາຕົວຢ່າງທີ່ແທ້ຈິງຂະຫນາດນ້ອຍ - ສອງສາມຮ້ອຍປີ້ໃນທົ່ວປະເພດ; ເອົາ PII ທີ່ທ່ານບໍ່ຕ້ອງການອອກ.
-
ແຍກດ້ວຍການກວດສອບການຮົ່ວໄຫຼ - ຮັກສາຂໍ້ຄວາມທັງຫມົດຈາກລູກຄ້າດຽວກັນໃນຫນຶ່ງການແບ່ງປັນ; ໃຊ້ການກວດສອບຂ້າມເພື່ອປະເມີນຄວາມແຕກຕ່າງ [5].
-
ຂຽນຫຍໍ້ດ້ວຍ QA - ສອງຕົວບັນຍາຍໃນຊຸດຍ່ອຍ; ແກ້ໄຂຄວາມບໍ່ເຫັນດີ; ປັບປຸງຄູ່ມື.
-
ຝຶກອົບຮົມພື້ນຖານທີ່ງ່າຍດາຍ - logistics ທໍາອິດ (ຕົວຢ່າງ: ຮູບແບບເສັ້ນຫຼື transformers ຫນາແຫນ້ນ). ຈຸດແມ່ນການທົດສອບຂໍ້ມູນ, ບໍ່ແມ່ນການຊະນະຫຼຽນ.
-
ທົບທວນຄືນຄວາມຜິດພາດ - ມັນລົ້ມເຫລວແລະເປັນຫຍັງ; ປັບປຸງຊຸດຂໍ້ມູນ, ບໍ່ພຽງແຕ່ຮູບແບບເທົ່ານັ້ນ.
-
ເອກະສານ - ເອກະສານຂໍ້ມູນນ້ອຍໆ: ແຫຼ່ງ, ການເຊື່ອມໂຍງຄູ່ມືປ້າຍຊື່, ການແບ່ງປັນ, ຂອບເຂດຈໍາກັດທີ່ຮູ້ຈັກ, ໃບອະນຸຍາດ [1].
-
ແຜນການໂຫຼດຫນ້າຈໍຄືນ - ປະເພດໃຫມ່, slang ໃຫມ່, ໂດເມນໃຫມ່ມາຮອດ; ກໍານົດເວລາຂະຫນາດນ້ອຍ, ການປັບປຸງເລື້ອຍໆ [3].
ທ່ານຈະຮຽນຮູ້ເພີ່ມເຕີມຈາກ loop ນີ້ຫຼາຍກ່ວາຈາກຫນຶ່ງພັນຮ້ອນ. ນອກຈາກນັ້ນ, ຮັກສາການສໍາຮອງຂໍ້ມູນ. ກະລຸນາ.
ໄພອັນຕະລາຍທົ່ວໄປທີ່ຫຼອກເອົາທີມ🪤
-
ການຮົ່ວໄຫລຂອງຂໍ້ມູນ - ຄໍາຕອບເຂົ້າໄປໃນລັກສະນະຕ່າງໆ (ເຊັ່ນ: ການໃຊ້ພື້ນທີ່ຫລັງການແກ້ໄຂເພື່ອຄາດຄະເນຜົນໄດ້ຮັບ). ຮູ້ສຶກຄືກັບການສໍ້ໂກງເພາະວ່າມັນແມ່ນ.
-
ຄວາມຫຼາກຫຼາຍຕື້ນ - ພູມສາດອັນໜຶ່ງ ຫຼືອຸປະກອນທີ່ຫຼອກລວງເປັນທົ່ວໂລກ. ການທົດສອບຈະເປີດເຜີຍໃຫ້ເຫັນການບິດຂອງດິນຕອນ.
-
Label drift - ເງື່ອນໄຂປ່ຽນແປງຕາມເວລາແຕ່ຄໍາແນະນໍາຂອງປ້າຍຊື່ບໍ່ໄດ້. ເອກະສານແລະສະບັບ ontology ຂອງທ່ານ.
-
ຈຸດປະສົງທີ່ບໍ່ລະບຸ - ຖ້າທ່ານບໍ່ສາມາດກໍານົດການຄາດຄະເນທີ່ບໍ່ດີ, ຂໍ້ມູນຂອງທ່ານຈະບໍ່ຄືກັນ.
-
ໃບອະນຸຍາດ messy - scraping ໃນປັດຈຸບັນ, ຂໍໂທດຕໍ່ມາ, ບໍ່ແມ່ນຍຸດທະສາດ.
-
ການເພີ່ມເກີນ - ຂໍ້ມູນສັງເຄາະທີ່ສອນສິ່ງປະດິດທີ່ບໍ່ເປັນຈິງ ເຊັ່ນ: ການຝຶກອົບຮົມພໍ່ຄົວກ່ຽວກັບໝາກໄມ້ພລາສຕິກ.
ຄຳຖາມທີ່ຖາມເລື້ອຍໆກ່ຽວກັບປະໂຫຍກຕົວມັນເອງ ❓
-
"ຊຸດຂໍ້ມູນ AI ແມ່ນຫຍັງ?" ພຽງແຕ່ເປັນຄໍານິຍາມ? ສ່ວນຫຼາຍແມ່ນ, ແຕ່ວ່າມັນຍັງເປັນສັນຍານທີ່ທ່ານສົນໃຈກ່ຽວກັບບິດທີ່ຫນ້າເບື່ອທີ່ເຮັດໃຫ້ຕົວແບບທີ່ຫນ້າເຊື່ອຖື.
-
ຂ້ອຍຈໍາເປັນຕ້ອງມີປ້າຍຊື່ບໍ? ບໍ່. ການຕັ້ງຄ່າແບບບໍ່ມີການຄວບຄຸມ, ຄວບຄຸມຕົນເອງ, ແລະ RL ມັກຈະຂ້າມປ້າຍກຳກັບທີ່ຈະແຈ້ງ, ແຕ່ການຈັດວາງຍັງສຳຄັນຢູ່.
-
ຂ້ອຍສາມາດໃຊ້ຂໍ້ມູນສາທາລະນະສໍາລັບສິ່ງໃດ? ບໍ່. ເຄົາລົບໃບອະນຸຍາດ, ເງື່ອນໄຂຂອງເວທີ, ແລະພັນທະຄວາມເປັນສ່ວນຕົວ [4].
-
ໃຫຍ່ກວ່າຫຼືດີກວ່າ? ທັງສອງ, ໂດຍສະເພາະ. ຖ້າເຈົ້າຕ້ອງເລືອກ, ເລືອກກ່ອນດີກວ່າ.
ຂໍ້ສັງເກດສຸດທ້າຍ - ສິ່ງທີ່ທ່ານສາມາດ screenshot 📌
ຖ້າມີຄົນຖາມເຈົ້າ ວ່າຊຸດຂໍ້ມູນ AI ແມ່ນຫຍັງ , ໃຫ້ເວົ້າວ່າ: ມັນເປັນການລວບລວມຕົວຢ່າງທີ່ຄັດສັນມາ ແລະ ບັນທຶກໄວ້ເຊິ່ງສອນ ແລະ ທົດສອບຮູບແບບ, ຫໍ່ຫຸ້ມດ້ວຍການຄຸ້ມຄອງເພື່ອໃຫ້ຄົນສາມາດໄວ້ວາງໃຈຜົນໄດ້ຮັບ. ຊຸດຂໍ້ມູນທີ່ດີທີ່ສຸດແມ່ນເປັນຕົວແທນ, ມີປ້າຍຊື່ທີ່ດີ, ສະອາດຕາມກົດໝາຍ, ແລະ ຮັກສາຢ່າງຕໍ່ເນື່ອງ. ສ່ວນທີ່ເຫຼືອແມ່ນລາຍລະອຽດ - ລາຍລະອຽດທີ່ສຳຄັນ - ກ່ຽວກັບໂຄງສ້າງ, ການແບ່ງແຍກ, ແລະ ຮົ້ວກັ້ນນ້ອຍໆທັງໝົດທີ່ປ້ອງກັນບໍ່ໃຫ້ຮູບແບບຫຼົງທາງເຂົ້າໄປໃນການຈະລາຈອນ. ບາງຄັ້ງຂະບວນການຮູ້ສຶກຄືກັບການເຮັດສວນດ້ວຍຕາຕະລາງ; ບາງຄັ້ງຄືກັບການລ້ຽງພິກເຊວ. ບໍ່ວ່າຈະແນວໃດກໍ່ຕາມ, ລົງທຶນໃນຂໍ້ມູນ, ແລະຮູບແບບຂອງທ່ານຈະເຮັດວຽກທີ່ແປກປະຫຼາດໜ້ອຍລົງ. 🌱🤖
ເອກະສານອ້າງອີງ
[1] ແຜ່ນຂໍ້ມູນສຳລັບຊຸດຂໍ້ມູນ - Gebru et al., arXiv. ລິ້ງ
[2] ບັດຮູບແບບສຳລັບການລາຍງານຮູບແບບ - Mitchell et al., arXiv. ລິ້ງ
[3] ຂອບການຄຸ້ມຄອງຄວາມສ່ຽງດ້ານປັນຍາປະດິດ NIST (AI RMF 1.0) . ລິ້ງ
[4] ຄຳແນະນຳ ແລະ ຊັບພະຍາກອນ GDPR ຂອງສະຫະລາຊະອານາຈັກ - ຫ້ອງການຜູ້ອຳນວຍການຂໍ້ມູນຂ່າວສານ (ICO). ລິ້ງ
[5] ການກວດສອບຄວາມຖືກຕ້ອງ: ການປະເມີນປະສິດທິພາບຂອງຕົວຄາດຄະເນ - ຄູ່ມືຜູ້ໃຊ້ scikit-learn. ລິ້ງ