ຊຸດຂໍ້ມູນ AI ​​ແມ່ນຫຍັງ?

ຊຸດຂໍ້ມູນ AI ​​ແມ່ນຫຍັງ?

ຖ້າທ່ານກໍາລັງສ້າງ, ການຊື້, ຫຼືແມ້ກະທັ້ງພຽງແຕ່ປະເມີນລະບົບ AI, ທ່ານຈະເຂົ້າໄປໃນຄໍາຖາມທີ່ຫຼອກລວງຫນຶ່ງແລະຊຸດຂໍ້ມູນ AI ​​ແມ່ນຫຍັງແລະເປັນຫຍັງມັນຈຶ່ງສໍາຄັນຫຼາຍ? ສະບັບສັ້ນ: ມັນແມ່ນນໍ້າມັນເຊື້ອໄຟ, ປື້ມຄູ່ມື, ແລະບາງຄັ້ງເຂັມທິດສໍາລັບຕົວແບບຂອງທ່ານ. 

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 AI ຄາດຄະເນແນວໂນ້ມແນວໃດ
ສຳຫຼວດວິທີການ AI ວິເຄາະຮູບແບບເພື່ອຄາດຄະເນເຫດການ ແລະ ພຶດຕິກຳໃນອະນາຄົດ.

🔗 ວິທີການວັດແທກປະສິດທິພາບ AI
ຕົວຊີ້ວັດ ແລະ ວິທີການສຳລັບການປະເມີນຄວາມຖືກຕ້ອງ, ປະສິດທິພາບ ແລະ ຄວາມໜ້າເຊື່ອຖືຂອງຮູບແບບ.

🔗 ວິທີການສົນທະນາກັບ AI
ຄຳແນະນຳກ່ຽວກັບການສ້າງການໂຕ້ຕອບທີ່ດີຂຶ້ນເພື່ອປັບປຸງການຕອບສະໜອງທີ່ສ້າງຂຶ້ນໂດຍ AI.

🔗 AI ແມ່ນການກະຕຸ້ນເຕືອນແມ່ນຫຍັງ
ພາບລວມຂອງວິທີທີ່ການກະຕຸ້ນມີຜົນກະທົບຂອງ AI ແລະຄຸນນະພາບການສື່ສານໂດຍລວມ.


ຊຸດຂໍ້ມູນ AI ​​ແມ່ນຫຍັງ? ຄໍານິຍາມໄວ🧩

ຊຸດຂໍ້ມູນ AI ​​ແມ່ນຫຍັງ? ມັນເປັນ ການລວບລວມຕົວຢ່າງທີ່ ຕົວແບບຂອງເຈົ້າຮຽນຮູ້ຈາກຫຼືຖືກປະເມີນ. ຕົວ​ຢ່າງ​ແຕ່​ລະ​ຄົນ​ມີ​:

  • ອິນພຸດ - ຄຸນສົມບັດທີ່ໂມເດວເຫັນ, ເຊັ່ນ: ສ່ວນຂໍ້ຄວາມ, ຮູບພາບ, ສຽງ, ແຖວຕາຕະລາງ, ການອ່ານເຊັນເຊີ, ກຣາຟ.

  • ເປົ້າໝາຍ - ປ້າຍກຳກັບ ຫຼືຜົນໄດ້ຮັບທີ່ຕົວແບບຄວນຄາດຄະເນ, ເຊັ່ນ: ໝວດໝູ່, ຕົວເລກ, ຂອບເຂດຂອງຂໍ້ຄວາມ, ການກະທຳ ຫຼືບາງຄັ້ງກໍ່ບໍ່ມີຫຍັງເລີຍ.

  • ເມຕາເດຕາ - ບໍລິບົດເຊັ່ນ: ແຫຼ່ງທີ່ມາ, ວິທີການເກັບກຳ, ເວລາ, ໃບອະນຸຍາດ, ຂໍ້ມູນການຍິນຍອມ, ແລະບັນທຶກກ່ຽວກັບຄຸນນະພາບ.

ຄິດວ່າມັນຄ້າຍຄືກ່ອງອາຫານທ່ຽງທີ່ບັນຈຸຢ່າງລະມັດລະວັງສໍາລັບຕົວແບບຂອງທ່ານ: ສ່ວນປະກອບ, ປ້າຍຊື່, ຂໍ້ເທັດຈິງດ້ານໂພຊະນາການ, ແລະແມ່ນແລ້ວ, ບັນທຶກຫນຽວທີ່ເວົ້າວ່າ "ຢ່າກິນສ່ວນນີ້." 🍱

ສຳລັບໜ້າວຽກທີ່ມີການເບິ່ງແຍງກວດກາ, ທ່ານຈະເຫັນການປ້ອນຂໍ້ມູນເຂົ້າຄູ່ກັບປ້າຍກຳກັບທີ່ຈະແຈ້ງ. ສຳລັບໜ້າວຽກທີ່ບໍ່ມີການເບິ່ງແຍງກວດກາ, ທ່ານຈະເຫັນການປ້ອນຂໍ້ມູນທີ່ບໍ່ມີປ້າຍກຳກັບ. ສໍາລັບການຮຽນຮູ້ເສີມ, ຂໍ້ມູນມັກຈະມີລັກສະນະເປັນຕອນ ຫຼື ເສັ້ນທາງທີ່ມີລັດ, ການກະທຳ, ລາງວັນ. ສໍາລັບການເຮັດວຽກ multimodal, ຕົວຢ່າງສາມາດສົມທົບຂໍ້ຄວາມ + ຮູບພາບ + ສຽງໃນບັນທຶກດຽວ. ສຽງ fancy; ສ່ວນຫຼາຍແມ່ນທໍ່ນ້ໍາ.

ຫຼັກການພື້ນຖານ ແລະການປະຕິບັດທີ່ເປັນປະໂຫຍດ: ແນວຄວາມຄິດຂອງ Datasheets for Datasets ຊ່ວຍໃຫ້ທີມງານອະທິບາຍສິ່ງທີ່ຢູ່ພາຍໃນ ແລະວິທີການທີ່ມັນຄວນຈະຖືກນໍາໃຊ້ [1], ແລະ Model Cards ປະກອບເອກະສານຂໍ້ມູນໃນດ້ານຕົວແບບ [2].

 

ຊຸດຂໍ້ມູນ AI

ສິ່ງທີ່ເຮັດໃຫ້ຊຸດຂໍ້ມູນ AI ​​ທີ່ດີ ✅

ໃຫ້ມີຄວາມຊື່ສັດ, ຫຼາຍຕົວແບບປະສົບຜົນສໍາເລັດເພາະວ່າຊຸດຂໍ້ມູນບໍ່ຂີ້ຮ້າຍ. ຊຸດຂໍ້ມູນ "ດີ" ແມ່ນ:

  • ຜູ້ຕາງຫນ້າ ຂອງກໍລະນີການນໍາໃຊ້ທີ່ແທ້ຈິງ, ບໍ່ພຽງແຕ່ເງື່ອນໄຂຫ້ອງທົດລອງ.

  • ການຕິດສະຫຼາກຢ່າງຖືກຕ້ອງ , ມີຄໍາແນະນໍາທີ່ຊັດເຈນແລະການຕັດສິນເປັນໄລຍະ. ການວັດແທກຂໍ້ຕົກລົງ (ຕົວຢ່າງ, ມາດຕະການແບບ kappa) ຊ່ວຍໃຫ້ການກວດສອບຄວາມສອດຄ່ອງ.

  • ສົມບູນແລະມີຄວາມສົມດູນ ພຽງພໍທີ່ຈະຫຼີກເວັ້ນຄວາມລົ້ມເຫຼວທີ່ງຽບໆກ່ຽວກັບຫາງຍາວ. ຄວາມບໍ່ສົມດຸນເປັນເລື່ອງປົກກະຕິ; ການລະເລີຍບໍ່ແມ່ນ.

  • ແຫຼ່ງທີ່ມາທີ່ຊັດເຈນ , ມີການຍິນຍອມ, ໃບອະນຸຍາດ ແລະ ການອະນຸຍາດທີ່ບັນທຶກໄວ້. ເອກະສານທີ່ໜ້າເບື່ອຊ່ວຍປ້ອງກັນການຟ້ອງຮ້ອງທີ່ໜ້າຕື່ນເຕັ້ນ.

  • ເອກະສານທີ່ດີ ໂດຍໃຊ້ບັດຂໍ້ມູນ ຫຼືແຜ່ນຂໍ້ມູນທີ່ສະກົດເອົາຈຸດປະສົງການນຳໃຊ້, ຂໍ້ຈຳກັດ ແລະຮູບແບບຄວາມລົ້ມເຫລວທີ່ຮູ້ຈັກ [1]

  • ຄວບ​ຄຸມ ​ດ້ວຍ​ການ​ສ້າງ​ເວີ​ຊັນ, ການ​ປ່ຽນ​ແປງ, ແລະ​ການ​ອະ​ນຸ​ມັດ. ຖ້າທ່ານບໍ່ສາມາດຜະລິດຊຸດຂໍ້ມູນໄດ້, ທ່ານບໍ່ສາມາດຜະລິດແບບຈໍາລອງໄດ້. ຄໍາແນະນໍາຈາກ ກອບການຄຸ້ມຄອງຄວາມສ່ຽງ AI ຂອງ NIST ປະຕິບັດຕໍ່ຄຸນນະພາບຂໍ້ມູນແລະເອກະສານເປັນຄວາມກັງວົນອັນດັບຫນຶ່ງ [3].


ປະເພດຂອງຊຸດຂໍ້ມູນ AI, ໂດຍສິ່ງທີ່ທ່ານກໍາລັງເຮັດ🧰

ໂດຍວຽກງານ

  • ການຈັດປະເພດ - ຕົວຢ່າງ, ສະແປມ ທຽບກັບ ບໍ່ແມ່ນສະແປມ, ໝວດໝູ່ຮູບພາບ.

  • Regression - ຄາດຄະເນມູນຄ່າຢ່າງຕໍ່ເນື່ອງເຊັ່ນ: ລາຄາ ຫຼືອຸນຫະພູມ.

  • ການ​ຕິດ​ສະ​ຫຼາກ​ຕາມ​ລໍາ​ດັບ - ຫນ່ວຍ​ງານ​ທີ່​ມີ​ຊື່​, ສ່ວນ​ຂອງ​ການ​ປາກ​ເວົ້າ​.

  • ການຜະລິດ - ສະຫຼຸບ, ການແປພາສາ, ຄໍາອະທິບາຍຮູບພາບ.

  • ຄໍາແນະນໍາ - ຜູ້ໃຊ້, ລາຍການ, ການໂຕ້ຕອບ, ສະພາບການ.

  • ການກວດຫາຄວາມຜິດປົກກະຕິ - ເຫດການທີ່ຫາຍາກໃນຊຸດເວລາ ຫຼືບັນທຶກ.

  • ການຮຽນຮູ້ເສີມ - ລັດ, ການປະຕິບັດ, ລາງວັນ, ລໍາດັບຕໍ່ໄປຂອງລັດ.

  • retrieval - ເອກະສານ, ການສອບຖາມ, ຄໍາຕັດສິນຂອງຄວາມກ່ຽວຂ້ອງ.

ໂດຍ modality

  • Tabular - ຖັນເຊັ່ນ: ອາຍຸ, ລາຍໄດ້, churn. ຕໍ່າກວ່າ, ມີປະສິດທິພາບຢ່າງໂຫດຮ້າຍ.

  • ຂໍ້​ຄວາມ - ເອ​ກະ​ສານ​, ສົນ​ທະ​ນາ​ລະ​ຫັດ​, ກະ​ທູ້ forum​, ລາຍ​ລະ​ອຽດ​ຜະ​ລິດ​ຕະ​ພັນ​.

  • ຮູບພາບ - ຮູບພາບ, ການສະແກນທາງການແພດ, ກະເບື້ອງດາວທຽມ; ມີຫຼືບໍ່ມີຫນ້າກາກ, ກ່ອງ, ຈຸດສໍາຄັນ.

  • ສຽງ - waveforms, transcripts, speaker tags.

  • ວິດີໂອ - ກອບ, ຄໍາບັນຍາຍຊົ່ວຄາວ, ປ້າຍປະຕິບັດງານ.

  • Graphs - nodes, edges, attributes.

  • ຊຸດເວລາ - ເຊັນເຊີ, ການເງິນ, ໂທລະເລກ.

ໂດຍການຊີ້ນໍາ

  • ມີປ້າຍ (ຄຳ, ເງິນ, ຕິດປ້າຍອັດຕະໂນມັດ), ຕິດປ້າຍບໍ່ລະອຽດ , ບໍ່ມີປ້າຍ , ສັງເຄາະ . ແປ້ງເຄັກທີ່ຊື້ຈາກຮ້ານສາມາດຊື້ໄດ້ດີ - ຖ້າທ່ານອ່ານລາຍລະອຽດໃນກ່ອງ.


ພາຍໃນກ່ອງ: ໂຄງສ້າງ, ການແຍກ, ແລະເມຕາເດຕາ 📦

ຊຸດຂໍ້ມູນທີ່ເຂັ້ມແຂງປົກກະຕິແລ້ວປະກອບມີ:

  • Schema - ຊ່ອງທີ່ພິມ, ຫົວໜ່ວຍ, ຄ່າທີ່ອະນຸຍາດ, ການຈັດການ null.

  • Splits - ການຝຶກອົບຮົມ, ການກວດສອບ, ການທົດສອບ. ຮັກສາຂໍ້ມູນການທົດສອບປະທັບຕາ - ປະຕິບັດມັນຄືກັບຊັອກໂກແລັດຊິ້ນສຸດທ້າຍ.

  • ແຜນຕົວຢ່າງ - ວິທີທີ່ທ່ານດຶງຕົວຢ່າງຈາກປະຊາກອນ; ຫຼີກເວັ້ນຕົວຢ່າງຄວາມສະດວກສະບາຍຈາກພາກພື້ນຫນຶ່ງຫຼືອຸປະກອນ.

  • Augmentations - flips, ການປູກພືດ, ສິ່ງລົບກວນ, paraphrases, ຫນ້າກາກ. ດີເມື່ອມີຄວາມຊື່ສັດ; ເປັນອັນຕະລາຍເມື່ອພວກເຂົາປະດິດຮູບແບບທີ່ບໍ່ເຄີຍເກີດຂຶ້ນໃນປ່າທໍາມະຊາດ.

  • ເວີຊັນ - ຊຸດຂໍ້ມູນ v0.1, v0.2… ພ້ອມກັບບັນທຶກການປ່ຽນແປງທີ່ອະທິບາຍ deltas.

  • ໃບ​ອະ​ນຸ​ຍາດ​ແລະ​ການ​ຍິນ​ຍອມ - ສິດ​ໃນ​ການ​ນໍາ​ໃຊ້​, ການ​ແຜ່​ກະ​ຈາຍ​, ແລະ​ການ​ລົບ​ການ​ໄຫຼ​ເຂົ້າ​. ລະບຽບການຄຸ້ມຄອງຂໍ້ມູນແຫ່ງຊາດ (ເຊັ່ນ: ICO ຂອງອັງກິດ) ສະໜອງລາຍການກວດສອບທີ່ປະຕິບັດໄດ້ຕາມກົດໝາຍ [4].


ວົງຈອນຊີວິດຂອງຊຸດຂໍ້ມູນ, ເທື່ອລະຂັ້ນຕອນ 🔁

  1. ກໍານົດການຕັດສິນໃຈ - ສິ່ງທີ່ຕົວແບບຈະຕັດສິນໃຈ, ແລະສິ່ງທີ່ເກີດຂື້ນຖ້າມັນຜິດພາດ.

  2. ຂອບເຂດຄຸນສົມບັດ ແລະປ້າຍກຳກັບ - ສາມາດວັດແທກໄດ້, ສາມາດສັງເກດໄດ້, ມີຈັນຍາບັນໃນການເກັບກໍາ.

  3. ຂໍ້ມູນແຫຼ່ງຂໍ້ມູນ - ເຄື່ອງມື, ບັນທຶກ, ການສໍາຫຼວດ, ບໍລິສັດສາທາລະນະ, ຄູ່ຮ່ວມງານ.

  4. ການຍິນຍອມເຫັນດີ ແລະທາງກົດໝາຍ - ປະກາດຄວາມເປັນສ່ວນຕົວ, ການເລືອກອອກ, ການຫຼຸດຜ່ອນຂໍ້ມູນ. ເບິ່ງຄໍາແນະນໍາຂອງຜູ້ຄວບຄຸມສໍາລັບ "ເປັນຫຍັງ" ແລະ "ແນວໃດ" [4].

  5. ເກັບກໍາແລະເກັບຮັກສາ - ການເກັບຮັກສາທີ່ປອດໄພ, ການເຂົ້າເຖິງໂດຍອີງໃສ່ບົດບາດ, ການຈັດການ PII.

  6. ປ້າຍກຳກັບ - ຕົວຊີ້ບອກພາຍໃນ, ແຫຼ່ງທີ່ມາ, ຜູ້ຊ່ຽວຊານ; ຄຸ້ມ​ຄອງ​ຄຸນ​ນະ​ພາບ​ກັບ​ວຽກ​ງານ​ຄໍາ​, ການ​ກວດ​ສອບ​, ແລະ​ມາດ​ຕະ​ການ​ຂໍ້​ຕົກ​ລົງ​.

  7. ເຮັດຄວາມສະອາດແລະປົກກະຕິ - desupe, ຈັດການການຂາດ, ມາດຕະຖານຫນ່ວຍງານ, ແກ້ໄຂການເຂົ້າລະຫັດ. ໜ້າເບື່ອ, ເຮັດວຽກຢ່າງກ້າຫານ.

  8. ແຍກແລະກວດສອບ - ປ້ອງກັນການຮົ່ວໄຫຼ; stratify ບ່ອນທີ່ກ່ຽວຂ້ອງ; ມັກການແບ່ງປັນທີ່ຮູ້ເວລາສໍາລັບຂໍ້ມູນຊົ່ວຄາວ; ແລະນໍາໃຊ້ການກວດສອບຂ້າມຢ່າງລະມັດລະວັງສໍາລັບການຄາດຄະເນທີ່ເຂັ້ມແຂງ [5].

  9. ເອກະສານ - datasheet ຫຼືບັດຂໍ້ມູນ; ການ​ນໍາ​ໃຊ້​ຈຸດ​ປະ​ສົງ​, ຂໍ້​ຈໍາ​ກັດ​, ຂໍ້​ຈໍາ​ກັດ [1​]​.

  10. ຕິດ​ຕາມ​ກວດ​ກາ​ແລະ​ປັບ​ປຸງ - drift detection​, refresh cadence​, sunset ແຜນ​ການ​. AI RMF ຂອງ NIST ກໍານົດຂອບເຂດການປົກຄອງຢ່າງຕໍ່ເນື່ອງນີ້ [3].

ເຄັດລັບທີ່ເປັນຮູບຊົງທີ່ແທ້ຈິງຂອງໂລກໄວ: ທີມງານມັກຈະ "ຊະນະການສາທິດ" ແຕ່ສະດຸດໃນການຜະລິດເນື່ອງຈາກຊຸດຂໍ້ມູນຂອງພວກເຂົາເລື່ອນສາຍຜະລິດຕະພັນໃໝ່, ພາກສະຫນາມທີ່ຖືກປ່ຽນຊື່, ຫຼືນະໂຍບາຍທີ່ມີການປ່ຽນແປງ. ບັນທຶກການປ່ຽນແປງແບບງ່າຍໆ + ບັນທຶກການຕອບຄືນເປັນໄລຍະເພື່ອປ້ອງກັນຄວາມເຈັບປວດນັ້ນ.


ຄຸນ​ນະ​ພາບ​ຂອງ​ຂໍ້​ມູນ​ແລະ​ການ​ປະ​ເມີນ​ຜົນ - ບໍ່​ເປັນ​ຂີ້​ເທົ່າ​ທີ່​ມັນ​ເປັນ​ສຽງ 🧪​

ຄຸນ​ນະ​ພາບ​ແມ່ນ​ຫຼາຍ​ມິ​ຕິ​ລະ​ດັບ​:

  • ຄວາມຖືກຕ້ອງ - ປ້າຍຊື່ແມ່ນຖືກຕ້ອງບໍ? ໃຊ້ຕົວວັດແທກຂໍ້ຕົກລົງແລະການຕັດສິນແຕ່ລະໄລຍະ.

  • ຄວາມສົມບູນ - ກວມເອົາທົ່ງນາແລະຫ້ອງຮຽນທີ່ທ່ານຕ້ອງການຢ່າງແທ້ຈິງ.

  • ຄວາມສອດຄ່ອງ - ຫຼີກເວັ້ນປ້າຍທີ່ກົງກັນຂ້າມສໍາລັບການປ້ອນຂໍ້ມູນທີ່ຄ້າຍຄືກັນ.

  • Timeliness - stale data fossilizes ສົມມຸດຕິຖານ.

  • ຄວາມຍຸຕິທຳ & ຄວາມລຳອຽງ - ການຄຸ້ມຄອງໃນທົ່ວປະຊາກອນ, ພາສາ, ອຸປະກອນ, ສະພາບແວດລ້ອມ; ເລີ່ມຕົ້ນດ້ວຍການກວດສອບແບບອະທິບາຍ, ຈາກນັ້ນການທົດສອບຄວາມຄຽດ. Documentation-first practices (datasheets, model cards) ເຮັດ​ໃຫ້​ການ​ກວດ​ສອບ​ເຫຼົ່າ​ນີ້​ສັງ​ເກດ​ເຫັນ [1​]​, ແລະ​ໂຄງ​ການ​ປົກ​ຄອງ​ເນັ້ນ​ຫນັກ​ໃສ່​ພວກ​ເຂົາ​ເປັນ​ການ​ຄວບ​ຄຸມ​ຄວາມ​ສ່ຽງ [3​]​.

ສໍາລັບການປະເມີນແບບຈໍາລອງ, ໃຊ້ ການແບ່ງປັນທີ່ເຫມາະສົມ ແລະຕິດຕາມທັງສອງຕົວຊີ້ວັດສະເລ່ຍແລະການວັດແທກກຸ່ມທີ່ບໍ່ດີທີ່ສຸດ. ສະເລ່ຍເຫຼື້ອມສາມາດເຊື່ອງຂຸມໄດ້. ພື້ນຖານການກວດສອບຄວາມຖືກຕ້ອງແມ່ນກວມເອົາດີໃນເອກະສານມາດຕະຖານເຄື່ອງມື ML [5].


ຈັນຍາບັນ, ຄວາມເປັນສ່ວນຕົວ, ແລະການອອກໃບອະນຸຍາດ - the guardrails 🛡️

ຂໍ້ມູນດ້ານຈັນຍາບັນບໍ່ແມ່ນ vibe, ມັນເປັນຂະບວນການ:

  • ການຍິນຍອມ & ການຈໍາກັດຈຸດປະສົງ - ຈະແຈ້ງກ່ຽວກັບການນໍາໃຊ້ແລະພື້ນຖານທາງດ້ານກົດຫມາຍ [4].

  • ການຈັດການ PII - ຫຍໍ້, pseudonymize, ຫຼື anonymize ຕາມຄວາມເຫມາະສົມ; ພິຈາລະນາເທກໂນໂລຍີເສີມສ້າງຄວາມເປັນສ່ວນຕົວໃນເວລາທີ່ຄວາມສ່ຽງສູງ.

  • ແຫຼ່ງທີ່ມາ & ໃບອະນຸຍາດ - ເຄົາລົບຂໍ້ຈຳກັດການນຳໃຊ້ແບບແບ່ງປັນ ແລະການຄ້າ.

  • ຄວາມລຳອຽງ & ອັນຕະລາຍ - ການກວດສອບຄວາມສຳພັນທີ່ແປກປະຫຼາດ (“ກາງເວັນ = ປອດໄພ” ຈະສັບສົນຫຼາຍໃນຕອນກາງຄືນ).

  • Redress - ຮູ້​ວິ​ທີ​ການ​ເອົາ​ຂໍ້​ມູນ​ຕາມ​ການ​ຮ້ອງ​ຂໍ​ແລະ​ວິ​ທີ​ການ​ກັບ​ຄືນ​ໄປ​ບ່ອນ​ແບບ​ທີ່​ໄດ້​ຮັບ​ການ​ຝຶກ​ອົບ​ຮົມ​ກ່ຽວ​ກັບ​ມັນ (ເອ​ກະ​ສານ​ນີ້​ໃນ​ເອ​ກະ​ສານ​ຂອງ​ທ່ານ​) [1​]​.


ໃຫຍ່ພໍເທົ່າໃດ? 📏 ຂະໜາດ ແລະ ສັນຍານຫາສຽງ 📏

ກົດ​ລະ​ບຽບ​ຂອງ​ໂປ້​ມື​: ຕົວ​ຢ່າງ​ຫຼາຍ​ໂດຍ​ປົກ​ກະ​ຕິ​ຈະ​ຊ່ວຍ​ໄດ້ ​ຖ້າ​ຫາກ​ວ່າ ​ພວກ​ເຂົາ​ເຈົ້າ​ກ່ຽວ​ຂ້ອງ​ແລະ​ບໍ່​ແມ່ນ​ຢູ່​ໃກ້​ກັບ​ການ​ຊໍ້າ​ກັນ​. ແຕ່ບາງເທື່ອເຈົ້າມີຕົວຢ່າງ ໜ້ອຍກວ່າ, ສະອາດກວ່າ, ມີປ້າຍຊື່ດີກ ວ່າກັບພູເຂົາທີ່ສັບສົນ.

ສັງເກດເບິ່ງສໍາລັບ:

  • ເສັ້ນໂຄ້ງການຮຽນຮູ້ - ການປະຕິບັດແຜນການທຽບກັບຂະຫນາດຕົວຢ່າງເພື່ອເບິ່ງວ່າທ່ານກໍາລັງຜູກມັດຂໍ້ມູນຫຼືຕົວແບບ.

  • ການຄຸ້ມຄອງຫາງຍາວ - ຫ້ອງຮຽນທີ່ຫາຍາກແຕ່ສໍາຄັນມັກຈະຕ້ອງການການເກັບກໍາເປົ້າຫມາຍ, ບໍ່ພຽງແຕ່ເປັນຈໍານວນຫຼາຍ.

  • ສິ່ງລົບກວນປ້າຍ - ວັດແທກ, ຫຼັງຈາກນັ້ນຫຼຸດລົງ; ເລັກນ້ອຍແມ່ນທົນທານໄດ້, ຄື້ນ tidal ບໍ່ແມ່ນ.

  • ການປ່ຽນແປງການແຈກຢາຍ - ຂໍ້ມູນການຝຶກອົບຮົມຈາກພາກພື້ນ ຫຼື ຊ່ອງທາງໜຶ່ງອາດຈະບໍ່ລວມເຂົ້າກັບອີກພາກພື້ນໜຶ່ງ; ກວດສອບຄວາມຖືກຕ້ອງຂອງຂໍ້ມູນການທົດສອບທີ່ຄ້າຍຄືກັບເປົ້າໝາຍ [5].

ເມື່ອມີຄວາມສົງໄສ, ໃຫ້ໃຊ້ການທົດລອງຂະໜາດນ້ອຍ ແລະ ຂະຫຍາຍ. ມັນຄືກັບເຄື່ອງປຸງ - ຕື່ມ, ຊີມ, ປັບ, ແລະ ເຮັດຊ້ຳອີກ.


ບ່ອນທີ່ຊອກຫາ ແລະຈັດການຊຸດຂໍ້ມູນ 🗂️

ຊັບພະຍາກອນທີ່ນິຍົມແລະເຄື່ອງມື (ບໍ່ຈໍາເປັນຕ້ອງຈື່ URLs ໃນປັດຈຸບັນ):

  • Hugging Face Datasets - ການໂຫຼດແບບເປັນໂປຣແກຣມ, ການປະມວນຜົນ, ການແບ່ງປັນ.

  • Google Dataset Search - ການຄົ້ນຫາແບບ meta ໃນທົ່ວເວັບ.

  • UCI ML Repository - curated classics ສໍາລັບພື້ນຖານແລະການສອນ.

  • OpenML - ວຽກ + ຊຸດຂໍ້ມູນ + ແລ່ນດ້ວຍຫຼັກຖານ.

  • AWS Open Data / Google Cloud Public Datasets - host, large-scale corpora.

ຄໍາແນະນໍາ Pro: ບໍ່ພຽງແຕ່ດາວໂຫລດ. ອ່ານໃບອະນຸຍາດ ແລະເອກະສານຂໍ້ມູນ , ຫຼັງຈາກນັ້ນບັນທຶກສໍາເນົາຂອງທ່ານເອງດ້ວຍຕົວເລກສະບັບແລະຫຼັກຖານ [1].


ການຕິດສະຫຼາກ ແລະຄຳບັນຍາຍ - ບ່ອນທີ່ຄວາມຈິງໄດ້ຮັບການເຈລະຈາ ✍️

ຄໍາບັນຍາຍແມ່ນບ່ອນທີ່ຄໍາແນະນໍາດ້ານທິດສະດີຂອງທ່ານຕໍ່ສູ້ກັບຄວາມເປັນຈິງ:

  • ການອອກແບບຫນ້າວຽກ - ຂຽນຄໍາແນະນໍາທີ່ຊັດເຈນດ້ວຍຕົວຢ່າງແລະຕົວຢ່າງຕ້ານ.

  • ການ​ຝຶກ​ອົບ​ຮົມ Annotator - ແນວ​ພັນ​ທີ່​ມີ​ຄໍາ​ຕອບ​ຄໍາ​, ແລ່ນ​ຮອບ​ການ​ປັບ​ທຽບ​.

  • ການ​ຄວບ​ຄຸມ​ຄຸນ​ນະ​ພາບ - ການ​ນໍາ​ໃຊ້​ມາດ​ຕະ​ການ​ຂໍ້​ຕົກ​ລົງ​, ກົນ​ໄກ​ການ​ເປັນ​ເອ​ກະ​ພາບ​, ແລະ​ການ​ກວດ​ສອບ​ໄລ​ຍະ​.

  • ເຄື່ອງມື - ເລືອກເຄື່ອງມືທີ່ບັງຄັບໃຊ້ການກວດສອບ schema ແລະຄິວການທົບທວນຄືນ; ເຖິງແມ່ນວ່າສະເປຣດຊີດສາມາດເຮັດວຽກກັບກົດລະບຽບແລະການກວດສອບ.

  • ວົງການຕິຊົມ - ບັນທຶກບັນທຶກຂອງຕົວປະກອບ ແລະຄວາມຜິດພາດແບບຈໍາລອງເພື່ອປັບປ່ຽນຄູ່ມື.

ຖ້າມັນຮູ້ສຶກຄືກັບການດັດແກ້ວັດຈະນານຸກົມກັບໝູ່ສາມຄົນທີ່ບໍ່ເຫັນດີນຳເຄື່ອງໝາຍຈຸດ... ນັ້ນເປັນເລື່ອງປົກກະຕິ. 🙃


ເອກະສານຂໍ້ມູນ - ການສ້າງຄວາມຮູ້ທີ່ຊັດເຈນ 📒

ແຜ່ນຂໍ້ມູນ ຫຼື ບັດຂໍ້ມູນ ທີ່ມີນ້ໍາຫນັກເບົາ ຄວນກວມເອົາ:

  • ໃຜເກັບມັນ, ເກັບມາແນວໃດ, ແລະ ເປັນຫຍັງ.

  • ການນຳໃຊ້ທີ່ຕັ້ງໃຈໄວ້ ແລະ ການນຳໃຊ້ນອກຂອບເຂດ.

  • ຊ່ອງຫວ່າງທີ່ຮູ້ຈັກ, ອະຄະຕິ, ແລະຮູບແບບຄວາມລົ້ມເຫຼວ.

  • ພິທີການຕິດປ້າຍກຳກັບ, ຂັ້ນຕອນ QA, ແລະສະຖິຕິຂໍ້ຕົກລົງ.

  • ໃບອະນຸຍາດ, ການຍິນຍອມ, ຕິດຕໍ່ສໍາລັບບັນຫາ, ຂະບວນການໂຍກຍ້າຍ.

ແມ່ແບບແລະຕົວຢ່າງ: ແຜ່ນຂໍ້ມູນສໍາລັບຊຸດຂໍ້ມູນ ແລະ ບັດແບບຈໍາລອງ ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງຈຸດເລີ່ມຕົ້ນ [1].

ຂຽນມັນໃນຂະນະທີ່ເຈົ້າສ້າງ, ບໍ່ແມ່ນຫຼັງຈາກນັ້ນ. ໜ່ວຍຄວາມຈຳແມ່ນສື່ເກັບຮັກສາທີ່ບໍ່ແນ່ນອນ.


ຕາຕະລາງປຽບທຽບ - ສະຖານທີ່ຊອກຫາ ຫຼືເປັນເຈົ້າພາບຊຸດຂໍ້ມູນ AI ​​📊

ແມ່ນແລ້ວ, ນີ້ແມ່ນຄວາມຄິດເຫັນເລັກນ້ອຍ. ແລະຄໍາສັບແມ່ນບໍ່ສະເຫມີກັນເລັກນ້ອຍກ່ຽວກັບຈຸດປະສົງ. ມັນດີ.

ເຄື່ອງມື / Repo ຜູ້ຊົມ ລາຄາ ເປັນຫຍັງມັນຈຶ່ງເຮັດວຽກໃນການປະຕິບັດ
ຊຸດຂໍ້ມູນໃບໜ້າກອດ ນັກຄົ້ນຄວ້າ, ວິສະວະກອນ ຊັ້ນຟຣີ ການໂຫຼດໄວ, ການຖ່າຍທອດ, ສະຄຣິບຊຸມຊົນ; ເອກະສານທີ່ດີເລີດ; ຊຸດຂໍ້ມູນສະບັບ
Google Dataset ຊອກຫາ ທຸກໆຄົນ ຟຣີ ພື້ນທີ່ກ້ວາງ; ທີ່ຍິ່ງໃຫຍ່ສໍາລັບການຄົ້ນພົບ; ບາງຄັ້ງ metadata ທີ່ບໍ່ສອດຄ່ອງກັນ
UCI ML Repository ນັກສຶກສາ, ການສຶກສາ ຟຣີ ຄລາສສິກ curated; ຂະຫນາດນ້ອຍແຕ່ກະທັດຮັດ; ທີ່ດີສໍາລັບພື້ນຖານແລະການສອນ
OpenML ນັກຄົ້ນຄວ້າ Repro ຟຣີ Tasks + datasets + ແລ່ນເຂົ້າກັນ; ເສັ້ນທາງການພິສູດທີ່ດີ
AWS Open Data Registry ວິສະວະກອນຂໍ້ມູນ ສ່ວນຫຼາຍແມ່ນບໍ່ເສຍຄ່າ Petabyte-scale hosting; cloud-native ການເຂົ້າເຖິງ; ສັງເກດເບິ່ງຄ່າໃຊ້ຈ່າຍ egress
ຊຸດຂໍ້ມູນ Kaggle ຜູ້ປະຕິບັດ ຟຣີ ການແບ່ງປັນງ່າຍ, ສະຄິບ, ການແຂ່ງຂັນ; ສັນຍານຊຸມຊົນຊ່ວຍການກັ່ນຕອງສຽງ
ຊຸດຂໍ້ມູນສາທາລະນະຂອງ Google Cloud ນັກວິເຄາະ, ທີມງານ ຟຣີ + ຟັງ ເປັນເຈົ້າພາບຢູ່ໃກ້ກັບຄອມພິວເຕີ້; ການເຊື່ອມໂຍງ BigQuery; ລະມັດລະວັງກັບການຮຽກເກັບເງິນ
ປະຕູວິຊາການ, ຫ້ອງທົດລອງ ຜູ້ຊ່ຽວຊານດ້ານນິເວດ ແຕກຕ່າງກັນ ພິເສດສູງ; ບາງຄັ້ງພາຍໃຕ້ເອກະສານ-ຍັງມີມູນຄ່າການລ່າສັດ

(ຖ້າ​ຫາກ​ວ່າ​ໂທລະ​ສັບ​ມື​ຖື​ມີ​ຄວາມ​ສົນ​ໃຈ​, ນັ້ນ​ແມ່ນ​ຄວາມ​ຕັ້ງ​ໃຈ​.


ການສ້າງອັນທໍາອິດຂອງເຈົ້າ - ຊຸດເລີ່ມຕົ້ນປະຕິບັດໄດ້ 🛠️

ທ່ານຕ້ອງການຍ້າຍຈາກ "ຊຸດຂໍ້ມູນ AI ​​ແມ່ນຫຍັງ" ໄປ "ຂ້ອຍສ້າງຫນຶ່ງ, ມັນເຮັດວຽກ." ລອງເສັ້ນທາງນ້ອຍທີ່ສຸດນີ້:

  1. ຂຽນການຕັດສິນໃຈແລະ metric - e. g. ຫຼຸດຜ່ອນການເຂົ້າມາຂອງການສະຫນັບສະຫນູນທີ່ຜິດພາດໂດຍການຄາດຄະເນທີມທີ່ຖືກຕ້ອງ. ເມຕຣິກ: macro-F1.

  2. ລາຍຊື່ 5 ບວກແລະ 5 ຕົວຢ່າງທາງລົບ - ຕົວຢ່າງປີ້ທີ່ແທ້ຈິງ; ບໍ່ fabricate.

  3. ຮ່າງຄູ່ມືການຕິດສະຫຼາກ - ຫນຶ່ງຫນ້າ; ກົດລະບຽບການລວມ/ການຍົກເວັ້ນຢ່າງຈະແຈ້ງ.

  4. ເກັບກໍາຕົວຢ່າງທີ່ແທ້ຈິງຂະຫນາດນ້ອຍ - ສອງສາມຮ້ອຍປີ້ໃນທົ່ວປະເພດ; ເອົາ PII ທີ່ທ່ານບໍ່ຕ້ອງການອອກ.

  5. ແຍກດ້ວຍການກວດສອບການຮົ່ວໄຫຼ - ຮັກສາຂໍ້ຄວາມທັງຫມົດຈາກລູກຄ້າດຽວກັນໃນຫນຶ່ງການແບ່ງປັນ; ໃຊ້ການກວດສອບຂ້າມເພື່ອປະເມີນຄວາມແຕກຕ່າງ [5].

  6. ຂຽນຫຍໍ້ດ້ວຍ QA - ສອງຕົວບັນຍາຍໃນຊຸດຍ່ອຍ; ແກ້ໄຂຄວາມບໍ່ເຫັນດີ; ປັບປຸງຄູ່ມື.

  7. ຝຶກອົບຮົມພື້ນຖານທີ່ງ່າຍດາຍ - logistics ທໍາອິດ (ຕົວຢ່າງ: ຮູບແບບເສັ້ນຫຼື transformers ຫນາແຫນ້ນ). ຈຸດແມ່ນການທົດສອບຂໍ້ມູນ, ບໍ່ແມ່ນການຊະນະຫຼຽນ.

  8. ທົບທວນຄືນຄວາມຜິດພາດ - ມັນລົ້ມເຫລວແລະເປັນຫຍັງ; ປັບປຸງຊຸດຂໍ້ມູນ, ບໍ່ພຽງແຕ່ຮູບແບບເທົ່ານັ້ນ.

  9. ເອກະສານ - ເອກະສານຂໍ້ມູນນ້ອຍໆ: ແຫຼ່ງ, ການເຊື່ອມໂຍງຄູ່ມືປ້າຍຊື່, ການແບ່ງປັນ, ຂອບເຂດຈໍາກັດທີ່ຮູ້ຈັກ, ໃບອະນຸຍາດ [1].

  10. ແຜນການໂຫຼດຫນ້າຈໍຄືນ - ປະເພດໃຫມ່, slang ໃຫມ່, ໂດເມນໃຫມ່ມາຮອດ; ກໍານົດເວລາຂະຫນາດນ້ອຍ, ການປັບປຸງເລື້ອຍໆ [3].

ທ່ານຈະຮຽນຮູ້ເພີ່ມເຕີມຈາກ loop ນີ້ຫຼາຍກ່ວາຈາກຫນຶ່ງພັນຮ້ອນ. ນອກຈາກນັ້ນ, ຮັກສາການສໍາຮອງຂໍ້ມູນ. ກະລຸນາ.


ໄພອັນຕະລາຍທົ່ວໄປທີ່ຫຼອກເອົາທີມ🪤

  • ການຮົ່ວໄຫລຂອງຂໍ້ມູນ - ຄໍາຕອບເຂົ້າໄປໃນລັກສະນະຕ່າງໆ (ເຊັ່ນ: ການໃຊ້ພື້ນທີ່ຫລັງການແກ້ໄຂເພື່ອຄາດຄະເນຜົນໄດ້ຮັບ). ຮູ້​ສຶກ​ຄື​ກັບ​ການ​ສໍ້​ໂກງ​ເພາະ​ວ່າ​ມັນ​ແມ່ນ​.

  • ຄວາມຫຼາກຫຼາຍຕື້ນ - ພູມສາດອັນໜຶ່ງ ຫຼືອຸປະກອນທີ່ຫຼອກລວງເປັນທົ່ວໂລກ. ການທົດສອບຈະເປີດເຜີຍໃຫ້ເຫັນການບິດຂອງດິນຕອນ.

  • Label drift - ເງື່ອນໄຂປ່ຽນແປງຕາມເວລາແຕ່ຄໍາແນະນໍາຂອງປ້າຍຊື່ບໍ່ໄດ້. ເອກະສານແລະສະບັບ ontology ຂອງທ່ານ.

  • ຈຸດປະສົງທີ່ບໍ່ລະບຸ - ຖ້າທ່ານບໍ່ສາມາດກໍານົດການຄາດຄະເນທີ່ບໍ່ດີ, ຂໍ້ມູນຂອງທ່ານຈະບໍ່ຄືກັນ.

  • ໃບອະນຸຍາດ messy - scraping ໃນປັດຈຸບັນ, ຂໍໂທດຕໍ່ມາ, ບໍ່ແມ່ນຍຸດທະສາດ.

  • ການເພີ່ມເກີນ - ຂໍ້ມູນສັງເຄາະທີ່ສອນສິ່ງປະດິດທີ່ບໍ່ເປັນຈິງ ເຊັ່ນ: ການຝຶກອົບຮົມພໍ່ຄົວກ່ຽວກັບໝາກໄມ້ພລາສຕິກ.


ຄຳຖາມທີ່ຖາມເລື້ອຍໆກ່ຽວກັບປະໂຫຍກຕົວມັນເອງ ❓

  • "ຊຸດຂໍ້ມູນ AI ​​ແມ່ນຫຍັງ?" ພຽງແຕ່ເປັນຄໍານິຍາມ? ສ່ວນຫຼາຍແມ່ນ, ແຕ່ວ່າມັນຍັງເປັນສັນຍານທີ່ທ່ານສົນໃຈກ່ຽວກັບບິດທີ່ຫນ້າເບື່ອທີ່ເຮັດໃຫ້ຕົວແບບທີ່ຫນ້າເຊື່ອຖື.

  • ຂ້ອຍຈໍາເປັນຕ້ອງມີປ້າຍຊື່ບໍ? ບໍ່. ການຕັ້ງຄ່າແບບບໍ່ມີການຄວບຄຸມ, ຄວບຄຸມຕົນເອງ, ແລະ RL ມັກຈະຂ້າມປ້າຍກຳກັບທີ່ຈະແຈ້ງ, ແຕ່ການຈັດວາງຍັງສຳຄັນຢູ່.

  • ຂ້ອຍສາມາດໃຊ້ຂໍ້ມູນສາທາລະນະສໍາລັບສິ່ງໃດ? ບໍ່. ເຄົາລົບໃບອະນຸຍາດ, ເງື່ອນໄຂຂອງເວທີ, ແລະພັນທະຄວາມເປັນສ່ວນຕົວ [4].

  • ໃຫຍ່ກວ່າຫຼືດີກວ່າ? ທັງສອງ, ໂດຍສະເພາະ. ຖ້າເຈົ້າຕ້ອງເລືອກ, ເລືອກກ່ອນດີກວ່າ.


ຂໍ້ສັງເກດສຸດທ້າຍ - ສິ່ງທີ່ທ່ານສາມາດ screenshot 📌

ຖ້າມີຄົນຖາມເຈົ້າ ວ່າຊຸດຂໍ້ມູນ AI ​​ແມ່ນຫຍັງ , ໃຫ້ເວົ້າວ່າ: ມັນເປັນການລວບລວມຕົວຢ່າງທີ່ຄັດສັນມາ ແລະ ບັນທຶກໄວ້ເຊິ່ງສອນ ແລະ ທົດສອບຮູບແບບ, ຫໍ່ຫຸ້ມດ້ວຍການຄຸ້ມຄອງເພື່ອໃຫ້ຄົນສາມາດໄວ້ວາງໃຈຜົນໄດ້ຮັບ. ຊຸດຂໍ້ມູນທີ່ດີທີ່ສຸດແມ່ນເປັນຕົວແທນ, ມີປ້າຍຊື່ທີ່ດີ, ສະອາດຕາມກົດໝາຍ, ແລະ ຮັກສາຢ່າງຕໍ່ເນື່ອງ. ສ່ວນທີ່ເຫຼືອແມ່ນລາຍລະອຽດ - ລາຍລະອຽດທີ່ສຳຄັນ - ກ່ຽວກັບໂຄງສ້າງ, ການແບ່ງແຍກ, ແລະ ຮົ້ວກັ້ນນ້ອຍໆທັງໝົດທີ່ປ້ອງກັນບໍ່ໃຫ້ຮູບແບບຫຼົງທາງເຂົ້າໄປໃນການຈະລາຈອນ. ບາງຄັ້ງຂະບວນການຮູ້ສຶກຄືກັບການເຮັດສວນດ້ວຍຕາຕະລາງ; ບາງຄັ້ງຄືກັບການລ້ຽງພິກເຊວ. ບໍ່ວ່າຈະແນວໃດກໍ່ຕາມ, ລົງທຶນໃນຂໍ້ມູນ, ແລະຮູບແບບຂອງທ່ານຈະເຮັດວຽກທີ່ແປກປະຫຼາດໜ້ອຍລົງ. 🌱🤖


ເອກະສານອ້າງອີງ

[1] ແຜ່ນຂໍ້ມູນສຳລັບຊຸດຂໍ້ມູນ - Gebru et al., arXiv. ລິ້ງ
[2] ບັດຮູບແບບສຳລັບການລາຍງານຮູບແບບ - Mitchell et al., arXiv. ລິ້ງ
[3] ຂອບການຄຸ້ມຄອງຄວາມສ່ຽງດ້ານປັນຍາປະດິດ NIST (AI RMF 1.0) . ລິ້ງ
[4] ຄຳແນະນຳ ແລະ ຊັບພະຍາກອນ GDPR ຂອງສະຫະລາຊະອານາຈັກ - ຫ້ອງການຜູ້ອຳນວຍການຂໍ້ມູນຂ່າວສານ (ICO). ລິ້ງ
[5] ການກວດສອບຄວາມຖືກຕ້ອງ: ການປະເມີນປະສິດທິພາບຂອງຕົວຄາດຄະເນ - ຄູ່ມືຜູ້ໃຊ້ scikit-learn. ລິ້ງ


ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ