AI ໄດ້ຮັບຂໍ້ມູນຈາກໃສ

AI ເອົາຂໍ້ມູນຂອງມັນມາຈາກໃສ?

ເຄີຍນັ່ງຢູ່ບ່ອນນັ້ນແລ້ວເກົາຫົວຄືກັບວ່າ... ສິ່ງນີ້ມາຈາກໃສແທ້ ? ຂ້ອຍໝາຍຄວາມວ່າ, AI ບໍ່ໄດ້ຄົ້ນຫາຜ່ານກອງປຶ້ມໃນຫໍສະໝຸດທີ່ມີຝຸ່ນ ຫຼື ເບິ່ງໜັງສັ້ນ YouTube ຢ່າງບໍ່ຢຸດຢັ້ງ. ແຕ່ບາງຢ່າງມັນກໍ່ສາມາດໃຫ້ຄຳຕອບແກ່ທຸກຢ່າງ - ຕັ້ງແຕ່ການປຸງແຕ່ງ lasagna ຈົນເຖິງຟີຊິກຂອງຫຼຸມດຳ - ຄືກັບວ່າມັນມີຕູ້ເອກະສານທີ່ບໍ່ມີກົ້ນຢູ່ພາຍໃນ. ຄວາມເປັນຈິງແມ່ນແປກກວ່າ, ແລະອາດຈະໜ້າສົນໃຈກວ່າທີ່ເຈົ້າຄາດຄິດ. ລອງມາເປີດມັນເບິ່ງໜ້ອຍໜຶ່ງ (ແລະແມ່ນແລ້ວ, ບາງທີອາດຈະທຳລາຍຄວາມເຊື່ອທີ່ບໍ່ຖືກຕ້ອງສອງສາມຢ່າງໄປພ້ອມໆກັນ).


ມັນແມ່ນເວດມົນບໍ? 🌐

ມັນບໍ່ແມ່ນການໃຊ້ເວດມົນ, ເຖິງແມ່ນວ່າບາງຄັ້ງມັນກໍ່ຮູ້ສຶກແບບນັ້ນ. ສິ່ງທີ່ເກີດຂຶ້ນພາຍໃຕ້ຝາປິດແມ່ນ ການຄາດຄະເນຮູບແບບ . ຮູບແບບພາສາຂະໜາດໃຫຍ່ (LLMs) ບໍ່ໄດ້ ເກັບຮັກສາຂໍ້ເທັດຈິງ ຄືກັບວິທີທີ່ສະໝອງຂອງເຈົ້າຍຶດຕິດກັບສູດຄຸກກີ້ຂອງແມ່ຕູ້ຂອງເຈົ້າ; ແທນທີ່ຈະ, ພວກມັນໄດ້ຮັບການຝຶກອົບຮົມໃຫ້ຄາດເດົາຄຳສັບຕໍ່ໄປ (ໂທເຄັນ) ໂດຍອີງໃສ່ສິ່ງທີ່ມາກ່ອນ [2]. ໃນທາງປະຕິບັດ, ນັ້ນໝາຍຄວາມວ່າພວກມັນຕິດກັບຄວາມສຳພັນ: ຄຳສັບໃດທີ່ຢູ່ຮ່ວມກັນ, ປະໂຫຍກມັກຈະມີຮູບຮ່າງແນວໃດ, ແນວຄວາມຄິດທັງໝົດຖືກສ້າງຂຶ້ນຄືກັບການກໍ່ສ້າງໂຄງສ້າງແນວໃດ. ນັ້ນແມ່ນເຫດຜົນທີ່ຜົນຜະລິດຟັງ ແລ້ວ ຖືກຕ້ອງ, ເຖິງແມ່ນວ່າ - ຄວາມຊື່ສັດຢ່າງເຕັມທີ່ - ມັນເປັນການລອກລຽນແບບທາງສະຖິຕິ, ບໍ່ແມ່ນຄວາມເຂົ້າໃຈ [4].

ສະນັ້ນ, ສິ່ງໃດທີ່ເຮັດໃຫ້ຂໍ້ມູນທີ່ສ້າງຂຶ້ນໂດຍ AI ມີປະໂຫຍດ ? ສອງສາມຢ່າງຄື:

  • ຄວາມຫຼາກຫຼາຍຂອງຂໍ້ມູນ - ດຶງຂໍ້ມູນຈາກແຫຼ່ງທີ່ນັບບໍ່ຖ້ວນ, ບໍ່ແມ່ນກະແສຂໍ້ມູນແຄບໆດຽວ.

  • ການອັບເດດ - ຖ້າບໍ່ມີການໂຫຼດຄືນໃໝ່, ມັນຈະເກົ່າໄວ.

  • ການກັ່ນຕອງ - ໂດຍຫລັກການແລ້ວແມ່ນການດັກຈັບຂີ້ເຫຍື້ອກ່ອນທີ່ມັນຈະຊຶມເຂົ້າໄປ (ແຕ່, ຂໍໃຫ້ເວົ້າຕາມຄວາມຈິງວ່າ, ມອງນັ້ນມີຮູ).

  • ການກວດສອບຂ້າມ - ອີງໃສ່ແຫຼ່ງຂໍ້ມູນທີ່ມີອຳນາດ (ເຊັ່ນ NASA, WHO, ມະຫາວິທະຍາໄລໃຫຍ່ໆ), ເຊິ່ງເປັນສິ່ງຈຳເປັນໃນປຶ້ມຄູ່ມືການຄຸ້ມຄອງ AI ສ່ວນໃຫຍ່ [3].

ເຖິງຢ່າງໃດກໍ່ຕາມ, ບາງຄັ້ງມັນກໍ່ປະດິດຂຶ້ນດ້ວຍຄວາມໝັ້ນໃຈ. ສິ່ງທີ່ເອີ້ນວ່າ ພາບຫຼອນ ? ໂດຍພື້ນຖານແລ້ວແມ່ນເລື່ອງໄຮ້ສາລະທີ່ຂັດແຕ່ງແລ້ວສົ່ງມາພ້ອມກັບໃບໜ້າຊື່ໆ [2][3].

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 AI ສາມາດຄາດເດົາເລກຫວຍໄດ້ບໍ?
ການສຳຫຼວດຄວາມເຊື່ອທີ່ບໍ່ຖືກຕ້ອງ ແລະ ຂໍ້ເທັດຈິງກ່ຽວກັບການຄາດຄະເນຫວຍດ້ວຍ AI.

🔗 ມັນໝາຍຄວາມວ່າແນວໃດທີ່ຈະໃຊ້ວິທີການແບບຮອບດ້ານຕໍ່ AI
ເຂົ້າໃຈ AI ດ້ວຍທັດສະນະທີ່ສົມດຸນກ່ຽວກັບຈັນຍາບັນ ແລະ ຜົນກະທົບ.

🔗 ຄຳພີໄບເບິນກ່າວແນວໃດກ່ຽວກັບປັນຍາປະດິດ
ການພິຈາລະນາທັດສະນະຂອງຄຳພີໄບເບິນກ່ຽວກັບເທັກໂນໂລຢີ ແລະ ການສ້າງມະນຸດ.


ການປຽບທຽບຢ່າງວ່ອງໄວ: ບ່ອນທີ່ AI ດຶງມາຈາກ 📊

ບໍ່ແມ່ນທຸກໆແຫຼ່ງທີ່ມາຈະຄືກັນ, ແຕ່ແຕ່ລະແຫຼ່ງກໍມີບົດບາດຂອງມັນ. ນີ້ແມ່ນພາບລວມ.

ປະເພດແຫຼ່ງຂໍ້ມູນ ໃຜໃຊ້ມັນ (AI) ຕົ້ນທຶນ/ມູນຄ່າ ເປັນຫຍັງມັນຈຶ່ງເຮັດວຽກ (ຫຼືບໍ່ໄດ້ຜົນ...)
ປຶ້ມ ແລະ ບົດຄວາມ ຮູບແບບພາສາຂະໜາດໃຫຍ່ ບໍ່ມີຄ່າ (ນ.) ຄວາມຮູ້ທີ່ໜາແໜ້ນ ແລະ ມີໂຄງສ້າງ - ພຽງແຕ່ເກົ່າໄວ.
ເວັບໄຊທ໌ ແລະ ບລັອກ ເກືອບທັງໝົດ AIs ຟຣີ (ມີສຽງລົບກວນ) ຄວາມຫຼາກຫຼາຍຂອງທຳມະຊາດ; ການປະສົມປະສານຂອງຄວາມສະຫຼາດຫຼັກແຫຼມ ແລະ ຂີ້ເຫຍື້ອຢ່າງແທ້ຈິງ.
ເອກະສານວິຊາການ AI ທີ່ເນັ້ນການຄົ້ນຄວ້າຫຼາຍ ບາງຄັ້ງກໍ່ມີ paywall ຄວາມເຂັ້ມງວດ + ຄວາມໜ້າເຊື່ອຖື, ແຕ່ຖືກປົກຄຸມດ້ວຍຄຳສັບສະເພາະທີ່ໜັກໜ່ວງ.
ຂໍ້ມູນຜູ້ໃຊ້ AI ສ່ວນຕົວ ອາການແພ້ງ່າຍ ⚠️ ການຕັດຫຍິບທີ່ຄົມຊັດ, ແຕ່ມີບັນຫາກ່ຽວກັບຄວາມເປັນສ່ວນຕົວຫຼາຍ.
ເວັບເວລາຈິງ AI ທີ່ເຊື່ອມໂຍງກັບການຄົ້ນຫາ ຟຣີ (ຖ້າອອນໄລນ໌) ຮັກສາຂໍ້ມູນໃຫ້ທັນສະໄໝ; ຂໍ້ເສຍແມ່ນຄວາມສ່ຽງຕໍ່ການແຜ່ຂະຫຍາຍຂ່າວລື.

ຈັກກະວານຂໍ້ມູນການຝຶກອົບຮົມ🌌

ນີ້ແມ່ນໄລຍະ "ການຮຽນຮູ້ໃນໄວເດັກ". ລອງນຶກພາບເບິ່ງວ່າເດັກນ້ອຍຄົນໜຶ່ງໄດ້ມອບ ຫຼາຍລ້ານ ຫົວໃຫ້ພ້ອມໆກັນ. ນັ້ນແມ່ນສິ່ງທີ່ການຝຶກອົບຮົມກ່ອນໄວຮຽນເປັນແບບນັ້ນ. ໃນໂລກແຫ່ງຄວາມເປັນຈິງ, ຜູ້ໃຫ້ບໍລິການຕ່າງໆໄດ້ລວມເອົາ ຂໍ້ມູນທີ່ມີຢູ່ສາທາລະນະ, ແຫຼ່ງຂໍ້ມູນທີ່ໄດ້ຮັບອະນຸຍາດ, ແລະຂໍ້ຄວາມທີ່ສ້າງຂຶ້ນໂດຍຄູຝຶກ [2].

ຊັ້ນຢູ່ເທິງສຸດ: ຕົວຢ່າງຂອງມະນຸດທີ່ຄັດສັນມາ - ຄຳຕອບທີ່ດີ, ຄຳຕອບທີ່ບໍ່ດີ, ການຊຸກຍູ້ໄປໃນທິດທາງທີ່ຖືກຕ້ອງ - ກ່ອນທີ່ຈະເລີ່ມຕົ້ນການເສີມສ້າງ [1].

ຂໍ້ຄວນລະວັງກ່ຽວກັບຄວາມໂປ່ງໃສ: ບໍລິສັດຕ່າງໆບໍ່ໄດ້ເປີດເຜີຍທຸກລາຍລະອຽດ. ບາງມາດຕະການປ້ອງກັນແມ່ນຄວາມລັບ (IP, ຄວາມກັງວົນກ່ຽວກັບຄວາມປອດໄພ), ດັ່ງນັ້ນທ່ານຈະໄດ້ຮັບພຽງແຕ່ບາງສ່ວນເທົ່ານັ້ນໃນການລວມຕົວຈິງ [2].


ການຄົ້ນຫາແບບເວລາຈິງ: ໜ້າເພີ່ມເຕີມ 🍒

ບາງຮຸ່ນສາມາດເບິ່ງນອກຟອງການຝຶກອົບຮົມຂອງເຂົາເຈົ້າໄດ້ແລ້ວ. ນັ້ນແມ່ນ ການສ້າງແບບເຕີມເຕັມການດຶງຂໍ້ມູນຄືນ (RAG) - ໂດຍພື້ນຖານແລ້ວແມ່ນການດຶງເອົາຊິ້ນສ່ວນຕ່າງໆຈາກດັດຊະນີສົດ ຫຼື ບ່ອນເກັບເອກະສານ, ຈາກນັ້ນກໍ່ຖັກແສ່ວມັນເຂົ້າໃນຄຳຕອບ [5]. ເໝາະສຳລັບສິ່ງທີ່ມີການປ່ຽນແປງໄວເຊັ່ນ: ຫົວຂໍ້ຂ່າວ ຫຼື ລາຄາຫຸ້ນ.

ບັນຫາບໍ? ອິນເຕີເນັດມີຄວາມສະຫຼາດຫຼັກແຫຼມ ແລະ ຂີ້ເຫຍື້ອເທົ່າທຽມກັນ. ຖ້າຕົວກອງ ຫຼື ການກວດສອບແຫຼ່ງທີ່ມາອ່ອນແອ, ເຈົ້າມີຄວາມສ່ຽງທີ່ຈະມີຂໍ້ມູນຂີ້ເຫຍື້ອລັກລອບກັບຄືນມາ - ຄືກັນກັບທີ່ກອບຄວາມສ່ຽງໄດ້ເຕືອນໄວ້ [3].

ວິທີແກ້ໄຂບັນຫາທົ່ວໄປ: ບໍລິສັດຕ່າງໆເຊື່ອມຕໍ່ຮູບແບບຕ່າງໆເຂົ້າກັບ ຂອງຕົນເອງ , ສະນັ້ນຄຳຕອບຈຶ່ງອ້າງອີງເຖິງນະໂຍບາຍ HR ໃນປະຈຸບັນ ຫຼື ເອກະສານຜະລິດຕະພັນທີ່ໄດ້ຮັບການອັບເດດແທນທີ່ຈະເວົ້າເກີນຈິງ. ລອງຄິດເບິ່ງ: ຊ່ວງເວລາ “ອືມ-ໂອ້” ໜ້ອຍລົງ, ຄຳຕອບທີ່ໜ້າເຊື່ອຖືຫຼາຍຂຶ້ນ.


ການປັບແຕ່ງຢ່າງລະອຽດ: ຂັ້ນຕອນການຂັດເງົາຂອງ AI 🧪

ຮູບແບບດິບທີ່ໄດ້ຮັບການຝຶກອົບຮົມລ່ວງໜ້າແມ່ນຂ້ອນຂ້າງບໍ່ສະດວກ. ສະນັ້ນພວກມັນຈຶ່ງໄດ້ຮັບ ການປັບແຕ່ງຢ່າງລະອຽດ :

  • ການສອນພວກເຂົາໃຫ້ມີນ ້ຳໃຈຊ່ວຍເຫຼືອ, ບໍ່ເປັນອັນຕະລາຍ, ແລະ ຊື່ສັດ (ຜ່ານການຮຽນຮູ້ແບບເສີມສ້າງຈາກຄໍາຄິດເຫັນຂອງມະນຸດ, RLHF) [1].

  • ການຂັດຂອບທີ່ບໍ່ປອດໄພ ຫຼື ເປັນພິດ (ການຈັດລຽນ) [1].

  • ການປັບນ້ຳສຽງ - ບໍ່ວ່າຈະເປັນແບບເປັນມິດ, ເປັນທາງການ, ຫຼື ແບບເວົ້າເຍາະເຍີ້ຍຫຼິ້ນໆ.

ມັນບໍ່ແມ່ນການຂັດເງົາເພັດຫຼາຍເທົ່າກັບການເຮັດໃຫ້ເຫດການຫິມະຖະຫຼົ່ມທາງສະຖິຕິເກີດຂຶ້ນເພື່ອໃຫ້ມີພຶດຕິກຳຄືກັບຄູ່ສົນທະນາຫຼາຍຂຶ້ນ.


ຂໍ້ບົກຜ່ອງ ແລະ ຄວາມລົ້ມເຫຼວ 🚧

ຢ່າທຳທ່າວ່າມັນບໍ່ມີຂໍ້ບົກຜ່ອງ:

  • ພາບຫຼອນ - ຄຳຕອບທີ່ຊັດເຈນແຕ່ຜິດພາດຢ່າງສິ້ນເຊີງ [2][3].

  • ອະຄະຕິ - ມັນສະທ້ອນຮູບແບບທີ່ຖືກຝັງໄວ້ໃນຂໍ້ມູນ; ຍັງສາມາດຂະຫຍາຍພວກມັນໄດ້ຖ້າບໍ່ໄດ້ກວດສອບ [3][4].

  • ບໍ່ມີປະສົບການໂດຍກົງ - ມັນສາມາດ ເວົ້າ ກ່ຽວກັບສູດອາຫານແກງໄດ້ ແຕ່ບໍ່ເຄີຍໄດ້ຊີມລົດຊາດເລີຍ [4].

  • ຄວາມໝັ້ນໃຈເກີນໄປ - ບົດຂຽນໄຫຼລ່ຽນຄືກັບວ່າມັນຮູ້, ເຖິງແມ່ນວ່າມັນບໍ່ຮູ້ກໍຕາມ. ກອບຄວາມສ່ຽງເນັ້ນໜັກເຖິງສົມມຸດຕິຖານທີ່ບົ່ງບອກ [3].


ເປັນຫຍັງມັນ ຮູ້ສຶກ ຄືກັບຮູ້🧠

ມັນບໍ່ມີຄວາມເຊື່ອ, ບໍ່ມີຄວາມຊົງຈຳໃນຄວາມໝາຍຂອງມະນຸດ, ແລະແນ່ນອນວ່າບໍ່ມີຕົວຕົນ. ແຕ່ຍ້ອນວ່າມັນເຊື່ອມໂຍງປະໂຫຍກເຂົ້າກັນໄດ້ຢ່າງລຽບງ່າຍ, ສະໝອງຂອງເຈົ້າອ່ານມັນຄືກັບວ່າມັນ ເຂົ້າໃຈ . ສິ່ງທີ່ເກີດຂຶ້ນແມ່ນພຽງແຕ່ ການຄາດຄະເນຂະໜາດໃຫຍ່ໃນຄັ້ງຕໍ່ໄປ : ການຄຳນວນຄວາມເປັນໄປໄດ້ຫຼາຍລ້ານລ້ານຄັ້ງພາຍໃນເວລາພຽງບໍ່ເທົ່າໃດວິນາທີ [2].

ຄວາມຮູ້ສຶກຂອງ “ສະຕິປັນຍາ” ແມ່ນພຶດຕິກຳທີ່ເກີດຂຶ້ນໃໝ່ - ນັກຄົ້ນຄວ້າເອີ້ນມັນວ່າ, ຄ້າຍຄືກັບການເວົ້າຕະຫຼົກ, ວ່າຜົນກະທົບຂອງ “ນົກແກ້ວແບບສະໂຕຄາສຕິກ” [4].


ການປຽບທຽບທີ່ເໝາະສົມກັບເດັກ 🎨

ລອງນຶກພາບເບິ່ງນົກແກ້ວທີ່ອ່ານປຶ້ມທຸກຫົວໃນຫໍສະໝຸດ. ມັນບໍ່ ເຂົ້າໃຈ ເລື່ອງລາວແຕ່ສາມາດປະສົມປະສານຄຳສັບຕ່າງໆເຂົ້າກັນເປັນສິ່ງທີ່ເຮັດໃຫ້ຮູ້ສຶກສະຫຼາດໄດ້. ບາງຄັ້ງມັນກໍ່ຖືກຕ້ອງ; ບາງຄັ້ງມັນກໍ່ບໍ່ມີເຫດຜົນ - ແຕ່ດ້ວຍຄວາມສາມາດພຽງພໍ, ເຈົ້າບໍ່ສາມາດບອກຄວາມແຕກຕ່າງໄດ້ສະເໝີໄປ.


ສະຫຼຸບແລ້ວ: ຂໍ້ມູນຂອງ AI ມາຈາກໃສ📌

ໃນແງ່ທຳມະດາ:

  • ຂໍ້ມູນການຝຶກອົບຮົມຈຳນວນຫຼວງຫຼາຍ (ສາທາລະນະ + ໃບອະນຸຍາດ + ສ້າງຂຶ້ນໂດຍຄູຝຶກ) [2].

  • ການປັບແຕ່ງຢ່າງລະອຽດ ດ້ວຍຄໍາຕິຊົມຂອງມະນຸດເພື່ອສ້າງຮູບຮ່າງ/ພຶດຕິກໍາ [1].

  • ລະບົບການດຶງຂໍ້ມູນຄືນ ເມື່ອເຊື່ອມຕໍ່ກັບກະແສຂໍ້ມູນສົດ [5].

AI ບໍ່ໄດ້ "ຮູ້" ສິ່ງຕ່າງໆ - ມັນ ຄາດເດົາຂໍ້ຄວາມ . ນັ້ນແມ່ນທັງພະລັງພິເສດຂອງມັນ ແລະ ຈຸດອ່ອນຂອງມັນ. ສະຫຼຸບແລ້ວ? ໃຫ້ກວດສອບສິ່ງທີ່ສຳຄັນກັບແຫຼ່ງທີ່ເຊື່ອຖືໄດ້ສະເໝີ [3].


ເອກະສານອ້າງອີງ

  1. Ouyang, L. ແລະ ອື່ນໆ. (2022). ການຝຶກອົບຮົມແບບຈຳລອງພາສາເພື່ອປະຕິບັດຕາມຄຳແນະນຳດ້ວຍຄຳຕິຊົມຂອງມະນຸດ (InstructGPT) . arXiv .

  2. OpenAI (2023). ບົດລາຍງານດ້ານວິຊາການ GPT-4 - ສ່ວນປະສົມຂອງຂໍ້ມູນທີ່ໄດ້ຮັບອະນຸຍາດ, ເປີດເຜີຍຕໍ່ສາທາລະນະ ແລະ ຂໍ້ມູນທີ່ສ້າງຂຶ້ນໂດຍມະນຸດ; ຈຸດປະສົງ ແລະ ຂໍ້ຈຳກັດຂອງການຄາດຄະເນຕໍ່ໄປ. arXiv .

  3. NIST (2023). ຂອບການຄຸ້ມຄອງຄວາມສ່ຽງດ້ານ AI (AI RMF 1.0) - ແຫຼ່ງທີ່ມາ, ຄວາມໜ້າເຊື່ອຖື, ແລະ ການຄວບຄຸມຄວາມສ່ຽງ. PDF .

  4. Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). ກ່ຽວກັບອັນຕະລາຍຂອງນົກແກ້ວ Stochastic: ຮູບແບບພາສາສາມາດໃຫຍ່ເກີນໄປໄດ້ບໍ? PDF .

  5. Lewis, P. ແລະ ອື່ນໆ. (2020). ການສ້າງແບບເຕີມເຕີມເພື່ອດຶງຂໍ້ມູນຄືນມາໃຊ້ສຳລັບ NLP ທີ່ມີຄວາມຮູ້ຫຼາຍ . arXiv .


ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ