AI ເອົາຂໍ້ມູນຂອງມັນມາຈາກໃສ?

ເຄີຍນັ່ງຢູ່ບ່ອນນັ້ນແລ້ວເກົາຫົວຄືກັບວ່າ... ສິ່ງນີ້ມາຈາກໃສແທ້ ? ຂ້ອຍໝາຍຄວາມວ່າ, AI ບໍ່ໄດ້ຄົ້ນຫາຜ່ານກອງປຶ້ມໃນຫໍສະໝຸດທີ່ມີຝຸ່ນ ຫຼື ເບິ່ງໜັງສັ້ນ YouTube ຢ່າງບໍ່ຢຸດຢັ້ງ. ແຕ່ບາງຢ່າງມັນກໍ່ສາມາດໃຫ້ຄຳຕອບແກ່ທຸກຢ່າງ - ຕັ້ງແຕ່ການປຸງແຕ່ງ lasagna ຈົນເຖິງຟີຊິກຂອງຫຼຸມດຳ - ຄືກັບວ່າມັນມີຕູ້ເອກະສານທີ່ບໍ່ມີກົ້ນຢູ່ພາຍໃນ. ຄວາມເປັນຈິງແມ່ນແປກກວ່າ, ແລະອາດຈະໜ້າສົນໃຈກວ່າທີ່ເຈົ້າຄາດຄິດ. ລອງມາເປີດມັນເບິ່ງໜ້ອຍໜຶ່ງ (ແລະແມ່ນແລ້ວ, ບາງທີອາດຈະທຳລາຍຄວາມເຊື່ອທີ່ບໍ່ຖືກຕ້ອງສອງສາມຢ່າງໄປພ້ອມໆກັນ).

ມັນແມ່ນເວດມົນບໍ? 🌐

ມັນບໍ່ແມ່ນການໃຊ້ເວດມົນ, ເຖິງແມ່ນວ່າບາງຄັ້ງມັນກໍ່ຮູ້ສຶກແບບນັ້ນ. ສິ່ງທີ່ເກີດຂຶ້ນພາຍໃຕ້ຝາປິດແມ່ນ ການຄາດຄະເນຮູບແບບ . ຮູບແບບພາສາຂະໜາດໃຫຍ່ (LLMs) ບໍ່ໄດ້ ເກັບຮັກສາຂໍ້ເທັດຈິງ ຄືກັບວິທີທີ່ສະໝອງຂອງເຈົ້າຍຶດຕິດກັບສູດຄຸກກີ້ຂອງແມ່ຕູ້ຂອງເຈົ້າ; ແທນທີ່ຈະ, ພວກມັນໄດ້ຮັບການຝຶກອົບຮົມໃຫ້ຄາດເດົາຄຳສັບຕໍ່ໄປ (ໂທເຄັນ) ໂດຍອີງໃສ່ສິ່ງທີ່ມາກ່ອນ [2]. ໃນທາງປະຕິບັດ, ນັ້ນໝາຍຄວາມວ່າພວກມັນຕິດກັບຄວາມສຳພັນ: ຄຳສັບໃດທີ່ຢູ່ຮ່ວມກັນ, ປະໂຫຍກມັກຈະມີຮູບຮ່າງແນວໃດ, ແນວຄວາມຄິດທັງໝົດຖືກສ້າງຂຶ້ນຄືກັບການກໍ່ສ້າງໂຄງສ້າງແນວໃດ. ນັ້ນແມ່ນເຫດຜົນທີ່ຜົນຜະລິດຟັງ ແລ້ວ ຖືກຕ້ອງ, ເຖິງແມ່ນວ່າ - ຄວາມຊື່ສັດຢ່າງເຕັມທີ່ - ມັນເປັນການລອກລຽນແບບທາງສະຖິຕິ, ບໍ່ແມ່ນຄວາມເຂົ້າໃຈ [4].

ສະນັ້ນ, ສິ່ງໃດທີ່ເຮັດໃຫ້ຂໍ້ມູນທີ່ສ້າງຂຶ້ນໂດຍ AI ມີປະໂຫຍດ ? ສອງສາມຢ່າງຄື:

ຄວາມຫຼາກຫຼາຍຂອງຂໍ້ມູນ - ດຶງຂໍ້ມູນຈາກແຫຼ່ງທີ່ນັບບໍ່ຖ້ວນ, ບໍ່ແມ່ນກະແສຂໍ້ມູນແຄບໆດຽວ.
ການອັບເດດ - ຖ້າບໍ່ມີການໂຫຼດຄືນໃໝ່, ມັນຈະເກົ່າໄວ.
ການກັ່ນຕອງ - ໂດຍຫລັກການແລ້ວແມ່ນການດັກຈັບຂີ້ເຫຍື້ອກ່ອນທີ່ມັນຈະຊຶມເຂົ້າໄປ (ແຕ່, ຂໍໃຫ້ເວົ້າຕາມຄວາມຈິງວ່າ, ມອງນັ້ນມີຮູ).
ການກວດສອບຂ້າມ - ອີງໃສ່ແຫຼ່ງຂໍ້ມູນທີ່ມີອຳນາດ (ເຊັ່ນ NASA, WHO, ມະຫາວິທະຍາໄລໃຫຍ່ໆ), ເຊິ່ງເປັນສິ່ງຈຳເປັນໃນປຶ້ມຄູ່ມືການຄຸ້ມຄອງ AI ສ່ວນໃຫຍ່ [3].

ເຖິງຢ່າງໃດກໍ່ຕາມ, ບາງຄັ້ງມັນກໍ່ປະດິດຂຶ້ນດ້ວຍຄວາມໝັ້ນໃຈ. ສິ່ງທີ່ເອີ້ນວ່າ ພາບຫຼອນ ? ໂດຍພື້ນຖານແລ້ວແມ່ນເລື່ອງໄຮ້ສາລະທີ່ຂັດແຕ່ງແລ້ວສົ່ງມາພ້ອມກັບໃບໜ້າຊື່ໆ [2][3].

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 AI ສາມາດຄາດເດົາເລກຫວຍໄດ້ບໍ?
ການສຳຫຼວດຄວາມເຊື່ອທີ່ບໍ່ຖືກຕ້ອງ ແລະ ຂໍ້ເທັດຈິງກ່ຽວກັບການຄາດຄະເນຫວຍດ້ວຍ AI.

🔗 ມັນໝາຍຄວາມວ່າແນວໃດທີ່ຈະໃຊ້ວິທີການແບບຮອບດ້ານຕໍ່ AI
ເຂົ້າໃຈ AI ດ້ວຍທັດສະນະທີ່ສົມດຸນກ່ຽວກັບຈັນຍາບັນ ແລະ ຜົນກະທົບ.

🔗 ຄຳພີໄບເບິນກ່າວແນວໃດກ່ຽວກັບປັນຍາປະດິດ
ການພິຈາລະນາທັດສະນະຂອງຄຳພີໄບເບິນກ່ຽວກັບເທັກໂນໂລຢີ ແລະ ການສ້າງມະນຸດ.

ການປຽບທຽບຢ່າງວ່ອງໄວ: ບ່ອນທີ່ AI ດຶງມາຈາກ 📊

ບໍ່ແມ່ນທຸກໆແຫຼ່ງທີ່ມາຈະຄືກັນ, ແຕ່ແຕ່ລະແຫຼ່ງກໍມີບົດບາດຂອງມັນ. ນີ້ແມ່ນພາບລວມ.

ປະເພດແຫຼ່ງຂໍ້ມູນ	ໃຜໃຊ້ມັນ (AI)	ຕົ້ນທຶນ/ມູນຄ່າ	ເປັນຫຍັງມັນຈຶ່ງເຮັດວຽກ (ຫຼືບໍ່ໄດ້ຜົນ...)
ປຶ້ມ ແລະ ບົດຄວາມ	ຮູບແບບພາສາຂະໜາດໃຫຍ່	ບໍ່ມີຄ່າ (ນ.)	ຄວາມຮູ້ທີ່ໜາແໜ້ນ ແລະ ມີໂຄງສ້າງ - ພຽງແຕ່ເກົ່າໄວ.
ເວັບໄຊທ໌ ແລະ ບລັອກ	ເກືອບທັງໝົດ AIs	ຟຣີ (ມີສຽງລົບກວນ)	ຄວາມຫຼາກຫຼາຍຂອງທຳມະຊາດ; ການປະສົມປະສານຂອງຄວາມສະຫຼາດຫຼັກແຫຼມ ແລະ ຂີ້ເຫຍື້ອຢ່າງແທ້ຈິງ.
ເອກະສານວິຊາການ	AI ທີ່ເນັ້ນການຄົ້ນຄວ້າຫຼາຍ	ບາງຄັ້ງກໍ່ມີ paywall	ຄວາມເຂັ້ມງວດ + ຄວາມໜ້າເຊື່ອຖື, ແຕ່ຖືກປົກຄຸມດ້ວຍຄຳສັບສະເພາະທີ່ໜັກໜ່ວງ.
ຂໍ້ມູນຜູ້ໃຊ້	AI ສ່ວນຕົວ	ອາການແພ້ງ່າຍ ⚠️	ການຕັດຫຍິບທີ່ຄົມຊັດ, ແຕ່ມີບັນຫາກ່ຽວກັບຄວາມເປັນສ່ວນຕົວຫຼາຍ.
ເວັບເວລາຈິງ	AI ທີ່ເຊື່ອມໂຍງກັບການຄົ້ນຫາ	ຟຣີ (ຖ້າອອນໄລນ໌)	ຮັກສາຂໍ້ມູນໃຫ້ທັນສະໄໝ; ຂໍ້ເສຍແມ່ນຄວາມສ່ຽງຕໍ່ການແຜ່ຂະຫຍາຍຂ່າວລື.

ຈັກກະວານຂໍ້ມູນການຝຶກອົບຮົມ🌌

ນີ້ແມ່ນໄລຍະ "ການຮຽນຮູ້ໃນໄວເດັກ". ລອງນຶກພາບເບິ່ງວ່າເດັກນ້ອຍຄົນໜຶ່ງໄດ້ມອບ ຫຼາຍລ້ານ ຫົວໃຫ້ພ້ອມໆກັນ. ນັ້ນແມ່ນສິ່ງທີ່ການຝຶກອົບຮົມກ່ອນໄວຮຽນເປັນແບບນັ້ນ. ໃນໂລກແຫ່ງຄວາມເປັນຈິງ, ຜູ້ໃຫ້ບໍລິການຕ່າງໆໄດ້ລວມເອົາ ຂໍ້ມູນທີ່ມີຢູ່ສາທາລະນະ, ແຫຼ່ງຂໍ້ມູນທີ່ໄດ້ຮັບອະນຸຍາດ, ແລະຂໍ້ຄວາມທີ່ສ້າງຂຶ້ນໂດຍຄູຝຶກ [2].

ຊັ້ນຢູ່ເທິງສຸດ: ຕົວຢ່າງຂອງມະນຸດທີ່ຄັດສັນມາ - ຄຳຕອບທີ່ດີ, ຄຳຕອບທີ່ບໍ່ດີ, ການຊຸກຍູ້ໄປໃນທິດທາງທີ່ຖືກຕ້ອງ - ກ່ອນທີ່ຈະເລີ່ມຕົ້ນການເສີມສ້າງ [1].

ຂໍ້ຄວນລະວັງກ່ຽວກັບຄວາມໂປ່ງໃສ: ບໍລິສັດຕ່າງໆບໍ່ໄດ້ເປີດເຜີຍທຸກລາຍລະອຽດ. ບາງມາດຕະການປ້ອງກັນແມ່ນຄວາມລັບ (IP, ຄວາມກັງວົນກ່ຽວກັບຄວາມປອດໄພ), ດັ່ງນັ້ນທ່ານຈະໄດ້ຮັບພຽງແຕ່ບາງສ່ວນເທົ່ານັ້ນໃນການລວມຕົວຈິງ [2].

ການຄົ້ນຫາແບບເວລາຈິງ: ໜ້າເພີ່ມເຕີມ 🍒

ບາງຮຸ່ນສາມາດເບິ່ງນອກຟອງການຝຶກອົບຮົມຂອງເຂົາເຈົ້າໄດ້ແລ້ວ. ນັ້ນແມ່ນ ການສ້າງແບບເຕີມເຕັມການດຶງຂໍ້ມູນຄືນ (RAG) - ໂດຍພື້ນຖານແລ້ວແມ່ນການດຶງເອົາຊິ້ນສ່ວນຕ່າງໆຈາກດັດຊະນີສົດ ຫຼື ບ່ອນເກັບເອກະສານ, ຈາກນັ້ນກໍ່ຖັກແສ່ວມັນເຂົ້າໃນຄຳຕອບ [5]. ເໝາະສຳລັບສິ່ງທີ່ມີການປ່ຽນແປງໄວເຊັ່ນ: ຫົວຂໍ້ຂ່າວ ຫຼື ລາຄາຫຸ້ນ.

ບັນຫາບໍ? ອິນເຕີເນັດມີຄວາມສະຫຼາດຫຼັກແຫຼມ ແລະ ຂີ້ເຫຍື້ອເທົ່າທຽມກັນ. ຖ້າຕົວກອງ ຫຼື ການກວດສອບແຫຼ່ງທີ່ມາອ່ອນແອ, ເຈົ້າມີຄວາມສ່ຽງທີ່ຈະມີຂໍ້ມູນຂີ້ເຫຍື້ອລັກລອບກັບຄືນມາ - ຄືກັນກັບທີ່ກອບຄວາມສ່ຽງໄດ້ເຕືອນໄວ້ [3].

ວິທີແກ້ໄຂບັນຫາທົ່ວໄປ: ບໍລິສັດຕ່າງໆເຊື່ອມຕໍ່ຮູບແບບຕ່າງໆເຂົ້າກັບ ຂອງຕົນເອງ , ສະນັ້ນຄຳຕອບຈຶ່ງອ້າງອີງເຖິງນະໂຍບາຍ HR ໃນປະຈຸບັນ ຫຼື ເອກະສານຜະລິດຕະພັນທີ່ໄດ້ຮັບການອັບເດດແທນທີ່ຈະເວົ້າເກີນຈິງ. ລອງຄິດເບິ່ງ: ຊ່ວງເວລາ “ອືມ-ໂອ້” ໜ້ອຍລົງ, ຄຳຕອບທີ່ໜ້າເຊື່ອຖືຫຼາຍຂຶ້ນ.

ການປັບແຕ່ງຢ່າງລະອຽດ: ຂັ້ນຕອນການຂັດເງົາຂອງ AI 🧪

ຮູບແບບດິບທີ່ໄດ້ຮັບການຝຶກອົບຮົມລ່ວງໜ້າແມ່ນຂ້ອນຂ້າງບໍ່ສະດວກ. ສະນັ້ນພວກມັນຈຶ່ງໄດ້ຮັບ ການປັບແຕ່ງຢ່າງລະອຽດ :

ການສອນພວກເຂົາໃຫ້ມີນ ້ຳໃຈຊ່ວຍເຫຼືອ, ບໍ່ເປັນອັນຕະລາຍ, ແລະ ຊື່ສັດ (ຜ່ານການຮຽນຮູ້ແບບເສີມສ້າງຈາກຄໍາຄິດເຫັນຂອງມະນຸດ, RLHF) [1].
ການຂັດຂອບທີ່ບໍ່ປອດໄພ ຫຼື ເປັນພິດ (ການຈັດລຽນ) [1].
ການປັບນ້ຳສຽງ - ບໍ່ວ່າຈະເປັນແບບເປັນມິດ, ເປັນທາງການ, ຫຼື ແບບເວົ້າເຍາະເຍີ້ຍຫຼິ້ນໆ.

ມັນບໍ່ແມ່ນການຂັດເງົາເພັດຫຼາຍເທົ່າກັບການເຮັດໃຫ້ເຫດການຫິມະຖະຫຼົ່ມທາງສະຖິຕິເກີດຂຶ້ນເພື່ອໃຫ້ມີພຶດຕິກຳຄືກັບຄູ່ສົນທະນາຫຼາຍຂຶ້ນ.

ຂໍ້ບົກຜ່ອງ ແລະ ຄວາມລົ້ມເຫຼວ 🚧

ຢ່າທຳທ່າວ່າມັນບໍ່ມີຂໍ້ບົກຜ່ອງ:

ພາບຫຼອນ - ຄຳຕອບທີ່ຊັດເຈນແຕ່ຜິດພາດຢ່າງສິ້ນເຊີງ [2][3].
ອະຄະຕິ - ມັນສະທ້ອນຮູບແບບທີ່ຖືກຝັງໄວ້ໃນຂໍ້ມູນ; ຍັງສາມາດຂະຫຍາຍພວກມັນໄດ້ຖ້າບໍ່ໄດ້ກວດສອບ [3][4].
ບໍ່ມີປະສົບການໂດຍກົງ - ມັນສາມາດ ເວົ້າ ກ່ຽວກັບສູດອາຫານແກງໄດ້ ແຕ່ບໍ່ເຄີຍໄດ້ຊີມລົດຊາດເລີຍ [4].
ຄວາມໝັ້ນໃຈເກີນໄປ - ບົດຂຽນໄຫຼລ່ຽນຄືກັບວ່າມັນຮູ້, ເຖິງແມ່ນວ່າມັນບໍ່ຮູ້ກໍຕາມ. ກອບຄວາມສ່ຽງເນັ້ນໜັກເຖິງສົມມຸດຕິຖານທີ່ບົ່ງບອກ [3].

ເປັນຫຍັງມັນ ຮູ້ສຶກ ຄືກັບຮູ້🧠

ມັນບໍ່ມີຄວາມເຊື່ອ, ບໍ່ມີຄວາມຊົງຈຳໃນຄວາມໝາຍຂອງມະນຸດ, ແລະແນ່ນອນວ່າບໍ່ມີຕົວຕົນ. ແຕ່ຍ້ອນວ່າມັນເຊື່ອມໂຍງປະໂຫຍກເຂົ້າກັນໄດ້ຢ່າງລຽບງ່າຍ, ສະໝອງຂອງເຈົ້າອ່ານມັນຄືກັບວ່າມັນ ເຂົ້າໃຈ . ສິ່ງທີ່ເກີດຂຶ້ນແມ່ນພຽງແຕ່ ການຄາດຄະເນຂະໜາດໃຫຍ່ໃນຄັ້ງຕໍ່ໄປ : ການຄຳນວນຄວາມເປັນໄປໄດ້ຫຼາຍລ້ານລ້ານຄັ້ງພາຍໃນເວລາພຽງບໍ່ເທົ່າໃດວິນາທີ [2].

ຄວາມຮູ້ສຶກຂອງ “ສະຕິປັນຍາ” ແມ່ນພຶດຕິກຳທີ່ເກີດຂຶ້ນໃໝ່ - ນັກຄົ້ນຄວ້າເອີ້ນມັນວ່າ, ຄ້າຍຄືກັບການເວົ້າຕະຫຼົກ, ວ່າຜົນກະທົບຂອງ “ນົກແກ້ວແບບສະໂຕຄາສຕິກ” [4].

ການປຽບທຽບທີ່ເໝາະສົມກັບເດັກ 🎨

ລອງນຶກພາບເບິ່ງນົກແກ້ວທີ່ອ່ານປຶ້ມທຸກຫົວໃນຫໍສະໝຸດ. ມັນບໍ່ ເຂົ້າໃຈ ເລື່ອງລາວແຕ່ສາມາດປະສົມປະສານຄຳສັບຕ່າງໆເຂົ້າກັນເປັນສິ່ງທີ່ເຮັດໃຫ້ຮູ້ສຶກສະຫຼາດໄດ້. ບາງຄັ້ງມັນກໍ່ຖືກຕ້ອງ; ບາງຄັ້ງມັນກໍ່ບໍ່ມີເຫດຜົນ - ແຕ່ດ້ວຍຄວາມສາມາດພຽງພໍ, ເຈົ້າບໍ່ສາມາດບອກຄວາມແຕກຕ່າງໄດ້ສະເໝີໄປ.

ສະຫຼຸບແລ້ວ: ຂໍ້ມູນຂອງ AI ມາຈາກໃສ📌

ໃນແງ່ທຳມະດາ:

ຂໍ້ມູນການຝຶກອົບຮົມຈຳນວນຫຼວງຫຼາຍ (ສາທາລະນະ + ໃບອະນຸຍາດ + ສ້າງຂຶ້ນໂດຍຄູຝຶກ) [2].
ການປັບແຕ່ງຢ່າງລະອຽດ ດ້ວຍຄໍາຕິຊົມຂອງມະນຸດເພື່ອສ້າງຮູບຮ່າງ/ພຶດຕິກໍາ [1].
ລະບົບການດຶງຂໍ້ມູນຄືນ ເມື່ອເຊື່ອມຕໍ່ກັບກະແສຂໍ້ມູນສົດ [5].

AI ບໍ່ໄດ້ "ຮູ້" ສິ່ງຕ່າງໆ - ມັນ ຄາດເດົາຂໍ້ຄວາມ . ນັ້ນແມ່ນທັງພະລັງພິເສດຂອງມັນ ແລະ ຈຸດອ່ອນຂອງມັນ. ສະຫຼຸບແລ້ວ? ໃຫ້ກວດສອບສິ່ງທີ່ສຳຄັນກັບແຫຼ່ງທີ່ເຊື່ອຖືໄດ້ສະເໝີ [3].

ເອກະສານອ້າງອີງ

Ouyang, L. ແລະ ອື່ນໆ. (2022). ການຝຶກອົບຮົມແບບຈຳລອງພາສາເພື່ອປະຕິບັດຕາມຄຳແນະນຳດ້ວຍຄຳຕິຊົມຂອງມະນຸດ (InstructGPT) . arXiv .
OpenAI (2023). ບົດລາຍງານດ້ານວິຊາການ GPT-4 - ສ່ວນປະສົມຂອງຂໍ້ມູນທີ່ໄດ້ຮັບອະນຸຍາດ, ເປີດເຜີຍຕໍ່ສາທາລະນະ ແລະ ຂໍ້ມູນທີ່ສ້າງຂຶ້ນໂດຍມະນຸດ; ຈຸດປະສົງ ແລະ ຂໍ້ຈຳກັດຂອງການຄາດຄະເນຕໍ່ໄປ. arXiv .
NIST (2023). ຂອບການຄຸ້ມຄອງຄວາມສ່ຽງດ້ານ AI (AI RMF 1.0) - ແຫຼ່ງທີ່ມາ, ຄວາມໜ້າເຊື່ອຖື, ແລະ ການຄວບຄຸມຄວາມສ່ຽງ. PDF .
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). ກ່ຽວກັບອັນຕະລາຍຂອງນົກແກ້ວ Stochastic: ຮູບແບບພາສາສາມາດໃຫຍ່ເກີນໄປໄດ້ບໍ? PDF .
Lewis, P. ແລະ ອື່ນໆ. (2020). ການສ້າງແບບເຕີມເຕີມເພື່ອດຶງຂໍ້ມູນຄືນມາໃຊ້ສຳລັບ NLP ທີ່ມີຄວາມຮູ້ຫຼາຍ . arXiv .

ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ

ປະເທດ/ພາກພື້ນ