AI ແບບເປີດແມ່ນຫຍັງ

AI ແບບເປີດແມ່ນຫຍັງ?

Open Source AI ໄດ້ຮັບການເວົ້າເຖິງຄືກັບວ່າມັນເປັນກະແຈ magic ທີ່ປົດລັອກທຸກຢ່າງ. ມັນບໍ່ແມ່ນ. ແຕ່ມັນ ເປັນ ວິທີທີ່ປະຕິບັດໄດ້, ການອະນຸຍາດທີ່ມີແສງສະຫວ່າງໃນການສ້າງລະບົບ AI ທີ່ທ່ານສາມາດເຂົ້າໃຈ, ປັບປຸງ, ແລະຈັດສົ່ງໂດຍບໍ່ມີການຂໍຮ້ອງຈາກຜູ້ຂາຍເພື່ອຫັນປ່ຽນ. ຖ້າທ່ານສົງໄສວ່າສິ່ງທີ່ນັບວ່າເປັນ "ເປີດ," ແມ່ນຫຍັງທີ່ເປັນພຽງແຕ່ການຕະຫຼາດ, ແລະວິທີການນໍາໃຊ້ຕົວຈິງໃນບ່ອນເຮັດວຽກ, ທ່ານຢູ່ໃນສະຖານທີ່ທີ່ເຫມາະສົມ. ຄວ້າກາເຟ - ນີ້ຈະເປັນປະໂຫຍດ, ແລະອາດຈະເປັນຄວາມຄິດເຫັນເລັກນ້ອຍ ☕🙂.

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 ວິທີການລວມເອົາ AI ເຂົ້າໃນທຸລະກິດຂອງທ່ານ
ຂັ້ນຕອນການປະຕິບັດຕົວຈິງເພື່ອປະສົມປະສານເຄື່ອງມື AI ເພື່ອການເຕີບໂຕຂອງທຸລະກິດທີ່ສະຫຼາດກວ່າ.

🔗 ວິທີການໃຊ້ AI ເພື່ອໃຫ້ມີປະສິດທິພາບຫຼາຍຂຶ້ນ
ຄົ້ນພົບຂະບວນການເຮັດວຽກ AI ທີ່ມີປະສິດທິພາບທີ່ຊ່ວຍປະຢັດເວລາ ແລະ ເພີ່ມປະສິດທິພາບ.

🔗 ທັກສະ AI ແມ່ນຫຍັງ?
ຮຽນຮູ້ຄວາມສາມາດດ້ານ AI ທີ່ສຳຄັນທີ່ຈຳເປັນສຳລັບຜູ້ຊ່ຽວຊານທີ່ພ້ອມສຳລັບອະນາຄົດ.

🔗 Google Vertex AI ແມ່ນຫຍັງ
ເຂົ້າໃຈ Vertex AI ຂອງ Google ແລະວິທີທີ່ມັນປັບປຸງການຮຽນຮູ້ຂອງເຄື່ອງຈັກ.


Open Source AI ແມ່ນຫຍັງ? 🤖🔓

ທີ່ງ່າຍທີ່ສຸດ, Open Source AI ຫມາຍຄວາມວ່າສ່ວນປະກອບຂອງລະບົບ AI - ລະຫັດ, ນ້ໍາຫນັກຕົວແບບ, ທໍ່ຂໍ້ມູນ, scripts ການຝຶກອົບຮົມ, ແລະເອກະສານ - ຖືກປ່ອຍອອກມາພາຍໃຕ້ໃບອະນຸຍາດທີ່ໃຫ້ໃຜໃຊ້, ສຶກສາ, ດັດແປງ, ແລະແບ່ງປັນມັນ, ພາຍໃຕ້ເງື່ອນໄຂທີ່ສົມເຫດສົມຜົນ. ພາສາເສລີພາບຫຼັກນັ້ນມາຈາກຄໍານິຍາມແຫຼ່ງເປີດ ແລະຫຼັກການອັນຍາວນານຂອງສິດເສລີພາບຂອງຜູ້ໃຊ້ [1]. ບິດກັບ AI ແມ່ນວ່າມີສ່ວນປະກອບຫຼາຍກ່ວາພຽງແຕ່ລະຫັດ.

ບາງໂຄງການເຜີຍແຜ່ທຸກສິ່ງທຸກຢ່າງ: ລະຫັດ, ແຫຼ່ງຂໍ້ມູນການຝຶກອົບຮົມ, ສູດອາຫານ, ແລະຮູບແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມ. ຄົນອື່ນປ່ອຍພຽງແຕ່ນ ້ໍາຫນັກ ທີ່ມີໃບອະນຸຍາດ custom. ລະບົບນິເວດໃຊ້ຫຍໍ້ໜ້າຫຍໍ້ໆບາງເທື່ອ, ສະນັ້ນຂໍໃຫ້ຈັດລະບຽບໃນພາກຕໍ່ໄປ.


Open Source AI vs open weights vs open access 😅

ນີ້ແມ່ນບ່ອນທີ່ຄົນເວົ້າຜ່ານມາເຊິ່ງກັນແລະກັນ.

  • Open Source AI — ໂຄງ​ການ​ດັ່ງ​ກ່າວ​ປະ​ຕິ​ບັດ​ຕາມ​ຫຼັກ​ການ​ແຫຼ່ງ​ເປີດ​ໃນ​ທົ່ວ stack ຂອງ​ຕົນ​. ລະຫັດແມ່ນຢູ່ພາຍໃຕ້ໃບອະນຸຍາດທີ່ OSI ອະນຸມັດ, ແລະເງື່ອນໄຂການແຈກຢາຍອະນຸຍາດໃຫ້ນໍາໃຊ້ຢ່າງກວ້າງຂວາງ, ດັດແກ້, ແລະແບ່ງປັນ. ຈິດໃຈຢູ່ທີ່ນີ້ສະທ້ອນເຖິງສິ່ງທີ່ OSI ອະທິບາຍ: ສິດເສລີພາບຂອງຜູ້ໃຊ້ມາກ່ອນ [1][2].

  • Open weights — ນໍ້າໜັກຕົວແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມແມ່ນສາມາດດາວໂຫຼດໄດ້ (ມັກຈະບໍ່ເສຍຄ່າ) ແຕ່ພາຍໃຕ້ເງື່ອນໄຂທີ່ເລືອກໄດ້. ທ່ານຈະເຫັນເງື່ອນໄຂການນໍາໃຊ້, ຈໍາກັດການແຈກຢາຍຄືນ, ຫຼືກົດລະບຽບການລາຍງານ. ຄອບຄົວ Llama ຂອງ Meta ສະແດງໃຫ້ເຫັນນີ້: ລະບົບນິເວດຂອງລະຫັດແມ່ນເປີດ, ແຕ່ແບບຈໍາລອງນ້ໍາຫນັກຈະສົ່ງພາຍໃຕ້ໃບອະນຸຍາດສະເພາະທີ່ມີເງື່ອນໄຂການນໍາໃຊ້ [4].

  • ການ​ເຂົ້າ​ເຖິງ​ເປີດ — ທ່ານ​ສາ​ມາດ​ຕີ API ໄດ້​, ບາງ​ທີ​ສໍາ​ລັບ​ການ​ຟຣີ​, ແຕ່​ວ່າ​ທ່ານ​ບໍ່​ໄດ້​ຮັບ​ນ​້​ໍາ​ຫນັກ​. ເປັນປະໂຫຍດສໍາລັບການທົດລອງ, ແຕ່ບໍ່ແມ່ນແຫຼ່ງເປີດ.

ນີ້ບໍ່ແມ່ນພຽງແຕ່ semantics. ສິດ ແລະຄວາມສ່ຽງຂອງທ່ານມີການປ່ຽນແປງໃນທົ່ວປະເພດເຫຼົ່ານີ້. ການເຮັດວຽກໃນປັດຈຸບັນຂອງ OSI ກ່ຽວກັບ AI ແລະການເປີດແປນ unpacks nuances ເຫຼົ່ານີ້ໃນພາສາທໍາມະດາ [2].


ສິ່ງທີ່ເຮັດໃຫ້ Open Source AI ຕົວຈິງດີ ✅

ຂໍໃຫ້ໄວແລະຊື່ສັດ.

  • ການກວດສອບ - ທ່ານສາມາດອ່ານລະຫັດ, ກວດສອບສູດຂໍ້ມູນ, ແລະຂັ້ນຕອນການຝຶກອົບຮົມການຕິດຕາມ. ມັນຊ່ວຍໃນການປະຕິບັດຕາມ, ການທົບທວນຄືນດ້ານຄວາມປອດໄພ, ແລະຄວາມຢາກຮູ້ທີ່ລ້າສະໄຫມ. ຂອບການຄຸ້ມຄອງຄວາມສ່ຽງຂອງ NIST AI ຊຸກຍູ້ໃຫ້ມີເອກະສານ ແລະການປະຕິບັດຄວາມໂປ່ງໃສທີ່ໂຄງການເປີດສາມາດຕອບສະໜອງໄດ້ງ່າຍຂຶ້ນ [3].

  • ການປັບຕົວໄດ້ — ເຈົ້າຍັງບໍ່ໄດ້ໃສ່ໃນແຜນທີ່ເສັ້ນທາງຂອງຜູ້ຂາຍ. ສ້ອມມັນ. ເພີ້ມມັນ. ສົ່ງມັນ. Lego, ບໍ່ຕິດພາດສະຕິກ.

  • ການ​ຄວບ​ຄຸມ​ຄ່າ​ໃຊ້​ຈ່າຍ — ເປັນ​ເຈົ້າ​ພາບ​ຂອງ​ຕົນ​ເອງ​ໃນ​ເວ​ລາ​ທີ່​ມັນ​ຖືກ​ກວ່າ​. ລະເບີດຂຶ້ນສູ່ເມກເມື່ອມັນບໍ່ຢູ່. ປະສົມແລະຈັບຄູ່ຮາດແວ.

  • ຄວາມໄວຂອງຊຸມຊົນ — ແມງໄມ້ໄດ້ຮັບການແກ້ໄຂ, ມີລັກສະນະທີ່ດິນ, ແລະທ່ານໄດ້ຮຽນຮູ້ຈາກເພື່ອນມິດ. ຫຍຸ້ງ? ບາງຄັ້ງ. ຜະລິດຕະພັນ? ເລື້ອຍໆ.

  • ຄວາມຊັດເຈນຂອງການປົກຄອງ - ໃບອະນຸຍາດເປີດທີ່ແທ້ຈິງແມ່ນສາມາດຄາດເດົາໄດ້. ປຽບທຽບກັບເງື່ອນໄຂການບໍລິການ API ທີ່ປ່ຽນແປງຢ່າງງຽບໆໃນວັນອັງຄານ.

ມັນສົມບູນແບບບໍ? ບໍ່. ແຕ່ການຄ້າຂາຍແມ່ນຖືກຕ້ອງ - ຫຼາຍກວ່າທີ່ທ່ານໄດ້ຮັບຈາກການບໍລິການກ່ອງດໍາຫຼາຍ.


Open Source AI stack: ລະຫັດ, ນ້ຳໜັກ, ຂໍ້ມູນ, ແລະກາວ🧩

ຄິດເຖິງໂຄງການ AI ຄືກັບລາຊາການາທີ່ແປກປະຫຼາດ. ຊັ້ນຢູ່ທົ່ວທຸກແຫ່ງ.

  1. Frameworks ແລະ runtimes — ເຄື່ອງ​ມື​ເພື່ອ​ກໍາ​ນົດ​, ການ​ຝຶກ​ອົບ​ຮົມ​, ແລະ​ການ​ບໍ​ລິ​ການ​ຕົວ​ແບບ (ເຊັ່ນ​: PyTorch​, TensorFlow​)​. ຊຸມຊົນທີ່ມີສຸຂະພາບດີ ແລະເອກະສານສຳຄັນກວ່າຊື່ຍີ່ຫໍ້.

  2. ສະຖາປັດຕະຍະກໍາແບບຈໍາລອງ — ແບບແຜນງານ: ໝໍ້ແປງໄຟ, ແບບຈໍາລອງການແຜ່ກະຈາຍ, ການຕິດຕັ້ງທີ່ເພີ່ມການດຶງຂໍ້ມູນ.

  3. ນ້ຳໜັກ — ຕົວກໍານົດການທີ່ໄດ້ຮຽນຮູ້ໃນລະຫວ່າງການຝຶກອົບຮົມ. “ເປີດ” ຢູ່ທີ່ນີ້ແມ່ນຂຶ້ນກັບສິດການແຈກຢາຍຄືນໃໝ່ ແລະການນຳໃຊ້ທາງການຄ້າ, ບໍ່ພຽງແຕ່ສາມາດດາວໂຫຼດໄດ້ເທົ່ານັ້ນ.

  4. ຂໍ້​ມູນ​ແລະ​ສູດ — scripts curation​, ການ​ກັ່ນ​ຕອງ​, ການ​ເພີ່ມ​ເຕີມ​, ຕາ​ຕະ​ລາງ​ການ​ຝຶກ​ອົບ​ຮົມ​. ຄວາມໂປ່ງໃສໃນທີ່ນີ້ແມ່ນຄໍາສໍາລັບການສືບພັນ.

  5. ເຄື່ອງ​ມື​ແລະ orchestration — ເຄື່ອງ​ແມ່​ຂ່າຍ​ການ​ອະ​ພິ​ປາຍ​, ຖານ​ຂໍ້​ມູນ vector​, harnesses ການ​ປະ​ເມີນ​ຜົນ​, ການ​ສັງ​ເກດ​, CI / CD​.

  6. ການອອກໃບອະນຸຍາດ - ກະດູກສັນຫຼັງທີ່ງຽບສະຫງົບທີ່ຕັດສິນໃຈວ່າເຈົ້າສາມາດເຮັດຫຍັງໄດ້. ເພີ່ມເຕີມຂ້າງລຸ່ມນີ້.


ໃບອະນຸຍາດ 101 ສໍາລັບ Open Source AI 📜

ທ່ານບໍ່ ຈຳ ເປັນຕ້ອງເປັນທະນາຍຄວາມ. ທ່ານ ຈຳ ເປັນຕ້ອງຊອກຫາຮູບແບບຕ່າງໆ.

  • ລະຫັດອະນຸຍາດ - MIT, BSD, Apache-2.0. Apache ປະກອບມີການໃຫ້ສິດທິບັດທີ່ຊັດເຈນທີ່ທີມງານຫຼາຍຄົນຊື່ນຊົມ [1].

  • Copyleft — ຄອບຄົວ GPL ຮຽກຮ້ອງໃຫ້ອະນຸພັນຍັງເປີດພາຍໃຕ້ໃບອະນຸຍາດດຽວກັນ. ມີອໍານາດ, ແຕ່ວາງແຜນສໍາລັບມັນໃນສະຖາປັດຕະຍະກໍາຂອງທ່ານ.

  • ໃບອະນຸຍາດສະເພາະຕົວແບບ — ສໍາລັບນໍ້າໜັກ ແລະຊຸດຂໍ້ມູນ, ທ່ານຈະເຫັນໃບອະນຸຍາດແບບກຳນົດເອງເຊັ່ນ: ຄອບຄົວທີ່ຮັບຜິດຊອບ AI License (OpenRAIL). ການອະນຸຍາດ ແລະຂໍ້ຈຳກັດໃນການນຳໃຊ້ເຂົ້າລະຫັດເຫຼົ່ານີ້; ບາງຄົນອະນຸຍາດໃຫ້ນໍາໃຊ້ທາງການຄ້າຢ່າງກວ້າງຂວາງ, ຄົນອື່ນເພີ່ມ guardrails ປະມານການນໍາໃຊ້ທີ່ບໍ່ຖືກຕ້ອງ [5].

  • Creative Commons ສໍາລັບຂໍ້ມູນ — CC-BY ຫຼື CC0 ແມ່ນທົ່ວໄປສໍາລັບຊຸດຂໍ້ມູນ ແລະເອກະສານ. ຄຸນລັກສະນະສາມາດຈັດການໄດ້ໃນລະດັບນ້ອຍ; ສ້າງ​ຮູບ​ແບບ​ຕົ້ນ​.

Pro tip: ຮັກສາລາຍຊື່ຫນຶ່ງ pager ແຕ່ລະການເພິ່ງພາອາໃສ, ໃບອະນຸຍາດຂອງມັນ, ແລະວ່າການແຈກຢາຍຄືນໃຫມ່ທາງການຄ້າໄດ້ຖືກອະນຸຍາດຫຼືບໍ່. ເບື່ອ? ແມ່ນແລ້ວ. ຈໍາເປັນ? ຄືກັນ.


ຕາຕະລາງປຽບທຽບ: ໂຄງການ AI Open Source ຍອດນິຍົມ ແລະບ່ອນທີ່ພວກມັນສ່ອງແສງ 📊

ສັບສົນເລັກນ້ອຍກ່ຽວກັບຈຸດປະສົງ - ນັ້ນແມ່ນວິທີທີ່ບັນທຶກທີ່ແທ້ຈິງເບິ່ງ

ເຄື່ອງມື / ໂຄງການ ສຳລັບໃຜ ລາຄາປະມານ ເປັນຫຍັງມັນເຮັດວຽກໄດ້ດີ
PyTorch ນັກຄົ້ນຄວ້າ, ວິສະວະກອນ ຟຣີ ກຣາຟແບບໄດນາມິກ, ຊຸມຊົນໃຫຍ່, ເອກະສານທີ່ເຂັ້ມແຂງ. ຮົບທົດສອບໃນຜະລິດຕະພັນ.
TensorFlow ທີມງານວິສາຫະກິດ, ML ops ຟຣີ ໂໝດກຣາບ, TF-Serving, ຄວາມເລິກຂອງລະບົບນິເວດ. ການຮຽນຮູ້ທີ່ກ້າວຂຶ້ນສໍາລັບບາງຄົນ, ຍັງແຂງ.
ກອດຕົວຫັນໜ້າ ຜູ້ກໍ່ສ້າງທີ່ມີກໍານົດເວລາ ຟຣີ ຮູບແບບທີ່ໄດ້ຝຶກອົບຮົມ, ທໍ່, ຊຸດຂໍ້ມູນ, ການປັບລະອຽດງ່າຍ. ດ້ວຍຄວາມຊື່ສັດທາງລັດ.
vLLM ທີມງານທີ່ມີຈິດໃຈ Infra-minded ຟຣີ ການບໍລິການ LLM ໄວ, ແຄດ KV ທີ່ມີປະສິດທິພາບ, ການສົ່ງຂໍ້ມູນທີ່ເຂັ້ມແຂງໃນ GPUs ທົ່ວໄປ.
Llama.cpp Tinkerers, ອຸປະກອນຂອບ ຟຣີ ແລ່ນແບບຈໍາລອງຢູ່ໃນເຄື່ອງໃນຄອມພິວເຕີໂນດບຸກ ແລະໂທລະສັບທີ່ມີປະລິມານ.
LangChain App devs, ຕົວແບບ ຟຣີ ລະບົບຕ່ອງໂສ້ປະກອບ, ຕົວເຊື່ອມຕໍ່, ຕົວແທນ. ໄວຊະນະຖ້າທ່ານຮັກສາມັນງ່າຍດາຍ.
ການແຜ່ກະຈາຍຄົງທີ່ ຄວາມຄິດສ້າງສັນ, ທີມງານຜະລິດຕະພັນ ນ້ຳໜັກຟຣີ ການສ້າງຮູບພາບໃນທ້ອງຖິ່ນຫຼືຟັງ; ຂະບວນການເຮັດວຽກຂະຫນາດໃຫຍ່ແລະ UI ທີ່ຢູ່ອ້ອມຮອບມັນ.
ໂອລາມາ ນັກພັດທະນາຜູ້ທີ່ຮັກ CLIs ທ້ອງຖິ່ນ ຟຣີ ດຶງແລະແລ່ນຕົວແບບທ້ອງຖິ່ນ. ໃບອະນຸຍາດແຕກຕ່າງກັນໄປຕາມບັດແບບຈໍາລອງ—ເບິ່ງວ່າ.

ແມ່ນແລ້ວ, "ຟຣີ." ການເປັນເຈົ້າພາບ, GPUs, ບ່ອນຈັດເກັບຂໍ້ມູນ, ແລະຊົ່ວໂມງຄົນບໍ່ເສຍເງິນ.


ວິທີທີ່ບໍລິສັດໃຊ້ Open Source AI ຕົວຈິງຢູ່ບ່ອນເຮັດວຽກ 🏢⚙️

ທ່ານ​ຈະ​ໄດ້​ຍິນ​ສອງ​ຢ່າງ​ທີ່​ສຸດ: ທັງ​ຫມົດ​ທຸກ​ຄົນ​ຄວນ​ຈະ​ເປັນ​ເຈົ້າ​ພາບ​ຂອງ​ທຸກ​ສິ່ງ​ທຸກ​ຢ່າງ, ຫຼື​ບໍ່​ມີ​ໃຜ​ຄວນ. ຊີວິດທີ່ແທ້ຈິງແມ່ນ squishier.

  1. ການສ້າງຕົວແບບຢ່າງໄວ — ເລີ່ມຕົ້ນດ້ວຍຮູບແບບເປີດທີ່ອະນຸຍາດເພື່ອກວດສອບ UX ແລະຜົນກະທົບ. ເຕົາປະຕິກອນຕໍ່ມາ.

  2. ການໃຫ້ບໍລິການແບບປະສົມ — ຮັກສາຮູບແບບ VPC ທີ່ເປັນເຈົ້າພາບ ຫຼືຢູ່ໃນ prem ສໍາລັບການໂທທີ່ລະອຽດອ່ອນກັບຄວາມເປັນສ່ວນຕົວ. ກັບຄືນໄປຫາ API ທີ່ເປັນເຈົ້າພາບສໍາລັບການໂຫຼດຫາງຍາວຫຼື spiky. ປົກກະຕິຫຼາຍ.

  3. ການປັບລະອຽດສຳລັບວຽກແຄບ - ການປັບຕົວໂດເມນມັກຈະຕີຂະໜາດດິບ.

  4. RAG ຢູ່ທົ່ວທຸກແຫ່ງ — ລຸ້ນທີ່ເພີ່ມການດຶງຂໍ້ມູນຊ່ວຍຫຼຸດຜ່ອນຄວາມຫຼົງໄຫຼໂດຍການໃສ່ຄຳຕອບໃນຂໍ້ມູນຂອງທ່ານ. ເປີດ vector DBs ແລະອະແດບເຕີເຮັດໃຫ້ສິ່ງນີ້ສາມາດເຂົ້າຫາໄດ້.

  5. ຂອບ ແລະ ອອບໄລນ໌ — ຮູບແບບນ້ຳໜັກເບົາທີ່ລວບລວມໄວ້ສຳລັບແລັບທັອບ, ໂທລະສັບ, ຫຼື ບຣາວເຊີ ຂະຫຍາຍພື້ນຜິວຜະລິດຕະພັນ.

  6. ການປະຕິບັດຕາມແລະການກວດສອບ - ເພາະວ່າທ່ານສາມາດກວດກາຄວາມລໍາຄານ, ຜູ້ກວດສອບມີບາງສິ່ງບາງຢ່າງທີ່ແນ່ນອນທີ່ຈະທົບທວນຄືນ. ຈັບຄູ່ນັ້ນກັບນະໂຍບາຍ AI ທີ່ມີຄວາມຮັບຜິດຊອບທີ່ເຮັດແຜນທີ່ກັບປະເພດ RMF ຂອງ NIST ແລະຄໍາແນະນໍາເອກະສານ [3].

ບັນທຶກພາກສະຫນາມນ້ອຍໆ: ທີມງານ SaaS ທີ່ມີຈິດໃຈເປັນສ່ວນຕົວທີ່ຂ້ອຍໄດ້ເຫັນ (ຕະຫຼາດກາງ, ຜູ້ໃຊ້ EU) ໄດ້ຮັບຮອງເອົາການຕັ້ງຄ່າແບບປະສົມ: ຮູບແບບເປີດຂະຫນາດນ້ອຍໃນ VPC ສໍາລັບ 80% ຂອງການຮ້ອງຂໍ; ລະເບີດໄປຫາ API ທີ່ເປັນເຈົ້າພາບສໍາລັບການເຕືອນກ່ຽວກັບສະພາບການທີ່ຫາຍາກ, ຍາວ. ພວກເຂົາເຈົ້າໄດ້ຕັດຄວາມລ່າຊ້າສໍາລັບເສັ້ນທາງທົ່ວໄປ ແລະເຮັດໃຫ້ເອກະສານ DPIA ງ່າຍດາຍ - ໂດຍບໍ່ມີການຕົ້ມມະຫາສະຫມຸດ.


ຄວາມສ່ຽງ ແລະ gotchas ທີ່ທ່ານຄວນວາງແຜນສໍາລັບ 🧨

ຂໍໃຫ້ຜູ້ໃຫຍ່ກ່ຽວກັບເລື່ອງນີ້.

  • ໃບຂັບຂີ່ - A repo ເລີ່ມຕົ້ນ MIT, ຫຼັງຈາກນັ້ນນ້ໍາຫນັກຍ້າຍໄປສູ່ໃບອະນຸຍາດທີ່ກໍາຫນົດເອງ. ຮັກສາການລົງທະບຽນພາຍໃນຂອງເຈົ້າໃຫ້ອັບເດດ ຫຼືເຈົ້າຈະສົ່ງຄວາມແປກໃຈຕໍ່ການປະຕິບັດຕາມ [2][4][5].

  • ຂໍ້ມູນການພິສູດ — ຂໍ້ມູນການຝຶກອົບຮົມທີ່ມີສິດທິ fuzzy ສາມາດໄຫຼເຂົ້າໄປໃນຕົວແບບ. ຕິດຕາມແຫຼ່ງຂໍ້ມູນແລະປະຕິບັດຕາມໃບອະນຸຍາດຊຸດຂໍ້ມູນ, ບໍ່ແມ່ນ vibes [5].

  • ຄວາມ​ປອດ​ໄພ — ໃຫ້​ການ​ປະ​ຕິ​ບັດ​ວັດ​ຖຸ​ບູ​ຮານ​ແບບ​ຈໍາ​ລອງ​ເຊັ່ນ​ດຽວ​ກັນ​ກັບ​ຕ່ອງ​ໂສ້​ການ​ສະ​ຫນອງ​ອື່ນໆ​: checksums​, ການ​ອອກ​ລາຍ​ຊື່​, SBOMs​. ແມ່ນແຕ່ SECURITY.md ໜ້ອຍທີ່ສຸດກໍຕີຄວາມງຽບໄດ້.

  • ຄວາມ​ແຕກ​ຕ່າງ​ດ້ານ​ຄຸນ​ນະ​ພາບ — ແບບ​ເປີດ​ແຕກ​ຕ່າງ​ກັນ​ຢ່າງ​ກວ້າງ​ຂວາງ​. ປະເມີນກັບວຽກງານຂອງທ່ານ, ບໍ່ພຽງແຕ່ກະດານຈັດອັນດັບ.

  • ຄ່າ​ໃຊ້​ຈ່າຍ​ອິນ​ຟ​ຣາ​ທີ່​ເຊື່ອງ​ໄວ້ — inference ໄວ​ຕ້ອງ​ການ GPUs, quantization, batching, caching. ເປີດເຄື່ອງມືຊ່ວຍເຫຼືອ; ທ່ານຍັງຈ່າຍຢູ່ໃນຄອມພິວເຕີ້.

  • ຫນີ້ສິນການປົກຄອງ - ຖ້າບໍ່ມີໃຜເປັນເຈົ້າຂອງວົງຈອນຊີວິດແບບຈໍາລອງ, ທ່ານໄດ້ຮັບ spaghetti ການຕັ້ງຄ່າ. ບັນຊີລາຍຊື່ການກວດສອບ MLOps ທີ່ມີນ້ໍາຫນັກເບົາແມ່ນຄໍາ.


ການເລືອກລະດັບຄວາມເປີດທີ່ເໝາະສົມສຳລັບກໍລະນີໃຊ້ຂອງເຈົ້າ 🧭

ເສັ້ນທາງການຕັດສິນໃຈທີ່ບິດເບືອນເລັກນ້ອຍ:

  • ຕ້ອງການ ການຂົນສົ່ງໄວ ທີ່ມີຄວາມຕ້ອງການປະຕິບັດຕາມແສງສະຫວ່າງບໍ? ເລີ່ມຕົ້ນດ້ວຍຮູບແບບເປີດທີ່ອະນຸຍາດ, ການປັບແຕ່ງໜ້ອຍສຸດ, ການບໍລິການຟັງຄລາວ.

  • ຕ້ອງ​ການ ​ຄວາມ​ເປັນ​ສ່ວນ​ຕົວ​ຢ່າງ​ເຂັ້ມ​ງວດ ​ຫຼື ​ອ​ອ​ຟ​ໄລ ​? ເລືອກສະເຕກເປີດທີ່ຮອງຮັບໄດ້ດີ, ການສົມມຸດຕິຖານຂອງເຈົ້າຂອງເອງ, ແລະທົບທວນໃບອະນຸຍາດຢ່າງລະມັດລະວັງ.

  • ຕ້ອງ ການສິດທິທາງການຄ້າຢ່າງກວ້າງຂວາງ ແລະການແຈກຢາຍຄືນໃຫມ່ບໍ? ຕ້ອງການລະຫັດທີ່ສອດຄ່ອງ OSI ບວກກັບໃບອະນຸຍາດແບບຈໍາລອງທີ່ອະນຸຍາດໃຫ້ນໍາໃຊ້ທາງການຄ້າແລະການແຈກຢາຍຄືນໃຫມ່ [1][5].

  • ຕ້ອງການ ຄວາມຍືດຫຍຸ່ນການຄົ້ນຄວ້າ ? ອະນຸຍາດໃຫ້ສິ້ນສຸດເຖິງຈຸດຈົບ, ລວມທັງຂໍ້ມູນ, ສໍາລັບການສືບພັນ ແລະຄວາມສາມາດໃນການແບ່ງປັນ.

  • ບໍ່ແນ່ໃຈວ່າ? ນັກບິນທັງສອງ. ເສັ້ນທາງໜຶ່ງຈະຮູ້ສຶກດີຂຶ້ນໃນໜຶ່ງອາທິດ.


ວິທີການປະເມີນໂຄງການ Open Source AI ຄືກັບມືອາຊີບ 🔍

ບັນຊີລາຍການດ່ວນທີ່ຂ້ອຍເກັບໄວ້, ບາງຄັ້ງກໍ່ໃສ່ຜ້າເຊັດຕົວ.

  1. ຄວາມຊັດເຈນຂອງໃບອະນຸຍາດ — OSI ອະນຸມັດສໍາລັບລະຫັດ? ນ້ ຳ ໜັກ ແລະຂໍ້ມູນແມ່ນຫຍັງ? ຂໍ້​ຈໍາ​ກັດ​ການ​ນໍາ​ໃຊ້​ໃດ​ຫນຶ່ງ​ທີ່​ເດີນ​ທາງ​ກັບ​ຮູບ​ແບບ​ທຸ​ລະ​ກິດ​ຂອງ​ທ່ານ [1][2][5]?

  2. ເອກະສານ - ການຕິດຕັ້ງ, ເລີ່ມຕົ້ນໄວ, ຕົວຢ່າງ, ການແກ້ໄຂບັນຫາ. Docs ແມ່ນວັດທະນະທໍາບອກ.

  3. ປ່ອຍ cadence — Tagged ປ່ອຍ ແລະ changelogs ແນະ ນໍາ ຄວາມ ຫມັ້ນ ຄົງ; ການ​ຊຸກ​ຍູ້​ເປັນ​ບາງ​ຄັ້ງ​ຊີ້​ໃຫ້​ເຫັນ​ວິ​ລະ​ຊົນ.

  4. Benchmarks and evaals — ວຽກ​ງານ​ເປັນ​ຈິງ​? Evals ແລ່ນໄດ້ບໍ?

  5. ການ​ບໍາ​ລຸງ​ຮັກ​ສາ​ແລະ​ການ​ປົກ​ຄອງ — ເຈົ້າ​ຂອງ​ລະ​ຫັດ​ທີ່​ຈະ​ແຈ້ງ​, ບັນ​ຫາ triage​, ການ​ຕອບ​ສະ​ຫນອງ PR​.

  6. ລະ​ບົບ​ນິ​ເວດ​ເຫມາະ — ຫຼິ້ນ​ໄດ້​ດີ​ກັບ​ຮາດ​ແວ​ຂອງ​ທ່ານ​, ການ​ເກັບ​ຮັກ​ສາ​ຂໍ້​ມູນ​, ການ​ບັນ​ທຶກ​, auth​.

  7. ທ່າທາງຄວາມປອດໄພ — ວັດຖຸທີ່ລົງນາມ, ການສະແກນແບບເພິ່ງພາອາໄສ, ການຈັດການ CVE.

  8. ສັນຍານຊຸມຊົນ - ການສົນທະນາ, ຄໍາຕອບຂອງເວທີ, ຕົວຢ່າງ repos.

ສໍາລັບການສອດຄ່ອງຢ່າງກວ້າງຂວາງກັບການປະຕິບັດທີ່ຫນ້າເຊື່ອຖື, ວາງແຜນຂະບວນການຂອງທ່ານກັບປະເພດ NIST AI RMF ແລະເອກະສານປອມ [3].


Deep dive 1: ກາງ messy ຂອງໃບອະນຸຍາດແບບຈໍາລອງ 🧪

ບາງຕົວແບບທີ່ມີຄວາມສາມາດຫຼາຍທີ່ສຸດອາໄສຢູ່ໃນຖັງ "ນ້ໍາຫນັກທີ່ເປີດດ້ວຍເງື່ອນໄຂ". ພວກມັນສາມາດເຂົ້າເຖິງໄດ້, ແຕ່ມີຂໍ້ຈຳກັດການນຳໃຊ້ ຫຼືກົດລະບຽບການແຈກຢາຍຄືນໃໝ່. ນັ້ນອາດຈະດີຖ້າຜະລິດຕະພັນຂອງທ່ານບໍ່ຂຶ້ນກັບການຫຸ້ມຫໍ່ແບບຈໍາລອງຄືນໃຫມ່ຫຼືສົ່ງມັນໄປສູ່ສະພາບແວດລ້ອມຂອງລູກຄ້າ. ຖ້າທ່ານ ຕ້ອງ ການ, ເຈລະຈາຫຼືເລືອກພື້ນຖານທີ່ແຕກຕ່າງກັນ. ສິ່ງສໍາຄັນແມ່ນການສ້າງ ຂອງທ່ານ ຕໍ່ກັບ ຕົວຈິງ , ບໍ່ແມ່ນການຕອບ blog [4][5].

ໃບອະນຸຍາດແບບ OpenRAIL ພະຍາຍາມເຮັດໃຫ້ສົມດູນກັນ: ຊຸກຍູ້ໃຫ້ມີການຄົ້ນຄວ້າເປີດ ແລະແບ່ງປັນ, ໃນຂະນະທີ່ຂັດຂວາງການໃຊ້ໃນທາງທີ່ຜິດ. ເຈດຕະນາດີ; ພັນທະຍັງຄົງເປັນຂອງເຈົ້າ. ອ່ານຂໍ້ກໍານົດແລະຕັດສິນໃຈວ່າເງື່ອນໄຂທີ່ເຫມາະສົມກັບຄວາມຢາກອາຫານຄວາມສ່ຽງຂອງທ່ານຫຼືບໍ່ [5].


Deep dive 2: ຄວາມໂປ່ງໃສຂອງຂໍ້ມູນ ແລະນິທານການສືບພັນ 🧬

"ໂດຍບໍ່ມີການ dump ຂໍ້ມູນເຕັມ, Open Source AI ແມ່ນປອມ." ບໍ່ຂ້ອນຂ້າງ. ການພິສູດ ຂໍ້ມູນ ແລະ ສູດອາຫານ ສາມາດໃຫ້ຄວາມໂປ່ງໃສທີ່ມີຄວາມໝາຍ ເຖິງແມ່ນວ່າບາງຊຸດຂໍ້ມູນດິບຖືກຈຳກັດໄວ້ກໍຕາມ. ທ່ານສາມາດເອກະສານການກັ່ນຕອງ, ອັດຕາສ່ວນຕົວຢ່າງ, ແລະທໍາຄວາມສະອາດ heuristics ໄດ້ດີພຽງພໍສໍາລັບທີມງານອື່ນເພື່ອປະມານຜົນໄດ້ຮັບ. ການສືບພັນທີ່ສົມບູນແບບແມ່ນງາມ. ຄວາມໂປ່ງໃສທີ່ສາມາດປະຕິບັດໄດ້ມັກຈະພຽງພໍ [3][5].

ເມື່ອຊຸດຂໍ້ມູນເປີດ, ລົດຊາດ Creative Commons ເຊັ່ນ CC-BY ຫຼື CC0 ແມ່ນທົ່ວໄປ. ການສະແດງຕາມຂະໜາດອາດເຮັດໃຫ້ງຸ່ມງ່າມໄດ້, ສະນັ້ນໃຫ້ມາດຕະຖານວິທີທີ່ເຈົ້າຈັດການມັນກ່ອນໄວອັນຄວນ.


Deep dive 3: ການປະຕິບັດ MLOps ສໍາລັບແບບເປີດ 🚢

ການຂົນສົ່ງແບບເປີດແມ່ນຄ້າຍຄືການຂົນສົ່ງບໍລິການໃດກໍ່ຕາມ, ບວກກັບ quirks ເລັກນ້ອຍ.

  • ການຮັບໃຊ້ຊັ້ນຂໍ້ມູນ - ເຊີບເວີ inference ພິເສດຈະເພີ່ມປະສິດທິພາບ batching, ການຈັດການ KV-cache, ແລະການຖ່າຍທອດໂທເຄັນ.

  • Quantization — ນ້ໍາຫນັກນ້ອຍກວ່າ → inference ລາ​ຄາ​ຖືກ​ກວ່າ​ແລະ​ການ​ນໍາ​ໃຊ້​ແຂບ​ງ່າຍ​ຂຶ້ນ​. ຄຸນນະພາບການຄ້າແຕກຕ່າງກັນ; ວັດແທກກັບ ຂອງທ່ານ .

  • ຄວາມ​ສາ​ມາດ​ສັງ​ເກດ - ບັນ​ທຶກ prompts / ຜົນ​ໄດ້​ຮັບ​ທີ່​ມີ​ຄວາມ​ເປັນ​ສ່ວນ​ຕົວ​ຢູ່​ໃນ​ໃຈ. ຕົວຢ່າງສໍາລັບການປະເມີນຜົນ. ເພີ່ມການກວດສອບ drift ຄືກັບທີ່ເຈົ້າຕ້ອງການສໍາລັບ ML ແບບດັ້ງເດີມ.

  • ການ​ປັບ​ປຸງ — ຕົວ​ແບບ​ສາ​ມາດ​ປ່ຽນ​ແປງ​ພຶດ​ຕິ​ກໍາ subtly​; ໃຊ້ canaries ແລະເກັບຮັກສາແຟ້ມຂໍ້ມູນສໍາລັບ rollback ແລະການກວດສອບ.

  • Eval harness — ຮັກ​ສາ​ຊຸດ eval ສະ​ເພາະ​ວຽກ​ງານ​, ບໍ່​ພຽງ​ແຕ່​ມາດ​ຕະ​ຖານ​ທົ່ວ​ໄປ​. ຮວມເອົາການກະຕຸ້ນເຕືອນຂອງຝ່າຍຄ້ານ ແລະງົບປະມານໃນການຕອບສະໜອງ.


ແຜນຜັງຂະໜາດນ້ອຍ: ຈາກສູນໄປຫານັກບິນທີ່ໃຊ້ໄດ້ໃນ 10 ຂັ້ນຕອນ 🗺️

  1. ກໍານົດຫນຶ່ງຫນ້າວຽກແຄບແລະ metric. ບໍ່ມີເວທີອັນຍິ່ງໃຫຍ່ເທື່ອ.

  2. ເລືອກຮູບແບບພື້ນຖານທີ່ໄດ້ຮັບອະນຸຍາດທີ່ໃຊ້ຢ່າງກວ້າງຂວາງ ແລະເປັນເອກະສານທີ່ດີ.

  3. ຢືນຂຶ້ນ inference ທ້ອງຖິ່ນແລະ API wrapper ບາງໆ. ຮັກສາມັນຫນ້າເບື່ອ.

  4. ເພີ່ມການດຶງຂໍ້ມູນໃສ່ຂໍ້ມູນພື້ນຖານໃນຂໍ້ມູນຂອງທ່ານ.

  5. ກະກຽມຊຸດ eval ທີ່ມີປ້າຍນ້ອຍໆທີ່ສະທ້ອນເຖິງຜູ້ໃຊ້ຂອງທ່ານ, warts ແລະທັງຫມົດ.

  6. ການປບັລະອຽດ ຫຼືປບັທັນທີຫາກ eval ເວົ້າວ່າທ່ານຄວນ.

  7. Quantize ຖ້າ latency ຫຼືຄ່າໃຊ້ຈ່າຍກັດ. ວັດແທກຄຸນນະພາບຄືນໃໝ່.

  8. ເພີ່ມການບັນທຶກ, ການເຕືອນໃຫ້ທີມສີແດງ, ແລະນະໂຍບາຍການລ່ວງລະເມີດ.

  9. ປະຕູທີ່ມີທຸງຄຸນສົມບັດແລະປ່ອຍໄປຫາກຸ່ມນ້ອຍ.

  10. ເຮັດຊ້ຳ. ສົ່ງການປັບປຸງເລັກນ້ອຍຕໍ່ອາທິດ… ຫຼືເມື່ອມັນດີຂຶ້ນແທ້ໆ.


myths ທົ່ວໄປກ່ຽວກັບ Open Source AI, debunked ເລັກນ້ອຍ 🧱

  • Myth: ແບບເປີດແມ່ນສະເຫມີໄປຮ້າຍແຮງກວ່າເກົ່າ. ຄວາມເປັນຈິງ: ສໍາລັບວຽກງານເປົ້າຫມາຍທີ່ມີຂໍ້ມູນທີ່ຖືກຕ້ອງ, ຮູບແບບເປີດທີ່ປັບລະອຽດສາມາດປະຕິບັດຫນ້າທີ່ເປັນເຈົ້າພາບຂະຫນາດໃຫຍ່ກວ່າ.

  • Myth: ເປີດຫມາຍຄວາມວ່າບໍ່ປອດໄພ. ຄວາມເປັນຈິງ: ການເປີດກວ້າງສາມາດປັບປຸງການກວດສອບໄດ້. ຄວາມປອດໄພແມ່ນຂຶ້ນກັບການປະຕິບັດ, ບໍ່ແມ່ນຄວາມລັບ [3].

  • Myth: ໃບອະນຸຍາດບໍ່ສໍາຄັນວ່າມັນບໍ່ເສຍຄ່າ. ຄວາມເປັນຈິງ: ມັນສຳຄັນ ທີ່ສຸດ ເມື່ອມັນບໍ່ເສຍຄ່າ, ເພາະວ່າການໃຊ້ເຄື່ອງຊັ່ງຟຣີ. ທ່ານຕ້ອງການສິດທິທີ່ຊັດເຈນ, ບໍ່ແມ່ນ vibes [1][5].


Open Source AI 🧠✨

Open Source AI ບໍ່ແມ່ນສາສະຫນາ. ມັນເປັນຊຸດຂອງສິດເສລີພາບໃນການປະຕິບັດທີ່ຊ່ວຍໃຫ້ທ່ານສ້າງດ້ວຍການຄວບຄຸມຫຼາຍຂຶ້ນ, ການປົກຄອງທີ່ຊັດເຈນກວ່າ, ແລະເຮັດຊ້ໍາອີກໄວ. ເມື່ອມີຄົນເວົ້າວ່າຕົວແບບແມ່ນ "ເປີດ", ຖາມວ່າຊັ້ນໃດເປີດ: ລະຫັດ, ນ້ໍາຫນັກ, ຂໍ້ມູນ, ຫຼືພຽງແຕ່ເຂົ້າເຖິງ. ອ່ານໃບອະນຸຍາດ. ປຽບທຽບມັນກັບກໍລະນີການນໍາໃຊ້ຂອງທ່ານ. ແລະຫຼັງຈາກນັ້ນ, ສໍາຄັນ, ທົດສອບມັນກັບວຽກງານທີ່ແທ້ຈິງຂອງທ່ານ.

ສ່ວນທີ່ດີທີ່ສຸດ, ແປກ, ແມ່ນວັດທະນະທໍາ: ໂຄງການເປີດໄດ້ເຊື້ອເຊີນການປະກອບສ່ວນແລະການກວດສອບ, ເຊິ່ງມັກຈະເຮັດໃຫ້ທັງຊອບແວແລະຄົນດີຂຶ້ນ. ທ່ານອາດຈະຄົ້ນພົບວ່າການເຄື່ອນໄຫວທີ່ຊະນະບໍ່ແມ່ນຕົວແບບທີ່ໃຫຍ່ທີ່ສຸດຫຼືຕົວຊີ້ບອກທີ່ໄວທີ່ສຸດ, ແຕ່ເປັນແບບທີ່ເຈົ້າສາມາດເຂົ້າໃຈ, ແກ້ໄຂແລະປັບປຸງໃນອາທິດຫນ້າ. ນັ້ນແມ່ນພະລັງທີ່ງຽບສະຫງົບຂອງ Open Source AI - ບໍ່ແມ່ນລູກປືນເງິນ, ຄືກັບເຄື່ອງມືຫຼາຍອັນທີ່ໃສ່ດີທີ່ຊ່ວຍປະຫຍັດມື້.


ດົນເກີນໄປບໍ່ໄດ້ອ່ານ📝

Open Source AI ແມ່ນກ່ຽວກັບສິດເສລີພາບທີ່ມີຄວາມຫມາຍໃນການນໍາໃຊ້, ການສຶກສາ, ດັດແກ້, ແລະແບ່ງປັນລະບົບ AI. ມັນສະແດງໃນທົ່ວຊັ້ນຕ່າງໆ: ກອບ, ແບບຈໍາລອງ, ຂໍ້ມູນ, ແລະເຄື່ອງມື. ຢ່າສັບສົນແຫຼ່ງເປີດທີ່ມີນ້ໍາຫນັກເປີດຫຼືການເຂົ້າເຖິງທີ່ເປີດ. ກວດ​ສອບ​ໃບ​ອະ​ນຸ​ຍາດ​, ການ​ປະ​ເມີນ​ຜົນ​ກັບ​ວຽກ​ງານ​ທີ່​ແທ້​ຈິງ​ຂອງ​ທ່ານ​, ແລະ​ການ​ອອກ​ແບບ​ສໍາ​ລັບ​ການ​ຄວາມ​ປອດ​ໄພ​ແລະ​ການ​ຄຸ້ມ​ຄອງ​ຈາກ​ມື້​ຫນຶ່ງ​. ເຮັດແນວນັ້ນ, ແລະທ່ານໄດ້ຮັບຄວາມໄວ, ການຄວບຄຸມ, ແລະແຜນທີ່ເສັ້ນທາງທີ່ສະຫງົບກວ່າ. ເປັນເລື່ອງແປກທີ່ຫາຍາກ, ຊື່ສັດບໍ່ມີຄ່າ🙃.


ເອກະສານອ້າງອີງ

[1] Open Source Initiative - Open Source Definition (OSD): ອ່ານເພີ່ມເຕີມ
[2] OSI - Deep Dive on AI & Openness: ອ່ານເພີ່ມເຕີມ
[3] NIST - AI Risk Management Framework: ອ່ານເພີ່ມເຕີມ
[4] Meta - Llama Model License: ອ່ານເພີ່ມເຕີມ
[5] Responsible AI Licenses (OpenRAIL): ອ່ານເພີ່ມເຕີມ

ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ