Open Source AI ໄດ້ຮັບການເວົ້າເຖິງຄືກັບວ່າມັນເປັນກະແຈ magic ທີ່ປົດລັອກທຸກຢ່າງ. ມັນບໍ່ແມ່ນ. ແຕ່ມັນ ເປັນ ວິທີທີ່ປະຕິບັດໄດ້, ການອະນຸຍາດທີ່ມີແສງສະຫວ່າງໃນການສ້າງລະບົບ AI ທີ່ທ່ານສາມາດເຂົ້າໃຈ, ປັບປຸງ, ແລະຈັດສົ່ງໂດຍບໍ່ມີການຂໍຮ້ອງຈາກຜູ້ຂາຍເພື່ອຫັນປ່ຽນ. ຖ້າທ່ານສົງໄສວ່າສິ່ງທີ່ນັບວ່າເປັນ "ເປີດ," ແມ່ນຫຍັງທີ່ເປັນພຽງແຕ່ການຕະຫຼາດ, ແລະວິທີການນໍາໃຊ້ຕົວຈິງໃນບ່ອນເຮັດວຽກ, ທ່ານຢູ່ໃນສະຖານທີ່ທີ່ເຫມາະສົມ. ຄວ້າກາເຟ - ນີ້ຈະເປັນປະໂຫຍດ, ແລະອາດຈະເປັນຄວາມຄິດເຫັນເລັກນ້ອຍ ☕🙂.
ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:
🔗 ວິທີການລວມເອົາ AI ເຂົ້າໃນທຸລະກິດຂອງທ່ານ
ຂັ້ນຕອນການປະຕິບັດຕົວຈິງເພື່ອປະສົມປະສານເຄື່ອງມື AI ເພື່ອການເຕີບໂຕຂອງທຸລະກິດທີ່ສະຫຼາດກວ່າ.
🔗 ວິທີການໃຊ້ AI ເພື່ອໃຫ້ມີປະສິດທິພາບຫຼາຍຂຶ້ນ
ຄົ້ນພົບຂະບວນການເຮັດວຽກ AI ທີ່ມີປະສິດທິພາບທີ່ຊ່ວຍປະຢັດເວລາ ແລະ ເພີ່ມປະສິດທິພາບ.
🔗 ທັກສະ AI ແມ່ນຫຍັງ?
ຮຽນຮູ້ຄວາມສາມາດດ້ານ AI ທີ່ສຳຄັນທີ່ຈຳເປັນສຳລັບຜູ້ຊ່ຽວຊານທີ່ພ້ອມສຳລັບອະນາຄົດ.
🔗 Google Vertex AI ແມ່ນຫຍັງ
ເຂົ້າໃຈ Vertex AI ຂອງ Google ແລະວິທີທີ່ມັນປັບປຸງການຮຽນຮູ້ຂອງເຄື່ອງຈັກ.
Open Source AI ແມ່ນຫຍັງ? 🤖🔓
ທີ່ງ່າຍທີ່ສຸດ, Open Source AI ຫມາຍຄວາມວ່າສ່ວນປະກອບຂອງລະບົບ AI - ລະຫັດ, ນ້ໍາຫນັກຕົວແບບ, ທໍ່ຂໍ້ມູນ, scripts ການຝຶກອົບຮົມ, ແລະເອກະສານ - ຖືກປ່ອຍອອກມາພາຍໃຕ້ໃບອະນຸຍາດທີ່ໃຫ້ໃຜໃຊ້, ສຶກສາ, ດັດແປງ, ແລະແບ່ງປັນມັນ, ພາຍໃຕ້ເງື່ອນໄຂທີ່ສົມເຫດສົມຜົນ. ພາສາເສລີພາບຫຼັກນັ້ນມາຈາກຄໍານິຍາມແຫຼ່ງເປີດ ແລະຫຼັກການອັນຍາວນານຂອງສິດເສລີພາບຂອງຜູ້ໃຊ້ [1]. ບິດກັບ AI ແມ່ນວ່າມີສ່ວນປະກອບຫຼາຍກ່ວາພຽງແຕ່ລະຫັດ.
ບາງໂຄງການເຜີຍແຜ່ທຸກສິ່ງທຸກຢ່າງ: ລະຫັດ, ແຫຼ່ງຂໍ້ມູນການຝຶກອົບຮົມ, ສູດອາຫານ, ແລະຮູບແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມ. ຄົນອື່ນປ່ອຍພຽງແຕ່ນ ້ໍາຫນັກ ທີ່ມີໃບອະນຸຍາດ custom. ລະບົບນິເວດໃຊ້ຫຍໍ້ໜ້າຫຍໍ້ໆບາງເທື່ອ, ສະນັ້ນຂໍໃຫ້ຈັດລະບຽບໃນພາກຕໍ່ໄປ.
Open Source AI vs open weights vs open access 😅
ນີ້ແມ່ນບ່ອນທີ່ຄົນເວົ້າຜ່ານມາເຊິ່ງກັນແລະກັນ.
-
Open Source AI — ໂຄງການດັ່ງກ່າວປະຕິບັດຕາມຫຼັກການແຫຼ່ງເປີດໃນທົ່ວ stack ຂອງຕົນ. ລະຫັດແມ່ນຢູ່ພາຍໃຕ້ໃບອະນຸຍາດທີ່ OSI ອະນຸມັດ, ແລະເງື່ອນໄຂການແຈກຢາຍອະນຸຍາດໃຫ້ນໍາໃຊ້ຢ່າງກວ້າງຂວາງ, ດັດແກ້, ແລະແບ່ງປັນ. ຈິດໃຈຢູ່ທີ່ນີ້ສະທ້ອນເຖິງສິ່ງທີ່ OSI ອະທິບາຍ: ສິດເສລີພາບຂອງຜູ້ໃຊ້ມາກ່ອນ [1][2].
-
Open weights — ນໍ້າໜັກຕົວແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມແມ່ນສາມາດດາວໂຫຼດໄດ້ (ມັກຈະບໍ່ເສຍຄ່າ) ແຕ່ພາຍໃຕ້ເງື່ອນໄຂທີ່ເລືອກໄດ້. ທ່ານຈະເຫັນເງື່ອນໄຂການນໍາໃຊ້, ຈໍາກັດການແຈກຢາຍຄືນ, ຫຼືກົດລະບຽບການລາຍງານ. ຄອບຄົວ Llama ຂອງ Meta ສະແດງໃຫ້ເຫັນນີ້: ລະບົບນິເວດຂອງລະຫັດແມ່ນເປີດ, ແຕ່ແບບຈໍາລອງນ້ໍາຫນັກຈະສົ່ງພາຍໃຕ້ໃບອະນຸຍາດສະເພາະທີ່ມີເງື່ອນໄຂການນໍາໃຊ້ [4].
-
ການເຂົ້າເຖິງເປີດ — ທ່ານສາມາດຕີ API ໄດ້, ບາງທີສໍາລັບການຟຣີ, ແຕ່ວ່າທ່ານບໍ່ໄດ້ຮັບນ້ໍາຫນັກ. ເປັນປະໂຫຍດສໍາລັບການທົດລອງ, ແຕ່ບໍ່ແມ່ນແຫຼ່ງເປີດ.
ນີ້ບໍ່ແມ່ນພຽງແຕ່ semantics. ສິດ ແລະຄວາມສ່ຽງຂອງທ່ານມີການປ່ຽນແປງໃນທົ່ວປະເພດເຫຼົ່ານີ້. ການເຮັດວຽກໃນປັດຈຸບັນຂອງ OSI ກ່ຽວກັບ AI ແລະການເປີດແປນ unpacks nuances ເຫຼົ່ານີ້ໃນພາສາທໍາມະດາ [2].
ສິ່ງທີ່ເຮັດໃຫ້ Open Source AI ຕົວຈິງດີ ✅
ຂໍໃຫ້ໄວແລະຊື່ສັດ.
-
ການກວດສອບ - ທ່ານສາມາດອ່ານລະຫັດ, ກວດສອບສູດຂໍ້ມູນ, ແລະຂັ້ນຕອນການຝຶກອົບຮົມການຕິດຕາມ. ມັນຊ່ວຍໃນການປະຕິບັດຕາມ, ການທົບທວນຄືນດ້ານຄວາມປອດໄພ, ແລະຄວາມຢາກຮູ້ທີ່ລ້າສະໄຫມ. ຂອບການຄຸ້ມຄອງຄວາມສ່ຽງຂອງ NIST AI ຊຸກຍູ້ໃຫ້ມີເອກະສານ ແລະການປະຕິບັດຄວາມໂປ່ງໃສທີ່ໂຄງການເປີດສາມາດຕອບສະໜອງໄດ້ງ່າຍຂຶ້ນ [3].
-
ການປັບຕົວໄດ້ — ເຈົ້າຍັງບໍ່ໄດ້ໃສ່ໃນແຜນທີ່ເສັ້ນທາງຂອງຜູ້ຂາຍ. ສ້ອມມັນ. ເພີ້ມມັນ. ສົ່ງມັນ. Lego, ບໍ່ຕິດພາດສະຕິກ.
-
ການຄວບຄຸມຄ່າໃຊ້ຈ່າຍ — ເປັນເຈົ້າພາບຂອງຕົນເອງໃນເວລາທີ່ມັນຖືກກວ່າ. ລະເບີດຂຶ້ນສູ່ເມກເມື່ອມັນບໍ່ຢູ່. ປະສົມແລະຈັບຄູ່ຮາດແວ.
-
ຄວາມໄວຂອງຊຸມຊົນ — ແມງໄມ້ໄດ້ຮັບການແກ້ໄຂ, ມີລັກສະນະທີ່ດິນ, ແລະທ່ານໄດ້ຮຽນຮູ້ຈາກເພື່ອນມິດ. ຫຍຸ້ງ? ບາງຄັ້ງ. ຜະລິດຕະພັນ? ເລື້ອຍໆ.
-
ຄວາມຊັດເຈນຂອງການປົກຄອງ - ໃບອະນຸຍາດເປີດທີ່ແທ້ຈິງແມ່ນສາມາດຄາດເດົາໄດ້. ປຽບທຽບກັບເງື່ອນໄຂການບໍລິການ API ທີ່ປ່ຽນແປງຢ່າງງຽບໆໃນວັນອັງຄານ.
ມັນສົມບູນແບບບໍ? ບໍ່. ແຕ່ການຄ້າຂາຍແມ່ນຖືກຕ້ອງ - ຫຼາຍກວ່າທີ່ທ່ານໄດ້ຮັບຈາກການບໍລິການກ່ອງດໍາຫຼາຍ.
Open Source AI stack: ລະຫັດ, ນ້ຳໜັກ, ຂໍ້ມູນ, ແລະກາວ🧩
ຄິດເຖິງໂຄງການ AI ຄືກັບລາຊາການາທີ່ແປກປະຫຼາດ. ຊັ້ນຢູ່ທົ່ວທຸກແຫ່ງ.
-
Frameworks ແລະ runtimes — ເຄື່ອງມືເພື່ອກໍານົດ, ການຝຶກອົບຮົມ, ແລະການບໍລິການຕົວແບບ (ເຊັ່ນ: PyTorch, TensorFlow). ຊຸມຊົນທີ່ມີສຸຂະພາບດີ ແລະເອກະສານສຳຄັນກວ່າຊື່ຍີ່ຫໍ້.
-
ສະຖາປັດຕະຍະກໍາແບບຈໍາລອງ — ແບບແຜນງານ: ໝໍ້ແປງໄຟ, ແບບຈໍາລອງການແຜ່ກະຈາຍ, ການຕິດຕັ້ງທີ່ເພີ່ມການດຶງຂໍ້ມູນ.
-
ນ້ຳໜັກ — ຕົວກໍານົດການທີ່ໄດ້ຮຽນຮູ້ໃນລະຫວ່າງການຝຶກອົບຮົມ. “ເປີດ” ຢູ່ທີ່ນີ້ແມ່ນຂຶ້ນກັບສິດການແຈກຢາຍຄືນໃໝ່ ແລະການນຳໃຊ້ທາງການຄ້າ, ບໍ່ພຽງແຕ່ສາມາດດາວໂຫຼດໄດ້ເທົ່ານັ້ນ.
-
ຂໍ້ມູນແລະສູດ — scripts curation, ການກັ່ນຕອງ, ການເພີ່ມເຕີມ, ຕາຕະລາງການຝຶກອົບຮົມ. ຄວາມໂປ່ງໃສໃນທີ່ນີ້ແມ່ນຄໍາສໍາລັບການສືບພັນ.
-
ເຄື່ອງມືແລະ orchestration — ເຄື່ອງແມ່ຂ່າຍການອະພິປາຍ, ຖານຂໍ້ມູນ vector, harnesses ການປະເມີນຜົນ, ການສັງເກດ, CI / CD.
-
ການອອກໃບອະນຸຍາດ - ກະດູກສັນຫຼັງທີ່ງຽບສະຫງົບທີ່ຕັດສິນໃຈວ່າເຈົ້າສາມາດເຮັດຫຍັງໄດ້. ເພີ່ມເຕີມຂ້າງລຸ່ມນີ້.
ໃບອະນຸຍາດ 101 ສໍາລັບ Open Source AI 📜
ທ່ານບໍ່ ຈຳ ເປັນຕ້ອງເປັນທະນາຍຄວາມ. ທ່ານ ຈຳ ເປັນຕ້ອງຊອກຫາຮູບແບບຕ່າງໆ.
-
ລະຫັດອະນຸຍາດ - MIT, BSD, Apache-2.0. Apache ປະກອບມີການໃຫ້ສິດທິບັດທີ່ຊັດເຈນທີ່ທີມງານຫຼາຍຄົນຊື່ນຊົມ [1].
-
Copyleft — ຄອບຄົວ GPL ຮຽກຮ້ອງໃຫ້ອະນຸພັນຍັງເປີດພາຍໃຕ້ໃບອະນຸຍາດດຽວກັນ. ມີອໍານາດ, ແຕ່ວາງແຜນສໍາລັບມັນໃນສະຖາປັດຕະຍະກໍາຂອງທ່ານ.
-
ໃບອະນຸຍາດສະເພາະຕົວແບບ — ສໍາລັບນໍ້າໜັກ ແລະຊຸດຂໍ້ມູນ, ທ່ານຈະເຫັນໃບອະນຸຍາດແບບກຳນົດເອງເຊັ່ນ: ຄອບຄົວທີ່ຮັບຜິດຊອບ AI License (OpenRAIL). ການອະນຸຍາດ ແລະຂໍ້ຈຳກັດໃນການນຳໃຊ້ເຂົ້າລະຫັດເຫຼົ່ານີ້; ບາງຄົນອະນຸຍາດໃຫ້ນໍາໃຊ້ທາງການຄ້າຢ່າງກວ້າງຂວາງ, ຄົນອື່ນເພີ່ມ guardrails ປະມານການນໍາໃຊ້ທີ່ບໍ່ຖືກຕ້ອງ [5].
-
Creative Commons ສໍາລັບຂໍ້ມູນ — CC-BY ຫຼື CC0 ແມ່ນທົ່ວໄປສໍາລັບຊຸດຂໍ້ມູນ ແລະເອກະສານ. ຄຸນລັກສະນະສາມາດຈັດການໄດ້ໃນລະດັບນ້ອຍ; ສ້າງຮູບແບບຕົ້ນ.
Pro tip: ຮັກສາລາຍຊື່ຫນຶ່ງ pager ແຕ່ລະການເພິ່ງພາອາໃສ, ໃບອະນຸຍາດຂອງມັນ, ແລະວ່າການແຈກຢາຍຄືນໃຫມ່ທາງການຄ້າໄດ້ຖືກອະນຸຍາດຫຼືບໍ່. ເບື່ອ? ແມ່ນແລ້ວ. ຈໍາເປັນ? ຄືກັນ.
ຕາຕະລາງປຽບທຽບ: ໂຄງການ AI Open Source ຍອດນິຍົມ ແລະບ່ອນທີ່ພວກມັນສ່ອງແສງ 📊
ສັບສົນເລັກນ້ອຍກ່ຽວກັບຈຸດປະສົງ - ນັ້ນແມ່ນວິທີທີ່ບັນທຶກທີ່ແທ້ຈິງເບິ່ງ
| ເຄື່ອງມື / ໂຄງການ | ສຳລັບໃຜ | ລາຄາປະມານ | ເປັນຫຍັງມັນເຮັດວຽກໄດ້ດີ |
|---|---|---|---|
| PyTorch | ນັກຄົ້ນຄວ້າ, ວິສະວະກອນ | ຟຣີ | ກຣາຟແບບໄດນາມິກ, ຊຸມຊົນໃຫຍ່, ເອກະສານທີ່ເຂັ້ມແຂງ. ຮົບທົດສອບໃນຜະລິດຕະພັນ. |
| TensorFlow | ທີມງານວິສາຫະກິດ, ML ops | ຟຣີ | ໂໝດກຣາບ, TF-Serving, ຄວາມເລິກຂອງລະບົບນິເວດ. ການຮຽນຮູ້ທີ່ກ້າວຂຶ້ນສໍາລັບບາງຄົນ, ຍັງແຂງ. |
| ກອດຕົວຫັນໜ້າ | ຜູ້ກໍ່ສ້າງທີ່ມີກໍານົດເວລາ | ຟຣີ | ຮູບແບບທີ່ໄດ້ຝຶກອົບຮົມ, ທໍ່, ຊຸດຂໍ້ມູນ, ການປັບລະອຽດງ່າຍ. ດ້ວຍຄວາມຊື່ສັດທາງລັດ. |
| vLLM | ທີມງານທີ່ມີຈິດໃຈ Infra-minded | ຟຣີ | ການບໍລິການ LLM ໄວ, ແຄດ KV ທີ່ມີປະສິດທິພາບ, ການສົ່ງຂໍ້ມູນທີ່ເຂັ້ມແຂງໃນ GPUs ທົ່ວໄປ. |
| Llama.cpp | Tinkerers, ອຸປະກອນຂອບ | ຟຣີ | ແລ່ນແບບຈໍາລອງຢູ່ໃນເຄື່ອງໃນຄອມພິວເຕີໂນດບຸກ ແລະໂທລະສັບທີ່ມີປະລິມານ. |
| LangChain | App devs, ຕົວແບບ | ຟຣີ | ລະບົບຕ່ອງໂສ້ປະກອບ, ຕົວເຊື່ອມຕໍ່, ຕົວແທນ. ໄວຊະນະຖ້າທ່ານຮັກສາມັນງ່າຍດາຍ. |
| ການແຜ່ກະຈາຍຄົງທີ່ | ຄວາມຄິດສ້າງສັນ, ທີມງານຜະລິດຕະພັນ | ນ້ຳໜັກຟຣີ | ການສ້າງຮູບພາບໃນທ້ອງຖິ່ນຫຼືຟັງ; ຂະບວນການເຮັດວຽກຂະຫນາດໃຫຍ່ແລະ UI ທີ່ຢູ່ອ້ອມຮອບມັນ. |
| ໂອລາມາ | ນັກພັດທະນາຜູ້ທີ່ຮັກ CLIs ທ້ອງຖິ່ນ | ຟຣີ | ດຶງແລະແລ່ນຕົວແບບທ້ອງຖິ່ນ. ໃບອະນຸຍາດແຕກຕ່າງກັນໄປຕາມບັດແບບຈໍາລອງ—ເບິ່ງວ່າ. |
ແມ່ນແລ້ວ, "ຟຣີ." ການເປັນເຈົ້າພາບ, GPUs, ບ່ອນຈັດເກັບຂໍ້ມູນ, ແລະຊົ່ວໂມງຄົນບໍ່ເສຍເງິນ.
ວິທີທີ່ບໍລິສັດໃຊ້ Open Source AI ຕົວຈິງຢູ່ບ່ອນເຮັດວຽກ 🏢⚙️
ທ່ານຈະໄດ້ຍິນສອງຢ່າງທີ່ສຸດ: ທັງຫມົດທຸກຄົນຄວນຈະເປັນເຈົ້າພາບຂອງທຸກສິ່ງທຸກຢ່າງ, ຫຼືບໍ່ມີໃຜຄວນ. ຊີວິດທີ່ແທ້ຈິງແມ່ນ squishier.
-
ການສ້າງຕົວແບບຢ່າງໄວ — ເລີ່ມຕົ້ນດ້ວຍຮູບແບບເປີດທີ່ອະນຸຍາດເພື່ອກວດສອບ UX ແລະຜົນກະທົບ. ເຕົາປະຕິກອນຕໍ່ມາ.
-
ການໃຫ້ບໍລິການແບບປະສົມ — ຮັກສາຮູບແບບ VPC ທີ່ເປັນເຈົ້າພາບ ຫຼືຢູ່ໃນ prem ສໍາລັບການໂທທີ່ລະອຽດອ່ອນກັບຄວາມເປັນສ່ວນຕົວ. ກັບຄືນໄປຫາ API ທີ່ເປັນເຈົ້າພາບສໍາລັບການໂຫຼດຫາງຍາວຫຼື spiky. ປົກກະຕິຫຼາຍ.
-
ການປັບລະອຽດສຳລັບວຽກແຄບ - ການປັບຕົວໂດເມນມັກຈະຕີຂະໜາດດິບ.
-
RAG ຢູ່ທົ່ວທຸກແຫ່ງ — ລຸ້ນທີ່ເພີ່ມການດຶງຂໍ້ມູນຊ່ວຍຫຼຸດຜ່ອນຄວາມຫຼົງໄຫຼໂດຍການໃສ່ຄຳຕອບໃນຂໍ້ມູນຂອງທ່ານ. ເປີດ vector DBs ແລະອະແດບເຕີເຮັດໃຫ້ສິ່ງນີ້ສາມາດເຂົ້າຫາໄດ້.
-
ຂອບ ແລະ ອອບໄລນ໌ — ຮູບແບບນ້ຳໜັກເບົາທີ່ລວບລວມໄວ້ສຳລັບແລັບທັອບ, ໂທລະສັບ, ຫຼື ບຣາວເຊີ ຂະຫຍາຍພື້ນຜິວຜະລິດຕະພັນ.
-
ການປະຕິບັດຕາມແລະການກວດສອບ - ເພາະວ່າທ່ານສາມາດກວດກາຄວາມລໍາຄານ, ຜູ້ກວດສອບມີບາງສິ່ງບາງຢ່າງທີ່ແນ່ນອນທີ່ຈະທົບທວນຄືນ. ຈັບຄູ່ນັ້ນກັບນະໂຍບາຍ AI ທີ່ມີຄວາມຮັບຜິດຊອບທີ່ເຮັດແຜນທີ່ກັບປະເພດ RMF ຂອງ NIST ແລະຄໍາແນະນໍາເອກະສານ [3].
ບັນທຶກພາກສະຫນາມນ້ອຍໆ: ທີມງານ SaaS ທີ່ມີຈິດໃຈເປັນສ່ວນຕົວທີ່ຂ້ອຍໄດ້ເຫັນ (ຕະຫຼາດກາງ, ຜູ້ໃຊ້ EU) ໄດ້ຮັບຮອງເອົາການຕັ້ງຄ່າແບບປະສົມ: ຮູບແບບເປີດຂະຫນາດນ້ອຍໃນ VPC ສໍາລັບ 80% ຂອງການຮ້ອງຂໍ; ລະເບີດໄປຫາ API ທີ່ເປັນເຈົ້າພາບສໍາລັບການເຕືອນກ່ຽວກັບສະພາບການທີ່ຫາຍາກ, ຍາວ. ພວກເຂົາເຈົ້າໄດ້ຕັດຄວາມລ່າຊ້າສໍາລັບເສັ້ນທາງທົ່ວໄປ ແລະເຮັດໃຫ້ເອກະສານ DPIA ງ່າຍດາຍ - ໂດຍບໍ່ມີການຕົ້ມມະຫາສະຫມຸດ.
ຄວາມສ່ຽງ ແລະ gotchas ທີ່ທ່ານຄວນວາງແຜນສໍາລັບ 🧨
ຂໍໃຫ້ຜູ້ໃຫຍ່ກ່ຽວກັບເລື່ອງນີ້.
-
ໃບຂັບຂີ່ - A repo ເລີ່ມຕົ້ນ MIT, ຫຼັງຈາກນັ້ນນ້ໍາຫນັກຍ້າຍໄປສູ່ໃບອະນຸຍາດທີ່ກໍາຫນົດເອງ. ຮັກສາການລົງທະບຽນພາຍໃນຂອງເຈົ້າໃຫ້ອັບເດດ ຫຼືເຈົ້າຈະສົ່ງຄວາມແປກໃຈຕໍ່ການປະຕິບັດຕາມ [2][4][5].
-
ຂໍ້ມູນການພິສູດ — ຂໍ້ມູນການຝຶກອົບຮົມທີ່ມີສິດທິ fuzzy ສາມາດໄຫຼເຂົ້າໄປໃນຕົວແບບ. ຕິດຕາມແຫຼ່ງຂໍ້ມູນແລະປະຕິບັດຕາມໃບອະນຸຍາດຊຸດຂໍ້ມູນ, ບໍ່ແມ່ນ vibes [5].
-
ຄວາມປອດໄພ — ໃຫ້ການປະຕິບັດວັດຖຸບູຮານແບບຈໍາລອງເຊັ່ນດຽວກັນກັບຕ່ອງໂສ້ການສະຫນອງອື່ນໆ: checksums, ການອອກລາຍຊື່, SBOMs. ແມ່ນແຕ່ SECURITY.md ໜ້ອຍທີ່ສຸດກໍຕີຄວາມງຽບໄດ້.
-
ຄວາມແຕກຕ່າງດ້ານຄຸນນະພາບ — ແບບເປີດແຕກຕ່າງກັນຢ່າງກວ້າງຂວາງ. ປະເມີນກັບວຽກງານຂອງທ່ານ, ບໍ່ພຽງແຕ່ກະດານຈັດອັນດັບ.
-
ຄ່າໃຊ້ຈ່າຍອິນຟຣາທີ່ເຊື່ອງໄວ້ — inference ໄວຕ້ອງການ GPUs, quantization, batching, caching. ເປີດເຄື່ອງມືຊ່ວຍເຫຼືອ; ທ່ານຍັງຈ່າຍຢູ່ໃນຄອມພິວເຕີ້.
-
ຫນີ້ສິນການປົກຄອງ - ຖ້າບໍ່ມີໃຜເປັນເຈົ້າຂອງວົງຈອນຊີວິດແບບຈໍາລອງ, ທ່ານໄດ້ຮັບ spaghetti ການຕັ້ງຄ່າ. ບັນຊີລາຍຊື່ການກວດສອບ MLOps ທີ່ມີນ້ໍາຫນັກເບົາແມ່ນຄໍາ.
ການເລືອກລະດັບຄວາມເປີດທີ່ເໝາະສົມສຳລັບກໍລະນີໃຊ້ຂອງເຈົ້າ 🧭
ເສັ້ນທາງການຕັດສິນໃຈທີ່ບິດເບືອນເລັກນ້ອຍ:
-
ຕ້ອງການ ການຂົນສົ່ງໄວ ທີ່ມີຄວາມຕ້ອງການປະຕິບັດຕາມແສງສະຫວ່າງບໍ? ເລີ່ມຕົ້ນດ້ວຍຮູບແບບເປີດທີ່ອະນຸຍາດ, ການປັບແຕ່ງໜ້ອຍສຸດ, ການບໍລິການຟັງຄລາວ.
-
ຕ້ອງການ ຄວາມເປັນສ່ວນຕົວຢ່າງເຂັ້ມງວດ ຫຼື ອອຟໄລ ? ເລືອກສະເຕກເປີດທີ່ຮອງຮັບໄດ້ດີ, ການສົມມຸດຕິຖານຂອງເຈົ້າຂອງເອງ, ແລະທົບທວນໃບອະນຸຍາດຢ່າງລະມັດລະວັງ.
-
ຕ້ອງ ການສິດທິທາງການຄ້າຢ່າງກວ້າງຂວາງ ແລະການແຈກຢາຍຄືນໃຫມ່ບໍ? ຕ້ອງການລະຫັດທີ່ສອດຄ່ອງ OSI ບວກກັບໃບອະນຸຍາດແບບຈໍາລອງທີ່ອະນຸຍາດໃຫ້ນໍາໃຊ້ທາງການຄ້າແລະການແຈກຢາຍຄືນໃຫມ່ [1][5].
-
ຕ້ອງການ ຄວາມຍືດຫຍຸ່ນການຄົ້ນຄວ້າ ? ອະນຸຍາດໃຫ້ສິ້ນສຸດເຖິງຈຸດຈົບ, ລວມທັງຂໍ້ມູນ, ສໍາລັບການສືບພັນ ແລະຄວາມສາມາດໃນການແບ່ງປັນ.
-
ບໍ່ແນ່ໃຈວ່າ? ນັກບິນທັງສອງ. ເສັ້ນທາງໜຶ່ງຈະຮູ້ສຶກດີຂຶ້ນໃນໜຶ່ງອາທິດ.
ວິທີການປະເມີນໂຄງການ Open Source AI ຄືກັບມືອາຊີບ 🔍
ບັນຊີລາຍການດ່ວນທີ່ຂ້ອຍເກັບໄວ້, ບາງຄັ້ງກໍ່ໃສ່ຜ້າເຊັດຕົວ.
-
ຄວາມຊັດເຈນຂອງໃບອະນຸຍາດ — OSI ອະນຸມັດສໍາລັບລະຫັດ? ນ້ ຳ ໜັກ ແລະຂໍ້ມູນແມ່ນຫຍັງ? ຂໍ້ຈໍາກັດການນໍາໃຊ້ໃດຫນຶ່ງທີ່ເດີນທາງກັບຮູບແບບທຸລະກິດຂອງທ່ານ [1][2][5]?
-
ເອກະສານ - ການຕິດຕັ້ງ, ເລີ່ມຕົ້ນໄວ, ຕົວຢ່າງ, ການແກ້ໄຂບັນຫາ. Docs ແມ່ນວັດທະນະທໍາບອກ.
-
ປ່ອຍ cadence — Tagged ປ່ອຍ ແລະ changelogs ແນະ ນໍາ ຄວາມ ຫມັ້ນ ຄົງ; ການຊຸກຍູ້ເປັນບາງຄັ້ງຊີ້ໃຫ້ເຫັນວິລະຊົນ.
-
Benchmarks and evaals — ວຽກງານເປັນຈິງ? Evals ແລ່ນໄດ້ບໍ?
-
ການບໍາລຸງຮັກສາແລະການປົກຄອງ — ເຈົ້າຂອງລະຫັດທີ່ຈະແຈ້ງ, ບັນຫາ triage, ການຕອບສະຫນອງ PR.
-
ລະບົບນິເວດເຫມາະ — ຫຼິ້ນໄດ້ດີກັບຮາດແວຂອງທ່ານ, ການເກັບຮັກສາຂໍ້ມູນ, ການບັນທຶກ, auth.
-
ທ່າທາງຄວາມປອດໄພ — ວັດຖຸທີ່ລົງນາມ, ການສະແກນແບບເພິ່ງພາອາໄສ, ການຈັດການ CVE.
-
ສັນຍານຊຸມຊົນ - ການສົນທະນາ, ຄໍາຕອບຂອງເວທີ, ຕົວຢ່າງ repos.
ສໍາລັບການສອດຄ່ອງຢ່າງກວ້າງຂວາງກັບການປະຕິບັດທີ່ຫນ້າເຊື່ອຖື, ວາງແຜນຂະບວນການຂອງທ່ານກັບປະເພດ NIST AI RMF ແລະເອກະສານປອມ [3].
Deep dive 1: ກາງ messy ຂອງໃບອະນຸຍາດແບບຈໍາລອງ 🧪
ບາງຕົວແບບທີ່ມີຄວາມສາມາດຫຼາຍທີ່ສຸດອາໄສຢູ່ໃນຖັງ "ນ້ໍາຫນັກທີ່ເປີດດ້ວຍເງື່ອນໄຂ". ພວກມັນສາມາດເຂົ້າເຖິງໄດ້, ແຕ່ມີຂໍ້ຈຳກັດການນຳໃຊ້ ຫຼືກົດລະບຽບການແຈກຢາຍຄືນໃໝ່. ນັ້ນອາດຈະດີຖ້າຜະລິດຕະພັນຂອງທ່ານບໍ່ຂຶ້ນກັບການຫຸ້ມຫໍ່ແບບຈໍາລອງຄືນໃຫມ່ຫຼືສົ່ງມັນໄປສູ່ສະພາບແວດລ້ອມຂອງລູກຄ້າ. ຖ້າທ່ານ ຕ້ອງ ການ, ເຈລະຈາຫຼືເລືອກພື້ນຖານທີ່ແຕກຕ່າງກັນ. ສິ່ງສໍາຄັນແມ່ນການສ້າງ ຂອງທ່ານ ຕໍ່ກັບ ຕົວຈິງ , ບໍ່ແມ່ນການຕອບ blog [4][5].
ໃບອະນຸຍາດແບບ OpenRAIL ພະຍາຍາມເຮັດໃຫ້ສົມດູນກັນ: ຊຸກຍູ້ໃຫ້ມີການຄົ້ນຄວ້າເປີດ ແລະແບ່ງປັນ, ໃນຂະນະທີ່ຂັດຂວາງການໃຊ້ໃນທາງທີ່ຜິດ. ເຈດຕະນາດີ; ພັນທະຍັງຄົງເປັນຂອງເຈົ້າ. ອ່ານຂໍ້ກໍານົດແລະຕັດສິນໃຈວ່າເງື່ອນໄຂທີ່ເຫມາະສົມກັບຄວາມຢາກອາຫານຄວາມສ່ຽງຂອງທ່ານຫຼືບໍ່ [5].
Deep dive 2: ຄວາມໂປ່ງໃສຂອງຂໍ້ມູນ ແລະນິທານການສືບພັນ 🧬
"ໂດຍບໍ່ມີການ dump ຂໍ້ມູນເຕັມ, Open Source AI ແມ່ນປອມ." ບໍ່ຂ້ອນຂ້າງ. ການພິສູດ ຂໍ້ມູນ ແລະ ສູດອາຫານ ສາມາດໃຫ້ຄວາມໂປ່ງໃສທີ່ມີຄວາມໝາຍ ເຖິງແມ່ນວ່າບາງຊຸດຂໍ້ມູນດິບຖືກຈຳກັດໄວ້ກໍຕາມ. ທ່ານສາມາດເອກະສານການກັ່ນຕອງ, ອັດຕາສ່ວນຕົວຢ່າງ, ແລະທໍາຄວາມສະອາດ heuristics ໄດ້ດີພຽງພໍສໍາລັບທີມງານອື່ນເພື່ອປະມານຜົນໄດ້ຮັບ. ການສືບພັນທີ່ສົມບູນແບບແມ່ນງາມ. ຄວາມໂປ່ງໃສທີ່ສາມາດປະຕິບັດໄດ້ມັກຈະພຽງພໍ [3][5].
ເມື່ອຊຸດຂໍ້ມູນເປີດ, ລົດຊາດ Creative Commons ເຊັ່ນ CC-BY ຫຼື CC0 ແມ່ນທົ່ວໄປ. ການສະແດງຕາມຂະໜາດອາດເຮັດໃຫ້ງຸ່ມງ່າມໄດ້, ສະນັ້ນໃຫ້ມາດຕະຖານວິທີທີ່ເຈົ້າຈັດການມັນກ່ອນໄວອັນຄວນ.
Deep dive 3: ການປະຕິບັດ MLOps ສໍາລັບແບບເປີດ 🚢
ການຂົນສົ່ງແບບເປີດແມ່ນຄ້າຍຄືການຂົນສົ່ງບໍລິການໃດກໍ່ຕາມ, ບວກກັບ quirks ເລັກນ້ອຍ.
-
ການຮັບໃຊ້ຊັ້ນຂໍ້ມູນ - ເຊີບເວີ inference ພິເສດຈະເພີ່ມປະສິດທິພາບ batching, ການຈັດການ KV-cache, ແລະການຖ່າຍທອດໂທເຄັນ.
-
Quantization — ນ້ໍາຫນັກນ້ອຍກວ່າ → inference ລາຄາຖືກກວ່າແລະການນໍາໃຊ້ແຂບງ່າຍຂຶ້ນ. ຄຸນນະພາບການຄ້າແຕກຕ່າງກັນ; ວັດແທກກັບ ຂອງທ່ານ .
-
ຄວາມສາມາດສັງເກດ - ບັນທຶກ prompts / ຜົນໄດ້ຮັບທີ່ມີຄວາມເປັນສ່ວນຕົວຢູ່ໃນໃຈ. ຕົວຢ່າງສໍາລັບການປະເມີນຜົນ. ເພີ່ມການກວດສອບ drift ຄືກັບທີ່ເຈົ້າຕ້ອງການສໍາລັບ ML ແບບດັ້ງເດີມ.
-
ການປັບປຸງ — ຕົວແບບສາມາດປ່ຽນແປງພຶດຕິກໍາ subtly; ໃຊ້ canaries ແລະເກັບຮັກສາແຟ້ມຂໍ້ມູນສໍາລັບ rollback ແລະການກວດສອບ.
-
Eval harness — ຮັກສາຊຸດ eval ສະເພາະວຽກງານ, ບໍ່ພຽງແຕ່ມາດຕະຖານທົ່ວໄປ. ຮວມເອົາການກະຕຸ້ນເຕືອນຂອງຝ່າຍຄ້ານ ແລະງົບປະມານໃນການຕອບສະໜອງ.
ແຜນຜັງຂະໜາດນ້ອຍ: ຈາກສູນໄປຫານັກບິນທີ່ໃຊ້ໄດ້ໃນ 10 ຂັ້ນຕອນ 🗺️
-
ກໍານົດຫນຶ່ງຫນ້າວຽກແຄບແລະ metric. ບໍ່ມີເວທີອັນຍິ່ງໃຫຍ່ເທື່ອ.
-
ເລືອກຮູບແບບພື້ນຖານທີ່ໄດ້ຮັບອະນຸຍາດທີ່ໃຊ້ຢ່າງກວ້າງຂວາງ ແລະເປັນເອກະສານທີ່ດີ.
-
ຢືນຂຶ້ນ inference ທ້ອງຖິ່ນແລະ API wrapper ບາງໆ. ຮັກສາມັນຫນ້າເບື່ອ.
-
ເພີ່ມການດຶງຂໍ້ມູນໃສ່ຂໍ້ມູນພື້ນຖານໃນຂໍ້ມູນຂອງທ່ານ.
-
ກະກຽມຊຸດ eval ທີ່ມີປ້າຍນ້ອຍໆທີ່ສະທ້ອນເຖິງຜູ້ໃຊ້ຂອງທ່ານ, warts ແລະທັງຫມົດ.
-
ການປບັລະອຽດ ຫຼືປບັທັນທີຫາກ eval ເວົ້າວ່າທ່ານຄວນ.
-
Quantize ຖ້າ latency ຫຼືຄ່າໃຊ້ຈ່າຍກັດ. ວັດແທກຄຸນນະພາບຄືນໃໝ່.
-
ເພີ່ມການບັນທຶກ, ການເຕືອນໃຫ້ທີມສີແດງ, ແລະນະໂຍບາຍການລ່ວງລະເມີດ.
-
ປະຕູທີ່ມີທຸງຄຸນສົມບັດແລະປ່ອຍໄປຫາກຸ່ມນ້ອຍ.
-
ເຮັດຊ້ຳ. ສົ່ງການປັບປຸງເລັກນ້ອຍຕໍ່ອາທິດ… ຫຼືເມື່ອມັນດີຂຶ້ນແທ້ໆ.
myths ທົ່ວໄປກ່ຽວກັບ Open Source AI, debunked ເລັກນ້ອຍ 🧱
-
Myth: ແບບເປີດແມ່ນສະເຫມີໄປຮ້າຍແຮງກວ່າເກົ່າ. ຄວາມເປັນຈິງ: ສໍາລັບວຽກງານເປົ້າຫມາຍທີ່ມີຂໍ້ມູນທີ່ຖືກຕ້ອງ, ຮູບແບບເປີດທີ່ປັບລະອຽດສາມາດປະຕິບັດຫນ້າທີ່ເປັນເຈົ້າພາບຂະຫນາດໃຫຍ່ກວ່າ.
-
Myth: ເປີດຫມາຍຄວາມວ່າບໍ່ປອດໄພ. ຄວາມເປັນຈິງ: ການເປີດກວ້າງສາມາດປັບປຸງການກວດສອບໄດ້. ຄວາມປອດໄພແມ່ນຂຶ້ນກັບການປະຕິບັດ, ບໍ່ແມ່ນຄວາມລັບ [3].
-
Myth: ໃບອະນຸຍາດບໍ່ສໍາຄັນວ່າມັນບໍ່ເສຍຄ່າ. ຄວາມເປັນຈິງ: ມັນສຳຄັນ ທີ່ສຸດ ເມື່ອມັນບໍ່ເສຍຄ່າ, ເພາະວ່າການໃຊ້ເຄື່ອງຊັ່ງຟຣີ. ທ່ານຕ້ອງການສິດທິທີ່ຊັດເຈນ, ບໍ່ແມ່ນ vibes [1][5].
Open Source AI 🧠✨
Open Source AI ບໍ່ແມ່ນສາສະຫນາ. ມັນເປັນຊຸດຂອງສິດເສລີພາບໃນການປະຕິບັດທີ່ຊ່ວຍໃຫ້ທ່ານສ້າງດ້ວຍການຄວບຄຸມຫຼາຍຂຶ້ນ, ການປົກຄອງທີ່ຊັດເຈນກວ່າ, ແລະເຮັດຊ້ໍາອີກໄວ. ເມື່ອມີຄົນເວົ້າວ່າຕົວແບບແມ່ນ "ເປີດ", ຖາມວ່າຊັ້ນໃດເປີດ: ລະຫັດ, ນ້ໍາຫນັກ, ຂໍ້ມູນ, ຫຼືພຽງແຕ່ເຂົ້າເຖິງ. ອ່ານໃບອະນຸຍາດ. ປຽບທຽບມັນກັບກໍລະນີການນໍາໃຊ້ຂອງທ່ານ. ແລະຫຼັງຈາກນັ້ນ, ສໍາຄັນ, ທົດສອບມັນກັບວຽກງານທີ່ແທ້ຈິງຂອງທ່ານ.
ສ່ວນທີ່ດີທີ່ສຸດ, ແປກ, ແມ່ນວັດທະນະທໍາ: ໂຄງການເປີດໄດ້ເຊື້ອເຊີນການປະກອບສ່ວນແລະການກວດສອບ, ເຊິ່ງມັກຈະເຮັດໃຫ້ທັງຊອບແວແລະຄົນດີຂຶ້ນ. ທ່ານອາດຈະຄົ້ນພົບວ່າການເຄື່ອນໄຫວທີ່ຊະນະບໍ່ແມ່ນຕົວແບບທີ່ໃຫຍ່ທີ່ສຸດຫຼືຕົວຊີ້ບອກທີ່ໄວທີ່ສຸດ, ແຕ່ເປັນແບບທີ່ເຈົ້າສາມາດເຂົ້າໃຈ, ແກ້ໄຂແລະປັບປຸງໃນອາທິດຫນ້າ. ນັ້ນແມ່ນພະລັງທີ່ງຽບສະຫງົບຂອງ Open Source AI - ບໍ່ແມ່ນລູກປືນເງິນ, ຄືກັບເຄື່ອງມືຫຼາຍອັນທີ່ໃສ່ດີທີ່ຊ່ວຍປະຫຍັດມື້.
ດົນເກີນໄປບໍ່ໄດ້ອ່ານ📝
Open Source AI ແມ່ນກ່ຽວກັບສິດເສລີພາບທີ່ມີຄວາມຫມາຍໃນການນໍາໃຊ້, ການສຶກສາ, ດັດແກ້, ແລະແບ່ງປັນລະບົບ AI. ມັນສະແດງໃນທົ່ວຊັ້ນຕ່າງໆ: ກອບ, ແບບຈໍາລອງ, ຂໍ້ມູນ, ແລະເຄື່ອງມື. ຢ່າສັບສົນແຫຼ່ງເປີດທີ່ມີນ້ໍາຫນັກເປີດຫຼືການເຂົ້າເຖິງທີ່ເປີດ. ກວດສອບໃບອະນຸຍາດ, ການປະເມີນຜົນກັບວຽກງານທີ່ແທ້ຈິງຂອງທ່ານ, ແລະການອອກແບບສໍາລັບການຄວາມປອດໄພແລະການຄຸ້ມຄອງຈາກມື້ຫນຶ່ງ. ເຮັດແນວນັ້ນ, ແລະທ່ານໄດ້ຮັບຄວາມໄວ, ການຄວບຄຸມ, ແລະແຜນທີ່ເສັ້ນທາງທີ່ສະຫງົບກວ່າ. ເປັນເລື່ອງແປກທີ່ຫາຍາກ, ຊື່ສັດບໍ່ມີຄ່າ🙃.
ເອກະສານອ້າງອີງ
[1] Open Source Initiative - Open Source Definition (OSD): ອ່ານເພີ່ມເຕີມ
[2] OSI - Deep Dive on AI & Openness: ອ່ານເພີ່ມເຕີມ
[3] NIST - AI Risk Management Framework: ອ່ານເພີ່ມເຕີມ
[4] Meta - Llama Model License: ອ່ານເພີ່ມເຕີມ
[5] Responsible AI Licenses (OpenRAIL): ອ່ານເພີ່ມເຕີມ