ວິທີການສ້າງຜູ້ຊ່ວຍ AI ແບບ DIY ດ້ວຍ Raspberry Pi

ວິທີການສ້າງຜູ້ຊ່ວຍ AI ແບບ DIY ດ້ວຍ Raspberry Pi

ຕ້ອງການຜູ້ຊ່ວຍສຽງນ້ອຍໆທີ່ຕິດຕາມຜູ້ນໍາຂອງເຈົ້າ, ແລ່ນດ້ວຍຮາດແວຂອງເຈົ້າເອງ, ແລະຈະບໍ່ສັ່ງສິບສອງຫມາກນັດໂດຍບັງເອີນເພາະມັນເຮັດໃຫ້ເຈົ້າເຂົ້າໃຈຜິດບໍ? ຜູ້ ຊ່ວຍ AI DIY ກັບ Raspberry Pi ແມ່ນບັນລຸໄດ້ຢ່າງແປກໃຈ, ມ່ວນ ແລະ ປ່ຽນແປງໄດ້. ເຈົ້າຈະສົ່ງຄຳປຸກ, ການຮັບຮູ້ສຽງເວົ້າ (ASR = ການຮັບຮູ້ສຽງເວົ້າອັດຕະໂນມັດ), ສະໝອງສຳລັບພາສາທຳມະຊາດ (ກົດລະບຽບ ຫຼື LLM), ແລະ ຂໍ້ຄວາມຫາສຽງເວົ້າ (TTS). ເພີ່ມສະຄຣິບບາງອັນ, ການບໍລິການໜຶ່ງ ຫຼືສອງອັນ, ແລະບາງການປັບສຽງຢ່າງລະມັດລະວັງ, ແລະທ່ານມີລຳໂພງອັດສະລິຍະທີ່ສາມາດໃສ່ໄດ້ທີ່ປະຕິບັດຕາມກົດລະບຽບຂອງເຈົ້າ.

ຂໍໃຫ້ເຈົ້າພາເຈົ້າຈາກສູນໄປສູ່ການເວົ້າກັບເຈົ້າ-Pi ໂດຍບໍ່ຕ້ອງດຶງຜົມແບບປົກກະຕິ. ພວກເຮົາຈະກວມເອົາພາກສ່ວນ, ການຕິດຕັ້ງ, ລະຫັດ, ການປຽບທຽບ, gotchas ... burrito ທັງຫມົດ. 🌯

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 ວິທີການສຶກສາ AI ທີ່ມີປະສິດທິພາບ
ສ້າງແຜນທີ່ເສັ້ນທາງການສຶກສາ, ໂຄງການປະຕິບັດ, ແລະຕິດຕາມຄວາມຄືບຫນ້າ.

🔗 ວິທີການເລີ່ມຕົ້ນບໍລິສັດ AI
ກວດ​ສອບ​ບັນ​ຫາ​, ສ້າງ MVP​, ປະ​ກອບ​ທີມ​ງານ​, ຮັບ​ປະ​ກັນ​ລູກ​ຄ້າ​ໃນ​ເບື້ອງ​ຕົ້ນ​.

🔗 ວິທີການໃຊ້ AI ເພື່ອໃຫ້ມີປະສິດທິພາບຫຼາຍຂຶ້ນ
ເຮັດໜ້າວຽກປະຈຳເປັນອັດຕະໂນມັດ, ປັບປຸງຂະບວນການເຮັດວຽກ, ແລະເພີ່ມຜົນຜະລິດທີ່ສ້າງສັນ.

🔗 ວິທີການລວມເອົາ AI ເຂົ້າໃນທຸລະກິດຂອງທ່ານ
ກໍານົດຂະບວນການທີ່ມີຜົນກະທົບສູງ, ປະຕິບັດນັກບິນ, ການວັດແທກ ROI, ຂະຫນາດ.


ສິ່ງທີ່ເຮັດໃຫ້ຜູ້ຊ່ວຍ DIY AI ທີ່ດີກັບ Raspberry Pi ✅

  • ສ່ວນຕົວໂດຍຄ່າເລີ່ມຕົ້ນ – ຮັກສາສຽງຢູ່ໃນທ້ອງຖິ່ນທີ່ເປັນໄປໄດ້. ທ່ານຕັດສິນໃຈສິ່ງທີ່ອອກຈາກອຸປະກອນ.

  • Modular – ອົງປະກອບແລກປ່ຽນຄື Lego: wake word engine, ASR, LLM, TTS.

  • ລາຄາບໍ່ແພງ – ສ່ວນຫຼາຍແມ່ນແຫຼ່ງເປີດ, ໄມໂຄຣໂຟນ, ລຳໂພງ, ແລະ Pi.

  • Hackable – ຕ້ອງ​ການ​ອັດ​ຕະ​ໂນ​ມັດ​ໃນ​ເຮືອນ, dashboards, routines, ຄວາມ​ສາ​ມາດ​ທີ່​ກໍາ​ນົດ​ເອງ? ງ່າຍ.

  • ເຊື່ອ​ຖື​ໄດ້ – ການ​ບໍ​ລິ​ການ​ຈັດ​ການ​, boots ແລະ​ເລີ່ມ​ຕົ້ນ​ການ​ຟັງ​ອັດ​ຕະ​ໂນ​ມັດ​.

  • ມ່ວນ - ເຈົ້າຈະຮຽນຮູ້ຫຼາຍຢ່າງກ່ຽວກັບສຽງ, ຂະບວນການ, ແລະການອອກແບບທີ່ຂັບເຄື່ອນໂດຍເຫດການ.

ຄໍາແນະນໍານ້ອຍໆ: ຖ້າທ່ານໃຊ້ Raspberry Pi 5 ແລະວາງແຜນທີ່ຈະແລ່ນແບບທ້ອງຖິ່ນທີ່ຫນັກກວ່າ, ເຄື່ອງເຢັນ clip-on ຈະຊ່ວຍພາຍໃຕ້ການໂຫຼດແບບຍືນຍົງ. (ເມື່ອສົງໃສ, ເລືອກ Active Cooler ທີ່ເປັນທາງການທີ່ອອກແບບມາສຳລັບ Pi 5.) [1]


🧰ຊິ້ນສ່ວນ ແລະ ເຄື່ອງມືທີ່ເຈົ້າຕ້ອງການ

  • Raspberry Pi : Pi 4 ຫຼື Pi 5 ແນະນໍາສໍາລັບ headroom.

  • ກາດ microSD : 32 GB+ ແນະນໍາ.

  • ໄມໂຄຣໂຟນ USB : ໄມປະຊຸມ USB ແບບງ່າຍໆແມ່ນດີຫຼາຍ.

  • ລຳໂພງ : USB ຫຼື ລຳໂພງ 3.5 ມມ, ຫຼື I2S amp HAT.

  • ເຄືອຂ່າຍ : ອີເທີເນັດ ຫຼື Wi-Fi.

  • ງາມທາງເລືອກ: case, active cooler for Pi 5, push button for push-to-talk, LED ring. [1]

ການຕິດຕັ້ງ OS ແລະພື້ນຖານ

  1. Flash Raspberry Pi OS ກັບ Raspberry Pi Imager. ມັນເປັນວິທີທີ່ກົງໄປກົງມາທີ່ຈະໄດ້ຮັບ microSD ທີ່ສາມາດເລີ່ມຕົ້ນໄດ້ກັບ presets ທີ່ທ່ານຕ້ອງການ. [1]

  2. ເປີດເຄື່ອງ, ເຊື່ອມຕໍ່ເຄືອຂ່າຍ, ຈາກນັ້ນອັບເດດແພັກເກດ:

sudo apt update && sudo apt upgrade -y
  1. ພື້ນຖານສຽງ : ໃນ Raspberry Pi OS ທ່ານສາມາດກໍານົດຜົນຜະລິດ, ລະດັບ, ແລະອຸປະກອນເລີ່ມຕົ້ນໂດຍຜ່ານ desktop UI ຫຼື raspi-config . ສຽງ USB ແລະ HDMI ແມ່ນຮອງຮັບໃນທົ່ວແບບຈໍາລອງ; ຜົນຜະລິດ Bluetooth ແມ່ນມີຢູ່ໃນລຸ້ນທີ່ມີ Bluetooth. [1]

  2. ຢືນຢັນອຸປະກອນ:

arecord -l aplay -l

ຫຼັງຈາກນັ້ນ, ທົດສອບການຈັບພາບ ແລະຫຼິ້ນຄືນ. ຖ້າລະດັບເບິ່ງຄືວ່າແປກ, ໃຫ້ກວດເບິ່ງເຄື່ອງປະສົມແລະຄ່າເລີ່ມຕົ້ນກ່ອນທີ່ຈະຕໍານິຕິຕຽນໄມ.

 

AI ຣາສເບີຣີ pi

ສະຖາປັດຕະຍະກຳ 🗺️

ທີ່ເຂົ້າໃຈໄດ້ ກັບກະແສ Raspberry Pi ມີລັກສະນະດັ່ງນີ້:

Wake word → ການບັນທຶກສຽງສົດ → ການຖອດຂໍ້ຄວາມ ASR → ການຈັດການຄວາມຕັ້ງໃຈ ຫຼື LLM → ຂໍ້ຄວາມຕອບສະໜອງ → TTS → ການຫຼິ້ນສຽງ → ຄຳສັ່ງທາງເລືອກຜ່ານ MQTT ຫຼື HTTP.

  • Wake word : Porcupine ແມ່ນຂະຫນາດນ້ອຍ, ຖືກຕ້ອງ, ແລະດໍາເນີນການໃນທ້ອງຖິ່ນດ້ວຍການຄວບຄຸມຄວາມອ່ອນໄຫວຕໍ່ຄໍາຫລັກ. [2]

  • ASR : Whisper ເປັນແບບຈໍາລອງ ASR ທີ່ມີຫຼາຍພາສາ, ຈຸດປະສົງທົ່ວໄປທີ່ໄດ້ຮັບການຝຶກອົບຮົມໃນຊົ່ວໂມງ ~ 680k; ມັນແຂງແຮງຕໍ່ກັບການອອກສຽງ/ສຽງລົບກວນໃນພື້ນຫຼັງ. ສໍາລັບການນໍາໃຊ້ໃນອຸປະກອນ, whisper.cpp ສະຫນອງເສັ້ນທາງການ inference C/C++ lean. [3][4]

  • ສະໝອງ : ການເລືອກຂອງເຈົ້າ – ຟັງ LLM ຜ່ານ API, ເຄື່ອງຈັກກົດລະບຽບ, ຫຼື inference ທ້ອງຖິ່ນຂຶ້ນກັບແຮງມ້າ.

  • TTS : Piper ສ້າງສຽງເວົ້າແບບທໍາມະຊາດຢູ່ໃນທ້ອງຖິ່ນ, ໄວພຽງພໍສໍາລັບການຕອບໂຕ້ທີ່ງູໆໃນຮາດແວເລັກນ້ອຍ. [5]


ຕາຕະລາງປຽບທຽບດ່ວນ🔎

ເຄື່ອງມື ດີທີ່ສຸດສຳລັບ ລາຄາປະມານ ເປັນຫຍັງມັນຈຶ່ງໃຊ້ໄດ້ຜົນ
Porcupine Wake Word ກະຕຸ້ນໃຫ້ຟັງສະເໝີ ຊັ້ນຟຣີ + CPU ຕໍ່າ, ຖືກຕ້ອງ, ການຜູກມັດງ່າຍ [2]
Whisper.cpp ASR ທ້ອງຖິ່ນໃນ Pi ໂອເພນຊອສ ຄວາມຖືກຕ້ອງດີ, ເປັນມິດກັບ CPU [4]
ໄວກວ່າ-ກະຊິບ ASR ໄວຂຶ້ນໃນ CPU/GPU ໂອເພນຊອສ ການເພີ່ມປະສິດທິພາບ CTranslate2
Piper TTS ຜົນຜະລິດສຽງເວົ້າໃນທ້ອງຖິ່ນ ໂອເພນຊອສ ສຽງ​ໄວ​, ຫຼາຍ​ພາ​ສາ [5​]
Cloud LLM API ສົມເຫດສົມຜົນອຸດົມສົມບູນ ການ​ນໍາ​ໃຊ້​ອີງ​ໃສ່​ Offloads ຄອມພິວເຕີຢ່າງໜັກ
Node-RED ການ​ປະ​ຕິ​ບັດ Orchestrating​ ໂອເພນຊອສ ກະແສພາບ, MQTT ເປັນມິດ

ການສ້າງເທື່ອລະຂັ້ນຕອນ: ວົງສຽງທຳອິດຂອງເຈົ້າ🧩

ພວກເຮົາຈະໃຊ້ Porcupine ສໍາລັບຄໍາປຸກ, Whisper ສໍາລັບການຖອດຂໍ້ຄວາມ, ຟັງຊັນ "ສະຫມອງ" ທີ່ມີນ້ໍາຫນັກເບົາສໍາລັບການຕອບ (ແທນທີ່ດ້ວຍ LLM ທີ່ທ່ານເລືອກ), ແລະ Piper ສໍາລັບຄໍາເວົ້າ. ຮັກສາມັນໜ້ອຍທີ່ສຸດ, ຈາກນັ້ນເຮັດຊ້ຳ.

1) ຕິດຕັ້ງການຂຶ້ນກັບ

sudo apt ຕິດຕັ້ງ -y python3-pip portaudio19-dev sox ffmpeg pip3 ຕິດຕັ້ງ sounddevice numpy
  • Porcupine: grab SDK/bindings for your language and follow the quick start (access key + keyword list + audio frames → .process ). [2]

  • Whisper (ເປັນມິດກັບ CPU): ສ້າງ whisper.cpp :

git clone https://github.com/ggml-org/whisper.cpp cd whisper.cpp && cmake -B build && cmake --build build-j ./models/download-ggml-model.sh base.en ./build/bin/whisper-cli -m ./models/ggml-base.en.bin -f your

ຂ້າງເທິງນີ້ສະທ້ອນເຖິງການເລີ່ມຕົ້ນໄວຂອງໂຄງການ. [4]

ມັກ Python ບໍ? ໄວກວ່າ-ກະຊິບ (CTTranslate2) ມັກຈະເປັນໄວກວ່າ vanilla Python ໃນ CPU ທີ່ປານກາງ.

2) ຕັ້ງຄ່າ Piper TTS

git clone https://github.com/rhasspy/piper cd piper make # ດາວໂຫລດຕົວແບບສຽງທີ່ທ່ານມັກ, eg, en_US-amy echo "ສະບາຍດີຢູ່ທີ່ນັ້ນ." | ./piper --model voices/en/en_US-amy-medium.onnx --output_file hello.wav aplay hello.wav

Piper ຖືກ​ອອກ​ແບບ​ສໍາ​ລັບ TTS ໃນ​ອຸ​ປະ​ກອນ​ທີ່​ມີ​ທາງ​ເລືອກ​ສຽງ / ພາ​ສາ​ຫຼາຍ​. [5]

3) ແຖບຜູ້ຊ່ວຍໜ້ອຍທີ່ສຸດໃນ Python

ໂດຍເຈດຕະນາຫນາແຫນ້ນ: ລໍຖ້າປະໂຫຍກປຸກ (stub), ບັນທຶກ, ຖອດຂໍ້ຄວາມດ້ວຍ whisper.cpp , ສ້າງການຕອບກັບ (ຕົວຍຶດ), ຫຼັງຈາກນັ້ນເວົ້າຜ່ານ Piper. ສະຫຼັບຕົວຍຶດກັບ LLM ທີ່ທ່ານມັກ ຫຼືເຫດຜົນກົດລະບຽບ.

import os, subprocess, wave import sounddevice as sd WAKE_WORD = "hey computer" # swap for Porcupine in production [2] RECORD_SECONDS = 6 SAMPLE_RATE = 16000 CHANNELS = 1 WORKDIR = "/home/pi/assistant" ASR_BIN = "/home/pi/whisper.cpp/build/bin/whisper-cli" # [4] ASR_MODEL = "/home/pi/whisper.cpp/models/ggml-base.en.bin" PIPER_BIN = "/home/pi/piper/build/piper" # [5] PIPER_VOICE = "/home/pi/piper/voices/en/en_US-amy-medium.onnx" os.makedirs(WORKDIR, exist_ok=True) def record_wav(path, seconds=RECORD_SECONDS): audio = sd.rec(int(seconds * SAMPLE_RATE), samplerate=1 channels'SAMPLE_RATE), samplerate=1 channels'SAMPLE_RATE, sd.wait() ກັບ wave.open(ເສັ້ນທາງ, 'wb') ເປັນ w: w.setnchannels(CHANNELS); w.setsampwidth(2); w.setframerate(SAMPLE_RATE) w.writeframes(audio.tobytes()) def transcribe(path): cmd = [ASR_BIN, "-m", ASR_MODEL, "-f", path, "-otxt"] subprocess.run(cmd, check=True, cwd=WORKDIR", "placer)" . encoding="utf-8") as f: return f.read().strip() def generate_reply(prompt): ຖ້າ "weather" in prompt.lower(): return "ຂ້ອຍບໍ່ເຫັນເມກ, ແຕ່ມັນອາດຈະດີ. ເອົາເສື້ອກັນໜາວມາໃສ່ໃນກໍລະນີ." ກັບຄືນ "ທ່ານເວົ້າວ່າ: " + prompt def speak(text): proc = subprocess.Popen([PIPER_BIN, "--model", PIPER_VOICE, "--output_file", f"{WORKDIR}/reply.wav"], stdin=subprocess.PIPE) proc.stdin.write(text-utf8")" proc.stdin.close(); proc.wait() subprocess.run(["aplay", f"{WORKDIR}/reply.wav"], check=True) print("Assistant ready. type the wake phrase to test.") ໃນຂະນະທີ່ True: typed = input("> ").strip().lower() ຖ້າພິມ == WAKE_WORD: wav_path=wRDI" record_wav(wav_path) text = transcribe(wav_path) ຕອບ = generate_reply(text) print("User:", text); print("Assistant:", reply) speak(reply) else: print("ພິມຄຳ wake ເພື່ອທົດສອບ loop.")

ສໍາລັບການກວດສອບການຕື່ນຕົວທີ່ແທ້ຈິງ, ປະສົມປະສານເຄື່ອງກວດຈັບນ້ໍາຂອງ Porcupine ( CPU ຕ່ໍາ, ຄວາມອ່ອນໄຫວຕໍ່ຄໍາຫລັກ). [2]


ການປັບສຽງທີ່ຈິງແລ້ວ 🎚️

ການແກ້ໄຂນ້ອຍໆບາງອັນເຮັດໃຫ້ຜູ້ຊ່ວຍຂອງເຈົ້າຮູ້ສຶກສະຫຼາດຂຶ້ນ 10×:

  • ໄລຍະຫ່າງໄມ : 30-60 ຊຕມ ເປັນຈຸດທີ່ຫວານສຳລັບໄມ່ USB ຫຼາຍໆອັນ.

  • ລະດັບ : ຫຼີກລ້ຽງການບີບອັດໃສ່ຂໍ້ມູນ ແລະຮັກສາການຫຼິ້ນໃຫ້ດີ; ແກ້ໄຂເສັ້ນທາງກ່ອນທີ່ຈະ chasing ghosts ລະຫັດ. ໃນ Raspberry Pi OS, ທ່ານສາມາດຈັດການອຸປະກອນຜົນຜະລິດ ແລະລະດັບຜ່ານເຄື່ອງມືລະບົບ ຫຼື raspi-config . [1]

  • ສຽງໃນຫ້ອງ : ຝາແຂງເຮັດໃຫ້ເກີດສຽງສະທ້ອນ; ຜ້າປູທີ່ອ່ອນໆພາຍໃຕ້ໄມຊ່ວຍ.

  • Wake word threshold : too sensitive → ghost triggers; ເຄັ່ງຄັດເກີນໄປ → ເຈົ້າຈະຮ້ອງໃສ່ຖົງຢາງ. Porcupine ຊ່ວຍໃຫ້ທ່ານປັບຄວາມອ່ອນໄຫວຕໍ່ຄໍາຫລັກ. [2]

  • Thermals : ການຖອດຂໍ້ຄວາມຍາວໆໃນ Pi 5 ໄດ້ຮັບຜົນປະໂຫຍດຈາກເຄື່ອງເຮັດຄວາມເຢັນທີ່ເປັນທາງການເພື່ອປະສິດທິພາບທີ່ຍືນຍົງ. [1]


Going From Toy To Appliance: ບໍລິການ, Autostart, Healthchecks 🧯

ມະນຸດລືມແລ່ນສະຄຣິບ. ຄອມພິວເຕີລືມງາມ. ຫັນວົງຂອງທ່ານເຂົ້າໄປໃນການບໍລິການທີ່ມີການຄຸ້ມຄອງ:

  1. ສ້າງຫນ່ວຍງານລະບົບ:

[Unit] Description=DIY Voice Assistant After=network.target sound.target [ການບໍລິການ] User=pi WorkingDirectory=/home/pi/assistant ExecStart=/usr/bin/python3 /home/pi/assistant/assistant.py Restart=always RestartSec=3 [Install] WantedByer=
  1. ເປີດໃຊ້ມັນ:

sudo cp assistant.service /etc/systemd/system/ sudo systemctl daemon-reload sudo systemctl ເປີດໃຊ້ງານ --now assistant.service
  1. ຫາງຂອງບັນທຶກ:

journalctl -u ຜູ້ຊ່ວຍ -f

ດຽວນີ້ມັນເລີ່ມເປີດເຄື່ອງ, ຣີສະຕາດເມື່ອເກີດການຂັດຂ້ອງ, ແລະໂດຍທົ່ວໄປແລ້ວເຮັດຕົວຄືກັບເຄື່ອງໃຊ້. ເບື່ອໜ້ອຍໜຶ່ງ, ດີກວ່າຫຼາຍ.


ລະບົບທັກສະ: ເຮັດໃຫ້ມັນເປັນປະໂຫຍດແທ້ໆຢູ່ເຮືອນ🏠✨

ເມື່ອສຽງເຂົ້າແລະສຽງອອກແມ່ນແຂງ, ເພີ່ມການປະຕິບັດ:

  • Intent router : ເສັ້ນທາງຄໍາຫລັກທີ່ງ່າຍດາຍສໍາລັບວຽກງານທົ່ວໄປ.

  • ເຮືອນອັດສະລິຍະ : ເຜີຍແຜ່ເຫດການໃສ່ MQTT ຫຼືໂທຫາຈຸດສິ້ນສຸດ HTTP ຂອງຜູ້ຊ່ວຍຫນ້າທໍາອິດ.

  • Plugins : ຟັງຊັນ Python ດ່ວນເຊັ່ນ set_timer , what_is_the_time , play_radio , run_scene .

ເຖິງແມ່ນວ່າມີ LLM ຟັງຢູ່ໃນວົງຈອນ, ເສັ້ນທາງຄໍາສັ່ງທ້ອງຖິ່ນທີ່ຊັດເຈນທໍາອິດສໍາລັບຄວາມໄວແລະຄວາມຫນ້າເຊື່ອຖື.


Local Only vs Cloud Assist: Trade-offs ເຈົ້າຈະຮູ້ສຶກ 🌓

ທ້ອງຖິ່ນເທົ່ານັ້ນ
Pros: ເອກະຊົນ, ອອຟໄລ, ຄ່າໃຊ້ຈ່າຍທີ່ຄາດເດົາໄດ້.
ຂໍ້ເສຍ: ແບບທີ່ຫນັກກວ່າອາດຈະຊ້າໃນກະດານຂະຫນາດນ້ອຍ. ການຝຶກອົບຮົມຫຼາຍພາສາຂອງ Whisper ຊ່ວຍໃຫ້ມີຄວາມແຂງແຮງຖ້າທ່ານຮັກສາມັນຢູ່ໃນອຸປະກອນຫຼືຢູ່ໃນເຄື່ອງແມ່ຂ່າຍໃກ້ຄຽງ. [3]

Cloud assist
Pros: ການໃຫ້ເຫດຜົນທີ່ມີປະສິດທິພາບ, ປ່ອງຢ້ຽມບໍລິບົດທີ່ໃຫຍ່ກວ່າ.
ຂໍ້ເສຍ: ຂໍ້ມູນອອກຈາກອຸປະກອນ, ການຂຶ້ນກັບເຄືອຂ່າຍ, ຄ່າໃຊ້ຈ່າຍທີ່ປ່ຽນແປງໄດ້.

ປະສົມມັກຈະຊະນະ: wake word + ASR local → ໂທຫາ API ສໍາລັບເຫດຜົນ → TTS local. [2][3][5]


ການແກ້ໄຂບັນຫາ: Gremlins ແປກ & ການແກ້ໄຂດ່ວນ 👾

  • Wake word false triggers : ຄວາມອ່ອນໄຫວຕ່ໍາ ຫຼືລອງໄມອື່ນ. [2]

  • ASR lag : ໃຊ້ຕົວແບບ Whisper ຂະໜາດນ້ອຍກວ່າ ຫຼືສ້າງ whisper.cpp ດ້ວຍທຸງການປ່ອຍ ( -j --config Release ). [4]

  • Choppy TTS : ກ່ອນສ້າງປະໂຫຍກທົ່ວໄປ; ຢືນຢັນອຸປະກອນສຽງ ແລະອັດຕາຕົວຢ່າງຂອງທ່ານ.

  • ບໍ່ພົບໄມ : ກວດເບິ່ງ arecord -l ແລະ mixers.

  • ການຄວບຄຸມຄວາມຮ້ອນ : ໃຊ້ Active Cooler ຢ່າງເປັນທາງການໃນ Pi 5 ເພື່ອປະສິດທິພາບທີ່ຍືນຍົງ. [1]


ບັນທຶກຄວາມປອດໄພ & ຄວາມເປັນສ່ວນຕົວ ເຈົ້າຄວນອ່ານແທ້ໆ 🔒

  • ອັບເດດ Pi ຂອງທ່ານດ້ວຍ APT.

  • ຖ້າທ່ານໃຊ້ cloud API ໃດກໍ່ຕາມ, ບັນທຶກສິ່ງທີ່ທ່ານສົ່ງແລະພິຈາລະນາ redacting bits ສ່ວນຕົວຢູ່ໃນທ້ອງຖິ່ນທໍາອິດ.

  • ດໍາເນີນການບໍລິການທີ່ມີສິດທິພິເສດຫນ້ອຍ; ຫຼີກເວັ້ນ ການ sudo ໃນ ExecStart ເວັ້ນເສຍແຕ່ຕ້ອງການ.

  • ໃຫ້ ໂໝດທ້ອງຖິ່ນເທົ່ານັ້ນ ສຳລັບແຂກ ຫຼືຊົ່ວໂມງທີ່ງຽບໆ.


ສ້າງຕົວແປ: ປະສົມ ແລະຈັບຄູ່ຄືກັບແຊນວິດ 🥪

  • Ultra-local : Porcupine + whisper.cpp + Piper + ກົດລະບຽບງ່າຍໆ. ເອກະຊົນແລະທົນທານ. [2][4][5]

  • ການຊ່ວຍເຫຼືອຄລາວໄວ : Porcupine + (ສຽງກະຊິບທ້ອງຖິ່ນທີ່ນ້ອຍກວ່າ ຫຼື ຟັງ ASR) + TTS ທ້ອງຖິ່ນ + ຟັງ LLM.

  • Home automation central : ເພີ່ມ Node-RED ຫຼື Home Assistant flows ສຳລັບການເຮັດປະຈຳ, ສາກ ແລະເຊັນເຊີ.


ຕົວຢ່າງທັກສະ: ເປີດໄຟຜ່ານ MQTT 💡

ນໍາເຂົ້າ paho.mqtt.client as mqtt MQTT_HOST = "192.168.1.10" TOPIC = "home/livingroom/light/set" def set_light(state: str): client = mqtt.Client() client.connect(MQTT_HOST, 1883, 60") statelower = "mqtt.Client() client.connect(MQTT_HOST, 1883, 60"). ifstarter). "OFF" client.publish(TOPIC, payload, qo=1, retain=False) client.disconnect() # ຖ້າ "ເປີດໄຟ" ໃນຂໍ້ຄວາມ: set_light("on")

ເພີ່ມສາຍສຽງເຊັ່ນ: “ເປີດໂຄມໄຟຫ້ອງຮັບແຂກ” ແລະເຈົ້າຈະຮູ້ສຶກຄືກັບຕົວຊ່ວຍສ້າງ.


ເປັນຫຍັງ stack ນີ້ເຮັດວຽກໃນການປະຕິບັດ🧪

  • Porcupine ແມ່ນມີປະສິດທິພາບແລະຖືກຕ້ອງໃນການກວດສອບການຕື່ນຕົວໃນກະດານຂະຫນາດນ້ອຍ, ເຊິ່ງເຮັດໃຫ້ສາມາດຟັງໄດ້ຕະຫຼອດເວລາ. [2]

  • ການຝຶກອົບຮົມຫຼາຍພາສາຂອງ Whisper ເຮັດໃຫ້ມັນເຂັ້ມແຂງຕໍ່ກັບສະພາບແວດລ້ອມທີ່ຫຼາກຫຼາຍ ແລະສຳນຽງ. [3]

  • whisper.cpp ຮັກສາພະລັງງານນັ້ນໃຫ້ສາມາດໃຊ້ໄດ້ໃນອຸປະກອນທີ່ໃຊ້ CPU ເທົ່ານັ້ນເຊັ່ນ Pi. [4]

  • Piper ຮັກສາການຕອບສະ ໜອງ ໄດ້ງ່າຍໂດຍບໍ່ມີການສົ່ງສຽງໄປຫາຄລາວ TTS. [5]


ຍາວເກີນໄປ, ບໍ່ໄດ້ອ່ານມັນ

ສ້າງ ຕົວຊ່ວຍ DIY AI ແບບໂມດູລາ, ສ່ວນຕົວກັບ Raspberry Pi ໂດຍການລວມ Porcupine ສໍາລັບ wake word, Whisper (via whisper.cpp ) ສໍາລັບ ASR, ທາງເລືອກຂອງສະຫມອງຂອງທ່ານສໍາລັບການຕອບ, ແລະ Piper ສໍາລັບທ້ອງຖິ່ນ TTS. ຫໍ່ມັນເປັນການບໍລິການທີ່ມີລະບົບ, ປັບສຽງ, ແລະສາຍໃນການປະຕິບັດ MQTT ຫຼື HTTP. ມັນລາຄາຖືກກວ່າທີ່ເຈົ້າຄິດ, ແລະດີໃຈຫຼາຍທີ່ຈະຢູ່ກັບ. [1][2][3][4][5]


ເອກະສານອ້າງອີງ

  1. Raspberry Pi Software & Cooling – Raspberry Pi Imager (ດາວໂຫຼດ ແລະນຳໃຊ້) ແລະຂໍ້ມູນຜະລິດຕະພັນ Pi 5 Active Cooler

  2. Porcupine Wake Word – SDK & ການ​ເລີ່ມ​ຕົ້ນ​ໄວ (ຄໍາ​ສໍາ​ຄັນ​, ຄວາມ​ອ່ອນ​ໄຫວ​, inference ທ້ອງ​ຖິ່ນ​)

  3. Whisper (ແບບ​ຈຳ​ລອງ ASR) – ໄດ້​ຮັບ​ການ​ຝຶກ​ອົບ​ຮົມ ASR ຫຼາຍ​ພາ​ສາ​ທີ່​ເຂັ້ມ​ແຂງ​ໃນ​ເວ​ລາ ~680k ຊົ່ວ​ໂມງ

    • Radford et al., ການຮັບຮູ້ສຽງເວົ້າທີ່ເຂັ້ມແຂງໂດຍຜ່ານການຊີ້ນໍາທີ່ອ່ອນແອຂະຫນາດໃຫຍ່ (ສຽງກະຊິບ): ອ່ານເພີ່ມເຕີມ

  4. whisper.cpp – CPU-friendly Whisper inference ກັບ CLI ແລະສ້າງຂັ້ນຕອນ

  5. Piper TTS - ໄວ, TTS neural ທ້ອງຖິ່ນທີ່ມີສຽງ / ພາສາຫຼາຍ

ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ


ກັບໄປທີ່ບລັອກ