ວິທີການສ້າງຜູ້ຊ່ວຍ AI ແບບ DIY ດ້ວຍ Raspberry Pi

ຕ້ອງການຜູ້ຊ່ວຍສຽງນ້ອຍໆທີ່ຕິດຕາມຜູ້ນໍາຂອງເຈົ້າ, ແລ່ນດ້ວຍຮາດແວຂອງເຈົ້າເອງ, ແລະຈະບໍ່ສັ່ງສິບສອງຫມາກນັດໂດຍບັງເອີນເພາະມັນເຮັດໃຫ້ເຈົ້າເຂົ້າໃຈຜິດບໍ? ຜູ້ ຊ່ວຍ AI DIY ກັບ Raspberry Pi ແມ່ນບັນລຸໄດ້ຢ່າງແປກໃຈ, ມ່ວນ ແລະ ປ່ຽນແປງໄດ້. ເຈົ້າຈະສົ່ງຄຳປຸກ, ການຮັບຮູ້ສຽງເວົ້າ (ASR = ການຮັບຮູ້ສຽງເວົ້າອັດຕະໂນມັດ), ສະໝອງສຳລັບພາສາທຳມະຊາດ (ກົດລະບຽບ ຫຼື LLM), ແລະ ຂໍ້ຄວາມຫາສຽງເວົ້າ (TTS). ເພີ່ມສະຄຣິບບາງອັນ, ການບໍລິການໜຶ່ງ ຫຼືສອງອັນ, ແລະບາງການປັບສຽງຢ່າງລະມັດລະວັງ, ແລະທ່ານມີລຳໂພງອັດສະລິຍະທີ່ສາມາດໃສ່ໄດ້ທີ່ປະຕິບັດຕາມກົດລະບຽບຂອງເຈົ້າ.

ຂໍໃຫ້ເຈົ້າພາເຈົ້າຈາກສູນໄປສູ່ການເວົ້າກັບເຈົ້າ-Pi ໂດຍບໍ່ຕ້ອງດຶງຜົມແບບປົກກະຕິ. ພວກເຮົາຈະກວມເອົາພາກສ່ວນ, ການຕິດຕັ້ງ, ລະຫັດ, ການປຽບທຽບ, gotchas ... burrito ທັງຫມົດ. 🌯

ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:

🔗 ວິທີການສຶກສາ AI ທີ່ມີປະສິດທິພາບ
ສ້າງແຜນທີ່ເສັ້ນທາງການສຶກສາ, ໂຄງການປະຕິບັດ, ແລະຕິດຕາມຄວາມຄືບຫນ້າ.

🔗 ວິທີການເລີ່ມຕົ້ນບໍລິສັດ AI
ກວດສອບບັນຫາ, ສ້າງ MVP, ປະກອບທີມງານ, ຮັບປະກັນລູກຄ້າໃນເບື້ອງຕົ້ນ.

🔗 ວິທີການໃຊ້ AI ເພື່ອໃຫ້ມີປະສິດທິພາບຫຼາຍຂຶ້ນ
ເຮັດໜ້າວຽກປະຈຳເປັນອັດຕະໂນມັດ, ປັບປຸງຂະບວນການເຮັດວຽກ, ແລະເພີ່ມຜົນຜະລິດທີ່ສ້າງສັນ.

🔗 ວິທີການລວມເອົາ AI ເຂົ້າໃນທຸລະກິດຂອງທ່ານ
ກໍານົດຂະບວນການທີ່ມີຜົນກະທົບສູງ, ປະຕິບັດນັກບິນ, ການວັດແທກ ROI, ຂະຫນາດ.

ສິ່ງທີ່ເຮັດໃຫ້ຜູ້ຊ່ວຍ DIY AI ທີ່ດີກັບ Raspberry Pi ✅

ສ່ວນຕົວໂດຍຄ່າເລີ່ມຕົ້ນ – ຮັກສາສຽງຢູ່ໃນທ້ອງຖິ່ນທີ່ເປັນໄປໄດ້. ທ່ານຕັດສິນໃຈສິ່ງທີ່ອອກຈາກອຸປະກອນ.
Modular – ອົງປະກອບແລກປ່ຽນຄື Lego: wake word engine, ASR, LLM, TTS.
ລາຄາບໍ່ແພງ – ສ່ວນຫຼາຍແມ່ນແຫຼ່ງເປີດ, ໄມໂຄຣໂຟນ, ລຳໂພງ, ແລະ Pi.
Hackable – ຕ້ອງການອັດຕະໂນມັດໃນເຮືອນ, dashboards, routines, ຄວາມສາມາດທີ່ກໍານົດເອງ? ງ່າຍ.
ເຊື່ອຖືໄດ້ – ການບໍລິການຈັດການ, boots ແລະເລີ່ມຕົ້ນການຟັງອັດຕະໂນມັດ.
ມ່ວນ - ເຈົ້າຈະຮຽນຮູ້ຫຼາຍຢ່າງກ່ຽວກັບສຽງ, ຂະບວນການ, ແລະການອອກແບບທີ່ຂັບເຄື່ອນໂດຍເຫດການ.

ຄໍາແນະນໍານ້ອຍໆ: ຖ້າທ່ານໃຊ້ Raspberry Pi 5 ແລະວາງແຜນທີ່ຈະແລ່ນແບບທ້ອງຖິ່ນທີ່ຫນັກກວ່າ, ເຄື່ອງເຢັນ clip-on ຈະຊ່ວຍພາຍໃຕ້ການໂຫຼດແບບຍືນຍົງ. (ເມື່ອສົງໃສ, ເລືອກ Active Cooler ທີ່ເປັນທາງການທີ່ອອກແບບມາສຳລັບ Pi 5.) [1]

🧰ຊິ້ນສ່ວນ ແລະ ເຄື່ອງມືທີ່ເຈົ້າຕ້ອງການ

Raspberry Pi : Pi 4 ຫຼື Pi 5 ແນະນໍາສໍາລັບ headroom.
ກາດ microSD : 32 GB+ ແນະນໍາ.
ໄມໂຄຣໂຟນ USB : ໄມປະຊຸມ USB ແບບງ່າຍໆແມ່ນດີຫຼາຍ.
ລຳໂພງ : USB ຫຼື ລຳໂພງ 3.5 ມມ, ຫຼື I2S amp HAT.
ເຄືອຂ່າຍ : ອີເທີເນັດ ຫຼື Wi-Fi.
ງາມທາງເລືອກ: case, active cooler for Pi 5, push button for push-to-talk, LED ring. [1]

ການຕິດຕັ້ງ OS ແລະພື້ນຖານ

Flash Raspberry Pi OS ກັບ Raspberry Pi Imager. ມັນເປັນວິທີທີ່ກົງໄປກົງມາທີ່ຈະໄດ້ຮັບ microSD ທີ່ສາມາດເລີ່ມຕົ້ນໄດ້ກັບ presets ທີ່ທ່ານຕ້ອງການ. [1]
ເປີດເຄື່ອງ, ເຊື່ອມຕໍ່ເຄືອຂ່າຍ, ຈາກນັ້ນອັບເດດແພັກເກດ:

sudo apt update && sudo apt upgrade -y

ພື້ນຖານສຽງ : ໃນ Raspberry Pi OS ທ່ານສາມາດກໍານົດຜົນຜະລິດ, ລະດັບ, ແລະອຸປະກອນເລີ່ມຕົ້ນໂດຍຜ່ານ desktop UI ຫຼື raspi-config . ສຽງ USB ແລະ HDMI ແມ່ນຮອງຮັບໃນທົ່ວແບບຈໍາລອງ; ຜົນຜະລິດ Bluetooth ແມ່ນມີຢູ່ໃນລຸ້ນທີ່ມີ Bluetooth. [1]
ຢືນຢັນອຸປະກອນ:

arecord -l aplay -l

ຫຼັງຈາກນັ້ນ, ທົດສອບການຈັບພາບ ແລະຫຼິ້ນຄືນ. ຖ້າລະດັບເບິ່ງຄືວ່າແປກ, ໃຫ້ກວດເບິ່ງເຄື່ອງປະສົມແລະຄ່າເລີ່ມຕົ້ນກ່ອນທີ່ຈະຕໍານິຕິຕຽນໄມ.

ສະຖາປັດຕະຍະກຳ 🗺️

ທີ່ເຂົ້າໃຈໄດ້ ກັບກະແສ Raspberry Pi ມີລັກສະນະດັ່ງນີ້:

Wake word → ການບັນທຶກສຽງສົດ → ການຖອດຂໍ້ຄວາມ ASR → ການຈັດການຄວາມຕັ້ງໃຈ ຫຼື LLM → ຂໍ້ຄວາມຕອບສະໜອງ → TTS → ການຫຼິ້ນສຽງ → ຄຳສັ່ງທາງເລືອກຜ່ານ MQTT ຫຼື HTTP.

Wake word : Porcupine ແມ່ນຂະຫນາດນ້ອຍ, ຖືກຕ້ອງ, ແລະດໍາເນີນການໃນທ້ອງຖິ່ນດ້ວຍການຄວບຄຸມຄວາມອ່ອນໄຫວຕໍ່ຄໍາຫລັກ. [2]
ASR : Whisper ເປັນແບບຈໍາລອງ ASR ທີ່ມີຫຼາຍພາສາ, ຈຸດປະສົງທົ່ວໄປທີ່ໄດ້ຮັບການຝຶກອົບຮົມໃນຊົ່ວໂມງ ~ 680k; ມັນແຂງແຮງຕໍ່ກັບການອອກສຽງ/ສຽງລົບກວນໃນພື້ນຫຼັງ. ສໍາລັບການນໍາໃຊ້ໃນອຸປະກອນ, whisper.cpp ສະຫນອງເສັ້ນທາງການ inference C/C++ lean. [3][4]
ສະໝອງ : ການເລືອກຂອງເຈົ້າ – ຟັງ LLM ຜ່ານ API, ເຄື່ອງຈັກກົດລະບຽບ, ຫຼື inference ທ້ອງຖິ່ນຂຶ້ນກັບແຮງມ້າ.
TTS : Piper ສ້າງສຽງເວົ້າແບບທໍາມະຊາດຢູ່ໃນທ້ອງຖິ່ນ, ໄວພຽງພໍສໍາລັບການຕອບໂຕ້ທີ່ງູໆໃນຮາດແວເລັກນ້ອຍ. [5]

ຕາຕະລາງປຽບທຽບດ່ວນ🔎

ເຄື່ອງມື	ດີທີ່ສຸດສຳລັບ	ລາຄາປະມານ	ເປັນຫຍັງມັນຈຶ່ງໃຊ້ໄດ້ຜົນ
Porcupine Wake Word	ກະຕຸ້ນໃຫ້ຟັງສະເໝີ	ຊັ້ນຟຣີ +	CPU ຕໍ່າ, ຖືກຕ້ອງ, ການຜູກມັດງ່າຍ [2]
Whisper.cpp	ASR ທ້ອງຖິ່ນໃນ Pi	ໂອເພນຊອສ	ຄວາມຖືກຕ້ອງດີ, ເປັນມິດກັບ CPU [4]
ໄວກວ່າ-ກະຊິບ	ASR ໄວຂຶ້ນໃນ CPU/GPU	ໂອເພນຊອສ	ການເພີ່ມປະສິດທິພາບ CTranslate2
Piper TTS	ຜົນຜະລິດສຽງເວົ້າໃນທ້ອງຖິ່ນ	ໂອເພນຊອສ	ສຽງໄວ, ຫຼາຍພາສາ [5]
Cloud LLM API	ສົມເຫດສົມຜົນອຸດົມສົມບູນ	ການນໍາໃຊ້ອີງໃສ່	Offloads ຄອມພິວເຕີຢ່າງໜັກ
Node-RED	ການປະຕິບັດ Orchestrating	ໂອເພນຊອສ	ກະແສພາບ, MQTT ເປັນມິດ

ການສ້າງເທື່ອລະຂັ້ນຕອນ: ວົງສຽງທຳອິດຂອງເຈົ້າ🧩

ພວກເຮົາຈະໃຊ້ Porcupine ສໍາລັບຄໍາປຸກ, Whisper ສໍາລັບການຖອດຂໍ້ຄວາມ, ຟັງຊັນ "ສະຫມອງ" ທີ່ມີນ້ໍາຫນັກເບົາສໍາລັບການຕອບ (ແທນທີ່ດ້ວຍ LLM ທີ່ທ່ານເລືອກ), ແລະ Piper ສໍາລັບຄໍາເວົ້າ. ຮັກສາມັນໜ້ອຍທີ່ສຸດ, ຈາກນັ້ນເຮັດຊ້ຳ.

1) ຕິດຕັ້ງການຂຶ້ນກັບ

sudo apt ຕິດຕັ້ງ -y python3-pip portaudio19-dev sox ffmpeg pip3 ຕິດຕັ້ງ sounddevice numpy

Porcupine: grab SDK/bindings for your language and follow the quick start (access key + keyword list + audio frames → .process ). [2]
Whisper (ເປັນມິດກັບ CPU): ສ້າງ whisper.cpp :

git clone https://github.com/ggml-org/whisper.cpp cd whisper.cpp && cmake -B build && cmake --build build-j ./models/download-ggml-model.sh base.en ./build/bin/whisper-cli -m ./models/ggml-base.en.bin -f your

ຂ້າງເທິງນີ້ສະທ້ອນເຖິງການເລີ່ມຕົ້ນໄວຂອງໂຄງການ. [4]

ມັກ Python ບໍ? ໄວກວ່າ-ກະຊິບ (CTTranslate2) ມັກຈະເປັນໄວກວ່າ vanilla Python ໃນ CPU ທີ່ປານກາງ.

2) ຕັ້ງຄ່າ Piper TTS

git clone https://github.com/rhasspy/piper cd piper make # ດາວໂຫລດຕົວແບບສຽງທີ່ທ່ານມັກ, eg, en_US-amy echo "ສະບາຍດີຢູ່ທີ່ນັ້ນ." | ./piper --model voices/en/en_US-amy-medium.onnx --output_file hello.wav aplay hello.wav

Piper ຖືກອອກແບບສໍາລັບ TTS ໃນອຸປະກອນທີ່ມີທາງເລືອກສຽງ / ພາສາຫຼາຍ. [5]

3) ແຖບຜູ້ຊ່ວຍໜ້ອຍທີ່ສຸດໃນ Python

ໂດຍເຈດຕະນາຫນາແຫນ້ນ: ລໍຖ້າປະໂຫຍກປຸກ (stub), ບັນທຶກ, ຖອດຂໍ້ຄວາມດ້ວຍ whisper.cpp , ສ້າງການຕອບກັບ (ຕົວຍຶດ), ຫຼັງຈາກນັ້ນເວົ້າຜ່ານ Piper. ສະຫຼັບຕົວຍຶດກັບ LLM ທີ່ທ່ານມັກ ຫຼືເຫດຜົນກົດລະບຽບ.

import os, subprocess, wave import sounddevice as sd WAKE_WORD = "hey computer" # swap for Porcupine in production [2] RECORD_SECONDS = 6 SAMPLE_RATE = 16000 CHANNELS = 1 WORKDIR = "/home/pi/assistant" ASR_BIN = "/home/pi/whisper.cpp/build/bin/whisper-cli" # [4] ASR_MODEL = "/home/pi/whisper.cpp/models/ggml-base.en.bin" PIPER_BIN = "/home/pi/piper/build/piper" # [5] PIPER_VOICE = "/home/pi/piper/voices/en/en_US-amy-medium.onnx" os.makedirs(WORKDIR, exist_ok=True) def record_wav(path, seconds=RECORD_SECONDS): audio = sd.rec(int(seconds * SAMPLE_RATE), samplerate=1 channels'SAMPLE_RATE), samplerate=1 channels'SAMPLE_RATE, sd.wait() ກັບ wave.open(ເສັ້ນທາງ, 'wb') ເປັນ w: w.setnchannels(CHANNELS); w.setsampwidth(2); w.setframerate(SAMPLE_RATE) w.writeframes(audio.tobytes()) def transcribe(path): cmd = [ASR_BIN, "-m", ASR_MODEL, "-f", path, "-otxt"] subprocess.run(cmd, check=True, cwd=WORKDIR", "placer)" . encoding="utf-8") as f: return f.read().strip() def generate_reply(prompt): ຖ້າ "weather" in prompt.lower(): return "ຂ້ອຍບໍ່ເຫັນເມກ, ແຕ່ມັນອາດຈະດີ. ເອົາເສື້ອກັນໜາວມາໃສ່ໃນກໍລະນີ." ກັບຄືນ "ທ່ານເວົ້າວ່າ: " + prompt def speak(text): proc = subprocess.Popen([PIPER_BIN, "--model", PIPER_VOICE, "--output_file", f"{WORKDIR}/reply.wav"], stdin=subprocess.PIPE) proc.stdin.write(text-utf8")" proc.stdin.close(); proc.wait() subprocess.run(["aplay", f"{WORKDIR}/reply.wav"], check=True) print("Assistant ready. type the wake phrase to test.") ໃນຂະນະທີ່ True: typed = input("> ").strip().lower() ຖ້າພິມ == WAKE_WORD: wav_path=wRDI" record_wav(wav_path) text = transcribe(wav_path) ຕອບ = generate_reply(text) print("User:", text); print("Assistant:", reply) speak(reply) else: print("ພິມຄຳ wake ເພື່ອທົດສອບ loop.")

ສໍາລັບການກວດສອບການຕື່ນຕົວທີ່ແທ້ຈິງ, ປະສົມປະສານເຄື່ອງກວດຈັບນ້ໍາຂອງ Porcupine ( CPU ຕ່ໍາ, ຄວາມອ່ອນໄຫວຕໍ່ຄໍາຫລັກ). [2]

ການປັບສຽງທີ່ຈິງແລ້ວ 🎚️

ການແກ້ໄຂນ້ອຍໆບາງອັນເຮັດໃຫ້ຜູ້ຊ່ວຍຂອງເຈົ້າຮູ້ສຶກສະຫຼາດຂຶ້ນ 10×:

ໄລຍະຫ່າງໄມ : 30-60 ຊຕມ ເປັນຈຸດທີ່ຫວານສຳລັບໄມ່ USB ຫຼາຍໆອັນ.
ລະດັບ : ຫຼີກລ້ຽງການບີບອັດໃສ່ຂໍ້ມູນ ແລະຮັກສາການຫຼິ້ນໃຫ້ດີ; ແກ້ໄຂເສັ້ນທາງກ່ອນທີ່ຈະ chasing ghosts ລະຫັດ. ໃນ Raspberry Pi OS, ທ່ານສາມາດຈັດການອຸປະກອນຜົນຜະລິດ ແລະລະດັບຜ່ານເຄື່ອງມືລະບົບ ຫຼື raspi-config . [1]
ສຽງໃນຫ້ອງ : ຝາແຂງເຮັດໃຫ້ເກີດສຽງສະທ້ອນ; ຜ້າປູທີ່ອ່ອນໆພາຍໃຕ້ໄມຊ່ວຍ.
Wake word threshold : too sensitive → ghost triggers; ເຄັ່ງຄັດເກີນໄປ → ເຈົ້າຈະຮ້ອງໃສ່ຖົງຢາງ. Porcupine ຊ່ວຍໃຫ້ທ່ານປັບຄວາມອ່ອນໄຫວຕໍ່ຄໍາຫລັກ. [2]
Thermals : ການຖອດຂໍ້ຄວາມຍາວໆໃນ Pi 5 ໄດ້ຮັບຜົນປະໂຫຍດຈາກເຄື່ອງເຮັດຄວາມເຢັນທີ່ເປັນທາງການເພື່ອປະສິດທິພາບທີ່ຍືນຍົງ. [1]

Going From Toy To Appliance: ບໍລິການ, Autostart, Healthchecks 🧯

ມະນຸດລືມແລ່ນສະຄຣິບ. ຄອມພິວເຕີລືມງາມ. ຫັນວົງຂອງທ່ານເຂົ້າໄປໃນການບໍລິການທີ່ມີການຄຸ້ມຄອງ:

ສ້າງຫນ່ວຍງານລະບົບ:

[Unit] Description=DIY Voice Assistant After=network.target sound.target [ການບໍລິການ] User=pi WorkingDirectory=/home/pi/assistant ExecStart=/usr/bin/python3 /home/pi/assistant/assistant.py Restart=always RestartSec=3 [Install] WantedByer=

ເປີດໃຊ້ມັນ:

sudo cp assistant.service /etc/systemd/system/ sudo systemctl daemon-reload sudo systemctl ເປີດໃຊ້ງານ --now assistant.service

ຫາງຂອງບັນທຶກ:

journalctl -u ຜູ້ຊ່ວຍ -f

ດຽວນີ້ມັນເລີ່ມເປີດເຄື່ອງ, ຣີສະຕາດເມື່ອເກີດການຂັດຂ້ອງ, ແລະໂດຍທົ່ວໄປແລ້ວເຮັດຕົວຄືກັບເຄື່ອງໃຊ້. ເບື່ອໜ້ອຍໜຶ່ງ, ດີກວ່າຫຼາຍ.

ລະບົບທັກສະ: ເຮັດໃຫ້ມັນເປັນປະໂຫຍດແທ້ໆຢູ່ເຮືອນ🏠✨

ເມື່ອສຽງເຂົ້າແລະສຽງອອກແມ່ນແຂງ, ເພີ່ມການປະຕິບັດ:

Intent router : ເສັ້ນທາງຄໍາຫລັກທີ່ງ່າຍດາຍສໍາລັບວຽກງານທົ່ວໄປ.
ເຮືອນອັດສະລິຍະ : ເຜີຍແຜ່ເຫດການໃສ່ MQTT ຫຼືໂທຫາຈຸດສິ້ນສຸດ HTTP ຂອງຜູ້ຊ່ວຍຫນ້າທໍາອິດ.
Plugins : ຟັງຊັນ Python ດ່ວນເຊັ່ນ set_timer , what_is_the_time , play_radio , run_scene .

ເຖິງແມ່ນວ່າມີ LLM ຟັງຢູ່ໃນວົງຈອນ, ເສັ້ນທາງຄໍາສັ່ງທ້ອງຖິ່ນທີ່ຊັດເຈນທໍາອິດສໍາລັບຄວາມໄວແລະຄວາມຫນ້າເຊື່ອຖື.

Local Only vs Cloud Assist: Trade-offs ເຈົ້າຈະຮູ້ສຶກ 🌓

ທ້ອງຖິ່ນເທົ່ານັ້ນ
Pros: ເອກະຊົນ, ອອຟໄລ, ຄ່າໃຊ້ຈ່າຍທີ່ຄາດເດົາໄດ້.
ຂໍ້ເສຍ: ແບບທີ່ຫນັກກວ່າອາດຈະຊ້າໃນກະດານຂະຫນາດນ້ອຍ. ການຝຶກອົບຮົມຫຼາຍພາສາຂອງ Whisper ຊ່ວຍໃຫ້ມີຄວາມແຂງແຮງຖ້າທ່ານຮັກສາມັນຢູ່ໃນອຸປະກອນຫຼືຢູ່ໃນເຄື່ອງແມ່ຂ່າຍໃກ້ຄຽງ. [3]

Cloud assist
Pros: ການໃຫ້ເຫດຜົນທີ່ມີປະສິດທິພາບ, ປ່ອງຢ້ຽມບໍລິບົດທີ່ໃຫຍ່ກວ່າ.
ຂໍ້ເສຍ: ຂໍ້ມູນອອກຈາກອຸປະກອນ, ການຂຶ້ນກັບເຄືອຂ່າຍ, ຄ່າໃຊ້ຈ່າຍທີ່ປ່ຽນແປງໄດ້.

ປະສົມມັກຈະຊະນະ: wake word + ASR local → ໂທຫາ API ສໍາລັບເຫດຜົນ → TTS local. [2][3][5]

ການແກ້ໄຂບັນຫາ: Gremlins ແປກ & ການແກ້ໄຂດ່ວນ 👾

Wake word false triggers : ຄວາມອ່ອນໄຫວຕ່ໍາ ຫຼືລອງໄມອື່ນ. [2]
ASR lag : ໃຊ້ຕົວແບບ Whisper ຂະໜາດນ້ອຍກວ່າ ຫຼືສ້າງ whisper.cpp ດ້ວຍທຸງການປ່ອຍ ( -j --config Release ). [4]
Choppy TTS : ກ່ອນສ້າງປະໂຫຍກທົ່ວໄປ; ຢືນຢັນອຸປະກອນສຽງ ແລະອັດຕາຕົວຢ່າງຂອງທ່ານ.
ບໍ່ພົບໄມ : ກວດເບິ່ງ arecord -l ແລະ mixers.
ການຄວບຄຸມຄວາມຮ້ອນ : ໃຊ້ Active Cooler ຢ່າງເປັນທາງການໃນ Pi 5 ເພື່ອປະສິດທິພາບທີ່ຍືນຍົງ. [1]

ບັນທຶກຄວາມປອດໄພ & ຄວາມເປັນສ່ວນຕົວ ເຈົ້າຄວນອ່ານແທ້ໆ 🔒

ອັບເດດ Pi ຂອງທ່ານດ້ວຍ APT.
ຖ້າທ່ານໃຊ້ cloud API ໃດກໍ່ຕາມ, ບັນທຶກສິ່ງທີ່ທ່ານສົ່ງແລະພິຈາລະນາ redacting bits ສ່ວນຕົວຢູ່ໃນທ້ອງຖິ່ນທໍາອິດ.
ດໍາເນີນການບໍລິການທີ່ມີສິດທິພິເສດຫນ້ອຍ; ຫຼີກເວັ້ນ ການ sudo ໃນ ExecStart ເວັ້ນເສຍແຕ່ຕ້ອງການ.
ໃຫ້ ໂໝດທ້ອງຖິ່ນເທົ່ານັ້ນ ສຳລັບແຂກ ຫຼືຊົ່ວໂມງທີ່ງຽບໆ.

ສ້າງຕົວແປ: ປະສົມ ແລະຈັບຄູ່ຄືກັບແຊນວິດ 🥪

Ultra-local : Porcupine + whisper.cpp + Piper + ກົດລະບຽບງ່າຍໆ. ເອກະຊົນແລະທົນທານ. [2][4][5]
ການຊ່ວຍເຫຼືອຄລາວໄວ : Porcupine + (ສຽງກະຊິບທ້ອງຖິ່ນທີ່ນ້ອຍກວ່າ ຫຼື ຟັງ ASR) + TTS ທ້ອງຖິ່ນ + ຟັງ LLM.
Home automation central : ເພີ່ມ Node-RED ຫຼື Home Assistant flows ສຳລັບການເຮັດປະຈຳ, ສາກ ແລະເຊັນເຊີ.

ຕົວຢ່າງທັກສະ: ເປີດໄຟຜ່ານ MQTT 💡

ນໍາເຂົ້າ paho.mqtt.client as mqtt MQTT_HOST = "192.168.1.10" TOPIC = "home/livingroom/light/set" def set_light(state: str): client = mqtt.Client() client.connect(MQTT_HOST, 1883, 60") statelower = "mqtt.Client() client.connect(MQTT_HOST, 1883, 60"). ifstarter). "OFF" client.publish(TOPIC, payload, qo=1, retain=False) client.disconnect() # ຖ້າ "ເປີດໄຟ" ໃນຂໍ້ຄວາມ: set_light("on")

ເພີ່ມສາຍສຽງເຊັ່ນ: “ເປີດໂຄມໄຟຫ້ອງຮັບແຂກ” ແລະເຈົ້າຈະຮູ້ສຶກຄືກັບຕົວຊ່ວຍສ້າງ.

ເປັນຫຍັງ stack ນີ້ເຮັດວຽກໃນການປະຕິບັດ🧪

Porcupine ແມ່ນມີປະສິດທິພາບແລະຖືກຕ້ອງໃນການກວດສອບການຕື່ນຕົວໃນກະດານຂະຫນາດນ້ອຍ, ເຊິ່ງເຮັດໃຫ້ສາມາດຟັງໄດ້ຕະຫຼອດເວລາ. [2]
ການຝຶກອົບຮົມຫຼາຍພາສາຂອງ Whisper ເຮັດໃຫ້ມັນເຂັ້ມແຂງຕໍ່ກັບສະພາບແວດລ້ອມທີ່ຫຼາກຫຼາຍ ແລະສຳນຽງ. [3]
whisper.cpp ຮັກສາພະລັງງານນັ້ນໃຫ້ສາມາດໃຊ້ໄດ້ໃນອຸປະກອນທີ່ໃຊ້ CPU ເທົ່ານັ້ນເຊັ່ນ Pi. [4]
Piper ຮັກສາການຕອບສະ ໜອງ ໄດ້ງ່າຍໂດຍບໍ່ມີການສົ່ງສຽງໄປຫາຄລາວ TTS. [5]

ຍາວເກີນໄປ, ບໍ່ໄດ້ອ່ານມັນ

ສ້າງ ຕົວຊ່ວຍ DIY AI ແບບໂມດູລາ, ສ່ວນຕົວກັບ Raspberry Pi ໂດຍການລວມ Porcupine ສໍາລັບ wake word, Whisper (via whisper.cpp ) ສໍາລັບ ASR, ທາງເລືອກຂອງສະຫມອງຂອງທ່ານສໍາລັບການຕອບ, ແລະ Piper ສໍາລັບທ້ອງຖິ່ນ TTS. ຫໍ່ມັນເປັນການບໍລິການທີ່ມີລະບົບ, ປັບສຽງ, ແລະສາຍໃນການປະຕິບັດ MQTT ຫຼື HTTP. ມັນລາຄາຖືກກວ່າທີ່ເຈົ້າຄິດ, ແລະດີໃຈຫຼາຍທີ່ຈະຢູ່ກັບ. [1][2][3][4][5]

ເອກະສານອ້າງອີງ

Raspberry Pi Software & Cooling – Raspberry Pi Imager (ດາວໂຫຼດ ແລະນຳໃຊ້) ແລະຂໍ້ມູນຜະລິດຕະພັນ Pi 5 Active Cooler
- Raspberry Pi Imager: ອ່ານເພີ່ມເຕີມ
- Active Cooler (Pi 5): ອ່ານເພີ່ມເຕີມ
Porcupine Wake Word – SDK & ການເລີ່ມຕົ້ນໄວ (ຄໍາສໍາຄັນ, ຄວາມອ່ອນໄຫວ, inference ທ້ອງຖິ່ນ)
- ອ່ານຕື່ມ
Whisper (ແບບຈຳລອງ ASR) – ໄດ້ຮັບການຝຶກອົບຮົມ ASR ຫຼາຍພາສາທີ່ເຂັ້ມແຂງໃນເວລາ ~680k ຊົ່ວໂມງ
- Radford et al., ການຮັບຮູ້ສຽງເວົ້າທີ່ເຂັ້ມແຂງໂດຍຜ່ານການຊີ້ນໍາທີ່ອ່ອນແອຂະຫນາດໃຫຍ່ (ສຽງກະຊິບ): ອ່ານເພີ່ມເຕີມ
whisper.cpp – CPU-friendly Whisper inference ກັບ CLI ແລະສ້າງຂັ້ນຕອນ
- ອ່ານຕື່ມ
Piper TTS - ໄວ, TTS neural ທ້ອງຖິ່ນທີ່ມີສຽງ / ພາສາຫຼາຍ
- ອ່ານຕື່ມ

ຊອກຫາ AI ລ່າສຸດໄດ້ທີ່ຮ້ານ AI Assistant ຢ່າງເປັນທາງການ

ກ່ຽວກັບພວກເຮົາ

ກັບໄປທີ່ບລັອກ

ປະເທດ/ພາກພື້ນ