ຄຳຕອບສັ້ນໆ: ການປ່ຽນຂໍ້ຄວາມເປັນສຽງເວົ້າແມ່ນໜ້າທີ່ຂອງການປ່ຽນຂໍ້ຄວາມທີ່ຂຽນເປັນສຽງເວົ້າ; ບໍ່ວ່າມັນເປັນ "AI" ແມ່ນຂຶ້ນກັບວ່າມັນຖືກສ້າງແນວໃດ. ສຽງທີ່ທັນສະໄໝ ແລະ ມີສຽງທຳມະຊາດມັກຈະຖືກຂັບເຄື່ອນໂດຍຮູບແບບການຮຽນຮູ້ຂອງເຄື່ອງຈັກ, ໃນຂະນະທີ່ລະບົບເກົ່າອາດຈະອີງໃສ່ກົດລະບຽບ ຫຼື ການບັນທຶກສຽງທີ່ຕໍ່ກັນ. ຖ້າທ່ານຕ້ອງການຫຼັກຖານ, ໃຫ້ກວດເບິ່ງສິ່ງທີ່ "ຢູ່ພາຍໃຕ້ຝາປິດ", ບໍ່ພຽງແຕ່ວ່າມັນມີສຽງແນວໃດ.
ບົດຮຽນຫຼັກ:
ຄຳນິຍາມ: TTS ແມ່ນເປົ້າໝາຍ; AI ແມ່ນວິທີໜຶ່ງທີ່ເປັນໄປໄດ້ໃນການບັນລຸເປົ້າໝາຍນັ້ນ.
ການກວດຈັບ: ເມື່ອສຳນຽງ ແລະ ການຢຸດຊົ່ວຄາວຮູ້ສຶກເປັນທຳມະຊາດ, ມັນອາດຈະເປັນການຂັບເຄື່ອນດ້ວຍຮູບແບບ.
ຂັ້ນຕອນການເຮັດວຽກ: ເລືອກຄລາວສຳລັບຂະໜາດ; ເລືອກທ້ອງຖິ່ນສຳລັບຄວາມເປັນສ່ວນຕົວ ແລະ ຄ່າໃຊ້ຈ່າຍທີ່ຄາດເດົາໄດ້.
ການເຂົ້າເຖິງ: TTS ທີ່ເຂັ້ມແຂງແມ່ນຂຶ້ນກັບໂຄງສ້າງທີ່ສະອາດ: ຫົວຂໍ້, ລິ້ງ, ລຳດັບ, ຂໍ້ຄວາມ alt.
ການຕ້ານທານການໃຊ້ໃນທາງທີ່ຜິດ: ກວດສອບການຮ້ອງຂໍສຽງທີ່ຜິດປົກກະຕິຜ່ານຊ່ອງທາງທີສອງ, ບໍ່ແມ່ນສຽງພຽງຢ່າງດຽວ.
ບົດຄວາມທີ່ທ່ານອາດຈະຢາກອ່ານຫຼັງຈາກບົດຄວາມນີ້:
🔗 AI ສາມາດອ່ານລາຍມືທີ່ຂຽນດ້ວຍມືໄດ້ບໍ?
AI ຮັບຮູ້ການຂຽນດ້ວຍຕົວໜັງສື ແລະ ຂໍ້ຈຳກັດທົ່ວໄປໄດ້ດີປານໃດ.
🔗 ປະຈຸບັນ AI ມີຄວາມຖືກຕ້ອງແນວໃດ?
ສິ່ງທີ່ສົ່ງຜົນກະທົບຕໍ່ຄວາມຖືກຕ້ອງຂອງ AI ໃນໜ້າວຽກ, ຂໍ້ມູນ ແລະ ການນຳໃຊ້ຕົວຈິງ.
🔗 AI ກວດຫາຄວາມຜິດປົກກະຕິໄດ້ແນວໃດ?
ຄຳອະທິບາຍງ່າຍໆກ່ຽວກັບການກວດພົບຮູບແບບທີ່ຜິດປົກກະຕິໃນຂໍ້ມູນ.
🔗 ວິທີການຮຽນຮູ້ AI ເທື່ອລະຂັ້ນຕອນ
ເສັ້ນທາງປະຕິບັດໄດ້ຈິງເພື່ອເລີ່ມຕົ້ນຮຽນຮູ້ AI ຕັ້ງແຕ່ເລີ່ມຕົ້ນ.
ເປັນຫຍັງ “AI ປ່ຽນຂໍ້ຄວາມເປັນສຽງ” ຈຶ່ງຮູ້ສຶກສັບສົນຕັ້ງແຕ່ທຳອິດ 🤔🧩
ຄົນເຮົາມັກຈະຕິດສະຫຼາກບາງສິ່ງບາງຢ່າງວ່າ "AI" ເມື່ອມັນຮູ້ສຶກວ່າ:
-
ປັບຕົວໄດ້
-
ແບບມະນຸດ
-
"ມັນເຮັດແບບນັ້ນໄດ້ແນວໃດ?"
ແລະ TTS ທີ່ທັນສະໄໝສາມາດຮູ້ສຶກແບບນັ້ນໄດ້ຢ່າງແນ່ນອນ. ແຕ່ໃນອະດີດ, ຄອມພິວເຕີໄດ້ "ສົນທະນາ" ໂດຍໃຊ້ວິທີການທີ່ໃກ້ຊິດກັບ ວິສະວະກຳທີ່ສະຫຼາດ ກວ່າການຮຽນຮູ້.
ເມື່ອມີຄົນຖາມ ວ່າ AI ຂໍ້ຄວາມເປັນສຽງແມ່ນຫຍັງ , ສິ່ງທີ່ເຂົາເຈົ້າມັກໝາຍເຖິງແມ່ນ:
-
"ມັນຖືກສ້າງຂຶ້ນໂດຍຮູບແບບການຮຽນຮູ້ຂອງເຄື່ອງຈັກບໍ?"
-
"ມັນໄດ້ຮຽນຮູ້ທີ່ຈະຟັງຄືມະນຸດຈາກຂໍ້ມູນບໍ?"
-
"ມັນສາມາດຈັດການກັບການວາງປະໂຫຍກ ແລະ ການເນັ້ນໜັກໂດຍບໍ່ຟັງຄືກັບວ່າ GPS ມີມື້ທີ່ບໍ່ດີບໍ?"
ສະຕິປັນຍາເຫຼົ່ານັ້ນແມ່ນດີພໍສົມຄວນ. ບໍ່ສົມບູນແບບ, ແຕ່ມີຈຸດປະສົງທີ່ເໝາະສົມ.

ຄຳຕອບໄວ: TTS ທີ່ທັນສະໄໝສ່ວນໃຫຍ່ແມ່ນ AI - ແຕ່ບໍ່ແມ່ນທັງໝົດ ✅🔊
ນີ້ແມ່ນສະບັບປະຕິບັດໄດ້, ບໍ່ແມ່ນປັດຊະຍາ:
-
TTS ເກົ່າ / ແບບຄລາສສິກ : ມັກຈະ ບໍ່ແມ່ນ AI (ກົດລະບຽບ + ການປະມວນຜົນສັນຍານ, ຫຼືການບັນທຶກທີ່ຕໍ່ກັນ)
-
TTS ທຳມະຊາດທີ່ທັນສະໄໝ : ໂດຍປົກກະຕິແລ້ວແມ່ນອີງໃສ່ AI (ເຄືອຂ່າຍປະສາດ / ການຮຽນຮູ້ຂອງເຄື່ອງຈັກ) [2]
“ການທົດສອບຫູ” ແບບໄວໆ (ບໍ່ແມ່ນວ່າບໍ່ຜິດພາດ, ແຕ່ດີ): ຖ້າສຽງມີ
-
ການຢຸດຊົ່ວຄາວຕາມທຳມະຊາດ
-
ການອອກສຽງທີ່ລຽບງ່າຍ
-
ຈັງຫວະທີ່ສະໝໍ່າສະເໝີ
-
ການເນັ້ນໜັກທີ່ກົງກັບຄວາມໝາຍ
...ມັນອາດຈະເປັນແບບຈຳລອງ. ຖ້າມັນຟັງຄືກັບຫຸ່ນຍົນອ່ານເງື່ອນໄຂ ແລະ ຂໍ້ກຳນົດໃນຊັ້ນໃຕ້ດິນທີ່ມີໄຟ fluorescent, ມັນອາດຈະເປັນວິທີການເກົ່າ (ຫຼື ການກຳນົດງົບປະມານ... ບໍ່ມີການຕັດສິນ).
ສະນັ້ນ... ຂໍ້ຄວາມເປັນສຽງແມ່ນ AI ບໍ? ໃນຜະລິດຕະພັນທີ່ທັນສະໄໝຫຼາຍຢ່າງ, ແມ່ນແລ້ວ. ແຕ່ TTS ໃນຖານະເປັນໝວດໝູ່ ແມ່ນໃຫຍ່ກວ່າ AI.
ວິທີການເຮັດວຽກຂອງຂໍ້ຄວາມເປັນສຽງ (ໃນຄຳເວົ້າຂອງມະນຸດ), ຈາກຫຸ່ນຍົນໄປຫາຄວາມເປັນຈິງ 🧠🗣️
ລະບົບ TTS ສ່ວນໃຫຍ່ - ງ່າຍດາຍ ຫຼື ແປກປະຫຼາດ - ເຮັດບາງລຸ້ນຂອງ pipeline ນີ້:
-
ການປະມວນຜົນຂໍ້ຄວາມ (ຫຼື "ເຮັດໃຫ້ຂໍ້ຄວາມສາມາດເວົ້າໄດ້")
ຂະຫຍາຍ "ດຣ." ໄປເປັນ "ທ່ານໝໍ", ຈັດການຕົວເລກ, ເຄື່ອງໝາຍວັກຕອນ, ຕົວຫຍໍ້ ແລະ ພະຍາຍາມບໍ່ໃຫ້ຕົກໃຈ. -
ການວິເຄາະດ້ານພາສາ
ແບ່ງຂໍ້ຄວາມອອກເປັນທ່ອນສ້າງແບບສຽງເວົ້າ (ເຊັ່ນ: ສຽງສັບ , ໜ່ວຍສຽງຂະໜາດນ້ອຍທີ່ແຍກຄຳສັບຕ່າງໆ). ນີ້ແມ່ນບ່ອນທີ່ “ບັນທຶກ” (ຄຳນາມ) ທຽບກັບ “ບັນທຶກ” (ຄຳກິລິຍາ) ກາຍເປັນລະຄອນໂທລະທັດທັງໝົດ. -
ການວາງແຜນການຂຽນສຳນຽງ
ເລືອກເວລາ, ການເນັ້ນສຽງ, ການຢຸດຊົ່ວຄາວ, ການເຄື່ອນໄຫວຂອງສຽງ. ການຂຽນສຳນຽງໂດຍພື້ນຖານແລ້ວແມ່ນຄວາມແຕກຕ່າງລະຫວ່າງ "ມະນຸດ" ແລະ "ເຄື່ອງປີ້ງເຂົ້າຈີ່ແບບໂມໂນໂທນ". -
ການສ້າງສຽງ
ຜະລິດຮູບແບບຄື້ນສຽງຕົວຈິງ.
ການແບ່ງປັນທີ່ໃຫຍ່ທີ່ສຸດຂອງ "AI ຫຼືບໍ່" ມັກຈະປາກົດຢູ່ໃນ ການສ້າງສຳນຽງ + ສຽງ . ລະບົບທີ່ທັນສະໄໝມັກຈະຄາດເດົາການນຳສະເໜີສຽງລະດັບປານກາງ (ໂດຍທົ່ວໄປແມ່ນ mel-spectrograms ) ແລະຫຼັງຈາກນັ້ນປ່ຽນສຽງເຫຼົ່ານັ້ນເປັນສຽງໂດຍໃຊ້ vocoder (ແລະໃນປະຈຸບັນ, vocoder ນັ້ນມັກຈະເປັນລະບົບປະສາດ) [2].
ປະເພດຫຼັກຂອງ TTS (ແລະບ່ອນທີ່ AI ມັກຈະປາກົດ) 🧪🎙️
1) ການສັງເຄາະແບບອີງໃສ່ກົດລະບຽບ / ຮູບແບບ (ຫຸ່ນຍົນຄລາສສິກ)
ການສັງເຄາະແບບເກົ່າໃຊ້ກົດລະບຽບທີ່ສ້າງຂຶ້ນດ້ວຍມື ແລະ ຮູບແບບສຽງ. ມັນສາມາດເຂົ້າໃຈໄດ້... ແຕ່ມັກຈະຟັງຄືກັບມະນຸດຕ່າງດາວທີ່ສຸພາບ. 👽
ມັນບໍ່ໄດ້ "ຮ້າຍແຮງກວ່າເກົ່າ," ມັນພຽງແຕ່ຖືກປັບປຸງໃຫ້ດີທີ່ສຸດສຳລັບຂໍ້ຈຳກັດທີ່ແຕກຕ່າງກັນ (ຄວາມງ່າຍດາຍ, ຄວາມສາມາດໃນການຄາດເດົາໄດ້, ການຄຳນວນຂອງອຸປະກອນຂະໜາດນ້ອຍ).
2) ການສັງເຄາະແບບຕໍ່ເນື່ອງ (ສຽງ “ຕັດແລະວາງ”)
ອັນນີ້ໃຊ້ສ່ວນສຽງເວົ້າທີ່ບັນທຶກໄວ້ ແລະ ຕໍ່ເຂົ້າກັນ. ມັນອາດຈະຟັງແລ້ວດີ, ແຕ່ມັນແຕກງ່າຍ:
-
ຊື່ແປກໆສາມາດທຳລາຍມັນໄດ້
-
ຈັງຫວະທີ່ຜິດປົກກະຕິອາດຟັງແລ້ວບໍ່ສະໝໍ່າສະເໝີ
-
ການປ່ຽນແປງແບບແມ່ນຍາກ
3) ລະບົບປະສາດ TTS (ທັນສະໄໝ, ຂັບເຄື່ອນດ້ວຍ AI)
ລະບົບປະສາດຮຽນຮູ້ຮູບແບບຈາກຂໍ້ມູນ ແລະ ສ້າງສຽງເວົ້າທີ່ລຽບງ່າຍ ແລະ ມີຄວາມຍືດຫຍຸ່ນຫຼາຍຂຶ້ນ - ໂດຍມັກຈະໃຊ້ກະແສ mel-spectrogram → vocoder ທີ່ໄດ້ກ່າວມາຂ້າງເທິງ [2]. ໂດຍປົກກະຕິແລ້ວ ນີ້ແມ່ນສິ່ງທີ່ຄົນເຮົາໝາຍເຖິງໂດຍ “ສຽງ AI.”
ສິ່ງທີ່ເຮັດໃຫ້ລະບົບ TTS ທີ່ດີ (ນອກເໜືອໄປຈາກ "ວ້າວ, ມັນຟັງຄືວ່າແທ້") 🎯🔈
ຖ້າທ່ານເຄີຍທົດສອບສຽງ TTS ໂດຍການໂຍນບາງສິ່ງບາງຢ່າງເຊັ່ນ:
"ຂ້ອຍບໍ່ໄດ້ເວົ້າວ່າເຈົ້າລັກເງິນ."
...ແລະຫຼັງຈາກນັ້ນຟັງວ່າການເນັ້ນໜັກປ່ຽນແປງຄວາມໝາຍແນວໃດ...ເຈົ້າໄດ້ພົບກັບການທົດສອບຄຸນນະພາບທີ່ແທ້ຈິງແລ້ວ: ມັນຈັບເອົາເຈດຕະນາ , ບໍ່ພຽງແຕ່ການອອກສຽງບໍ?
ການຕັ້ງຄ່າ TTS ທີ່ດີແທ້ໆມັກຈະເຮັດໄດ້ດີ:
-
ຄວາມຊັດເຈນ : ພະຍັນຊະນະທີ່ຄົມຊັດ, ບໍ່ມີພະຍາງທີ່ອ່ອນໆ
-
ສຳນຽງ : ການເນັ້ນໜັກ ແລະ ຈັງຫວະທີ່ກົງກັບຄວາມໝາຍ
-
ຄວາມໝັ້ນຄົງ : ມັນບໍ່ໄດ້ "ປ່ຽນບຸກຄະລິກກະພາບ" ແບບສຸ່ມຢູ່ກາງວັກ
-
ການຄວບຄຸມການອອກສຽງ : ຊື່, ຕົວຫຍໍ້, ຄຳສັບທາງການແພດ, ຄຳສັບຍີ່ຫໍ້
-
ຄວາມໜ่วงເວລາ : ຖ້າມັນເປັນແບບໂຕ້ຕອບ, ການສ້າງຊ້າຈະຮູ້ສຶກວ່າເສຍຫາຍ
-
ການຮອງຮັບ SSML (ຖ້າທ່ານເປັນນັກວິຊາການ): ຄຳແນະນຳສຳລັບການຢຸດຊົ່ວຄາວ, ການເນັ້ນໜັກ ແລະ ການອອກສຽງ [1]
-
ການອະນຸຍາດ ແລະ ສິດການນຳໃຊ້ : ໜ້າເບື່ອ, ແຕ່ມີຄວາມສ່ຽງສູງ
TTS ທີ່ດີບໍ່ພຽງແຕ່ເປັນ "ສຽງທີ່ສວຍງາມ" ເທົ່ານັ້ນ. ມັນເປັນ ສຽງທີ່ໃຊ້ໄດ້ . ຄືກັບເກີບ. ບາງອັນເບິ່ງດີ, ບາງອັນກໍ່ດີສຳລັບການຍ່າງ, ແລະບາງອັນກໍ່ດີທັງສອງຢ່າງ (ມ້າຢູນິຄອນທີ່ຫາຍາກ). 🦄
ຕາຕະລາງປຽບທຽບດ່ວນ: “ເສັ້ນທາງ” TTS (ໂດຍບໍ່ມີຊ່ອງໂຫວ່ລາຄາ) 📊😅
ລາຄາມີການປ່ຽນແປງ. ເຄື່ອງຄິດເລກມີການປ່ຽນແປງ. ແລະກົດລະບຽບ "ຊັ້ນຟຣີ" ບາງຄັ້ງກໍ່ຖືກຂຽນຄືກັບປິດສະໜາທີ່ຫໍ່ຢູ່ໃນຕາຕະລາງຄິດໄລ່.
ສະນັ້ນແທນທີ່ຈະທຳທ່າວ່າຕົວເລກຈະບໍ່ເຄື່ອນໄຫວໃນອາທິດໜ້າ, ນີ້ແມ່ນມຸມມອງທີ່ທົນທານກວ່າ:
| ເສັ້ນທາງ | ດີທີ່ສຸດສຳລັບ | ຮູບແບບຄ່າໃຊ້ຈ່າຍ (ທົ່ວໄປ) | ຕົວຢ່າງ (ບໍ່ຄົບຖ້ວນ) |
|---|---|---|---|
| API TTS ຂອງຄລາວ | ຜະລິດຕະພັນໃນຂອບເຂດກ້ວາງຂວາງ, ຫຼາຍພາສາ, ຄວາມໜ້າເຊື່ອຖື | ມັກຈະວັດແທກໂດຍປະລິມານຂໍ້ຄວາມ ແລະ ລະດັບສຽງ (ຕົວຢ່າງ, ລາຄາຕໍ່ຕົວອັກສອນແມ່ນເປັນເລື່ອງທຳມະດາ) [3] | Google Cloud TTS, Amazon Polly, Azure Speech |
| TTS ລະບົບປະສາດທ້ອງຖິ່ນ / ອອບໄລນ໌ | ຂັ້ນຕອນການເຮັດວຽກທີ່ເນັ້ນຄວາມເປັນສ່ວນຕົວເປັນຫຼັກ, ການນຳໃຊ້ແບບອອບລາຍ, ການໃຊ້ຈ່າຍທີ່ຄາດເດົາໄດ້ | ບໍ່ມີໃບບິນຄ່າຕໍ່ຕົວອັກສອນ; ທ່ານ "ຈ່າຍ" ໃນການຄິດໄລ່ ແລະ ຕັ້ງຄ່າເວລາ [4] | Piper, stacks ອື່ນໆທີ່ຖືກໂຮດດ້ວຍຕົນເອງ |
| ການຕັ້ງຄ່າແບບປະສົມ | ແອັບທີ່ຕ້ອງການການສຳຮອງຂໍ້ມູນແບບອອບລາຍ + ຄຸນນະພາບຄລາວ | ປະສົມກັນທັງສອງຢ່າງ | ຄລາວ + ທາງເລືອກທ້ອງຖິ່ນ |
(ຖ້າທ່ານກຳລັງເລືອກເສັ້ນທາງ: ທ່ານບໍ່ໄດ້ເລືອກ "ສຽງທີ່ດີທີ່ສຸດ," ທ່ານກຳລັງເລືອກ ຂັ້ນຕອນການເຮັດວຽກ . ນັ້ນແມ່ນສ່ວນທີ່ຄົນເຮົາປະເມີນຄ່າຕໍ່າເກີນໄປ.)
ຄຳວ່າ "AI" ໝາຍຄວາມວ່າແນວໃດໃນ TTS ທີ່ທັນສະໄໝ 🧠✨
ເມື່ອຄົນເວົ້າວ່າ TTS ແມ່ນ "AI", ໂດຍປົກກະຕິແລ້ວພວກເຂົາໝາຍຄວາມວ່າລະບົບໃຊ້ການຮຽນຮູ້ຂອງເຄື່ອງຈັກເພື່ອເຮັດສິ່ງຕໍ່ໄປນີ້:
-
ຄາດເດົາໄລຍະເວລາ (ສຽງຈະຢູ່ໄດ້ດົນປານໃດ)
-
ຄາດຄະເນຮູບແບບສຽງ/ສຽງສູງ
-
ສ້າງລັກສະນະສຽງ (ມັກຈະເປັນ mel-spectrograms)
-
ສ້າງສຽງຜ່ານລະບົບປະສາດ (ມັກຈະເປັນລະບົບປະສາດ)
-
ບາງຄັ້ງກໍ່ເຮັດມັນໃນຂັ້ນຕອນໜ້ອຍກວ່າ (ຫຼາຍກວ່າແບບຕົ້ນຕໍ່ປາຍ) [2]
ຈຸດສຳຄັນ: AI TTS ບໍ່ໄດ້ອ່ານຕົວອັກສອນອອກສຽງ. ມັນກຳລັງສ້າງແບບຈຳລອງຮູບແບບການປາກເວົ້າໄດ້ດີພໍທີ່ຈະຟັງຄືກັບຄວາມຕັ້ງໃຈ.
ເປັນຫຍັງ TTS ບາງອັນຍັງບໍ່ແມ່ນ AI - ແລະເປັນຫຍັງມັນຈຶ່ງບໍ່ "ບໍ່ດີ" 🛠️🙂
TTS ທີ່ບໍ່ແມ່ນ AI ຍັງສາມາດເປັນທາງເລືອກທີ່ຖືກຕ້ອງໄດ້ເມື່ອທ່ານຕ້ອງການ:
-
ການອອກສຽງທີ່ສອດຄ່ອງ ແລະ ຄາດເດົາໄດ້
-
ຄວາມຕ້ອງການດ້ານການຄິດໄລ່ຕໍ່າຫຼາຍ
-
ໜ້າທີ່ອອບໄລນ໌ໃນອຸປະກອນຂະໜາດນ້ອຍ
-
ຄວາມງາມແບບ "ສຽງຫຸ່ນຍົນ" (ແມ່ນແລ້ວ, ມັນເປັນສິ່ງໜຶ່ງ)
ນອກຈາກນີ້: “ສຽງຄືກັບມະນຸດສ່ວນໃຫຍ່” ບໍ່ແມ່ນ “ດີທີ່ສຸດ” ສະເໝີໄປ. ສຳລັບລັກສະນະການເຂົ້າເຖິງ, ຄວາມຊັດເຈນ + ຄວາມສອດຄ່ອງ ມັກຈະຊະນະຫຼາຍກວ່າການສະແດງລະຄອນ.
ການເຂົ້າເຖິງແມ່ນໜຶ່ງໃນເຫດຜົນທີ່ດີທີ່ສຸດທີ່ TTS ມີຢູ່ ♿🔊
ສ່ວນນີ້ສົມຄວນໄດ້ຮັບຄວາມສົນໃຈຈາກຕົວມັນເອງ. ພະລັງ TTS:
-
ໂປຣແກຣມອ່ານໜ້າຈໍສຳລັບຜູ້ໃຊ້ທີ່ຕາບອດ ແລະ ມີບັນຫາທາງສາຍຕາ
-
ການສະໜັບສະໜູນການອ່ານສຳລັບພະຍາດ dyslexia ແລະ ການເຂົ້າເຖິງດ້ານສະຕິປັນຍາ
-
ສະພາບການທີ່ມືຫຍຸ້ງ (ແຕ່ງກິນ, ເດີນທາງໄປມາ, ລ້ຽງດູລູກ, ສ້ອມແປງໂສ້ລົດຖີບ... ເຈົ້າຮູ້ບໍ່) 🚲
ແລະນີ້ແມ່ນຄວາມຈິງທີ່ລັບໆ: ເຖິງແມ່ນວ່າ TTS ທີ່ສົມບູນແບບກໍ່ບໍ່ສາມາດບັນທຶກເນື້ອຫາທີ່ບໍ່ເປັນລະບຽບໄດ້.
ປະສົບການທີ່ດີແມ່ນຂຶ້ນກັບໂຄງສ້າງ:
-
ຫົວຂໍ້ທີ່ແທ້ຈິງ (ບໍ່ແມ່ນ "ຂໍ້ຄວາມໃຫຍ່ໆທີ່ສະແດງເປັນຫົວຂໍ້")
-
ຂໍ້ຄວາມລິ້ງທີ່ມີຄວາມໝາຍ (ບໍ່ແມ່ນ “ຄລິກທີ່ນີ້”)
-
ລຳດັບການອ່ານທີ່ມີເຫດຜົນ
-
ຂໍ້ຄວາມສຳຮອງອະທິບາຍ
ໂຄງສ້າງທີ່ສັບສົນຂອງ AI ທີ່ອ່ານດ້ວຍສຽງລະດັບພຣີມຽມຍັງຄົງສັບສົນຢູ່. ພຽງແຕ່... ບັນຍາຍແລ້ວ.
ຈັນຍາບັນ, ການໂຄນສຽງ, ແລະບັນຫາ “ລໍຖ້າ - ນັ້ນແມ່ນພວກເຂົາແທ້ບໍ?” 😬📵
ເທັກໂນໂລຢີການປາກເວົ້າທີ່ທັນສະໄໝມີການນຳໃຊ້ທີ່ຖືກຕ້ອງຕາມກົດໝາຍ. ມັນຍັງສ້າງຄວາມສ່ຽງໃໝ່ໆ, ໂດຍສະເພາະເມື່ອສຽງສັງເຄາະຖືກນຳໃຊ້ເພື່ອ ລອກລຽນແບບ ຄົນ.
ອົງການປົກປ້ອງຜູ້ບໍລິໂພກໄດ້ເຕືອນຢ່າງຊັດເຈນວ່າພວກຫຼອກລວງສາມາດໃຊ້ການໂຄນສຽງ AI ໃນແຜນການ "ສຸກເສີນຂອງຄອບຄົວ", ແລະແນະນຳໃຫ້ ກວດສອບຜ່ານຊ່ອງທາງທີ່ເຊື່ອຖືໄດ້ແທນທີ່ຈະໄວ້ວາງໃຈສຽງ [5].
ນິໄສທີ່ໃຊ້ໄດ້ຈິງທີ່ຊ່ວຍໄດ້ (ບໍ່ແມ່ນຄວາມວິຕົກກັງວົນ, ພຽງແຕ່... 2025):
-
ກວດສອບຄຳຮ້ອງຂໍທີ່ຜິດປົກກະຕິ ຜ່ານຊ່ອງທາງທີສອງ
-
ຕັ້ງລະຫັດຄຳສັບສຳລັບຄອບຄົວ ສຳລັບເຫດສຸກເສີນ
-
ຖືວ່າ “ສຽງທີ່ຄຸ້ນເຄີຍ” ບໍ່ແມ່ນຫຼັກຖານ ອີກຕໍ່ໄປ (ໜ້າລຳຄານ, ແຕ່ເປັນຈິງ)
ແລະ ຖ້າທ່ານເຜີຍແຜ່ສຽງທີ່ສ້າງຂຶ້ນໂດຍ AI: ການເປີດເຜີຍມັກຈະເປັນຄວາມຄິດທີ່ດີເຖິງແມ່ນວ່າທ່ານບໍ່ໄດ້ຖືກບັງຄັບທາງກົດໝາຍກໍຕາມ. ຜູ້ຄົນບໍ່ມັກການຖືກຫຼອກລວງ. ພວກເຂົາບໍ່ມັກ.
ວິທີການເລືອກວິທີການ TTS ໂດຍບໍ່ຕ້ອງໝຸນວຽນ 🧭😄
ເສັ້ນທາງການຕັດສິນໃຈງ່າຍໆ:
ເລືອກ cloud TTS ຖ້າທ່ານຕ້ອງການ:
-
ການຕັ້ງຄ່າ ແລະ ການປັບຂະໜາດໄວ
-
ຫຼາຍພາສາ ແລະ ຫຼາຍສຽງ
-
ການຕິດຕາມກວດກາ + ຄວາມໜ້າເຊື່ອຖື
-
ຮູບແບບການເຊື່ອມໂຍງແບບງ່າຍດາຍ
ເລືອກທ້ອງຖິ່ນ/ອອບລາຍ ຖ້າທ່ານຕ້ອງການ:
-
ການໃຊ້ແບບອອບໄລນ໌
-
ຂັ້ນຕອນການເຮັດວຽກທີ່ເນັ້ນຄວາມເປັນສ່ວນຕົວເປັນອັນດັບທຳອິດ
-
ຄ່າໃຊ້ຈ່າຍທີ່ຄາດເດົາໄດ້
-
ການຄວບຄຸມຢ່າງເຕັມທີ່ (ແລະເຈົ້າບໍ່ເປັນຫຍັງກັບການດັດແປງ)
ນອກຈາກນັ້ນ, ຄວາມຈິງເລັກນ້ອຍອີກຢ່າງໜຶ່ງຄື: ເຄື່ອງມືທີ່ດີທີ່ສຸດມັກຈະເປັນເຄື່ອງມືທີ່ເໝາະສົມກັບຂະບວນການເຮັດວຽກຂອງທ່ານ. ບໍ່ແມ່ນເຄື່ອງມືທີ່ມີຄລິບສາທິດທີ່ທັນສະໄໝທີ່ສຸດ.
ສະຫຼຸບແລ້ວ: ຂໍ້ຄວາມເປັນສຽງແມ່ນ AI ບໍ? 🧾✨
-
ການປ່ຽນຂໍ້ຄວາມເປັນສຽງເວົ້າແມ່ນໜ້າວຽກ : ປ່ຽນຂໍ້ຄວາມທີ່ຂຽນເປັນສຽງເວົ້າ.
-
AI ເປັນວິທີການທົ່ວໄປ ທີ່ໃຊ້ໃນ TTS ທີ່ທັນສະໄໝ, ໂດຍສະເພາະສຳລັບສຽງທີ່ຄ້າຍຄືຈິງ.
-
ຄຳຖາມແມ່ນຫຍຸ້ງຍາກເພາະວ່າ TTS ສາມາດສ້າງດ້ວຍ AI ຫຼືບໍ່ມີມັນ .
-
ເລືອກໂດຍອີງໃສ່ສິ່ງທີ່ທ່ານຕ້ອງການ: ຄວາມຊັດເຈນ, ການຄວບຄຸມ, ຄວາມໜ່ວງຊ້າ, ຄວາມເປັນສ່ວນຕົວ, ການອະນຸຍາດ... ບໍ່ພຽງແຕ່ "ວ້າວ, ມັນຟັງຄືວ່າເປັນຄົນ"
-
ແລະເມື່ອມັນສຳຄັນ: ກວດສອບການຮ້ອງຂໍທີ່ອີງໃສ່ສຽງ ແລະ ເປີດເຜີຍສຽງສັງເຄາະຢ່າງເໝາະສົມ. ຄວາມໄວ້ວາງໃຈແມ່ນຫາມາໄດ້ຍາກ ແລະ ງ່າຍທີ່ຈະຖືກຈູດເຜົາ🔥
ຄຳຖາມທີ່ຖືກຖາມເລື້ອຍໆ
ຂໍ້ຄວາມເປັນສຽງແມ່ນ AI ຫຼື ມັນເປັນພຽງໂປຣແກຣມທຳມະດາ?
ການປ່ຽນຂໍ້ຄວາມເປັນສຽງເວົ້າ (TTS) ແມ່ນເປົ້າໝາຍ: ປ່ຽນຂໍ້ຄວາມທີ່ຂຽນເປັນສຽງເວົ້າ. ບໍ່ວ່າມັນເປັນ "AI" ແມ່ນຂຶ້ນກັບວິທີການທີ່ໃຊ້ພາຍໃຕ້ຝາປິດ. ລະບົບເກົ່າສາມາດອີງໃສ່ກົດລະບຽບ ຫຼື ຕໍ່ສ່ວນທີ່ບັນທຶກໄວ້ເຂົ້າກັນ, ໃນຂະນະທີ່ສຽງທຳມະຊາດທີ່ທັນສະໄໝມັກຈະຂັບເຄື່ອນດ້ວຍການຮຽນຮູ້ຂອງເຄື່ອງຈັກ. ຖ້າທ່ານຕ້ອງການຄວາມແນ່ນອນ, ໃຫ້ສຸມໃສ່ເຕັກໂນໂລຢີທີ່ໃຊ້ແທນທີ່ຈະຕັດສິນດ້ວຍສຽງເທົ່ານັ້ນ.
ເມື່ອຄົນຖາມວ່າ "ຂໍ້ຄວາມເປັນສຽງ AI ແມ່ນບໍ?", ພວກເຂົາກຳລັງຖາມຫຍັງແທ້ໆ?
ສ່ວນຫຼາຍແລ້ວ, ພວກເຂົາຖາມວ່າ, "ມັນຖືກສ້າງຂຶ້ນໂດຍຮູບແບບການຮຽນຮູ້ຂອງເຄື່ອງຈັກບໍ?" ຫຼື "ມັນໄດ້ຮຽນຮູ້ທີ່ຈະຟັງຄືກັບມະນຸດຈາກຂໍ້ມູນບໍ?" ນັ້ນແມ່ນເຫດຜົນທີ່ຄຳຖາມສາມາດຮູ້ສຶກວ່າລື່ນ: TTS ເປັນໝວດໝູ່, ບໍ່ແມ່ນເຕັກນິກດຽວ. ໃນຜະລິດຕະພັນທີ່ທັນສະໄໝຫຼາຍຢ່າງ, ສຽງທີ່ເປັນທຳມະຊາດທີ່ສຸດແມ່ນອີງໃສ່ AI, ແຕ່ຍັງມີຫຼາຍວິທີການທີ່ບໍ່ແມ່ນ AI ທີ່ຍັງຄົງເຊື່ອຖືໄດ້ ແລະ ໃຊ້ໄດ້ຈິງ.
ຂ້ອຍຈະຮູ້ໄດ້ແນວໃດວ່າສຽງ TTS ແມ່ນສ້າງຂຶ້ນໂດຍ AI ໂດຍການຟັງເທົ່ານັ້ນ?
"ການທົດສອບຫູ" ສາມາດຊ່ວຍໄດ້, ແຕ່ມັນບໍ່ແມ່ນເລື່ອງທີ່ຜິດພາດໄດ້. ຖ້າສຽງມີການຢຸດຊົ່ວຄາວທີ່ເປັນທຳມະຊາດ, ຈັງຫວະທີ່ລຽບງ່າຍ, ແລະ ການເນັ້ນໜັກທີ່ຕິດຕາມຄວາມໝາຍ, ມັນອາດຈະເປັນການຂັບເຄື່ອນດ້ວຍຮູບແບບ. ຖ້າມັນຟັງຄືວ່າຮາບພຽງ, ມີການແບ່ງສ່ວນທີ່ແໜ້ນໜາ, ຫຼື ມີການສະດຸດລົ້ມໃນການໃຊ້ປະໂຫຍກ, ມັນອາດຈະເປັນວິທີການສັງເຄາະແບບເກົ່າ ຫຼື ການຕັ້ງຄ່າທີ່ມີຄຸນນະພາບຕໍ່າ. ການຢືນຢັນທີ່ດີທີ່ສຸດຍັງຄົງເປັນການກວດສອບວິທີການທີ່ບັນທຶກໄວ້ຂອງລະບົບ.
ຂໍ້ຄວາມເປັນສຽງຂອງ AI ທີ່ທັນສະໄໝເຮັດວຽກແນວໃດແທ້?
ລະບົບສ່ວນໃຫຍ່ປະຕິບັດຕາມຂັ້ນຕອນຄື: ເຮັດໃຫ້ຂໍ້ຄວາມສາມາດເວົ້າໄດ້, ວິເຄາະຫົວໜ່ວຍການອອກສຽງ, ວາງແຜນສຳນຽງ, ຈາກນັ້ນສ້າງສຽງ. ຄວາມແຕກຕ່າງທີ່ໃຫຍ່ທີ່ສຸດລະຫວ່າງ “AI ແລະ ບໍ່” ມັກຈະປາກົດຢູ່ໃນການວາງແຜນສຳນຽງ ແລະ ການສ້າງສຽງ. ລະບົບທີ່ທັນສະໄໝຫຼາຍລະບົບຄາດຄະເນລັກສະນະສຽງລະດັບກາງ (ມັກຈະເປັນ mel-spectrograms) ແລະຫຼັງຈາກນັ້ນປ່ຽນພວກມັນເປັນສຽງດ້ວຍເຄື່ອງ vocoder. ໃນຫຼາຍໆການຕັ້ງຄ່າໃນປະຈຸບັນ, ເຄື່ອງ vocoder ນັ້ນແມ່ນລະບົບປະສາດ.
ຂ້ອຍຄວນໃຊ້ TTS ໃນຄລາວ ຫຼື ເປີດໃຊ້ TTS ໃນທ້ອງຖິ່ນສຳລັບໂຄງການຂອງຂ້ອຍບໍ?
ເລືອກຄລາວເມື່ອທ່ານຕ້ອງການຕັ້ງຄ່າໄວ, ການຂະຫຍາຍງ່າຍ, ເມນູສຽງ ແລະ ພາສາທີ່ກວ້າງຂວາງ, ແລະ ຮູບແບບຄວາມໜ້າເຊື່ອຖືທີ່ໝັ້ນຄົງ. Cloud APIs ມັກຈະຖືກວັດແທກໂດຍປະລິມານຂໍ້ຄວາມ ແລະ ລະດັບສຽງ, ດັ່ງນັ້ນຄ່າໃຊ້ຈ່າຍສາມາດເພີ່ມຂຶ້ນໄດ້ຕາມການນຳໃຊ້. ເລືອກ TTS ລະບົບປະສາດທ້ອງຖິ່ນ/ອອບລາຍ ເມື່ອຄວາມເປັນສ່ວນຕົວ, ການດຳເນີນງານອອບລາຍ, ແລະ ການໃຊ້ຈ່າຍທີ່ຄາດເດົາໄດ້ມີຄວາມສຳຄັນຫຼາຍກວ່າຄວາມສະດວກສະບາຍແບບ plug-and-play. ວິທີການປະສົມສາມາດໃຫ້ຄຸນນະພາບຄລາວກັບທາງເລືອກແບບອອບລາຍ.
ວິທີທີ່ດີທີ່ສຸດທີ່ຈະເຮັດໃຫ້ TTS ເຮັດວຽກໄດ້ດີສຳລັບການເຂົ້າເຖິງໃນເວັບໄຊທ໌ ຫຼື ເອກະສານແມ່ນຫຍັງ?
TTS ທີ່ເຂັ້ມແຂງແມ່ນຂຶ້ນກັບໂຄງສ້າງທີ່ສະອາດ, ບໍ່ພຽງແຕ່ສຽງ "ພຣີມຽມ". ໃຊ້ຫົວຂໍ້ທີ່ແທ້ຈິງ (ບໍ່ພຽງແຕ່ຂໍ້ຄວາມທີ່ໜາກວ່າ), ຂໍ້ຄວາມລິ້ງທີ່ມີຄວາມໝາຍ, ແລະ ລຳດັບການອ່ານທີ່ສົມເຫດສົມຜົນ. ເພີ່ມຂໍ້ຄວາມ alt ທີ່ອະທິບາຍເພື່ອບໍ່ໃຫ້ຮູບພາບກາຍເປັນຊ່ອງຫວ່າງທີ່ງຽບສະຫງົບ, ແລະ ຫຼີກລ່ຽງກົນອຸບາຍການຈັດຮູບແບບທີ່ສັບສົນວິທີການອ່ານເນື້ອຫາອອກສຽງ. ເຖິງແມ່ນວ່າ TTS ທີ່ດີເລີດກໍ່ບໍ່ສາມາດແກ້ໄຂໂຄງສ້າງທີ່ບໍ່ດີໄດ້ - ມັນຈະບັນຍາຍເຖິງຄວາມສັບສົນເຫຼົ່ານັ້ນ.
ຂ້ອຍຈະຫຼຸດຜ່ອນຄວາມສ່ຽງຂອງການຫຼອກລວງສຽງ ຫຼື ການໂທ “ສຸກເສີນຂອງຄອບຄົວ” ປອມໄດ້ແນວໃດ?
ໃຫ້ປະຕິບັດຕໍ່ສຽງທີ່ຄຸ້ນເຄີຍຄືກັບວ່າບໍ່ແມ່ນຫຼັກຖານທີ່ແນ່ນອນອີກຕໍ່ໄປ. ນິໄສທີ່ໃຊ້ໄດ້ຈິງຄືການກວດສອບຄຳຮ້ອງຂໍທີ່ຜິດປົກກະຕິຜ່ານຊ່ອງທາງທີສອງ, ເຊັ່ນ: ການສົ່ງຂໍ້ຄວາມຫາເບີທີ່ຮູ້ຈັກ ຫຼື ການໂທກັບຜ່ານວິທີການຕິດຕໍ່ທີ່ເຊື່ອຖືໄດ້. ຫຼາຍຄົນຍັງຕັ້ງລະຫັດຄອບຄົວງ່າຍໆສຳລັບເຫດສຸກເສີນ. ເປົ້າໝາຍບໍ່ແມ່ນຄວາມວິຕົກກັງວົນ - ມັນເປັນຂັ້ນຕອນການກວດສອບທີ່ວ່ອງໄວເມື່ອມີຄວາມສ່ຽງສູງ.
SSML ແມ່ນຫຍັງ, ແລະຂ້ອຍຄວນໃຊ້ມັນກັບຂໍ້ຄວາມເປັນສຽງເວລາໃດ?
SSML ເປັນວິທີທີ່ຈະໃຫ້ຄຳແນະນຳເພີ່ມເຕີມແກ່ລະບົບ TTS ກ່ຽວກັບວິທີການເວົ້າຂໍ້ຄວາມ. ມັນສາມາດຊ່ວຍໃນການຢຸດຊົ່ວຄາວ, ການເນັ້ນໜັກ, ແລະ ການອອກສຽງ, ໂດຍສະເພາະສຳລັບຊື່, ຄຳຫຍໍ້, ຫຼື ຄຳສັບທາງວິຊາການ. ຖ້າທ່ານກຳລັງສ້າງບາງສິ່ງບາງຢ່າງທີ່ມີການໂຕ້ຕອບ ຫຼື ມີຄວາມອ່ອນໄຫວຕໍ່ຍີ່ຫໍ້, SSML ສາມາດປັບປຸງຄວາມສອດຄ່ອງ ແລະ ຫຼຸດຜ່ອນການອ່ານທີ່ງຸ່ມງ່າມ. ມັນມີຄຸນຄ່າຫຼາຍທີ່ສຸດເມື່ອການອອກສຽງເລີ່ມຕົ້ນໃກ້ຄຽງ, ແຕ່ບໍ່ໃກ້ຄຽງພຽງພໍ.
ເອກະສານອ້າງອີງ
-
W3C - ພາສາມາກອັບສັງເຄາະສຽງ (SSML) ເວີຊັນ 1.1 - ອ່ານຕື່ມ
-
Tan ແລະ ຄະນະ (2021) - ການສຳຫຼວດກ່ຽວກັບການສັງເຄາະສຽງເວົ້າຂອງລະບົບປະສາດ (arXiv PDF) - ອ່ານຕື່ມ
-
Google Cloud - ລາຄາການປ່ຽນຂໍ້ຄວາມເປັນສຽງ - ອ່ານຕື່ມ
-
OHF-Voice - Piper (ເຄື່ອງຈັກ TTS ລະບົບປະສາດທ້ອງຖິ່ນ) - ອ່ານຕື່ມ
-
FTC ຂອງສະຫະລັດ - ຜູ້ຫຼອກລວງໃຊ້ AI ເພື່ອປັບປຸງໂຄງການ "ສຸກເສີນຂອງຄອບຄົວ" - ອ່ານຕື່ມ