Text to speech (TTS) - co to jest?
Spis treści
Ułatwienia dostępu do informacji to jedno z ważniejszych zastosowań współczesnego oprogramowania. Content zgromadzony w sieci można przedstawić tekstowo, obrazowo, albo dźwiękowo. Ciekawym rozwiązaniem, które ułatwia przeniesienie treści na mowę jest syntezator mowy znany też jako text to speech. Co warto wiedzieć o tego typu narzędziu? Jakie jest jego zastosowanie i w jaki sposób działa?
Zdj 1. TTS generuje fale dźwiękowe, które tworzy na bazie tekstu
Źródło: https://pixabay.com/illustrations/colorful-waves-sound-waves-waves-7404806/
Syntezatory mowy spotykane są w różnego rodzaju programach, takich jak edytory tekstu, przeglądarki internetowe czy systemy operacyjne. Text to speech to narzędzie przydatne i wykorzystywane coraz częściej przez wielu użytkowników. Co warto o nim wiedzieć?
Text to speech – co to jest?
Tak jak wspomnieliśmy wyżej, text to speech (TTS) to specjalny syntezator mowy, który przekształca treści na mowę w formie syntetycznej. Sprawia on, że urządzenia takie jak komputer czy smartfon są w stanie „mówić”.
Jeszcze kilka lat temu działanie TTS było oparte na prostych algorytmach, które naczytywały tekst tą samą tonacją, bez zaznaczonej interpunkcji i emocji w treści. Dziś coraz częściej syntezatory mowy wykorzystują w swoim działaniu sztuczną inteligencję. Dzięki temu generują głos o barwie zbliżonej do ludzkiego, oparty na emocjach, tonacji, pauzach itd.
Ze względu na to, test to speech jest coraz częściej stosowanym rozwiązaniem nie tylko w edytorach tekstu. Niekiedy algorytm ten zastępuje tradycyjnych lektorów w różnego rodzaju aplikacjach.
Jak działa speech to text?
Działanie TTS-ów oparte jest na algorytmach, które w sposób płynny, często w czasie rzeczywistym przekładają język pisany na język mówiony. To tzw. NPL, czyli system przetwarzania języka naturalnego oraz skorelowany z nim syntezator.
Proces przetwarzania danych zaczyna się od analizy tekstu. Algorytm bada kolejne znaki, interpunkcję i kontekst. Stara się „zrozumieć” treść. Później tekst przekształcany jest na fonemy, czyli podstawowe jednostki dźwiękowe. Proces łączenia fonemów i nadawania im konkretnego modelu głosowego (np. kobiety) nazywa się syntezacją mowy. Po wszystkim następuje proces wygładzania dźwięku i dopasowania go do pożądanej jakości.
Warto wspomnieć, że wszystko dzieje się zaledwie w przeciągu kilku milisekund. Proces musi być szybki, żeby algorytm naczytał treści w pożądanym dla nas tempie.
Zdj 2. Proces tworzenia mowy na bazie tekstu jest błyskawiczny. Zajmuje kilka milisekund
Źródło: https://pixabay.com/illustrations/voice-search-talk-software-5267979/
Jakie zastosowanie ma syntezator mowy TTS?
Syntezatory mowy mają szerokie zastosowanie w różnego rodzaju aplikacjach czy systemach operacyjnych. Są wsparciem dla osób z niepełnosprawnościami, umożliwiają szybszą weryfikację treści, a także upraszczają obsługę oprogramowania. Stosuje się je do edukacji, w obsłudze klienta, w marketingu lub w aplikacjach użytkowych. Gdzie najczęściej spotkamy TTS?
- Naczytywanie tekstów dla osób niewidomych – tego typu programy mogą pomagać w czytaniu książek i dokumentów urzędowych w edytorach tekstu lub stron internetowych w przeglądarkach www.
- Wykorzystywanie w aplikacjach z nawigacją – syntezatory mogą stanowić podstawę lektora w aplikacjach do nawigowania kierowców. Pozwalają generować mowę wskazującą drogę.
- Pomoc w poprawnej wymowie w aplikacjach do nauki języków obcych – syntezatory wykorzystywane są do generowania mowy w językach obcych. Dzięki temu możemy sprawdzić, jak wymawia się dane słowo nawet w najbardziej nietypowym języku obcym.
- Działanie asystentów głosowych – TTS to podstawowy element funkcjonalności narzędzi asystentów głosowych, takich jak Google Assistant, Alexa od firmy Amazon czy Siri od Apple. Dzięki syntezatorom mowy, komputer może z nami „rozmawiać”, wykonując wydawane mu polecenia.
To oczywiście tylko część zastosowań narzędzi opartych na TTS. Text to speech, znany też jako syntezator mowy możemy spotkać w Google Maps, Google Translate, Microsoft Word, Adobe Reader i wielu innych. Do najpopularniejszych syntezatorów zaliczymy takie narzędzie jak Google Text-to-Speech, Amazon Polly, Microsoft Azure Speech czy NaturalReader.
Z pewnością wraz ze wzrostem popularności sztucznej inteligencji, coraz częściej będziemy też widzieć, jak wdrażane są syntezatory mowy najnowszej generacji.