A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
Z
Ś
Semcore Słownik Text to speech (TTS)

Text to speech (TTS) - co to jest?

Ułatwienia dostępu do informacji to jedno z ważniejszych zastosowań współczesnego oprogramowania. Content zgromadzony w sieci można przedstawić tekstowo, obrazowo, albo dźwiękowo. Ciekawym rozwiązaniem, które ułatwia przeniesienie treści na mowę jest syntezator mowy znany też jako text to speech. Co warto wiedzieć o tego typu narzędziu? Jakie jest jego zastosowanie i w jaki sposób działa?

Text to speech (TTS)

Zdj 1. TTS generuje fale dźwiękowe, które tworzy na bazie tekstu 

Źródło: https://pixabay.com/illustrations/colorful-waves-sound-waves-waves-7404806/

Syntezatory mowy spotykane są w różnego rodzaju programach, takich jak edytory tekstu, przeglądarki internetowe czy systemy operacyjne. Text to speech to narzędzie przydatne i wykorzystywane coraz częściej przez wielu użytkowników. Co warto o nim wiedzieć?

Text to speech – co to jest?

Tak jak wspomnieliśmy wyżej, text to speech (TTS) to specjalny syntezator mowy, który przekształca treści na mowę w formie syntetycznej. Sprawia on, że urządzenia takie jak komputer czy smartfon są w stanie „mówić”. 

Jeszcze kilka lat temu działanie TTS było oparte na prostych algorytmach, które naczytywały tekst tą samą tonacją, bez zaznaczonej interpunkcji i emocji w treści. Dziś coraz częściej syntezatory mowy wykorzystują w swoim działaniu sztuczną inteligencję. Dzięki temu generują głos o barwie zbliżonej do ludzkiego, oparty na emocjach, tonacji, pauzach itd. 

Ze względu na to, test to speech jest coraz częściej stosowanym rozwiązaniem nie tylko w edytorach tekstu. Niekiedy algorytm ten zastępuje tradycyjnych lektorów w różnego rodzaju aplikacjach.

Jak działa speech to text?

Działanie TTS-ów oparte jest na algorytmach, które w sposób płynny, często w czasie rzeczywistym przekładają język pisany na język mówiony. To tzw. NPL, czyli system przetwarzania języka naturalnego oraz skorelowany z nim syntezator. 

Proces przetwarzania danych zaczyna się od analizy tekstu. Algorytm bada kolejne znaki, interpunkcję i kontekst. Stara się „zrozumieć” treść. Później tekst przekształcany jest na fonemy, czyli podstawowe jednostki dźwiękowe. Proces łączenia fonemów i nadawania im konkretnego modelu głosowego (np. kobiety) nazywa się syntezacją mowy. Po wszystkim następuje proces wygładzania dźwięku i dopasowania go do pożądanej jakości.

Warto wspomnieć, że wszystko dzieje się zaledwie w przeciągu kilku milisekund. Proces musi być szybki, żeby algorytm naczytał treści w pożądanym dla nas tempie. 

Text to speech (TTS)

Zdj 2. Proces tworzenia mowy na bazie tekstu jest błyskawiczny. Zajmuje kilka milisekund

Źródło: https://pixabay.com/illustrations/voice-search-talk-software-5267979/ 

Jakie zastosowanie ma syntezator mowy TTS?

Syntezatory mowy mają szerokie zastosowanie w różnego rodzaju aplikacjach czy systemach operacyjnych. Są wsparciem dla osób z niepełnosprawnościami, umożliwiają szybszą weryfikację treści, a także upraszczają obsługę oprogramowania. Stosuje się je do edukacji, w obsłudze klienta, w marketingu lub w aplikacjach użytkowych. Gdzie najczęściej spotkamy TTS?

  • Naczytywanie tekstów dla osób niewidomych – tego typu programy mogą pomagać w czytaniu książek i dokumentów urzędowych w edytorach tekstu lub stron internetowych w przeglądarkach www.
  • Wykorzystywanie w aplikacjach z nawigacją – syntezatory mogą stanowić podstawę lektora w aplikacjach do nawigowania kierowców. Pozwalają generować mowę wskazującą drogę. 
  • Pomoc w poprawnej wymowie w aplikacjach do nauki języków obcych – syntezatory wykorzystywane są do generowania mowy w językach obcych. Dzięki temu możemy sprawdzić, jak wymawia się dane słowo nawet w najbardziej nietypowym języku obcym.
  • Działanie asystentów głosowych – TTS to podstawowy element funkcjonalności narzędzi asystentów głosowych, takich jak Google Assistant, Alexa od firmy Amazon czy Siri od Apple. Dzięki syntezatorom mowy, komputer może z nami „rozmawiać”, wykonując wydawane mu polecenia.

To oczywiście tylko część zastosowań narzędzi opartych na TTS. Text to speech, znany też jako syntezator mowy możemy spotkać w Google Maps, Google Translate, Microsoft Word, Adobe Reader i wielu innych. Do najpopularniejszych syntezatorów zaliczymy takie narzędzie jak Google Text-to-Speech, Amazon Polly, Microsoft Azure Speech czy NaturalReader. 

Z pewnością wraz ze wzrostem popularności sztucznej inteligencji, coraz częściej będziemy też widzieć, jak wdrażane są syntezatory mowy najnowszej generacji.

Semcore

Oceń tekst

Średnia ocen 5 / 5. Liczba głosów: 1

Brak głosów - oceń jako pierwszy!