Jak skonfigurować syntezę mowy w UniTalk: Przewodnik krok po kroku

Data publikacji: 20.01.2026

Potrzeba błyskawicznej personalizacji i aktualizacji komunikatów głosowych nie musi już wiązać się z czasem oczekiwania na nagranie w studio czy budżetem na lektora. Synteza mowy (Text-to-Speech, TTS) od UniTalk to inteligentne narzędzie, które natychmiast generuje audio z Twojego tekstu, naśladując ludzką mowę z odpowiednią intonacją i pauzami. Dzięki temu możesz szybko tworzyć dziesiątki unikalnych powitań, aktualizować menu IVR oraz realizować masowe kampanie głosowe przy zachowaniu maksymalnie naturalnego brzmienia. Poznaj nasze elastyczne narzędzia i porównaj czołowych dostawców (w tym UniTalk Alfa), aby Twój głos brzmiał nienagannie.

Synteza dźwięku to technologia, która pozwala przekształcić tekst w naturalny głos. Korzystając z algorytmów i modeli uczenia maszynowego, system analizuje tekst i generuje dźwięki naśladujące ludzką mowę. Może to obejmować nie tylko same słowa, ale także intonację, pauzy, emocje i inne aspekty, które sprawiają, że mowa jest bardziej naturalna.

1. Synteza mowy na stronie Synteza dźwięku

W sekcji  „Synteza dźwięku” na koncie osobistym można tworzyć własne pliki audio z tekstu i natychmiast dodawać je do potrzebnych funkcji: w skryptach przychodzących, menu głosowych, połączeniach, dzwonkach w kolejce z akompaniamentem oraz w połączeniach API.

Tekst, który chcesz przekonwertować na dźwięk, może być w zwykłym formacie lub w SSML.

SSML (Speech Synthesis Markup Language) to język znaczników dla aplikacji syntezy mowy, który umożliwia precyzyjne dostosowanie głosu tekstu.

Można również wybrać usługę, za pomocą której będzie syntetyzowana mowa. Lista dostępnych usług obejmuje Microsoft, Google, UniTalk Alfa i Yandex.

Możesz także sformatować tekst przed syntezą. Formatowanie obejmuje podział liczby na cyfry lub miejsca dziesiętne, podział tekstu na znaki. To ustawienie nie działa w przypadku syntezy tekstu w formacie SSML. Warto również zauważyć, że rodzaj formatowania wpłynie na liczbę płatnych znaków.

Tutaj można wybrać pauzę przed tekstem, która jest mierzona w milisekundach. 1 sekunda = 1000 milisekund. Długość pauzy również wpływa na liczbę płatnych znaków.

Możliwe jest również wybranie języka, w którym wprowadzany tekst będzie udźwiękowiony.

Można również wybrać wariant głosu, który będzie używany do odczytywania tekstu.

Warto zauważyć, że usługa UniTalk Alfa oferuje również wybór modeli i większą liczbę obsługiwanych języków.

Jedną z zalet syntezy mowy jest możliwość korzystania z zaawansowanych ustawień. Ustawienia te obejmują dodanie dodatkowej ciszy przed tekstem, po tekście, przed znakami interpunkcyjnymi, między zdaniami, a także możliwość zmiany głośności, wysokości dźwięku, co pozwoli głosowi brzmieć niżej lub wyżej, a także możliwość zmiany szybkości czytania tekstu. Ponadto można wybrać sposób wymawiania wprowadzonej frazy: adres, waluta, numer telefonu, godzina, data itd. Wszystkie te ustawienia pomogą ci zsyntetyzować tekst z najwyższą jakością i najbardziej zbliżoną do prawdziwego ludzkiego głosu.

Wygodne jest również to, że możesz natychmiast zobaczyć cenę tekstu, który chcesz zsyntetyzować.

Po wprowadzeniu tekstu, który ma zostać zsyntetyzowany, wprowadzeniu wszystkich niezbędnych ustawień i kliknięciu przycisku Syntetyzować, należy wprowadzić nazwę dźwięku i wybrać sekcję, do której zostanie on dodany. Ważne jest, aby wybrać sekcję, w której dźwięk będzie używany. Jeśli dodasz go na przykład do sekcji Scenariusze, nie będzie on dostępny w innych sekcjach.

Listę plików audio z kamienia milowego i sekcje, do których zostały dodane, można wyświetlić w sekcji „Pliki dźwiękowe” na koncie osobistym.

2. Synteza mowy w obzwonieniu automatycznym i predykcyjnym wyberaniu numerów 

Ustawienia syntezy mowy są również dostępne w połączeniach automatycznych. Jeśli chcesz odtwarzać różne lub częściowo różne dźwięki podczas dzwonienia do różnych abonentów, możesz dodać numery do połączenia wraz z listą dźwięków (identyfikator audio lub tekst do odtworzenia) – do 5 dźwięków, z których maksymalnie 2 mogą być syntetyzowane z tekstu lub SSML. Jeśli numer połączenia jest określony za pomocą tekstu lektora, dźwięk zostanie zsyntetyzowany przed rozpoczęciem połączenia. Takie pliki audio nie są wyświetlane na liście plików audio projektu i są przechowywane przez 1 tydzień po zakończeniu połączenia lub maksymalnie przez 3 miesiące. Istnieją dwa sposoby dodania numeru do połączenia z listą plików audio:

1. Poprzez API (dokumentacja metody ADD_CALLS)

2. Dodając numery z pliku xlsx (z kolumnami audio1, audio2, audio3, audio4, audio5) na stronie połączeń.

W tym przypadku synteza audio odbywa się dosłownie podczas połączenia, więc jeśli wystąpi błąd podczas syntezy audio, można wybrać, czy połączenie zakończy się statusem „Błąd audio”, czy też zostanie użyte ogólne audio połączenia.

3. Synteza mowy w połączeniach API

Synteza dźwięku jest również dostępna w połączeniach API. Podczas inicjowania połączenia API można określić listę audio, wprowadzając identyfikator audio lub tekst, który będzie wypowiadany. Można wybrać do 5 dźwięków, z których maksymalnie 2 mogą być syntetyzowane z tekstu lub SSML. Jeśli podano tekst, dźwięk zostanie zsyntetyzowany przed rozpoczęciem połączenia.

Przykład żądania JSON:

Przykład odpowiedzi:

4. Serwisy syntezy mowy

Obecnie można korzystać z usług syntezy mowy firm Microsoft, Google, Yandex i UniTalk Alfa.

Usługi syntezy mowy od Microsoft, Google, Yandex i UniTalk Alfa mają wiele wspólnego, ale różnią się również pod wieloma względami, w tym jakością głosu, obsługiwanymi językami, opcjami dostosowywania i ceną. 

1. Microsoft
  • Obsługa języków: Microsoft obsługuje 9 języków, takich jak ukraiński, rosyjski, angielski (USA), angielski (Wielka Brytania), czeski, polski, włoski, rumuński i węgierski, oferując co najmniej kilka opcji głosowych dla każdego języka.
  • Jakość głosu: Wykorzystuje sieci neuronowe do tworzenia wysokiej jakości i naturalnych głosów. Możliwe jest również dostosowanie głosów do określonych zadań.
  • Funkcjonalność: Usługa oferuje funkcje zmiany stylu wymowy, szybkości i głośności mowy, a także zmiany wysokości głosu. Ponadto możliwe jest określenie warunków ciszy podczas odczytywania tekstu.
2. Google
  • Obsługa języków: Google, podobnie jak Microsoft, obsługuje 9 języków, takich jak ukraiński, rosyjski, angielski (USA), angielski (Wielka Brytania), czeski, polski, włoski, rumuński i węgierski, oferując co najmniej kilka opcji głosowych dla każdego języka, ale znacznie więcej niż Microsoft. 
  • Jakość głosu: Google wykorzystuje zaawansowane sieci neuronowe do tworzenia wysokiej jakości głosów. Najnowsze modele, takie jak Tacotron 2, osiągnęły znaczny poziom naturalności.
  • Funkcjonalność: Google oferuje dostosowywanie głosu, takie jak zmiana prędkości, wysokości i głośności. Możliwe jest również ustawienie profilu efektów dźwiękowych zastosowanych do dźwięku i określenie częstotliwości próbkowania (Hz).
3. Yandex
  • Język: Yandex obsługuje tylko dwa języki, w tym rosyjski i angielski. Sprawia to, że jest mniej elastyczny niż inne usługi.
  • Jakość głosu: Yandex wykorzystuje sieci neuronowe do tworzenia głosów, które są dość naturalne, zwłaszcza w języku rosyjskim. Jakość głosu jest zoptymalizowana pod kątem rosyjskich akcentów i wymowy.
  • Funkcjonalność: Usługa oferuje możliwość zmiany prędkości i może naśladować tony emocjonalne.
4. UniTalk Alfa
  • Obsługa języków: UniTalk Alfa obsługuje 31 języków i różne akcenty. Otwórz nowe horyzonty komunikacji dzięki wielojęzycznemu wsparciu, które obejmuje najpopularniejsze języki świata i akcenty dla każdego z nich.
  • Jakość głosu: Dzięki wysokiej jakości syntezie mowy, UniTalk Alfa osiąga najbardziej naturalny i naturalny dźwięk, który jest nie do odróżnienia od żywego głosu. Niezależnie od tego, czy potrzebujesz formalnego tonu w biznesie, czy emocjonalnego stylu w reklamie, UniTalk Alfa dostarczy dokładnie taki głos, jakiego potrzebujesz. 
  • Funkcjonalność: Usługa oferuje regulację stabilności, intensywności stylu, wyrazistości i podobieństwa wymowy, umożliwiając tworzenie niestandardowych rozwiązań dla dowolnych potrzeb. Obsługa unikalnych ustawień, które pozwalają osiągnąć maksymalny realizm dźwięku, który nie ustępuje głosowi na żywo.

Synteza mowy to kluczowe narzędzie nowoczesnej automatyzacji, które oszczędza Twój czas i budżet. Dzięki elastycznym ustawieniom (SSML, pauzy, wysokość tonu) oraz możliwości wyboru spośród czołowych dostawców (w tym wielojęzycznej i realistycznej UniTalk Alfa), możesz tworzyć pliki audio, które praktycznie nie różnią się od nagrań profesjonalnego lektora. Wykorzystaj tę technologię do natychmiastowej personalizacji masowych połączeń, aktualizacji menu IVR oraz zapewnienia płynnej i naturalnej komunikacji z klientami.

Chcesz zostać klientem UniTalk?
BEZPŁATNA KONSULTACJA
Poproś o oddzwonienie lub zadzwoń do nas +38 (093) 170 08 00 .