Inteligentniejsze scenariusze, bardziej naturalne głosy: aktualizacje platformy w tym miesiącu
Platformy głosowe szybko zmierzają w stronę bardziej elastycznej kontroli, tańszej infrastruktury i scenariuszy o niższej latencji. Dwa obszary, które otrzymały w tym miesiącu największe aktualizacje, to dostawcy syntezy mowy oraz edytor scenariuszy.
Naturalnie brzmiące głosy za ułamek kosztu
Dodaliśmy wsparcie dla nowych modeli text-to-speech Gemini, zwiększając liczbę dostawców głosów do sześciu, z ponad 25 modelami i ponad 200 głosami do wyboru.
Te modele brzmią bardziej naturalnie i kosztują mniej niż dotychczasowe opcje premium na rynku. Generują wysokiej jakości głos przy koszcie od czterech do pięciu razy mniej niż alternatywy premium.
- Wybór modelu: Klienci mogą teraz wybierać spośród wielu modeli głosowych w zależności od potrzeb. Flash-Lite jest najszybszy i sprawdza się przy krótkich frazach. Flash to zrównoważony model średniej klasy z mocnym przekazem emocjonalnym, odpowiedni do szerszych zastosowań konwersacyjnych. Pro to najbardziej zaawansowana opcja, oferująca jakość premium i głębsze możliwości konwersacyjne. Wszystkie trzy modele obsługują prompty w stylu LLM, dzięki czemu klienci mogą kształtować sposób wypowiedzi bezpośrednio za pomocą promptów, bez osobnej konfiguracji głosu czy dodatkowych ustawień.
- Dynamiczna kontrola tonu: Ten sam Voice Agent może teraz zmieniać rejestr w zależności od przypadku użycia - "empatyczny" przy obsłudze reklamacji i "formalny" przy przypomnieniu o odnowieniu umowy - ustawiany bezpośrednio za pomocą promptów, bez osobnej konfiguracji głosu. Obecnie dostępna w modelach Gemini.
- Realistyczne audio: Głosy zawierają naturalne wzorce oddechu i tempa, bliższe ludzkiej mowie niż syntetycznemu odtwarzaniu.
„Przetestowaliśmy każdy znaczący model TTS na rynku. Do tego roku wysokiej jakości głosy zbliżone do ludzkich były drogie. Gemini dorównuje dostawcom premium pod względem jakości, ale kosztuje cztero do pięciokrotnie mniej."
- Ilya Ostrovskiy, Chief Product Officer w Apifonica
Ulepszenia edytora scenariuszy z wyszukiwaniem i lepszą widocznością
Duże scenariusze głosowe mogą szybko zyskiwać na złożoności, co utrudnia nawigację. Nowa funkcja wyszukiwania w edytorze scenariuszy rozwiązuje ten problem, wprowadzając globalne wyszukiwanie w czasie rzeczywistym w obrębie całego scenariusza.
- Wyszukiwanie w scenariuszu: Pasek wyszukiwania w stylu Spotlight pozwala teraz natychmiast zlokalizować dowolny blok lub tekst w scenariuszu, niezależnie od jego złożoności.
- Wyodrębnione dane na pierwszy rzut oka: Wartości z ekstrakcji encji - języki, numery zgłoszeń CRM, wszystkie dane wychwytywane przez blok - są teraz wyświetlane bezpośrednio na kanwie. Nie trzeba już otwierać każdego bloku osobno, żeby zobaczyć, co zawiera.
- Natychmiastowe próbki audio: Gdy klient chce usłyszeć konkretną frazę, może użyć nowego przycisku pobierania, aby wygenerować próbkę audio i w razie potrzeby ją udostępnić.
Co to oznacza w praktyce
Razem te aktualizacje usprawniają dwa kluczowe elementy pracy z głosowym AI:- Lepsza jakość głosu z bardziej ekspresyjną i naturalną mową
- Przyspieszony rozwój scenariuszy i debugowanie na dużą skalę
Poproś o prezentację i posłuchaj nowych, naturalnie brzmiących głosów Gemini