Jarogniew Rykowski
Spis treści:
1. Wprowadzenie do tematyki sterowania głosowego i syntezy mowy
Praktycznie od zawsze komunikacja akustyczna, obok wizualnej, była podstawą przekazywania informacji. Olbrzymia większość zwierząt generuje i pobiera z otoczenia dźwięki, mające określone znaczenie. U człowieka ta umiejętność przekształciła się w artykułowaną mowę, oraz spowodowała powstanie języka. Język szybko ewoluował (i nieustannie podlega takiej ewolucji) w narodowe, branżowe i specjalne dialekty. Komunikacja z wykorzystaniem języka z czasem objęła nie tylko ludzi – na przykład psy i inne zwierzęta domowe rozumieją pewne polecenia wydawane głosem, choć nie potrafią same mówić.
Włączenie języka mówionego do standardowych metod komunikacji człowieka z komputerem od lat było przedmiotem badań naukowców. Już kilkanaście lat po wynalezieniu pierwszego komputera zaproponowano formalne metody analizy języka naturalnego, począwszy od analizy poszczególnych głosek (fonemów), a skończywszy na słowach i strukturze zdania. Równolegle prowadzono prace związane z syntezą mowy przez maszyny – od pierwszych prób nagrywania i łączenia głosek i słów, po generowanie mowy bezpośrednio z tekstu (odczytywanie znaków i słów). Nie bez znaczenia były także prace związane z tłumaczeniem maszynowym z języka na język, włączając języki wymarłe i dialekty, a nawet regionalizmy i języki używane przez pewne grupy społeczne (np. dzieci i młodzież).
Badania w dziedzinie analizy i syntezy mowy przeżywały wzloty i upadki. Po początkowym entuzjazmie w latach 60. XX wieku nastąpiła era zastoju, będąca skutkiem niespełnienia wygórowanych wymagań stawianych pierwszym rozwiązaniom. Przełom wieków to początek kolejnej rewolucji, związanej ze wzrostem mocy obliczeniowej komputerów i ulepszeniem algorytmów analizy podstawowych części mowy. Ale prawdziwy przełom nastąpił na przełomie pierwszej i drugiej dekady XXI wieku. Zaproponowano wtedy odejście od metod analizy formalnej na rzecz analizy prawdopodobieństwa i tzw. dużych modeli językowych (ang. Large Language Models, LLMs). Wprowadziło to komunikację człowieka z maszyną na nowy poziom, nie tylko w zakresie „rozumienia” mowy przez komputer, ale także „odpowiadania”, symulującego zachowanie człowieka.
Należy wyraźnie zaznaczyć, że „rozumienie” mowy przez komputer i rozumienie przez człowieka to dwie różne sprawy. Komputer potrafi zamienić dźwięki na reprezentację tekstową (czasami robi to nawet lepiej niż człowiek), a także odwrotnie – zsyntetyzować dźwięk z zapisu tekstowego. Jednak nie „rozumie” znaczenia tego tekstu, choć sprawia takie wrażenie. Powoduje to problemy znane już od czasów pierwszych prób komunikacji człowieka z maszyną. J. Weisenbaum, który zaprojektował i opisał pierwszy program do komunikacji komputera w języku zbliżonym do naturalnego1, słynną Elizę [Eliza], zauważył, że nieświadomi rozmówcy bezgranicznie ufali programowi, który symulował rozmowę z psychoterapeutą [Weizenbaum].
„Efekt Elizy” stał się przedmiotem szerokich badań naukowych, nie tylko na gruncie informatyki, ale także psychologii i socjologii. Zaczęto też dostrzegać potencjał organizacyjno-marketingowy z nim związany. Na przełomie wieków pojawiły się pierwsze propozycje zastąpienia ludzi przez maszyny w kontekście komunikacji słownej i automatyzacji interakcji. Pierwsze tzw. chatboty były stosunkowo prymitywnymi (jak na dzisiejsze czasy) rozwiązaniami, opartymi na sztywnym zestawie reguł pytanie-odpowiedź. Jednak szybko zaproponowano usprawnienia, zmierzające do zdania przez maszynę tzw. testu (kryterium) Turinga. Test Turinga [Test Turinga], zaproponowany na wczesnym etapie rozwoju komputerów przez tego sławnego angielskiego matematyka, polegał na próbie odróżnienia komputera i człowieka w swobodnej rozmowie, tylko na podstawie interakcji słownej (rozmówcy się nie widzą). Jeśli człowiek nie potrafił rozróżnić, że rozmawia z maszyną, a nie innym człowiekiem, to maszyna „zdawała” ten test. Pierwsze próby takiej interakcji przeprowadzono już w latach 70. XX wieku. Ćwierć wieku później zaczęły się pojawiać systemy, o których zaczęto mówić, że zdały test Turinga: Cleverbot [Cleverbot], który doszedł prawie do bariery 60% „oszukanych” sędziów, oraz mniej kontrowersyjny program symulujący trzynastoletniego chłopca o imieniu Eugene Gootsman, który praktycznie całkowicie przekonał sędziów co do swojej „ludzkiej” egzystencji [Gootsman]. Ustanowiono nawet specjalną nagrodę dla programu, który w sposób niezaprzeczalny jako pierwszy zda test Turinga – tzw. konkurs Loebnera. Zdania co do zwycięzców tego konkursu są podzielone, ale powszechnie przyjęto, że ostatni „laureaci” zdali test Turinga2. Po serii testów przyjmuje się też, że popularny chatbot ChatGPT 4.5 zdał test Turinga, uzyskując wynik na poziomie 70% [Chatgpt]. Możemy zatem powiedzieć, że przeciętny użytkownik (sędziami w powyższych konkursach i testach byli wybitni przedstawiciele nauki) nie ma dziś większych szans na to, żeby odróżnić maszynę od człowieka. Stąd ponadprzeciętne zainteresowanie zastępowaniem ludzi przez maszyny w zawodach opartych na konwersacji słownej (informatory, programy powitalne, zbieranie ankiet itp.). Ostatnio ten trend dotarł także do obszaru inteligentnych budynków, miejsc pracy, a nawet przestrzeni publicznej.
2. „Inteligentna” komunikacja werbalna a automatyka domowa
„Inteligentna” komunikacja werbalna człowieka z otaczającym go otoczeniem, na przykład domem lub miejscem pracy, jest naturalnym rozszerzeniem form, do których ludzie przywykli na przestrzeni wieków. O ile klasyczna klawiatura i ekran są formami bardzo nienaturalnymi dla człowieka, przez co wymagają nauki oraz absorbują nasze zmysły, o tyle komunikacja werbalna jest, przynajmniej w bazowym założeniu, całkowicie intuicyjna. Jednak pozorna łatwość takiej komunikacji powoduje kilka problemów. Po pierwsze, występuje opisany wcześniej „efekt Elizy” – komputer zaczyna być traktowany jako inny, „pełnoprawny” człowiek, a w najlepszym razie – jako zwierzę domowe typu pies lub kot, które rozumie3 pewien zakres słów i poleceń. Powoduje to, że podświadomie oczekujemy od komputera reakcji podobnej do człowieka lub zwierzęcia. Jednakże, istoty żywe nie tylko nas słuchają – także obserwują, wiedzą co robiliśmy chwilę wcześniej i znają nasze przyzwyczajenia, potrafią wyczuć nastrój itp. Komunikacja niewerbalna często jest ważniejsza, niż mowa – np. pies dzięki obserwacji i pamięci lepiej reaguje na nasze potrzeby i polecenia, nawet jeśli nie zostały one bezpośrednio wyrażone. Niestety, komunikacja niewerbalna w przypadku komputera nie jest dostępna. Z tego względu reakcje maszyny często nie będą tym, czego człowiek oczekuje. Wymusza to zmianę interakcji na bardziej formalną, sparametryzowaną, która dla człowieka przestanie być naturalna i intuicyjna. Co więcej, człowiek często musi opisać w przekazie słownym także kontekst.
Wyobraźmy sobie na przykład, że stajemy na środku kuchni i mówimy „program pierwszy”. Wszystkie urządzenia, które rozumieją to polecenie, zaczynają na nie reagować. I tak, telewizor włączy program pierwszy. Niestety, stojące obok niego na półce radio – też. Podobnie kuchenka mikrofalowa zacznie podgrzewać nieistniejącą potrawę, a pralka lub zmywarka – czyścić nieistniejące rzeczy. Pewnym rozwiązaniem jest nadanie urządzeniom nazw. Jeśli powiemy „telewizor program pierwszy”, przypuszczalnie zareaguje tylko wskazane urządzenie. Co jednak w przypadku, gdy w pomieszczeniu są dwa telewizory? Nadać im nazwy „drugiego rzędu”? Jak odróżnić elementy oświetlenia, których w jednym pomieszczeniu może być kilkanaście? Pogrupować je i wprowadzić tzw. „sceny świetlne”? Jak spamiętać nadane im nazwy? Jak przekazać te nazwy innym domownikom, czyli nauczyć ich jak korzystać z systemu? Jak nadawać nazwy nowym elementom wyposażenia? Jak reagować na błędy „adresacji”? Tego typu pytań pojawia się wiele, a ich zestaw rośnie w miarę rozwoju lokalnego systemu, który w pewnym momencie przestaje być zarządzalny.
Zwróćmy także uwagę na fakt, że jeśli w domu jest jeden centralny system interakcji werbalnej, to on też wymaga nazwania go, aby odróżnić wydawane mu polecenia od komunikacji z innymi domownikami. Najczęściej służą do tego celu predefiniowane frazy wywoławcze, na czele z popularnym „Hey Google”. Na dłuższą metę nie jest to jednak wygodne i intuicyjne rozwiązanie. Powtarzanie frazy powitalnej kilkadziesiąt (jeśli nie więcej) razy dziennie zdecydowanie nie należy do przyjemnych czynności, co więcej, może mocno denerwować osoby będące z boku i niebiorące czynnego udziału w interakcji. Być może nie przeszkadza to aż tak bardzo np. przy sterowaniu nawigacją podczas jazdy samochodem, ale powtarzane w domu co kilka minut szybko staje się koszmarem dla domowników. Należy też zwrócić uwagę na zachowanie prywatności – urządzenie musi być cały czas „na nasłuchu”, żeby z tła dźwiękowego wyodrębnić frazę powitalną. Wielu użytkowników zadaje sobie pytanie, co tak naprawdę urządzenie robi z dźwiękiem nagranym „w międzyczasie”.
Możemy sobie też wyobrazić inne rozwiązania powyższego problemu. Pierwszym i najbardziej oczywistym jest wyposażenie każdego urządzenia z interfejsem głosowym w przycisk aktywujący interakcję. Urządzenie „słucha” tak długo, jak długo naciskamy przycisk, albo też aktywuje się od momentu naciśnięcia przycisku do czasu, gdy wykryje dłużej trwającą ciszę. Trudno sobie jednak wyobrazić taki przycisk w każdym urządzeniu w domu, nie tylko ze względu na często niewielkie rozmiary tych urządzeń, ale także ich umiejscowienie.
Innym sposobem jest śledzenie linii wzroku osoby wydającej polecenie głosowe, na przykład za pomocą zestawu kamer, ukrytych w rogach pomieszczenia. Reaguje tylko to urządzenie, na którym w danym momencie koncentrujemy wzrok. Do oczywistych wad takiego podejścia należą potencjalne obawy użytkowników o zmniejszenie poziomu prywatności i bezpieczeństwa. Możemy też sobie wyobrazić alternatywne metody selekcji urządzenia, na przykład uaktywnienie tylko tego, które w danej chwili dotykamy, obok którego stoimy, albo które w inny sposób wyczuwa naszą obecność w pobliżu lub nasze zamiary. Za taką detekcję byłyby odpowiedzialne same urządzenia, których sterowniki tym samym trzeba by znacznie rozbudować, a także przetestować w warunkach domowych. Jak widzimy, w praktyce żaden z powyższych sposobów nie wydaje się możliwy do wykorzystania na masowym rynku.
Warto także przedyskutować szereg innych aspektów biznesowych i technologicznych, które są głównymi przeszkodami w upowszednieniu się interfejsów głosowych w inteligentnych budynkach. Temu celowi jest poświęcona dalsza część artykułu. W pierwszej kolejności zostaną krótko scharakteryzowane podstawowe systemy i technologie komunikacji werbalnej człowieka z komputerem, od popularnej Alexy po systemy publicznych bibliotek API firm Google i OpenAI. Następnie zostaną omówione różnice między tzw. asystentami głosowymi i systemami generatywnej sztucznej inteligencji z interfejsem głosowym. Zawarto także analizę modeli biznesowych firm, które zdecydowały się na produkcję lub wykorzystanie urządzeń wykorzystujących interfejs werbalny w środowisku inteligentnego budynku.
3. Rozwiązania technologiczne: asystenci głosowi w automatyce
3.1. Sterowanie bazujące na analizie słów kluczowych (Alexa, Google, Siri)
Pierwszą firmą, która wprowadziła interfejs werbalny dla inteligentnego budynku na masowy rynek, był Amazon. Pionierskie rozwiązanie o nazwie Alexa [Alexa] szybko zdobyło rynek i utrzymało na nim wiodącą pozycję przez niemal dekadę. Pomysł biznesowy związany z Alexą był stosunkowo prosty – zaoferować efektywny interfejs głosowy i sprzedawać go niemal po kosztach, zarabiając na aktywowanych zdalnie usługach. Alexa była często porównywana z „inteligentnym budzikiem” – łączyła codzienne życie z automatyzacją i łatwością dostępu do świata zewnętrznego. Urządzenie4 nie tylko umożliwia włączenie np. telewizora i kuchenki, ale także pozwala zrobić szybkie zakupy w sklepie wysyłkowym, a także sprawdzić prognozę pogody, a nawet (w pewnym zakresie) przeszukać Internet, na przykład w celu znalezienia przepisu kuchennego.
Podstawą technologiczną rozwiązania jest tak zwana „lekka sztuczna inteligencja”, czyli poszerzona analiza zestawu słów kluczowych, ekstrahowanych z przekazu słownego. System był nieustannie rozwijany, przez co nabierał coraz więcej ludzkich cech konwersacji głosowej, doskonaląc swoje działanie w miarę wzrostu poziomu żądań użytkowników. Startując od prostych kilkusłowowych poleceń typu „włącz telewizor”, system doszedł do poziomu skomplikowanej analizy semantycznej zawansowanych pytań, typu „jaki prezent dla dziecka na imieniny”. W ostatnich latach Alexa zaczęła przegrywać na rynku z rozwiązaniami wykorzystującymi duże modele językowe w analizie mowy, które okazały się znacznie funkcjonalniejsze i prostsze w użyciu. Głównym ograniczeniem Alexy stała się jej stosunkowo uboga możliwość konwersacji, nieporównywalna z aktualnymi systemami dostępu do sztucznej inteligencji, w zasadzie sprowadzająca się do wydania prostego polecenia i otrzymania równie prostej odpowiedzi.
Bardzo podobnym do Alexy rozwiązaniem był5 Google Home [Google Assistant], wykorzystujący funkcjonalność Asystenta Google. Asystent dobrze się sprawdzał w integracji z tradycyjnymi formami kontaktu zdalnego (telefon i wiadomości SMS), przy czym urządzenie odbiorcze nie musiało być zgodne z ekosystemem Google. Asystent, w odróżnieniu od Alexy, która nie uwzględnia w interfejsie pewnych języków narodowych, w tym polskiego, mógł konwersować w dowolnym z prawie stu języków całego świata. Asystent, w połączeniu z Google Home, umożliwiał sterowanie szeroką grupą lokalnych urządzeń domowych, przy czym warunkiem (podobnie jak w przypadku Alexy) było wyposażenie takiego urządzenia w specjalne oprogramowanie dostępowe. Podobnie jak Alexa, Asystent wykorzystywał opracowaną przez Google semantyczną analizę słów kluczowych, stąd funkcjonalność systemu w typowym zastosowaniu była dość ograniczona. System świetnie się jednak sprawdzał w środowiskach funkcjonalnie zamkniętych, takich jak samochód, choć okazał się mniej popularny jako asystent domowy, gdzie wymagania np. co do podłączania różnorodnych urządzeń oraz użyteczności były większe.
Wartym wymienienia jest także trzeci (niekoniecznie pod względem obrotów i zysków) gracz na świecie – firma Apple i jej asystentka głosowa Siri [Siri]. W odróżnieniu od poprzednich, stosunkowo otwartych propozycji, wykorzystanie Siri jest ograniczone do ekosystemu Apple, z nielicznymi wyjątkami począwszy od wersji 10. Dlatego funkcjonalność systemu jest ukierunkowana na aspekty związane z codzienną komunikacją (kalendarz i alerty, przypominanie, odtwarzanie muzyki itp. Mimo obietnic i anonsów w prasie, do dziś6 Siri nie doczekała się interfejsu w języku polskim. Siri, podobnie jak konkurencyjne oferty opisane wcześniej, wykorzystuje narzędzia słabej sztucznej inteligencji do semantycznej analizy zapytań, zawiera także moduł samouczący, co pozwala na rozpoznawanie przyzwyczajeń i intencji użytkowników. Co do sterowania inteligentnym domem, ze względu na stosunkowo ubogą ofertę urządzeń od firmy Apple i jej partnerów biznesowych na polskim rynku oraz tradycyjnie wysokie ceny tych urządzeń, należy tę funkcjonalność traktować dość umownie. Asystent Apple jest częściej wykorzystywany w samochodach (Apple Car) niż w domach (np. Apple TV).
Nie sposób także nie wspomnieć, w kontekście trzech przedstawionych powyżej systemów, o firmie Microsoft. Po porażce systemu Windows Media Center (sterowanie urządzeniami audio-wideo w domu z poziomu komputera osobistego, a także odwrotnie – np. wykorzystanie pilota od telewizora do sterowania odtwarzaniem multimediów w komputerze), firma skupiła się na rozwoju asystenta osobistego o nazwie Cortana [Cortana], o funkcjonalności podobnej do opisanej wcześniej Siri, podłączonego do autorskiego systemu wyszukiwania informacji w sieci o nazwie Bing. W końcowej fazie rozwoju (Windows 10) Cortana otrzymała możliwość łączenia z urządzeniami inteligentnego budynku, jednak liczba takich urządzeń była dość ograniczona i rozwiązanie to nie zdobyło większej popularności na rynku.
Zauważmy, że wyżej opisany podział rynku między kilka dużych firm konserwuje wprowadzanie zmian oraz nowych technologii. W interesie żadnej z firm nie leży globalna współpraca w zakresie standaryzacji i harmonizacji dostępu do usług z wykorzystaniem interfejsu głosowego. Przeciwnie, każda z firm promuje własne rozwiązania technologiczne, rozwijane przez dłuższy czas. W efekcie mniejsi producenci (na przykład urządzeń) muszą opracowywać kilka alternatywnych rozwiązań programowych, dedykowanych dla każdego ze środowisk. Takie podejście oznacza wyższe koszty przygotowania urządzeń oraz konieczność ich instalacji i parametryzacji na potrzeby pracy z konkretnym systemem, co jest bardzo uciążliwe dla końcowych użytkowników. Niestety, głos użytkowników jest tutaj najmniej ważny – nie wydaje się, aby tak niekorzystna sytuacja szybko się zmieniła. Jednak z tą tradycją można zerwać, wprowadzając rozwiązania oparte na sztucznej inteligencji (SI), co opisano w następnym rozdziale.
3.2. Duże modele językowe (LLM) w systemach sterowania
Historia zastosowania dużych modeli językowych jest sumą kilku przełomowych odkryć: opracowania reprezentacji prawdopodobieństwa następujących po sobie słów (n-gramów), zastosowania nowoczesnych sieci neuronowych do analizy dłuższych tekstów, oraz mechanizmu uwagi, który pozwolił na zmianę przyporządkowania znaczenia poszczególnych słów z punktu widzenia całości. Opracowana pod koniec drugiej dekady XXI architektura o nazwie transformer pozwoliła na efektywne obliczeniowo analizowanie i generowanie bardzo długich tekstów7, a także „odpowiadanie” na skomplikowane pytania i tłumaczenie z języka na język. Systemy LLM wymagają bardzo dużej ilości danych w procesie tzw. wstępnego nauczania, co jest procesem kosztownym i długotrwałym, ale odpowiedzi na zapytania użytkowników generują w czasie niemal rzeczywistym. Systemy te, obok niewątpliwych zalet, mają też klika wad. Po pierwsze, są bardzo „przekonujące” dla przeciętnego odbiorcy informacji, co umożliwia im przekazywanie danych powszechnie uznanych za nieprawdę jako prawdziwe fakty. Systemy te, mówiąc wprost, mogą zmyślać i kłamać, jako że ich działanie opiera się na prawdopodobieństwie. Niekoniecznie są też stałe w swoich wypowiedziach – drobny niuans w zapytaniu lub inny kontekst mogą całkowicie zmienić wygenerowaną informację. Z tego względu są one więc niejako przeciwieństwem opisanych w poprzednim rozdziale asystentów, wykorzystujących poszerzoną analizę słów kluczowych jako podstawę przetwarzania danych i realizacji poleceń. Z jednej strony oferują więc nową jakość – znaczne polepszenie komfortu interakcji werbalnej, ale z drugiej strony są źródłem nowych problemów i wprowadzają niepewność, co z punktu sterowania inteligentnym domem może być dużą przeszkodą.
Korzystanie z LLM, ze względu na duże zapotrzebowanie na moc obliczeniową, wymusza korzystanie ze zdalnego serwera. Architektura typowego połączenia, podającego odpowiedź na jedno zapytanie głosowe, jest liniowa. Urządzenie końcowe nagrywa cyfrowo dźwięk i wysyła nagranie w formacie bezstratnym (WAV, FLAC, AD4 itp.) do wybranego serwera. Razem z nagraniem są przesyłane meta-dane reprezentujące preferencje użytkownika i kontekst. W serwerze nagranie w pierwszej kolejności jest zamieniane na tekst. Tekst, razem z preferencjami i kontekstem, jest następnie przetwarzany przez LLM. Wygenerowana odpowiedź tekstowa jest podstawą syntezy komunikatu głosowego, który jest odsyłany jako odpowiedź do urządzenia (tu można już wykorzystać format stratny, np. popularny MP3) i odtwarzany w cyfrowym torze akustycznym.
Ponieważ zapotrzebowanie na moc obliczeniową i pamięć po stronie urządzenia końcowego jest niewielkie, urządzeniem tym nie musi być telefon komórkowy, tablet czy też laptop. Opisany powyżej interfejs może być zbudowany z wykorzystaniem prostych mikrosterowników, operujących z pamięcią rzędu kilku MB i mających dostęp do lokalnej sieci WiFi. Autor niniejszego tekstu opracował moduł komunikacji z SI wykorzystujący dwa procesory ESP32-S3 Zero (4MB Flash ROM, 2MB PSRAM), mikrofon MEMS INMP441 i wzmacniacz cyfrowy klasy D MAX98357. Detaliczny koszt wykonania tego urządzenia zamknął się kwotą ok. 100 zł, przy czym połowa tej sumy to koszt płytki drukowanej i elementów elektromechanicznych (przełączniki, głośniki, obudowa itp.). Tak przygotowany interfejs werbalny może być integralną częścią prawie każdego domowego urządzenia, przy minimalnych kosztach implementacji i wykorzystywania, oraz niewielkich wymiarach i zapotrzebowaniu na energię. Można sobie wyobrazić telewizor z dostępem głosowym (a nawet zasilany z baterii pilot takiego telewizora), pralkę, lodówkę, zmywarkę itp. Nawet stół kuchenny można wyposażyć z interfejs werbalny. Powoduje to, że popularne powiedzenie „głupi jak stół” przestaje być aktualne – stół może być „mądrzejszy” niż osoba zadająca mu pytanie.
Otwartą sprawą jest model biznesowy dostępu do serwera SI. Dominują tutaj dwa podejścia: płatny abonament albo opłata proporcjonalna do wygenerowanego ruchu, lub bezpłatny dostęp do serwera połączony z profilowaniem marketingowym użytkownika i/lub oferowaniem płatnych usług, do których użytkownik jest kierowany odpowiedziami SI (podobnie jak opisany wcześniej model Amazon Alexa). Przykładem pierwszego podejścia jest firma OpenAI, która oferuje usługę Whisper do zamiany dźwięku na tekst, oraz modele ChatGPT do dostępu do LLM [OpenAI API]. Usługi te są w znakomitej większości płatne. W dostępie API są one możliwe tylko po podaniu indywidualnego klucza użytkownika w zapytaniu, co uniemożliwia dostęp anonimowy i drastycznie ogranicza prywatność. Klucze są ściśle związane z kontem użytkownika w systemie OpenAI i nie można ich nikomu przekazać. Usługi wykorzystują model płatności „za użycie”, co utrudnia wycenę kosztów z góry i wymusza przedpłatę jako podstawową formę rozliczenia finansowego.
Przykładem drugiego podejścia jest firma Google, która bezpłatnie8 udostępnia usługi środowiska Google Voice Translate oraz API do swojego systemu SI o nazwie Gemini [Gemini API]. Jednak model biznesowy firmy Google nie jest w tym zakresie jasny. Firma nigdy nie ogłosiła oficjalnie, że usługi te będą zawsze bezpłatne. Infrastruktura usług umożliwia wprowadzenie opłat praktycznie w każdej chwili, jako że, podobnie jak w przypadku OpenAI, każde zapytanie API musi być autoryzowane prywatnym kluczem użytkownika.
Zwróćmy uwagę, że, bez względu na zużyte API, uzyskana od LLM odpowiedź w każdym przypadku jest niesformatowanym i w dużej mierze nieformalnym (nieprzewidywalnym) tekstem. Aby uzyskać na jej podstawie możliwość sterowania danym urządzeniem, należałoby albo modyfikować zapytanie w ten sposób, żeby za każdym razem dodatkowo przesyłać „instrukcję obsługi” urządzenia, albo osobno analizować odpowiedź SI, na przykład metodą słów kluczowych. Nawet jeśli przesłane instrukcje do SI będą bardzo ścisłe, uzyskana odpowiedź może być niemożliwa do poprawnej interpretacji. Odpowiedź ta może też zawierać nieprawidłowe instrukcje, co jest niezwykle trudne do weryfikacji, głównie z powodu braku jakichkolwiek narzędzi analizy poprawności, a nawet poznania reguł rządzących generacją tekstu (duże modele językowe są „czarnymi skrzynkami” o użyteczności zależnej od jakości danych treningowych, które to dane zwykle nie są jawne).
W odróżnieniu od asystentów głosowych opisanych wcześniej, działających w architekturze zamkniętej, systemy bazujące na LLM pracują w architekturze otwartej, z konfigurowalnym połączeniem z konkretnymi serwerami, odpowiedzialnymi za poszczególne fazy przetwarzania mowy (przetwarzanie dźwięku na tekst, analiza LLM, synteza dźwięku, analizy podobne – np. sentymentu i gestów itp.). Dlatego dla tych ostatnich pojawiają się nowe zagrożenia, związane z niską jakością danych testowych i brakiem nadzoru nad procesem uczenia, przejęciem i uzupełnianiem zapytań (ang. man-in-the-middle attack, prompt engineering) oraz niemożnością oceny jakości odpowiedzi, a także trudnością w jej poprawnej interpretacji i brakiem powtarzalności. Dokładna dyskusja tych zagrożeń wykracza poza ramy niniejszego artykułu, tym niemniej ryzyko z tym związane należy traktować bardzo poważnie, nawet jeśli nie zgłoszono do tej pory większych naruszeń bezpieczeństwa w tym zakresie.
Ze względu na wysokie wymagania sprzętowe, implementacja LLM wymaga wydajnego serwera lub, w przypadku dostępu masowego, farmy takich serwerów. Prywatność można zachować tylko w przypadku użycia prywatnego serwera lokalnego lub prywatnej chmury z własnym modelem LLM. Wiążą się z tym jednak mniejsza wydajność i kolosalne rachunki za energię elektryczną (przeciętna karta graficzna zdolna do obliczeń LLM pobiera kilkaset W w trybie ciągłym). Z drugiej strony chmura publiczna pozwala ograniczyć koszt energii, ale zdecydowanie zmniejsza poziom ochrony prywatności – przesyłanych danych nie można przetwarzać w trybie zaszyfrowanym, z punktu widzenia serwera LLM muszą być one jawne. Jeśli dodatkowo wziąć pod uwagę możliwość analizy tła dźwiękowego z nagrań i brak kontroli nad momentem rozpoczęcia i zakończenia procesu nagrywania dźwięku, to ochrona prywatności staje się iluzoryczna. Z tego względu takie systemy nie mogą być używane w środowisku „przemysłowym” (np. banki i sklepy), co ogranicza ich obszar aplikacyjny.
W obu przypadkach (asystenty i LLM) zachodzi konieczność przesyłania nieskompresowanych zapisów dźwięku do zdalnego serwera, co wymaga dużej przepustowości i szybkości lokalnego łącza komunikacyjnego. W przypadku LLM dochodzi do tego dodatkowo skomplikowane przetwarzanie po stronie serwera, które jeszcze do niedawna wymagało znacznych zasobów i czasu. Coraz bardziej popularne farmy serwerów SI zmniejszają czas oczekiwania w dostępie masowym, a lokalne serwery SI pracujące z wykorzystaniem kart graficznych i procesorów SI stają się dostępne cenowo, zatem sytuacja ulega stałej poprawie.
Ostatnią rzeczą wartą wzmianki jest odpowiedzialność prawna za błędy i awarie. W przypadku asystentów głosowych sytuacja jest w miarę jasna – za niepoprawność w działaniu systemu odpowiada producent/dystrybutor, czyli np. Amazon w przypadku Alexy czy też Google przy korzystaniu z jego Asystenta. Natomiast w przypadku modeli LLM odpowiedzialność prawna i organizacyjna jest rozmyta i wymaga indywidualnego podejścia w niemal każdym przypadku. Dochodzą do tego mniej lub bardziej oficjalne normy i rozporządzenia odnoszące się do automatycznej i zdalnej kontroli urządzeń domowych. Dla przykładu, nieprzypadkowo kuchenne urządzenia mocy nie mają zdalnych interfejsów sterujących w smartfonach – producenci boją się konsekwencji wydania takiego polecenia zdalnie bez bezpośredniej kontroli człowieka. Łatwo sobie wyobrazić sytuację, gdy na zdalnie uruchomionej kuchence indukcyjnej wykipi garnek z zupą, co spowoduje zalanie albo nawet pożar. Człowiek stojący przy kuchence od razu by zareagował i ją wyłączył, ale zdalny dostęp ogranicza taką manualną kontrolę i opóźnia reakcję, co potencjalnie generuje duże ryzyko.
Porównanie przedstawionych wcześniej asystentów głosowych i dostępu do systemów sztucznej inteligencji zawarto w tabeli poniżej.
| Cecha | Asystent głosowy | LLM/SI |
|---|---|---|
| Dostępne języki narodowe | Ograniczona grupa (konieczna reprezentacja narodowa zespołu słów kluczowych i ich powiązań semantycznych) | Nieograniczona grupa, możliwość przekładu z języka na język w czasie niemal rzeczywistym |
| Połączenie z siecią | Musi być zapewnione cały czas, o stosunkowo dużej przepustowości w obie strony (przesyłanie dźwięku) | |
| Przetwarzanie | Chmura lub zdalny serwer w sieci lokalnej | |
| Prywatność | Chroniona w ograniczonym zakresie | Niechroniona |
| Jakość i format odpowiedzi | Formalna i ścisła | Nieformalna i rozmyta (w sensie zawartości oraz formatu) |
| Błędy interpretacji i generowanych poleceń | W nikłym stopniu (zależne głównie od jakości zamiany mowy na tekst) | Możliwe halucynacje i inne formy błędnych wypowiedzi; trudności w jednoznacznej analizie formalnej |
| Ochrona w zakresie bezpieczeństwa | Pełna (systemy zamknięte) | Brak ochrony systemowej, możliwe ataki typu man-in-the-middle, system otwarty |
| Odpowiedzialność prawna | Po stronie producentów systemu i urządzeń | Rozmyta, trudności w interpretacji przyczyn i skutków niepożądanych zdarzeń |
| Model biznesowy | Indywidualnie opracowana i wykorzystywana technologia, zamknięta, wyłącznie więksi gracze na rynku | Częściowa standaryzacja otwartego dostępu do serwerów LLM oraz usług dodatkowych, z możliwością miksowania ofert różnych producentów oprogramowania, co umożliwia masową współpracę z mniejszymi graczami na rynku |
| Płatności | Jasny system płatności za usługi | Niejasne modele płatności za usługi albo nieznana z góry cena za usługę, niejasne sposoby rozliczeń oraz zasady zbierania danych na temat użytkowników |
4. Przyszłość sterowania głosowego i trendy w automatyce
W podsumowaniu warto rozważyć możliwe trendy rozwoju systemów komunikacji głosowej w inteligentnym budynku. Wydaje się, że era zamkniętych asystentów i rozpoznawania mowy metodą zaawansowanego przetwarzania słów kluczowych dobiega końca. Miejsce Alexy, Asystenta Google i Siri zajmą wkrótce aplikacje OpenAI, Gemini, LLama, DeepSeek i innych LLM, które będą oferować wyższy poziom kontaktu z człowiekiem i lepszy komfort dla przeciętnego użytkownika, bardziej upodabniając się do kontaktów z innymi ludźmi. Przygotowanie takich aplikacji będzie raczej domeną mniejszych firm, w bliskiej współpracy z producentami urządzeń. Zatem duzi gracze stracą monopol na taką komunikację, a systemy komunikacji człowieka z maszyną staną się znacznie bardziej otwarte, co znacznie zwiększy innowacyjność rynku i atrakcyjność ofert.
Aktualne problemy (niedoskonałości LLM, brak formalizmów w wypowiedziach, zmniejszona prywatność i bezpieczeństwo, niedoskonała ochrona prawna i większe ryzyko błędu) wydają się możliwe do pokonania w stosunkowo krótkim okresie czasu. Już teraz obserwujemy pierwsze kroki w masowym zastosowaniu tych systemów. Na razie są one ograniczone do ofert dużych firm typu Microsoft i Google, także w zakresie możliwych „inteligentnych” urządzeń domowych dołączanych do systemu. Takie zmiany zawsze są wprowadzane ewolucyjnie, począwszy od urządzeń i systemów bliskich producentowi. Dopiero w dalszej perspektywie następuje otwarcie na szerszy rynek urządzeń i systemów zewnętrznych. Dla przykładu, miejsce Cortany ostatnio zajął (w środowisku Microsoft) CoPilot. Od niedawna pierwsi producenci zaczynają uwzględniać ten system w swojej ofercie. Na przykład, Samsung uwzględnił go już w „inteligentnych” telewizorach nowej generacji.
Kierunek przyszłych zmian rynku komunikacji werbalnej w przestrzeniach „inteligentnych” wydaje się jasny. Należy się spodziewać wysypu ofert niezależnych producentów, dołączających produkowane przez siebie urządzenia do systemów SI oferowanych przez „dużych” operatorów, tym samym poszerzających swoją ofertę o zaawansowaną konwersację głosową na praktycznie dowolny temat i w dowolnym języku, przy zachowaniu formalizmów w sterowaniu urządzeniami inteligentnego budynku. Jednak ciągle jest jeszcze wymagane dużo pracy na styku SI i formalnych (ścisłych) metod sterowania, w zakresie standardów, uniwersalnych metod opisu możliwości urządzeń i metod ich kontroli (adresowania i uaktywniania), większej intuicyjności i naturalności w interpretacji poleceń, itd.
Przypisy
1 Była to komunikacja tekstowa, z wykorzystaniem ekranu i klawiatury. Współczesne implementacje Elizy i inne podobne programy wykorzystują już analizę i syntezę głosu, jednak „efekt Elizy” pozostaje niezmieniony bez względu na formę kontaktu.
2 Konkurs był organizowany w latach 1990–2009 na uniwersytecie Cambridge, MA, a potem w innych ośrodkach naukowych do roku 2020.
3 To znaczy „rozróżnia” – rozumienie słów przez zwierzęta nie powinno być kojarzone z ludzkim.
4 Alexa jest zwykle wbudowana w pewne urządzenie domowe, np. głośnik Echo, lub działa jako aplikacja w smartfonie.
5 System jest ciągle oferowany na rynku, ale jego popularność mocno spadła wraz z pojawieniem się konkurencyjnych rozwiązań, także tych oferowanych przez firmę Google. Dlatego chyba lepiej mówić o nim w czasie przeszłym.
6 Stan na listopad 2025 r.
7 Architektura transformer nie jest ograniczona do przetwarzania tekstów, ale na potrzeby niniejszego artykułu skupimy się na tym obszarze jej zastosowań.
8 Dla użytkowników indywidualnych (na użytek własny) – dostęp dla firm i w celach zarobkowych wymaga rozliczeń finansowych.
Literatura
[Alexa] https://bernardmarr.com/machine-learning-in-practice-how-does-amazons-alexa-really-work/
[Chatgpt] https://theconversation.com/chatgpt-just-passed-the-turing-test-but-that-doesnt-mean-ai-is-now-as-smart-as-humans-253946
[Cleverbot] https://www.livescience.com/15940-cleverbot-computer-chats-human.html
[Cortana] https://www.spiceworks.com/tech/artificial-intelligence/articles/what-is-cortana/
[Eliza] „ELIZA – A Computer Program for the Study of Natural Language Communication between Man and Machine,” Communications of the Association for Computing Machinery 9 (1966): 36-45.
[Gemini API] https://ai.google.dev/gemini-api/docs?hl=pl
[Gootsman] https://time.com/2847900/eugene-goostman-turing-test/
[Google Assistant] https://www.neonet.pl/blog/google-assistant-co-to-jest.html
[OpenAI API] https://openai.com/pl-PL/api/
[Siri] https://support.apple.com/pl-pl/guide/iphone/ipha48873ed6/ios
[Test Turinga] https://pl.wikipedia.org/wiki/Test_Turinga
[Weizenbaum] Weizenbaum, Joseph (1976). Computer Power and Human Reason: From Judgment To Calculation. San Francisco: W. H. Freeman. ISBN 978-0-716-70464-5. OCLC 1527521
Jarogniew Rykowski
Katedra Technologii Informacyjnych
Uniwersytet Ekonomiczny w Poznaniu
e-mail: jarogniew.rykowski@ue.poznan.pl
Artykuł znajdziesz również w numerze 12/2025 miesięcznika „Napędy i Sterowanie”.












