[K] Komputer sekretarką?

Nagrywanie filmików na YouTube czy przygotowywanie odcinków podcastów wymagają ode mnie przygotowywania skryptów, które następnie czytam i nagrywam, jako końcową narrację. Ze względu na niedostateczne przygotowanie, nie potrafię - niestety - mówić płynnie i z sensem do mikrofonu "prosto z głowy". Zawsze zdarzą mi się pomyłki, zająknięcia, słynne "eee, yyy" i inne tego typu elementy, które zwyczajnie utrudniają słuchanie. Stąd zwykle najpierw pracowicie piszę wszystko to, o czym chcę opowiedzieć, dzięki czemu całość brzmi może czasem zbyt literacko czy sztucznie, ale przynajmniej nie irytuje zacinaniem się i głośnymi "zawiechami". Póki nie nauczę się dobrze mówić, raczej nie ma szans na zmianę tego stanu rzeczy.

W związku z tym, jak się łatwo domyślić, sporo czasu mija mi na pisaniu, chociaż jako programista piszę bezwzrokowo i raczej szybko niż wolno. Dopiero słuchając jednego z odcinków "Jak zrobić podcast", dowiedziałem się, że przecież istnieją już całkiem sprawne systemy transkrypcji dźwięku na tekst. Oczy mi się zaświeciły na myśl o tym, że mógłbym po prostu podyktować treść skryptu, zamieniając mowę na tekst, a potem - przeczytać go już "porządnie" i "na gotowo".

Rozpoznanie bojem rynku wykazało, że istnieje wprawdzie sporo rozwiązań komercyjnych (zwłaszcza zachodnich, przeznaczonych dla języka angielskiego), jednak w walce o użytkownika polskiego w krąg mojego zainteresowania wpadły tylko dwa: Microsoft Office i Google. Ten pierwszy w najnowszych wersjach zawiera funkcję dyktafonu, umożliwiającą mówienie do np. Worda. Google także posiada podobną funkcję w swoich Dokumentach (a także całkiem sporą grupkę rozwiązań dla Androida, którymi zajmę się za chwilę). Postanowiłem zatem spróbować, jak się oba te wynalazki sprawdzają w praktyce, czyli podyktowałem po jednym odcinku podcastu każdemu z nich.

Word

Worda testowałem w pierwszej kolejności. Od razu na karcie Home można znaleźć przycisk Dictate (w polskiej wersji będzie to pewnie Dyktuj), po naciśnięciu którego Word przechodzi na nasłuch i wszystko to, co powiemy, od razu pojawia się w obszarze edycji. Na początku wygląda to trochę jak magiczna sztuczka, ale wkrótce zaczyna doskwierać parę rzeczy. Po pierwsze, tempo dyktowania nie może być zbyt duże, bo inaczej program zaczyna gubić niektóre wyrazy albo po prostu wyłącza dyktafon. Zresztą, dyktafon potrafi się wyłączyć sam z siebie, więc warto ciągle patrzeć na ekran podczas mówienia, żeby się później nieprzyjemnie nie zdziwić.

Na początku strasznie irytuje konieczność jawnego dbania o interpunkcję. Jeśli chcemy, żeby pojawiający się tekst był zgodny z jej regułami, musimy jawnie mówić słowa "przecinek" lub "kropka" w odpowiednim momencie. O ile do kropki da się w miarę szybko przywyknąć, to jednak wtrącanie w środku zdania co jakiś czas słowa "przecinek" bardzo zaburza płynność wypowiedzi i wybija z rytmu (naprawdę, do tego nie mogłem się przekonać). W dodatku nie ma chyba (po polsku) komendy głosowej do usuwania ostatniego źle wpisanego słowa, więc w razie pomyłki trzeba korzystać z klawiatury lub myszki. Efektem jest albo bardzo powolne powstawanie dokumentu (mówimy powoli, wstawiamy słowne "przecinki", a pomyłki poprawiamy ręcznie), albo szybkie powstanie dokumentu, który będzie bardzo mało czytelny (spróbujcie napisać parę zdań bez kropek i przecinków, dodatkowo błędnie wpisując kilka czy kilkanaście słów)... To plus losowe samoczynne wyłączanie się dyktafonu sprawia, że raczej trudno polegać na omawianej funkcji i liczyć, że w jakikolwiek sposób przyspieszy ona pracę.

Dokumenty Google

Potem przeniosłem się do dokumentu tekstowego Google. Niestety, po włączeniu funkcji dyktafonu nic nie pojawiło się w dokumencie. Próbowałem kilka razy i już się miałem poddać, gdy postanowiłem jeszcze wypróbować przeglądarkę Chrome (testowałem wcześniej w Vivaldim). W Chromie funkcja na szczęście zadziałała i mogłem przeprowadzić test.

Na początku starałem się mówić wolno i wyraźnie, tak jak mnie tego nauczyło rozwiązanie Microsoftu. Po krótkiej chwili jednak dotarło do mnie, że transkrypcja od Google'a potrafi działać naprawdę szybko - w zasadzie mogłem mówić tak, jak w podcaście czy w czasie rozmowy z normalnym człowiekiem.

Niestety, problem interpunkcji i korekcji pozostał aktualny. Nadal trzeba było używać słów "przecinek", "kropka" czy "nowy akapit", żeby sterować procesem tworzenia tekstu. I również nie odkryłem komendy, która potrafiłaby usunąć ostatni wpisany wyraz - zatem tego typu korekty także tutaj trzeba robić ręcznie.

Google w telefonie

I kiedy wydawało się, że nic z tego wszystkiego nie wyniknie, postanowiłem przeprowadzić jeszcze kilka prób z wykorzystaniem telefonu. Zdarzało mi się bowiem już wiele razy, że leżąc w łóżku wpadałem na jakiś pomysł i wówczas uruchamiałem dyktafon, by na szybko zapisać galopujące myśli. Dyktafon jednak, oczywiście, tworzył pliki dźwiękowe, duże i niewygodne do przesyłania np. do komputera (trzeba było je najpierw zgrać do Dysku Google'a, aby po synchronizacji zobaczyć je w komputerze - co i tak jest całkiem sprawną drogą, bo nie trzeba np. wyjmować karty pamięci). Ale gdyby można było po prostu wysłać tekst, choćby i e-mailem? Nawet godzinny materiał zajmie w tej postaci zaledwie kilka lub kilkanaście kilobajtów.

Rzecz jasna, wyszukiwarka w sklepie Play Google'a zasypała mnie wręcz aplikacjami, które chętnie zamienią słowo mówione w słowo pisane (nawiasem mówiąc, zupełnie nie rozumiem, dlaczego w tym sklepie nie można wprost posortować wyników po "jakości produktu", którym są przyznawane przez użytkowników gwiazdki). Wypróbowałem kilkanaście z nich (!) i doszedłem do wniosku, że... nie warto. Żadna z tych aplikacji nie miała nic, co by mnie przykuło do niej na dłużej, za to wiele z nich wręcz odstręczało od siebie. Szczególnie jedna zapadłą mi w pamięć - zaraz po starcie wyświetliła pełnoekranową reklamę jakiejś gry o świniach, a potem ciągle przerywała nagrywanie tylko po to, by to reklamowe szaleństwo kontynuować. Nie wiem, jakim - przepraszam za słowo - matołem trzeba być, by uznać, że pełnoekranowa reklama co 20-30 sekund w tego typu aplikacji to dobry pomysł i na pewno spowoduje, że użytkownik sięgnie do portfela.

Na szczęście większość darmowych programów ograniczała się do wąskiego paska reklamy na dole ekranu, robiąc to, co do nich należy. Szybko też wyszło na jaw, że WSZYSTKIE przetestowane programy to po prostu nakładki na mechanizmy Google'a. Ma to plusy, bo przynajmniej wszystkie działały z tą samą, niezłą skutecznością i wspierały język polski, minusem zaś jest fakt, że nie widzę absolutnie sensu w używaniu programu, a tym bardziej płaceniu za niego, skoro mogę po prostu odpalić dowolny notatnik, których na Androida są setki, a nawet tysiące i po uruchomieniu wbudowanego w ekranową klawiaturkę Google'a dyktowania mam dokładnie to samo, za darmo, bez banerów reklamowych i zaśmiecania telefonu.

Wnioski

Czy zatem dyktowanie ma sens? Jeśli ktoś naprawdę powoli pisze na klawiaturze lub na przykład ma problemy ze wzrokiem czy dłońmi, ta funkcja może być prawdziwym wybawieniem. Skuteczność i szybkość rozpoznawania (zwłaszcza algorytmów Google'a) bardzo pozytywnie mnie zaskoczyły. Gdyby tylko jakoś sensownie rozwiązano sprawę znaków przestankowych, zwłaszcza przecinków oraz gdybym poznał komendę usuwającą ostatni rozpoznany wyraz (w angielskiej wersji jest "delete", więc się da!), sam bym korzystał z tego mechanizmu. Przeprowadzone pomiary czasu pisania tekstu na klawiaturze, a potem dyktowania go wykazały jednak, że zysk jest - w moim przypadku - iluzoryczny. Wprawdzie dyktowanie (mimo pomyłek i ręcznych poprawek) kończyło się nieco szybciej niż pisanie, to jednak gotowy tekst trzeba było jeszcze przeczytać i poddać redakcji - uzupełnić przecinki, kropki, podział na linie i tak dalej. W rezultacie czasowo wychodziło praktycznie to samo, za to pisanie było zdecydowanie mniej stresujące i bardziej "pewne" - bo się nie musiałem w trakcie wkurzać, że algorytm nie potrafi np. prawidłowo rozpoznać słów "zysk" czy "lont" - wielokrotne próby wypowiedzenia tych słów tak, by komputer poprawnie je zapisał, skończyły się nerwowym wpisaniem ich ręcznie.

Nieco inaczej ma się sprawa z korzystaniem z telefonu. Tutaj jak najbardziej widzę przydatność notatek głosowych, zamienianych automatycznie na tekst - chyba nawet największy wirtuoz ekranowej klawiaturki nie ma aż tak sprawnych palców, żeby pisać w tempie zbliżonym do tego, jakie osiągane jest przez osoby piszące zawodowo, bezwzrokowo, na tradycyjnej klawiaturze (ale być może się mylę). Tutaj zatem tempo rozpoznawania jest faktycznie dużo szybsze niż ręczne pisanie, poza tym, dyktować można leżąc wygodnie z zamkniętymi oczami w ciemnym pokoju. Byle tylko pamiętać o stawianiu choćby kropek, żeby w efekcie nie dostać "strumienia świadomości", z którego nazajutrz niczego nie zrozumiemy...

Komentarze