Blog 14 Wrzesień 2021

Jak sztuczna inteligencja (nie) pomaga nam w robieniu wideo

Dzisiaj chciałem z Wami porozmawiać o możliwościach, jakie daje nam sztuczna inteligencja w procesie tworzenia wideo.

Piotr Maczuga

ok. 5 minut czytania - polub, linkuj, komentuj!

Jak to w naszym przypadku - będzie to wideo edukacyjne, a konkretnie: jakaś forma wykładu.

Będziemy pracowali na konkretnym narzędziu, które zaprezentuję Wam “od kuchni”, abyście sami mogli zdecydować czy to “nie” w tytule artykułu jest na miejscu.

Kryteria

Chciałem też przyjąć jakąś rolę, a nie sprawdzać narzędzia uniwersalnie. Nasze działanie zaczyna się od potrzeby. No więc w roli, którą dziś przyjąłem moją potrzebą jest stworzenie krótkiego wykładu na wybrany temat. Co stoi na przeszkodzie? Cóż, jak sami wiecie, przeszkód można znaleźć dużo i równie dużo sobie wymyślić:

nie mam kamery ani aparatu;
nie mam miejsca ani warunków;
stresuję się przed kamerą;
moje nagrania wyglądają sztucznie;
nie lubię jak ludzie się na nie gapią;
pies mi zjadł kartę pamięci.

Mniejsza o powód. Wiemy, że potrzebujemy cudu, albo technologii, aby wywiązać się z zadania. Ewentualnie ekipy z “Klanu”, ale zakładam, że to nie ten rozmach.

Na warsztat wziąłem dziś oprogramowanie Synthesia, które jako projekt obserwuję już od ponad dwóch lat. W założeniu program miał pozwalać na tworzenie własnych wykładów wideo z wykorzystaniem fotorealistycznych awatarów innych ludzi. Czyli: wklejamy tekst, wybieramy aktora oraz tło, naciskamy przycisk uruchamiający procesy magiczne i czekamy na efekty.

Kryteria wyboru tego narzędzia były następującej:

zostało skomercjalizowane, a więc jest dopracowane na tyle, aby ktoś nie wstydził się brać za to pieniądze;
jednocześnie jest w zasięgu kosztowym przeciętnego edukatora lub instytucji;
jest banalnie proste w obsłudze, a przynajmniej na tyle, że wynik pracy nie będzie zależał od tego czy coś dobrze albo źle ustawiliśmy;
projekt jest dalej rozwijany i nic nie wskazuje na jego rychłe porzucenie (jak to często bywa ze startupami w których skończyła się już możliwość brania kolejnych grantów).

Działanie

Aby skorzystać z oprogramowania należy założyć konto na platformie https://synthesia.io. Konto niestety jest płatne, a ja ze swojego korzystam w ramach większego projektu, nad którym pracuję obecnie.

Można jednak skorzystać z opcji wygenerowania własnego fragmentu treści bez zakładania konta. Wystarczy skorzystać z przycisku “Create a free AI video” na stronie głównej.

Program jest banalnie prosty w użyciu:

wybieramy tekst i dzielimy go na mniejsze fragmentu odpowiadające poszczególnym "slajdom";
dobieramy awatara;
dodajemy tło;
możemy też wzbogacić film o muzykę, proste napisy i kształty;
naciskamy przycisk i czekamy.

Ja na warsztat wziąłem swój dawny tekst z Platformy EPALE: 3 popularne badania, na których podpieramy swoje prezentacje nie mając racji. I tutaj pierwsza niespodzianka. Tekst, który można bez trudu przeczytać ze zrozumieniem w 12 minut, w wersji wideo czytany przez sztucznie wykreowanego wykładowcę zajął prawie dwa razy tyle. Doskonale zdaję sobie sprawę, że nagrania lektorskie są realizowane znacznie wolniej, niż jesteśmy w stanie samodzielnie czytać, ale nie spodziewałem się aż tak dużej różnicy.

W poniższym filmie dzielę się z wami tym, jak działa takie narzędzie, a od 21 minuty i 4 sekundy możecie zobaczyć jak program poradził sobie z moim wyzwaniem. Oto cały proces wraz z efektem:

Ocena

Narzędzie wypadło, w moim mniemaniu, bardzo przyzwoicie biorąc pod uwagę czego od niego oczekiwałem, a czego nie. Jednak nie ma co ukrywać, że największą bolączką tego procesu jest mocno ograniczona możliwość sterowania sposobem mówienia, intonacją, emocjami. Można w ten sposób czytać w telewizji kursy walut, ale niekoniecznie porywać tłumy. Warto jednak docenić drogę, jaką przebyła ta technologia i to, że jest naprawdę dostępna. W biznesie nazwalibyśmy to proof of concept. Wprowadzenie na rynek jakiegoś rozwiązania, które ma za zadanie udowodnić, że to co chcemy zrobić na szerszą skalę ma sens, spełnia oczekiwania i jest możliwe do zrealizowania.

Plusy:

działa!
jest prosty w obsłudze;
wspiera język polski.

Minusy:

ograniczona baza awatarów;
zawiera dużo błędów;
niewielkie możliwości sterowania syntezą;
wysoki koszt w przypadku produkcji długich materiałów.

Chciałoby się zakończyć ocenę cytatem z “Misia”, że narzędzie to:

ma być może nawet tam i swoje... plusy. Rozchodzi się jednak o to, żeby te plusy nie przesłoniły wam minusów!

Wnioski

Powody śledzenia tego i podobnych narzędzi mogą być różne. Pomijając już ograniczenia i obawy, jakie wymieniłem na samym początku, mamy jeszcze coś takiego jak skalowanie naszej misji edukacyjnej. Mając takie narzędzie możemy bez trudu wyprodukować ten sam kurs wideo w wielu językach, ale prowadzony w ten sam sposób, przez tego samego wykładowcę. W przyszłości będzie możliwość opracowania własnego awatara. Będzie on zawsze dobrze uczesany, uśmiechnięty, w starannie wyprasowanej koszuli. Czyli taki ja, ale niekoniecznie.

Na razie przed awatarami jeszcze długa droga. O ile funkcja text-to-speech, a więc przekładanie tekstu na syntetyczną mowę, działa już całkiem nieźle, tak wyrażanie emocji, akcentowanie, właściwa intonacja - to inny temat. Wykłady z syntezatora są nieco… syntetyczne. Na razie.

Kolejnym krokiem będzie zapewne nauczenie maszyny kopiowania nas samych nie tylko w kwestii wyglądu, ale też zachowania, tego jak mówimy, gestykulujemy. Obawiam się, że komputery w najbliższej dekadzie bez trudu opanują tę sztukę. Na to wskazuje kierunek i tempo rozwoju uczenia maszynowego. Za całkiem niedługo dojdą do naszego katalogu zmartwień całkiem nowe zagadnienia z obszaru etyki uczenia. Czy to w porządku, że nie prowadzę wykładów samodzielnie, ale wysyłam w swoje miejsce robota? Nawet, jeśli nikt nie widzi różnicy. Ile jestem wart jako jednostka, która pracowała latami na swoją pozycję, skoro może mnie zastąpić algorytm? Nawet, jeśli to ja wystawiam fakturę. Czy treści tworzone przez roboty będą musiały być oznaczone niczym żywność modyfikowana genetycznie? Nawet, jeśli w rzeczywistości będą lepsze, niż moje własne.

Na koniec przykład finalnego projektu (też w pewnym sensie edukacyjnego) z zastosowaniem tego narzędzia: https://www.youtube.com/watch?v=QiiSAvKJIHo Widocznie pracował nad tym ktoś zdolniejszy ode mnie.

Piotr Maczuga – pisze, nagrywa, szkoli i występuje publicznie, przybliżając temat nowych technologii w edukacji dorosłych. Współzałożyciel Fundacji Digital Creators. Ambasador EPALE.

Interesują Cię nowe technologie w edukacji osób dorosłych? Szukasz inspiracji, sprawdzonych metod prowadzenia szkoleń, narzędzi trenerskich i niestandardowych form?

Tutaj zebraliśmy dla Ciebie wszystkie artykuły na ten temat dostępne na polskim EPALE!

Zobacz także:

Formatowanie, czyli jak się nauczyć wideo w mniej, niż dobę

Wideo w edukacji przyszłości jako... gra?

Dostosowywanie wideo do potrzeb osób niepełnosprawnych w praktyce

Sztuka porażki online czyli o tym, że zrobić coś źle też trzeba umieć

Jak uczyć skutecznie za pomocą multimediów

Tagi

Technologie w edukacji

Umiejętności cyfrowe

Metody nauczania

Komentarz

Robiłam próbki wideo i…

Robiłam próbki wideo i wygląda całkiem ciekawie, ale zgadzam się, że przy dłuższej wypowiedzi to jeszcze nie to :). Szkoda że Twój film wyświetla mi się już jako niedostępny :( Myślę, że tego rodzaju narzędzia zostaną dopracowane szybciej niż nam się wydaje. Co do etyki i całej sfery "ludzkiej", która wiąże się z taką formą prezentacji to rzeczywiście świat edukacji czeka wyzwanie i sporo pracy nad regulacjami.

Zaloguj lub zarejestruj się aby dodawać komentarze

Rzeczywiście warto się zainteresować

Pierwsze co mi przychodzi do głowy, to wielojęzyczność. Mój niemiecki jest słaby (właściwie żaden), a tu proszę, mogę tekst komuś do tłumaczenia i robot wypowie go jako tako. Biorąc pod uwagę narzędzia deep fake, to pewnie i moją twarz z głosem da się niedługo wykorzystać w takiej syntezie. Bartek Polakowski pokazywał kiedyś narzędzia, które pozwalają zamieniać język twojego wystąpienia w czasie rzeczywistym. Do mikrofonu mówisz po polsku, a na ekranie przemawiasz po węgiersku jak rdzenny mieszkaniec Budapesztu.

AI może tu pomóc właśnie na etapie dostosowania intonacji do treści. Może też powstaną metaznaczniki (jak w HTML). Napiszesz [patos]Niech żyje edukacja![/patos] i robot powie to z patosem godnym teksańskiego kaznodziei.

Może trudno będzie odwzorować urok osobisty i charyzmę niektórych mówców, ale może nie zawsze są one kluczowe.

To, co przy technologii jest pewne, to na pewno to, że ewentualne niedoskonałości zostaną prędzej czy później ogarnięte. Jeśli będą zastosowania i klienci, to technologia się rozwinie w tym kierunku. Druga rzecz, która wydaje się do osiągnięcia w tego typu technologiach to powszechna dostępność.

Zaloguj lub zarejestruj się aby dodawać komentarze

Ja tam się jaram!

Kolekcjonuję ostatnio takie narzędzia. Mam dwa, które przerabiają tekst na audio (mają fajną funkcję - można poprawić wymowę jak coś zostaje wypowiedziane niepoprawnie) i teraz czaję się też na narzędzie, które robi transkrypcję podcastu, a potem automatycznie wybiera najlepsze kąski, które montuje samodzielnie w film promujący ten podcast. Kilka godzin czasu na jednym odcinku zaoszczędzone. Po doświadczeniach z tworzeniem reklam w writesonic raczej jestem dobrej myśli, jeśli chodzi o bardziej zaawansowane algorytmy i myslę, że narzędzie, które spełni Twoje oczekiwania powstanie w przeciągu 2, maksymalnie 3 lat.

Zaloguj lub zarejestruj się aby dodawać komentarze

EPALE - Elektroniczna platforma na rzecz uczenia się dorosłych w Europie

Blog