Blog
Blog

"Syntentyczny" wykładowca właśnie składa swoje CV

A żeby tego było mało: ma 257 lat doświadczenia. O tym dlaczego opowiem później. 

ok. 13 minut czytania - polub, linkuj, komentuj!


A żeby tego było mało: ma 257 lat doświadczenia. O tym dlaczego opowiem później. Teraz skupmy się na tym, cóż to za okrutnik zmieni charakter naszej pracy i to już niebawem.

Typowy produkt distance learning, niezależnie od uwarunkowań czy użytej technologii, potrzebuje specyficznych warunków, żeby osiągnąć sukces. Jednym z nich jest możliwość łatwego skalowania, a więc docierania dalej, szerzej i głębiej, bez ponoszenia znacząco proporcjonalnych kosztów. Szkolenie tradycyjne, jeśli chcemy powielić, wymaga ponownego opłacenia trenera czy pokrycia kosztów organizacji -  efekt skali jest więc kosztowny. Szkolenie e-learningowe rzadko kiedy powstaje z myślą o kilkunastu czy kilkudziesięciu osobach, a więc jednorazowym zapełnieniu sali szkoleniowej. Jedna z głównych przewag uczenia się przed ekranem komputera czy telefonu to - przynajmniej z punktu widzenia decydentów procesu - masowość. Jest ją stosunkowo łatwo osiągnąć w klasycznym e-learningu, który składa się z elementów tekstowych i graficznych umieszczonych według określonej logiki na osobnych ekranach/slajdach. Całe szkolenie może mieć ich nawet kilkaset.

Jednak sprawa skali ogranicza się dziś nie tylko do odpowiednio wydajnych serwerów (tak, aby tysiące uczących się mogło to robić w tym samym czasie, nie powodując paraliżu po stronie technologii), ale też dotarcia do odbiorców posługujących się innym językiem lub żyjących/pracujących w innych warunkach narzuconych przez kulturę czy zwyczaje. Teksty można łatwo, niemal automatycznie przetłumaczyć, ale co z wideo? Ten problem jest naprawdę palący, ponieważ potrzeba skalowalności się nie zmniejsza, a wideo w edukacji staje się coraz bardziej oczywiste.

Rozwiązania dostępne od ręki dzielą się obecnie na:

  • mało atrakcyjne, ale łatwe we wdrożeniu: dodawanie napisów;

  • przeciętnie atrakcyjne, ale kłopotliwe: dodawanie dodatkowych ścieżek nagrywanych przez lektora;

  • atrakcyjne, ale w zasadzie abstrakcyjne: nagrywanie tego samego materiału w wielu wariantach (np. językowych).

Z pomocą przychodzi nam zatem sztuczna inteligencja i uczenie maszynowe. Wspieranie edukacji przez elementy AI (artificial intelligence czyli: sztuczna inteligencja) jest stale rosnącym trendem o kilku lat. Głównie mowa tutaj o wsparciu uczącego się w optymalnym doborze treści oraz jej optymalizacji. Mechanizmy AI mają docelowo projektować pełne procesy edukacyjne indywidualnie, ucząc się potrzeb każdego z odbiorców i dobierając dla nich odpowiednie treści i formy. Obecnie jest to już stosowane w niektórych platformach Learning Management Systems, jednak prawie wyłącznie w środowiskach zamkniętego uczenia się (np. w firmach i organizacjach, gdzie AI wspiera też odgórnie zaprojektowane ścieżki rozwojowe). Inaczej mówiąc: sztuczna inteligencja, ucząc się potrzeb odbiorców, jest w stanie lepiej zaproponować im zarówno treść, jak i formę nauki. Wszystko z myślą o tym, aby chętniej dbali oni o swój rozwój, a firma ponosiła mniejsze koszty na produkcję niechcianych przez nikogo i nudnych szkoleń.

Są to jednak elementy wspierające same LMS, zwiększające ich funkcjonalność, nie spełniające jednak żadnej kluczowej roli w procesie. Ułatwiają pracę, ale nie są game changerami. No i nie zabierają pracy edukatorowi. Niemniej jednak warto wiedzieć, że takie procesy są i działają, również w świecie poza edukacją. Słuchając muzyki przez Spotyfi czy robiąc zakupy w Amazon podlegamy właśnie AI w zakresi tzw. predictive personalisation (więcej o tym tutaj).

Nieco inaczej sytuacja ma się, gdy podejmie się próbę analizy tych procesów, gdzie sztuczna inteligencja w edukacji zdalnej wydaje się być kluczowa. Mówimy tutaj właśnie o zapewnieniu skali, co jest - jak wspomniałem -  niezwykle trudne w przypadku wykorzystania multimediów do uczenia. O ile tradycyjne treści e-learningowe oparte są o słowo pisane i grafikę, a także o mało złożone animacje (wszystko to jest stosunkowo proste do skalowania, a także lokalizacji językowej czy kulturowej) nie stanowią problemu, tak treści oparte o wideo - już tak. Rola wideo w edukacji rośnie bardzo szybko, opiera się o bardzo różnorodne treści, również generowane metodami chałupniczymi. Szczególnie teraz wielu trenerów nagrywa i publikuje treści samodzielnie, więc jest ich coraz więcej i mają bardziej zróżnicowaną jakość.

To się raczej nie zmieni, więc jednym z głównych hamulców nowoczesnego uczenia na odległość jest i będzie niska skalowalność w rozumieniu modyfikacji i powielania tego, co się stworzy. Z tego punktu widzenia rynek potrzebuje narzędzi niemal automatycznego tworzenia treści edukacyjnych w formie wideo, w oparciu o mechanizmy sztucznej inteligencji.

Znaczenie mają przede wszystkim:

Tworzenie wirtualnych prezenterów, którzy jednak muszą być realistyczni - zarówno w warstwie wizualnej (fotorealizm) jak i samego zachowania (naturalne odwzorowanie ruchów, sposobu mówienia, poruszania się i gestykulacji). Wirtualny prezenter jest tutaj niezbędnym elementem ze względu na koszty. Gdyby nie analizować tego składnika, to każdą treść da się powielić zatrudniając odpowiednią ilość wielojęzycznych wykładowców i po prostu powielając nagrania w każdym możliwym wariancie językowym, kulturowym, a także tworząc różne wersje dla różnych scenariuszy zdarzeń (jak wiadomo w e-learningu często opieramy się na scenariuszach wariantowych, branch scenarios, co oznacza konieczność stworzenia nawet kilkunastokrotnie więcej materiału, niż uczeń finalnie zobaczy podczas nauki). Jeśli jednak weźmiemy pod uwagę koszty tworzenia takich procesów, to wydaje się jasne, że potrzebna jest optymalizacja, a w zasadzie opracowanie całkiem innego modelu, czemu sprzyja właśnie wykorzystanie AI.

Od kilkunastu lat badania na temat czaso- i kosztochłonności produkcji e-learningu prowadzą dr Karl Kapp i dr Robyn A. Defelice. Przekładając ich badania na rzeczywistość widzimy, że do stworzenia 1 godziny praktycznego szkolenia e-learningowego potrzeba przeciętnie 70 godzin pracy. Mówimy tutaj tylko o szkoleniu na poziomie podstawowym. Nie wliczamy też kosztu usług specjalistycznych. Przy średniej stawce developera na poziomie 120 zł netto za godzinę pracy, same koszty osobowe to ponad 8 tys. zł dla 60 minut nieskomplikowanego kursu. Trzeba też pamiętać, że 60 minut dobrej jakości materiału wideo wymaga zaangażowania wyspecjalizowanej ekipy produkcyjnej na kilka dni i dodatkowo kilkadziesiąt czy nawet kilkaset godzin roboczych na postprodukcję materiału. Mając to na uwadze widzimy, że kurs oparty o 4-5 godzin materiału może wymagać nagrania nawet 20 godzin treści. Budżet takiej produkcji rzadko może zamknąć się w kwocie niższej, niż 100 tys. zł, co może zaskakiwać przy pierwszym wrażeniu i wydawać się absurdalne w warunkach rynku szkoleniowego, ale przy głębszej analizie nie jest kwotą wygórowaną.

W konkretnych warunkach jednak mało kogo stać na taki wydatek, szczególnie jeśli chcielibyśmy tworzyć treści w wielu językach. Każdy kolejny wariant to w zasadzie konieczność poniesienia prawie takich samych kosztów, co produkcja oryginalna. Sztuczna inteligencja, poprzez możliwość tworzenia w zasadzie nieograniczonej ilości wirtualnych prezenterów, redukuje te koszty w sposób znaczący, choćby przez fakt, że materiał oryginalny wystarczy nagrać raz, niekoniecznie w profesjonalnych warunkach, a aspektami wielu języków czy adaptacji kulturowej zajmie się AI.

Zresztą, zobaczmy to na gotowym, działającym produkcie. Obejrzcie proszę to: https://www.youtube.com/watch?v=smoniOSFbKM

Mamy przed sobą obraz prezenterki, który wygląda bardzo realistycznie, sprawia wrażenie, że został nagrany w profesjonalnym studio, a tak naprawdę nasza bohaterka po prostu odczytywała swój wykład wprost z kartki, nagrywając się po prostu telefonem komórkowym. Mam nadzieję, że jesteście świadomi tego, co właśnie zobaczyliście. Pomyślicie może: OK, ciekawe. Będę mógł/mogła robić odczyty refaratów zupełnie nie dbając o prezencję, a AI samo zadba o język ciała i komunikację niewerbalną... Z jednej strony to wspaniałe narzędzie. Z drugiej - sprowadza nas, edukatorów, do roli kiepskich (zazwyczaj) lektorów. Skoro mechanizm sam zadba o moją prezencję, haryzmę czy zbuduje mi warunki profesjonalnego studio, to właśnie staję się mało znaczącym trybikiem w tej maszynie nowoczesnej edukacji, i to trochę na własne życzenie.

Nawiązując do tego należy zwrócić uwagę również na aspekty językowe, bo o tym wspominałem pisząc o skali. Badanie Common Sense Advisory pokazuje, że 72% odbiorców preferuje treści we własnym języku, uzależniając często do tego swoją decyzję zakupową.

Tymczasem technologia Deepfake (a więc pozwalająca na "podmianę" twarzy) pozwala na odwzorowanie mówienia w różnych językach przy stosunkowo niskim nakładzie pracy człowieka (nagranie treści w języku oryginalnym). Skrypty wspierające tego typu działania wykorzystywane są m.in. w BBC, co możemy zobaczyć w praktyce tutaj. W tym przypadku twarz prezentera zostaje dostosowana do sposobu artykulacji w danym języku, a on sam zyskuje niesamowite zdolności lingwistyczne.

Sporadycznie wykorzystuje się te same mechanizmy również w działalności w mediach społecznościowych i reklamie (świetny przykład tutaj). Trzeba jednak mieć na uwadze fakt, że nie są to modele gotowe w jakikolwiek sposób do wykorzystania w nowoczesnej edukacji. Szczególnie, jeśli weźmiemy pod uwagę takie trendy jak user generated content, gdzie twórcy zazwyczaj nie posiadają wyspecjalizowanej wiedzy z zakresu programowania. Innymi słowy - skrypty sprawdzają się w pracy nad konkretnym przypadkiem, ale nie umożliwiają masowej produkcji treści, czego wymaga edukacja.

Kolejny aspekt to customizacja treści i dostosowanie jej do konkretnego odbiorcy, która w przypadku tradycyjnego wideo jest bardzo trudna do osiągnięcia. Do tej pory radzono sobie poprzez wariantowe nagrywanie sekwencji filmowej (np. lektor czytał kilkaset wariantów tego samego zdania, które różniło się tylko, na przykład, imieniem osoby do której zwraca się narrator), a następnie następowało odtwarzanie takich sekwencji również w wersji wariantowej. Dla odbiorcy nie był zauważalny fakt, że ogląda film poszatkowany i połączony z kilkunastu czy kilkudziesięciu różnych scen, sprytnie łączonych w jeden materiał przez wydajne serwery.

Metoda ta jest znaczącym udoskonaleniem rozwiązań klasycznych, ale w dalszym ciągu wiąże się z licznymi ograniczeniami. Tymczasem przy wykorzystaniu sztucznej inteligencji można również pokusić się o budowanie interakcji w czasie rzeczywistym z każdym z uczących się z osobna, co jest praktyczną realizacją jednej z najważniejszy potrzeb rynkowych e-learningu, mianowicie dostarczania personalized learning experience, co jest szczególnie trudne w przypadku wideo. Wyniki badania, jakie przeprowadziła Kaltura w 2018 roku pokazują, że aż 95% studentów uważa edukacyjne treści wideo za kluczowe w procesie nauki. To samo badanie pokazuje, że rosnąca rola wideo nie idzie w parze z budowaniem zaangażowania wśród odbiorców. Ma to związek w dużej mierze z ilością materiału, a także z jego niedostosowaniem do potrzeb konkretnych grup odbiorców. Oglądanie długich wykładów może być monotonne, natomiast nie ma możliwości tworzenia tylko i wyłącznie krótkich i dynamicznych lekcji, głównie ze względu na nakład pracy, jaka jest przy tym wymagana w zakresie produkcji i postprodukcji.

Odchodząc nieco od edukacji jako takiej, trendem rynkowym może stać się w najbliższych latach tworzenie realistycznych treści w oparciu o działania AI, które obecnie określa się mianem treści syntetycznych. Poza technologią Deepfake już obecnie mamy wiele przykładów wykorzystania sztucznej inteligencji, np. serwis Grammarly potrafi sprawdzać to jak piszemy w internecie i poprawiać nasze błędy w czasie rzeczywistym, dzięki zaawansowanemu uczeniu maszynowemu, które jest niczym innym, jak subdziedziną sztucznej inteligencji. Analiza milionów dostępnych dokumentów i wyciąganie wniosków przez komputer sprawia, że wsparcie wykracza daleko poza zwykłe poprawianie literówek. Może to mieć znaczenie dużo większe, niż jedynie wsparcie w nauce języka.

Ważny jest również wzrost znaczenia Deepfake z elementami syntezy głosu na tle całej technologii. O ile przywykliśmy już do wideo w tej formule, tak łączenie go z realistycznie brzmiącym, a jednak syntetycznym głosem jest kolejnym ważnym krokiem w który inwestują duże firmy technologiczne, jak Adobe, Amazon czy Microsoft.

Tak więc “syntetyczny” wykładowca jest już prawie gotowy do pracy. Na razie jego zatrudnienie wiąże się ze zbyt dużym nakładem pracy wymaganym na wdrożenie i obsługę takiego jegomościa, ale technologia istnieje i daje naprawdę rewelacyjne rezultaty. To, że nie mówimy o czymś abstrakcyjnym przekonuje też fakt, że powstają produkty mające nas chronić przed takimi sztucznymi tworami, na przykład Deep Trace Labs weryfikuje czy dana treść jest prawdziwa, czy może zmanipulowana przez sztuczną inteligencję. Dzięki AI oraz Deepfake możemy się uczyć, ale możemy też sobie szkodzić. Naszym zadaniem jest wykorzystać technologię do szlachetnych celów, a edukacja na pewno do nich należy.

Dla głodnych wiedzy mam na koniec dwa ciekawe opracowania:

Spieszę też z wyjaśnieniem zagadki wieku naszego “syntetycznego” wykładowcy. Dokładnie w 1763 roku została opublikowana praca “An Essay towards solving a Problem in the Doctrine of Chances” Thomasa Bayesa. A czym jest twierdzenie Bayesa i jaki ma wpływ na to o czym dzisiaj pisałem można poczytać tutaj.


Piotr Maczuga - Od ponad dekady zajmuje się zagadnieniami wykorzystania nowych technologii w edukacji dorosłych. Tworzy i wdraża w organizacjach oparte o technologie, które łączą w sobie nowoczesny marketing i edukację. Współautor podręczników w zakresie webinariów, webcastów, knowledge pills i innych. Metodyk, autor szkoleń z zakresu wykorzystania multimediów w uczeniu i biznesie oraz publikacji poświęconej tej tematyce. Na co dzień kieruje Digital Knowledge Lab – studiem produkcji multimedialnych treści edukacyjnych w Polsce działającym w ramach ekosystemu Digital Knowledge Village. Jego misją zawodową jest usuwanie barier technologicznych przed wszystkimi, którzy mają ambicje uczyć innych, aby wspomagać tworzenie społeczeństwa świadomie i sprawnie posługującego się otaczającymi nas narzędziami.


  

Interesują Cię nowe technologie w edukacji osób dorosłych? Szukasz inspiracji, sprawdzonych metod prowadzenia szkoleń, narzędzi trenerskich i niestandardowych form?

Tutaj zebraliśmy dla Ciebie wszystkie artykuły na ten temat dostępne na polskim EPALE!  

Zobacz także:

Technologia w uczeniu dorosłych - trochę inne spojrzenie - podkast

Jak uczyć skutecznie za pomocą multimediów

Europa potęgą w branży wirtualnej rzeczywistości?

Co Cię powstrzymuje, "cyfrowy" trenerze?

Twoja multimedialna pracownia na miarę możliwości

7 wskazówek jak nagrać prostą lekcję telefonem komórkowym tak, aby wyglądała profesjonalnie

Login (3)

Users have already commented on this article

Chcesz zamieścić komentarz? Zaloguj się lub Zarejestruj się.

Want to write a blog post ?

Don't hesitate to do so! Click the link below and start posting a new article!

Najnowsze dyskusje

Dyskusja EPALE: Aktywne starzenie się i życiowe zmiany

W jaki sposób edukacja międzypokoleniowa może pomóc w aktywnym starzeniu się i życiowych zmianach?

Więcej

Dyskusja EPALE: Blended learning w edukacji dorosłych

W czwartek 26 listopada 2020 r., od godz. 10.00 do 16.00, EPALE będzie gospodarzem internetowej dyskusji na temat blended learning w edukacji dorosłych. Dyskusja będzie miała zupełnie nowy format, zaczynając od 30-minutowej transmisji na żywo, której towarzyszyć będzie rozmowa w formie komentarzy na platformie.

Więcej

Dyskusja EPALE: Integracja społeczna starzejącego się społeczeństwa i edukacja międzypokoleniowa

W środę 28 października, od godziny 10.00, EPALE będzie gospodarzem internetowej dyskusji na temat integracji społecznej starzejącego się społeczeństwa i edukacji międzypokoleniowej. Komentarze będą otwarte 19 października, aby uczestnicy mogli się przedstawić i zamieścić swoje uwagi z wyprzedzeniem. Dołącz do dyskusji!

Więcej