Reinforcement Learning: strategia prób i błędów, która pokonała mistrza Go, Lee Sedola i wytrenowała ChatGPT

Sztuczna inteligencja, a zwłaszcza jedna z jej dziedzin, czyli uczenie maszynowe, od kilku lat uchodzi za jedną z najbardziej pożądanych innowacji w szeroko pojętym biznesie. Jedna technologia wyróżnia się tu szczególnie jako prawdziwa rewolucja i ma coraz więcej realnych zastosowań. Chodzi o Reinforcement Learning (RL), czyli metodę trenowania algorytmów AI, opartą na strategii prób i błędów. O tym, jak skuteczne i zaawansowane rozwiązania można tworzyć, stosując tę technologię przekonał się m.in. Lee Sedola – mistrz świata w Go.

Uczenie maszynowe, czyli obszar sztucznej inteligencji dotyczący algorytmów samodoskonalących przez doświadczenia, można podzielić na 3 główne grupy: – uczenie nadzorowane (ang. Supervised Learning), uczenie nienadzorowane (z ang. Unsupervised Learning) oraz uczenie przez wzmocnienie (ang. Reinforcement Learning).

W dużym skrócie, w procesie uczenia nadzorowanego człowiek przekazuje maszynie informacje, w jaki sposób wykonać konkretne zadanie. Zadajemy pewne pytanie oraz wskazujemy pożądaną przez nas odpowiedź. Zadaniem AI jest wyszukanie i generalizacja wzorców, a potem przewidywanie odpowiedzi na kolejne zapytania dotyczące tego zagadnienia. Najprostszym przykładem jest rozpoznawanie obiektów czy osób na zdjęciach. Polega to na tym, że przesyłamy np. zdjęcia dwóch osób, które podpisujemy ich imieniem. Nasz model AI przypisuje obrazom różne cechy charakterystyczne. Gdy zbiór zostanie uzupełniony o kolejne obrazy, AI zacznie je rozpoznawać już automatycznie. Im bardziej algorytm będzie przez nas wytrenowany, tym większa będzie jego skuteczność.

Uczenie nienadzorowane jest natomiast jego przeciwieństwem. Zadaniem maszyny jest samodzielne znajdowanie wzorców w zbiorze danych, ale bez wcześniejszego nadawania jakichkolwiek etykiet, czyli wkład człowieka w proces uczenia maszynowego jest ograniczony do minimum. AI grupuje zestawy danych posiadających pewne wspólne atrybuty, ale też wyszukuje i odrzuca te cechy, które są najmniej charakterystyczne. Posługując się wcześniejszym przykładem, jeśli zasilimy model kilkoma zdjęciami dwóch osób, AI zacznie sama je rozróżniać. Nie odpowie jednak na nasze konkretne zapytanie zawierające etykietę, bo jej nie będzie znała.

Trzecią, najmłodszą i stosunkowo najmniej znaną metodą uczenia maszynowego jest uczenie przez wzmocnienie, czyli z ang. Reinforcement Learning. W przypadku tej techniki nasz model uczy się, jak wykonać określone zadanie, za co otrzyma nagrodę lub karę za brak sukcesu. Algorytm zapamiętuje więc kombinacje wykonanych kroków, za które otrzymał karę lub nagrodę, co determinuje jego działanie w przyszłości. W ten sposób trenowana jest jego decyzyjność w dążeniu do osiągnięcia określonego przez nas wyniku. W teorii brzmi to dość skomplikowanie, ale posłużę się tu prostym przykładem, dotyczącym nauki gry w szachy. Dzięki stosowaniu tego podejścia nasz algorytm pozna jej tajniki, a wykorzystując wzmocnienie będzie sam oceniał kombinacje najbardziej skutecznych działań z punktu widzenia końcowego efektu, jakim są kolejne nagrody. Człowiek nie uczy grać algorytmu – udostępnia mu jedynie pewne środowisko, np. symulator szachowy, a następnie ocenia jego efekty. Wzmacnianie działa trochę na wzór dopaminy w mózgu.

Moment przełomowy – algorytm Google ogrywa mistrza świata w Go

Punktem kulminacyjnym w rozwoju RL było wydarzenie z 2016 roku, kiedy algorytm AlphaGo stworzony przez Google DeepMind, pokonał w grę Go samego mistrza świata – Lee Sedolę. Transmisję meczu śledziły na żywo miliony ludzi, a zakończył się on wynikiem 4:1 dla AI, chociaż przed jego rozpoczęciem niewiele osób wierzyło w taki scenariusz. Zasady samej gry są bardzo proste, ale to powoduje, że liczba możliwych kombinacji i ustawień jest przeogromna – szacuje się, że nawet przewyższa ona znacznie liczbę atomów we wszechświecie. To sprawia, że osiągnięcie poziomu mistrzowskiego wymaga wieloletniej praktyki, strategicznego myślenia i niezwykle sprawnego umysłu. Od tego momentu stało się dla wszystkich jasne, że AI potrafi nie tylko wykonywać proste czynności, ale też szybko podejmować decyzje wymagające niezwykle złożonych procesów myślowych na podstawie analizy wcześniej wykonanych kroków i ich konsekwencji. Podobne doświadczenie posiada również drugi istotny gracz na rynku, czyli OpenAI. W 2019 roku ich algorytm o nazwie OpenAI Five został przetestowany w popularnej sieciowej grze komputerowej DOTA 2, kiedy to pokonał ówczesnych mistrzów świata.

Uczenie z wykorzystaniem Reinforcement Learning w biznesie

Opisane powyżej przykłady nie dowodzą bynajmniej, że wykorzystanie RL może mieć miejsce tylko w grach. Jest wręcz przeciwnie. Wspomniane już OpenAI, wykorzystało tę metodę w swoim najbardziej znanym rozwiązaniu, czyli ChatGPT-3 (a następnie w GPT-4). Tworząc model Generative AI, jego autorzy doszli do wniosku, że brakuje mu „czynnika ludzkiego”, który znajdzie odniesienie w sposobie porozumiewania się z użytkownikiem w sposób bardziej naturalny. Zespół zastosował metodę uczenia przez wzmocnienie właśnie oceniając i szeregując odpowiedzi generowane przez AI (po 4 odpowiedzi na każde pytanie) w kolejności od najlepszej do najgorszej. Nie był to koniec trenowania modelu, bo obecnie również każdy użytkownik może ocenić jakość rozmowy z maszyną. Trzeba też wspomnieć, że ChatGPT nie tylko potrafi rozmawiać z nami „jak człowiek” i generować treści, ale też przewidywać nasze kolejne kroki np., o co możemy zapytać.

W praktyce metoda RL może być zastosowana w bardzo wielu dziedzinach i branżach, gdzie kluczowa jest np. optymalizacja procesów czy zarządzanie zasobami – w biznesie, przemyśle, logistyce, sektorze finansowym czy e-commerce. W biznesie może wspierać organizacje w podejmowaniu kluczowych decyzji dotyczących tworzenia strategii na danym rynku w oparciu o bieżące kierunki rozwoju, np. wykrywania trendów dotyczących nowych produktów i usług czy optymalizacji kampanii marketingowych. W branży produkcyjnej może być to zarządzanie harmonogramem produkcji czy zapasami, alokacja zasobów, usprawnianie procesów logistycznych, planowanie tras, zarządzanie energią czy kontrola jakości. Algorytmy potrafią adaptować się do różnych zmiennych rynkowych, liczby zamówień, okresowych spadków albo wzrostów popytu, dostępności materiałów – jednym słowem przewidywać różne zdarzenia i wyłapywać trendy. W efekcie pozwala to poprawiać wydajność przedsiębiorstwa i jego rentowność. Inny przykład zastosowania to szeroko rozumiana robotyka – np. Boston Dynamics szkoli swoje roboty właśnie z użyciem RL. To samo ma miejsce również w przypadku dronów czy samochodów autonomicznych – wszędzie, gdzie obserwacje w wirtualnym albo realnym środowisku przekładają się na konkretne akcje i są później oceniane.

Journey to AI w Billennium

Tak, jak wspominałem, Reinforcement Learning jest jeszcze dość młodą dziedziną AI, ale zdążył już pokazać swoje ogromne możliwości. Coraz więcej organizacji jest zainteresowana jego adopcją w swoim biznesie. Jednakże proces uczenia maszynowego jest złożony i wymaga odpowiedniego zaprogramowania oraz dostarczenia dużej ilości jakościowych danych do trenowania modeli. W Billennium w czerwcu uruchomiliśmy nową usługę pod nazwą „Journey to AI”, w ramach której oferujemy tworzenie rozwiązań opartych o RL przede wszystkim w dwóch obszarach. Pierwszy z nich związany jest z implementacją ChatGPT wraz z jego wytrenowaniem do konkretnych zastosowań i potrzeb organizacji. Drugi dotyczy z kolei zastosowania AI do optymalizacji procesów i modelowania działań w symulacji, tak aby nauczyć algorytm realizacji konkretnych celów i podejmowania najlepszych decyzji.

Metoda nauki oparta na próbach i błędach jest nam znana od zarania ludzkości. To, jak uczymy się chodzić, jeździć na rowerze, pisać i czytać czy też grać na gitarze – wszystko to opiera się na tym mechanizmie. Teraz, w ten sposób uczymy maszyny, aby to one wykonywały za nas pewne działania – niekiedy te najbardziej żmudne lub wymagające wyjątkowych umiejętności. Różnica polega jednak na tym, że człowiek może nabić sobie guza, gdy spadnie z roweru, stracić motywację z powodu braku postępów lub zwyczajnie nie posiadać odpowiednich zdolności, by opanować jakąś dziedzinę. W przypadku maszyn takich zagrożeń nie ma. Bez wymówek osiągnie ona w danej dziedzinie poziom mistrzowski, ale potrzebuje na to trochę czasu i wysiłku nauczyciela. Człowieka!

Portal Brandsit

Reinforcement Learning: strategia prób i błędów, która pokonała mistrza Go, Lee Sedola i wytrenowała ChatGPT

Moment przełomowy – algorytm Google ogrywa mistrza świata w Go

Uczenie z wykorzystaniem Reinforcement Learning w biznesie

Journey to AI w Billennium

Autor / Jakub Chojnacki