Czym są duże modele językowe (LLM — large language model)? W jakich oprogramowaniach są wykorzystywane?
3 min
3 min
Na skróty
Sztuczna inteligencja nie jest jednorodnym „organizmem” — wręcz przeciwnie. Pod tym hasłem kryje się wiele różnych algorytmów, które spełniają odmienne zadania i posługują się rozmaitymi (choć czasem powiązanymi ze sobą) technologiami. W dzisiejszym wpisie przybliżymy ten algorytm, o którym w ostatnich latach mówi się najwięcej — czyli o dużych modelach językowych.
Large language model (LLM), a więc po polsku duży model językowy, to algorytm zdolny do przetwarzania języka naturalnego. Korzysta on ze swojego „doświadczenia” — wielkiego zbioru danych, na których został wytrenowany — do tego, aby rozpoznawać, interpretować i generować treści w podobny sposób, w jaki robi to człowiek. Tym też różni się od tradycyjnych programów komputerowych, które komunikują się przy pomocy języków formalnych — na przykład języków programowania.
Pierwsze modele językowe powstawały… jeszcze w latach 60. — w bardzo uproszczonej formie, jako uczelniane „eksperymenty”. Z modelami, o jakich myślimy dzisiaj, mówiąc chociażby o ChatGPT, mamy do czynienia tak naprawdę od kilku lat
Aby dobrze zrozumieć, o co chodzi z dużymi modelami językowymi, trzeba poznać zasadę ich działania. Przejdźmy więc przez cały proces uczenia się LLM krok po kroku.
Załóżmy, że mamy stworzony sam algorytm dla przyszłego modelu. Pracę z nim trzeba zacząć od dostarczenia mu jak największej ilości danych (czyli, po prostu, treści w języku naturalnym) — które następnie będą przez niego analizowane. Standardowo, są to dane nieustrukturyzowane, nieopisane, „surowe”; po to, aby algorytm mógł samodzielnie dojść do pierwszych zależności między frazami. Jest to tzw. uczenie nienadzorowane.
Dopiero potem przystępuje się do etapu uczenia nadzorowanego — w którym dostarczamy modelowi danych ustrukturyzowanych, zdefiniowanych przez człowieka. W ten sposób pomagamy algorytmowi zrozumieć, które związki i koncepcje są prawdziwe, a które — błędne lub niezgodne z naszym rozumowaniem.
Na tym etapie możemy już mówić o tworzeniu się sieci neuronowej — przypominającej swoim działaniem ludzki mózg. Składa się ona z kilku warstw:
Gdy te warstwy są już mocno rozbudowane, mamy do czynienia z tzw. deep learningiem, czyli uczeniem głębokim. W jego toku model uczy się trafnie wskazywać powiązania nie tylko między ciągami słów i fraz, ale także — między stojącymi za nimi znaczeniami oraz intencjami.
Jeśli LLM zbuduje wystarczająco dużą liczbę połączeń między danymi, uczenie się kolejnych konceptów będzie możliwe już bez udziału człowieka — wystarczy, że model będzie miał dostęp do nowych danych (na przykład po połączeniu go z internetem, jak to jest w przypadku GPT-4).
Za każdym razem, gdy zadajemy pytanie Chatowi GPT, stojący za nim model LLM interpretuje otrzymane pytanie na kolejnych warstwach sieci neuronowej i — w oparciu o wszystkie dane, do których ma w danym momencie dostęp — generuje odpowiedź, zachowując się przy tym zgodnie z zasadami naszego języka.
Lista zastosowań dużych modeli językowych już dziś jest długa — a z biegiem czasu będzie tylko rosnąć.
Wiele z nich możemy przetestować na podstawie wspomnianego już Chatu GPT, który jest w stanie:
a nawet
Ale to nie wszystko. Z modeli językowych korzystają również dynamiczne chatboty oraz asystenci AI, pomagający w obsłudze klienta w branży e-commerce; wyszukiwarki Google i Bing, do generowania kontekstowych odpowiedzi, podsumowujących najbardziej wartościowe wyniki wyszukiwania; wszelkiego rodzaju narzędzia do analizy danych, którym LLM umożliwiają segmentację produktów czy informacji zwrotnych od klientów.
Zawodowy copywriter oraz student psychologii na Uniwersytecie Warszawskim. W świecie marketingu internetowego równie mocno, co chwytliwe (i wartościowe) treści interesuje go dobry design. Gdy nie zajmuje się tworzeniem contentu, odkrywa perełki kina niezależnego i pracuje nad własnymi opowiadaniami.