Jak sztuczna inteligencja przetwarza dane

Co to jest Sztuczna Inteligencja?

Czym jest AI, że jest różnica pomiędzy sztuczną inteligencją, a uczeniem maszynowym oraz na czym ona polega przedstawiliśmy w pierwszy artykule. Zachęcamy do zapoznania się z nim: https://cebrf.knf.gov.pl/komunikaty/artykuly-csirt-knf/362-ostrzezenia/887-wprowadzenie-do-sztucznej-inteligencji

Tymczasem, uzbrojeni już w podstawową wiedzę definicyjną pora na kolejny krok w świecie magii i sztuczek, czyli sztucznej inteligencji. Dość naturalnym wydaje się, że skoro chcemy być świadomymi zagrożeń użytkownikami modeli AI, to warto odpowiedzieć sobie na pytanie: okej, ale skąd tak naprawdę to AI wie, to co wie i jak przetwarza, to czym ją zasilam – i właśnie tego pytania, dotyczy poniższy tekst, zapnijcie pasy – ruszamy!

Skąd AI czerpie wiedzę?

Sztuczna inteligencja odgrywa coraz ważniejszą rolę w naszym świecie. Często już przekształcając sposób, w jaki np. szukamy informacji, czy uczymy się. W centrum tej transformacji leżą dane – można nazwać je paliwem napędzającym AI. Skoro AI rozumiana jest jako twór, który ma mieć zdolność do wykonywania zadań, założenia wymagających cech ludzkiego intelektu, to może nam się wydawać, że modele te powinny uczyć się na podstawie tych samych danych co człowiek – i to jest prawidłowe rozumowanie. Typowym rodzajami danych szkoleniowych dla sztucznej inteligencji, które podają liczne źródła, są:

  • dane tekstowe - wykorzystywane głównie w przetwarzaniu języka naturalnego (NLP), czyli tego którego używamy, źródłem nauki są tu dokumenty, książki, strony internetowe, a nawet tweety i wpisy w innych mediach społecznościowych, recenzje produktów, czy transkrypcje rozmów, używane do zadań takich jak analiza sentymentu, klasyfikacja i generowanie tekstu;
  • dane obrazowe - stosowane w widzeniu komputerowym i przetwarzaniu obrazów, AI do nauki wykorzystuje ogromne liczby oznaczonych obrazów, źródłami są tu wszelkie skany, zdjęcia cyfrowe, zdjęcia satelitarne, umiejętność wykorzystywana do rozpoznawanie obiektów i ich generowania;
  • dane dźwiękowe (audio) - wykorzystywane w rozpoznawaniu mowy i analizie dźwięku, źródłami są tu nagrania głosowe, wzorce akustyczne, muzyka, dźwięki otoczenia, używane do zadań takich jak np. transkrypcja mowy, rozpoznawanie muzyki, czy wykrywanie dźwięków;
  • dane wideo – wykorzystywane do rozpoznawania ruchomego obrazu, wyodrębniania elementów, dostosowywania audio, źródłami nauki są tu wszelkie nagrania wideo, wykorzystywane do analizy wideo, nadzoru, generowania wideo i uczenia się wzorców czasowych;
  • dane finansowe – pobierane z istniejących danych finansowych z rynków i rejestrów transakcji, wykorzystywane np. do przewidywania cen akcji, oceny zdolności kredytowej, czy wykrywania oszustw;
  • dane czasowo-szeregowe – to informacje ułożone chronologicznie czasowo, źródłami są tutaj m.in. dane giełdowe, rejestry aktywności fizycznej, etc.;
  • dane strukturalne – to te dane, które zostały zebrane w formie tabelarycznej, jak np. bazy danych klientów, dane transakcyjne, dane demograficzne, używane m.in. w klasyfikacji klientów, analizie ryzyka kredytowego, segmentacji rynku;
  • dane sensoryczne/telemetria - informacje zbierane z czujników i urządzeń telemetrycznych, np. z czujników IoT, dane z samochodów autonomicznych, dane meteorologiczne, używane w monitorowaniu stanu maszyn, systemach nawigacyjnych, prognozowaniu pogody.

Czy to skończony zbiór rodzajów i źródeł danych? Zdecydowanie nie, to tylko lista tych najczęstszych, bo tak jak małe dziecko uczy się z otaczającego go świata, tak AI uczy się z tego, co ma dostępne.

To Ty i ja jesteśmy nauczycielami AI!

Z tymi, z którym najprawdopodobniej większość z nas ma najczęściej do czynienia to modele językowe. Duże modele językowe (LLM - Large Language Model) charakteryzują się zdolnością do rozumienia i przetwarzania języka naturalnego. Takimi LLM są między innymi ChatGPT oraz Bard. W dużym uproszczeniu, proces tego uczenia można podzielić na 4 części:

  1. trening modelu językowego- model językowy jest najpierw trenowany na ogromnym zbiorze danych tekstowych, o którym pisaliśmy wyżej, podczas tego procesu model uczy się rozumieć strukturę języka, jego semantykę, składnię oraz kontekst;
  2. interakcje i zapytania- gdy model językowy jest już wstępnie wytrenowany, może być dodatkowo doskonalony poprzez interakcje z użytkownikami, zapytania użytkowników dostarczają modelowi przykładów użycia języka w konkretnych kontekstach, co może pomóc modelowi w lepszym rozumieniu niuansów językowych i specyficznych przypadków użycia – i w zasadzie, to jest to miejsce, w którym my (jako użytkownicy modeli językowych AI) stajemy się nauczycielami lub inaczej źródłem wiedzy, należy jednak uświadomić sobie, że celem tej nauki, model przetworzy, sprawdzi i zapamięta wszystko, co mu powiemy, napiszemy lub wrzucimy przy pomocy obrazu, pliku czy nagrania;
  3. analiza odpowiedzi i uczenie się z feedbacku - w niektórych systemach, szczególnie tych, które są ciągle rozwijane i ulepszane, odpowiedzi modelu językowego mogą być analizowane, a feedback od użytkowników może być używany do dalszego doskonalenia modelu, np. jeśli model generuje błędne lub nieadekwatne odpowiedzi, dane te mogą być wykorzystane do jego poprawy (krytyka nie musi być konstruktywna, on nie ma uczuć J);
  4. uczenie ciągłe i aktualizacje- w bardziej zaawansowanych systemach AI, takich jak wielojęzyczne modele językowe, istnieje możliwość ciągłego uczenia się i aktualizacji na podstawie nowych danych i interakcji, co pozwala modelom lepiej dostosowywać się do zmieniających się wzorców języka i potrzeb użytkowników.

Serce AI, to uczenie maszynowe (ML)

Czym jest ML, pisaliśmy w pierwszy artykule, warto jednak zaznaczyć sobie w tym miejscu, że ML jest sercem AI. Wyróżnia się tutaj uczenie:

  • nadzorowane,
  • nienadzorowane,
  • ze wzmocnieniem.

W uczeniu nadzorowanym, AI trenuje na danych zawierających zarówno pytania, jak i odpowiedzi, ucząc się rozpoznawać wzorce. Uczenie nienadzorowane pozwala AI na samodzielne odkrywanie struktur w danych, bez wcześniej oznakowanych odpowiedzi. Uczenie ze wzmocnieniem, polega na metodzie prób i błędów, gdzie AI uczy się poprzez nagrody i kary. Model AI otrzymuje nagrody (pozytywne wzmocnienia) lub kary (negatywne wzmocnienia) na podstawie jego działań. Na przykład, w grze komputerowej algorytm może otrzymać punkty (nagrody) za wykonanie pożądanych działań, takich jak zdobycie celu, lub stracić punkty (kary) za niepożądane działania, jak na przykład wpadnięcie w pułapkę.

Celem AI w uczeniu ze wzmocnieniem jest maksymalizacja sumy nagród. Algorytm musi opracować strategię (politykę), która określa, jakie działania należy podjąć w danych okolicznościach, aby maksymalizować oczekiwaną sumę przyszłych nagród.

Wyzwania i zagrożenia

Jednak wykorzystanie danych przez AI nie jest pozbawione wyzwań. Problemem jest bias, czyli uprzedzenia w danych, które mogą prowadzić do błędnych wniosków generowanych w odpowiedzi użytkownikowi, dlatego niezbędna jest rozwaga w zawierzaniu odpowiedziom.

Kolejnym ważnym zagrożeniem, bardzo istotnym dla organizacji, związane jest z prywatnością i bezpieczeństwem danych. Wyzwanie to staje się również coraz bardziej palące na arenie międzynarodowej. W obliczu rosnącego wykorzystania danych osobowych, kwestie etyczne i prawne stają się kluczowe dla odpowiedzialnego wykorzystania AI. Aspekty te poruszymy w osobnych artykułach tego cyklu, musimy jednak już dziś zdawać sobie sprawę, że mogą one nas dotyczyć. Każde zapytanie do modelu AI, wrzucony plik, nagranie czy zdjęcie nie znika (nawet jeżeli usuniemy je z widoku aplikacji), ono zostaje, i nie tylko odkłada się, ale często jest też wykorzystywane przez sztuczną inteligencję do uczenia się. Dlatego tak ważnym jest rozwaga w jaki sposób korzystamy z „nowości”.

Podsumowanie

Zrozumienie, jak AI przetwarza i uczy się z danych, jest kluczowe dla pełnego wykorzystania jej potencjału, ale i umiejętności uchronienia siebie i organizacji przed niepożądanymi, negatywnymi skutkami wykorzystywania tego typu narzędzi. Dlatego w obliczu szybko rozwijającej się technologii, ważne jest, aby równie dynamicznie rozwijała się nasza świadomość na temat wyzwań i odpowiedzialności związanych z AI. A tymczasem, dziękując za poświęcony czas na lekturę powyższego tekstu, zachęcamy do śledzenia kolejnych artykułów.