Skąd sztuczna inteligencja czerpie informacje?

Siedziałeś kiedyś i drapałeś się po głowie, myśląc sobie: skąd to się właściwie bierze ? Przecież sztuczna inteligencja nie przeszukuje zakurzonych stosów bibliotecznych ani nie ogląda po kryjomu krótkich filmów z YouTube'a. A jednak jakimś cudem udaje jej się znaleźć odpowiedzi na wszystko – od sztuczek z lasagne po fizykę czarnych dziur – jakby miała w sobie jakąś bezdenną szafkę na dokumenty. Rzeczywistość jest dziwniejsza i może bardziej intrygująca, niż mogłoby się wydawać. Rozłóżmy ją trochę (i tak, może przy okazji obalimy kilka mitów).

Czy to czary? 🌐

To nie czary, choć czasami tak się wydaje. To, co dzieje się pod maską, to zasadniczo przewidywanie wzorców . Duże modele językowe (LLM) nie przechowują faktów w taki sposób, w jaki mózg przechowuje przepis babci na ciasteczka; zamiast tego są trenowane do odgadywania następnego słowa (tokenu) na podstawie tego, co było wcześniej [2]. W praktyce oznacza to, że chwytają się relacji: które słowa ze sobą współgrają, jak zwykle układają się zdania, jak całe idee budowane są jak rusztowanie. Dlatego wynik brzmi dobrze, chociaż – mówiąc szczerze – to statystyczna mimikra, a nie zrozumienie [4].

Co właściwie sprawia, że informacje generowane przez sztuczną inteligencję są przydatne ? Kilka rzeczy:

Różnorodność danych – korzystanie z niezliczonej liczby źródeł, a nie jednego wąskiego strumienia.
Aktualizacje - bez cykli odświeżania strona szybko staje się nieaktualna.
Filtrowanie - w idealnym przypadku wyłapywanie śmieci zanim przedostaną się do środka (choć bądźmy poważni, ta siatka ma dziury).
Weryfikacja krzyżowa – opieranie się na źródłach autorytetu (np. NASA, WHO, głównych uniwersytetach), co jest koniecznością w większości podręczników zarządzania sztuczną inteligencją [3].

A jednak czasami zmyśla – pewnie. Te tak zwane halucynacje ? W zasadzie wypolerowane bzdury wygłaszane z kamienną twarzą [2][3].

Artykuły, które mogą Ci się spodobać po przeczytaniu tego:

🔗 Czy sztuczna inteligencja może przewidzieć numery loterii?
Badanie mitów i faktów na temat przewidywań loterii przez sztuczną inteligencję.

🔗 Co oznacza holistyczne podejście do sztucznej inteligencji?
Zrozumienie sztucznej inteligencji z uwzględnieniem zrównoważonych perspektyw etyki i wpływu.

🔗 Co Biblia mówi o sztucznej inteligencji
Badanie biblijnego spojrzenia na technologię i dzieło stworzenia człowieka.

Szybkie porównanie: skąd czerpie sztuczna inteligencja 📊

Nie każde źródło jest takie samo, ale każde odgrywa swoją rolę. Oto migawka.

Typ źródła	Kto z tego korzysta (AI)	Koszt/wartość	Dlaczego to działa (lub nie...)
Książki i artykuły	Duże modele językowe	Bezcenne (prawie)	Gęsta, ustrukturyzowana wiedza po prostu szybko się starzeje.
Strony internetowe i blogi	Prawie wszystkie SI	Darmowy (z hałasem)	Duża różnorodność; mieszanka genialności i kompletnego badziewia.
Prace naukowe	Sztuczna inteligencja oparta na badaniach	Czasami płatne	Rygor + wiarygodność, ale podane w ciężkim żargonie.
Dane użytkownika	Spersonalizowane AI	Wysoka wrażliwość ⚠️	Doskonałe krawiectwo, ale mnóstwo problemów z prywatnością.
Internet w czasie rzeczywistym	Sztuczna inteligencja powiązana z wyszukiwaniem	Bezpłatnie (jeśli online)	Pozwala zachować aktualność informacji; wadą jest ryzyko rozprzestrzeniania się plotek.

Wszechświat danych szkoleniowych 🌌

To faza „nauki dzieciństwa”. Wyobraź sobie, że wręczasz dziecku miliony książek z opowiadaniami, wycinków z gazet i króliczych nor Wikipedii naraz. Tak właśnie wygląda wstępne szkolenie. W rzeczywistości dostawcy łączą publicznie dostępne dane, licencjonowane źródła i tekst generowany przez trenera [2].

Na wierzchu umieszczono: starannie dobrane przykłady ludzkie – dobre odpowiedzi, złe odpowiedzi, wskazówki we właściwym kierunku – jeszcze przed rozpoczęciem wzmacniania [1].

Zastrzeżenie dotyczące przejrzystości: firmy nie ujawniają wszystkich szczegółów. Niektóre zabezpieczenia to tajemnica (własność intelektualna, kwestie bezpieczeństwa), więc masz jedynie częściowy wgląd w rzeczywisty stan rzeczy [2].

Wyszukiwanie w czasie rzeczywistym: dodatkowy dodatek 🍒

Niektóre modele mogą teraz wyjrzeć poza swoją bańkę treningową. To generacja wspomagana wyszukiwaniem (RAG) – w zasadzie pobieranie fragmentów z aktywnego indeksu lub magazynu dokumentów, a następnie wplatanie ich w odpowiedź [5]. Idealne rozwiązanie w przypadku szybko zmieniających się danych, takich jak nagłówki wiadomości czy ceny akcji.

W czym problem? Internet to w równym stopniu geniusz, co śmietnik. Jeśli filtry lub kontrole pochodzenia są słabe, ryzykujesz, że dane śmieciowe przedostaną się z powrotem – a przed tym ostrzegają systemy zarządzania ryzykiem [3].

Typowe obejście problemu: firmy podpinają modele do swoich wewnętrznych baz danych, dzięki czemu odpowiedzi powołują się na aktualną politykę kadrową lub zaktualizowaną dokumentację produktu, zamiast improwizować. Pomyśl: mniej momentów „niech tak”, więcej wiarygodnych odpowiedzi.

Dopracowywanie: etap polerowania sztucznej inteligencji 🧪

Surowe, wstępnie wytrenowane modele są nieporęczne. Dlatego trzeba je dopracować :

Ucząc ich, jak być pomocnym, nieszkodliwym i uczciwym (poprzez wzmacnianie uczenia się na podstawie ludzkiej informacji zwrotnej, RLHF) [1].
Szlifowanie niebezpiecznych lub toksycznych krawędzi (wyrównywanie) [1].
Dostosuj ton wypowiedzi – może być przyjazny, formalny lub żartobliwie sarkastyczny.

Nie chodzi tu o polerowanie diamentu, lecz o zapanowanie nad lawiną statystyk, które mają na celu skłonienie kogoś do zachowywania się jak partner do rozmowy.

Niepowodzenia i porażki 🚧

Nie udawajmy, że jest bez skazy:

Halucynacje – konkretne odpowiedzi, które są po prostu błędne [2][3].
Błąd – odzwierciedla wzorce zawarte w danych, a jeśli nie jest sprawdzany, może je nawet wzmacniać [3][4].
Brak doświadczenia z pierwszej ręki – może mówić o przepisach na zupę, ale nigdy żadnej nie spróbował [4].
Nadmierna pewność siebie – proza płynie, jakby wiedziała, nawet gdy tak nie jest. Ramy ryzyka kładą nacisk na sygnalizowane założenia [3].

Dlaczego czujesz się, jakby to było wiedzieć 🧠

Nie ma żadnych przekonań, żadnej pamięci w ludzkim rozumieniu tego słowa, a już na pewno nie ma jaźni. A jednak, ponieważ płynnie łączy zdania, mózg odczytuje je tak, jakby je rozumiał . To, co się dzieje, to po prostu masowa prognoza kolejnego żetonu : przeliczanie bilionów prawdopodobieństw w ułamkach sekund [2].

Wibracje „inteligencji” to wschodzące zachowanie – badacze nazywają je trochę żartobliwie „efektem stochastycznej papugi” [4].

Analogia przyjazna dzieciom 🎨

Wyobraź sobie papugę, która przeczytała wszystkie książki w bibliotece. Nie rozumie historii , ale potrafi przerobić słowa w coś, co wydaje się mądre. Czasami trafia w sedno, czasami jest bezsensowne – ale przy odrobinie finezji nie zawsze da się dostrzec różnicę.

Podsumowanie: Skąd pochodzą informacje sztucznej inteligencji 📌

Mówiąc wprost:

Ogromne dane szkoleniowe (publiczne + licencjonowane + generowane przez trenera) [2].
Dokładne dostrojenie przy wykorzystaniu informacji zwrotnej od człowieka w celu ukształtowania tonu/zachowania [1].
Systemy wyszukiwania danych podłączone do strumieni danych na żywo [5].

Sztuczna inteligencja nie „wie” rzeczy – ona przewiduje tekst . To jej supermoc i jednocześnie pięta achillesowa. Wniosek? Zawsze sprawdzaj ważne informacje w zaufanym źródle [3].

Odniesienia

Ouyang, L. i in. (2022). Szkolenie modeli językowych w zakresie wykonywania instrukcji z wykorzystaniem informacji zwrotnej od człowieka (InstructGPT) . arXiv .
OpenAI (2023). Raport techniczny GPT-4 – połączenie danych licencjonowanych, publicznych i tworzonych przez ludzi; cel i ograniczenia przewidywania następnego tokena. arXiv .
NIST (2023). Ramy zarządzania ryzykiem AI (AI RMF 1.0) – pochodzenie, wiarygodność i kontrola ryzyka. PDF .
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). O zagrożeniach związanych ze stochastycznymi papugami: Czy modele językowe mogą być zbyt duże? PDF .
Lewis, P. i in. (2020). Generowanie wspomagane wyszukiwaniem dla przetwarzania języka naturalnego intensywnie wykorzystującego wiedzę . arXiv .

Znajdź najnowszą sztuczną inteligencję w oficjalnym sklepie z asystentami AI

O nas

Powrót do bloga

Kraj/region