Jeśli kiedykolwiek wypuściłeś model, który olśniewał w zeszycie, ale potykał się w produkcji, znasz już sekret: mierzenie wydajności AI nie polega na jednej magicznej metryce. To system kontroli powiązany z rzeczywistymi celami. Dokładność jest urocza. Niezawodność, bezpieczeństwo i wpływ na biznes są ważniejsze.
Artykuły, które mogą Ci się spodobać po przeczytaniu tego:
🔗 Jak rozmawiać ze sztuczną inteligencją
Przewodnik po skutecznej komunikacji ze sztuczną inteligencją w celu uzyskiwania coraz lepszych wyników.
🔗 Co podpowiada sztuczna inteligencja
Wyjaśnia, w jaki sposób monity kształtują odpowiedzi sztucznej inteligencji i jakość wyników.
🔗 Czym jest etykietowanie danych AI
Omówienie przypisywania prawidłowych etykiet danym w modelach szkoleniowych.
🔗 Czym jest etyka sztucznej inteligencji
Wprowadzenie do zasad etycznych stanowiących podstawę odpowiedzialnego rozwoju i wdrażania sztucznej inteligencji.
Co sprawia, że sztuczna inteligencja działa dobrze? ✅
W skrócie: dobra wydajność sztucznej inteligencji oznacza, że Twój system jest użyteczny, godny zaufania i powtarzalny w niespokojnych, zmiennych warunkach. Konkretnie:
-
Jakość zadania – otrzymuje właściwe odpowiedzi z właściwych powodów.
-
Kalibracja — wyniki dotyczące pewności siebie pokrywają się z rzeczywistością, dzięki czemu możesz podjąć mądre działania.
-
Wytrzymałość - wytrzymuje dryft, przypadki skrajne i rozmycie adwersarskie.
-
Bezpieczeństwo i uczciwość – unikanie zachowań szkodliwych, stronniczych i niezgodnych z zasadami.
-
Wydajność – jest wystarczająco szybkie, tanie i stabilne, aby działać na dużą skalę.
-
Wpływ na biznes – faktycznie wpływa na kluczowe wskaźniki efektywności (KPI), na których Ci zależy.
Jeśli potrzebujesz formalnego punktu odniesienia do dopasowania metryk i ryzyka, NIST AI Risk Management Framework stanowi solidny punkt odniesienia dla wiarygodnej oceny systemu. [1]

Przepis na wysoki poziom pomiaru wydajności sztucznej inteligencji 🍳
Myśl w trzech warstwach :
-
Metryki zadań – poprawność dla danego typu zadania: klasyfikacja, regresja, ranking, generowanie, kontrola itp.
-
Metryki systemu — opóźnienia, przepustowość, koszt połączenia, wskaźniki awaryjności, alarmy o dryfach, umowy SLA dotyczące czasu sprawności.
-
Metryki wyników – faktycznie oczekiwane wyniki biznesowe i dla użytkowników: konwersja, retencja, incydenty związane z bezpieczeństwem, obciążenie przeglądami ręcznymi, liczba zgłoszeń.
Dobry plan pomiarów celowo łączy wszystkie trzy. W przeciwnym razie otrzymasz rakietę, która nigdy nie opuści wyrzutni.
Podstawowe wskaźniki według typu problemu – i kiedy używać którego 🎯
1) Klasyfikacja
-
Precyzja, odwołanie, F1 – trio pierwszego dnia. F1 to średnia harmoniczna precyzji i odwołania; przydatna, gdy klasy są niezrównoważone lub koszty są asymetryczne. [2]
-
ROC-AUC – niezależny od progu ranking klasyfikatorów; gdy wyniki pozytywne występują rzadko, należy również sprawdzić PR-AUC . [2]
-
Zrównoważona dokładność – średnia wartość odtworzeń w różnych klasach; przydatna w przypadku przekłamanych etykiet. [2]
Uwaga na pułapkę: sama dokładność może być bardzo myląca, jeśli brakuje równowagi. Jeśli 99% użytkowników jest wiarygodnych, głupi, zawsze wiarygodny model osiąga 99% i zawodzi zespół ds. oszustw jeszcze przed lunchem.
2) Regresja
-
MAE dla błędów czytelnych dla człowieka; RMSE, gdy chcesz ukarać duże błędy; R² dla wariancji wyjaśnione. Następnie rozkłady sprawdzające poprawność i wykresy reszt. [2]
(Używaj jednostek przyjaznych dla domeny, aby interesariusze mogli faktycznie odczuć błąd.)
3) Ranking, wyszukiwanie, rekomendacje
-
nDCG - dba o pozycję i stopniowaną trafność; standard jakości wyszukiwania.
-
MRR – koncentruje się na tym, jak szybko pojawia się pierwszy odpowiedni element (świetne w przypadku zadań typu „znajdź jedną dobrą odpowiedź”).
(Odniesienia do implementacji i przykłady rozwiązań znajdują się w głównych bibliotekach metryk.) [2]
4) Generowanie tekstu i podsumowanie
-
BLEU i ROUGE - klasyczne wskaźniki nakładania się, przydatne jako punkty odniesienia.
-
Metryki oparte na osadzaniu (np. BERTScore ) często lepiej korelują z osądem ludzkim i zawsze należy je łączyć z ocenami ludzkimi dotyczącymi stylu, wierności i bezpieczeństwa. [4]
5) Odpowiadanie na pytania
-
Dokładne dopasowanie i F1 na poziomie tokenu są powszechnie stosowane w ekstrakcyjnym zapewnianiu jakości; jeśli odpowiedzi muszą cytować źródła, należy także mierzyć uziemienie (sprawdzanie zgodności odpowiedzi).
Kalibracja, pewność i soczewka Brier 🎚️
Wskaźniki ufności to miejsce, w którym wiele systemów jest ukrytych. Potrzebujesz prawdopodobieństw, które odzwierciedlają rzeczywistość, aby operatorzy mogli ustalać progi, kierować zapytania do ludzi lub wyceniać ryzyko.
-
Krzywe kalibracyjne – wizualizacja przewidywanego prawdopodobieństwa w funkcji częstotliwości empirycznej.
-
Wynik Briera – właściwa reguła punktacji dla dokładności probabilistycznej; im niższy, tym lepiej. Jest szczególnie przydatny, gdy zależy Ci na jakości prawdopodobieństwa, a nie tylko na rankingu. [3]
Uwaga z pola widzenia: nieco „gorsza” F1, ale znacznie lepsza kalibracja może znacząco poprawić ocenę, ponieważ ludzie w końcu będą mogli zaufać wynikom.
Bezpieczeństwo, stronniczość i uczciwość – mierz to, co ważne 🛡️⚖️
System może być ogólnie dokładny, ale nadal szkodzić konkretnym grupom. Śledź zgrupowane wskaźniki i kryteria uczciwości:
-
Parytet demograficzny – jednakowe wskaźniki dodatnie we wszystkich grupach.
-
Równe szanse / Równe szanse – równe wskaźniki błędów lub wskaźniki prawdziwie pozytywnych wyników we wszystkich grupach; należy je stosować w celu wykrywania i zarządzania kompromisami, a nie jako jednorazowe stemple potwierdzające zaliczenie lub niezaliczenie. [5]
Praktyczna wskazówka: zacznij od pulpitów nawigacyjnych, które analizują podstawowe wskaźniki według kluczowych atrybutów, a następnie dodaj konkretne wskaźniki uczciwości, zgodnie z wymaganiami Twoich zasad. Brzmi to skomplikowanie, ale jest tańsze niż incydent.
LLM i RAG – podręcznik pomiaru, który naprawdę działa 📚🔍
Pomiar systemów generatywnych jest… kręty. Zrób to:
-
Określ wyniki dla każdego przypadku użycia: poprawność, przydatność, nieszkodliwość, zgodność ze stylem, ton zgodny z marką, uzasadnianie cytowania, jakość odmowy.
-
Zautomatyzuj oceny bazowe za pomocą solidnych struktur (np. narzędzi do oceny w swoim stosie) i zarządzaj ich wersjami zgodnie ze swoimi zestawami danych.
-
Dodaj metryki semantyczne (oparte na osadzaniu) i metryki nakładania się (BLEU/ROUGE) dla zachowania poprawności. [4]
-
Uziemienie instrumentów w RAG: wskaźnik trafień w wyszukiwaniu, precyzja/przypomnienie kontekstu, nakładanie się odpowiedzi i wsparcia.
-
Recenzja ludzka z uwzględnieniem uzgodnień - zmierz spójność oceniających (np. κ Cohena lub κ Fleissa), aby Twoje etykiety nie były wibracjami.
Bonus: loguj percentyle opóźnień i koszt tokena lub obliczeń na zadanie. Nikt nie lubi poetyckich odpowiedzi, które pojawiają się w przyszły wtorek.
Tabela porównawcza – narzędzia, które pomogą Ci zmierzyć wydajność sztucznej inteligencji 🛠️📊
(Tak, jest to celowo trochę nieuporządkowane – prawdziwe notatki są nieuporządkowane.)
| Narzędzie | Najlepsza publiczność | Cena | Dlaczego to działa – krótka analiza |
|---|---|---|---|
| metryki scikit-learn | Praktycy ML | Bezpłatny | Kanoniczne implementacje klasyfikacji, regresji i rankingów; łatwe do wbudowania w testy. [2] |
| MLflow Evaluate / GenAI | Naukowcy zajmujący się danymi, MLOps | Bezpłatne + płatne | Centralne przebiegi, zautomatyzowane pomiary, sędziowie LLM, niestandardowe systemy punktacji; czyste rejestrowanie artefaktów. |
| Widocznie | Zespoły potrzebujące szybkich pulpitów nawigacyjnych | OSS + chmura | Ponad 100 wskaźników, raportów o dryfach i jakości, narzędzi do monitorowania — przyjemne wizualizacje w razie potrzeby. |
| Wagi i odchylenia | Organizacje nastawione na eksperymenty | Bezpłatny poziom | Porównania równoległe, zestawy danych ewaluacyjnych, sędziowie, tabele i ślady są w miarę uporządkowane. |
| LangSmith | Twórcy aplikacji LLM | Płatny | Śledź każdy krok, połącz ocenę ludzką z oceną reguł lub oceną LLM; świetne rozwiązanie dla RAG. |
| TruLens | Miłośnicy ewaluacji LLM typu open source | OSS | Funkcje sprzężenia zwrotnego pozwalają ocenić toksyczność, ugruntowanie, trafność; można je integrować w dowolnym miejscu. |
| Wielkie nadzieje | Organizacje stawiające na jakość danych | OSS | Sformalizuj oczekiwania dotyczące danych, bo złe dane i tak psują wszelkie wskaźniki. |
| Głębokie kontrole | Testowanie i CI/CD dla ML | OSS + chmura | Baterie zawierają testy mające na celu wykrycie dryftu danych, problemów z modelem i monitorowania; dobre zabezpieczenia. |
Ceny się zmieniają – sprawdź dokumenty. I tak, możesz je mieszać bez interwencji policji.
Progi, koszty i krzywe decyzyjne – sekretny przepis 🧪
Dziwna, ale prawdziwa rzecz: dwa modele o tym samym ROC-AUC mogą mieć zupełnie różną wartość biznesową w zależności od progu i współczynników kosztów .
Szybki arkusz do zbudowania:
-
Ustaw koszt wyniku fałszywie dodatniego lub fałszywie ujemnego w pieniądzach lub czasie.
-
Oblicz progi i spodziewany koszt na 1000 decyzji.
-
Wybierz minimalny próg oczekiwanych kosztów , a następnie zablokuj go za pomocą monitorowania.
Użyj krzywych PR, gdy wyniki dodatnie są rzadkie, krzywych ROC, gdy chodzi o ogólny kształt, a krzywych kalibracyjnych, gdy decyzje opierają się na prawdopodobieństwie. [2][3]
Mini-przypadek: model triażu zgłoszeń pomocy technicznej z umiarkowanym F1, ale doskonałą kalibracją wyeliminował ręczne przekierowywania po tym, jak operatorzy przeszli z sztywnego progu na routing wielopoziomowy (np. „rozwiązywanie automatyczne”, „przegląd przez człowieka”, „eskalacja”) powiązany ze skalibrowanymi pasmami wyników.
Monitorowanie online, dryfowanie i alarmowanie 🚨
Ewaluacje offline to początek, a nie koniec. W środowisku produkcyjnym:
-
Śledzenie dryftu wejściowego , dryftu wyjściowego i spadku wydajności według segmentu.
-
Ustaw kontrole barier ochronnych - maksymalny współczynnik halucynacji, progi toksyczności, delty uczciwości.
-
Dodaj panele Canary dla opóźnień p95, przekroczeń limitu czasu i kosztu żądania.
-
Aby przyspieszyć ten proces, użyj specjalnie zaprojektowanych bibliotek. Oferują one gotowe funkcje kontroli dryfu, jakości i monitorowania.
Niewielka, błędna metafora: pomyśl o swoim modelu jak o zaczynie na zakwas – nie pieczesz go tylko raz i nie odchodzisz; karmisz, obserwujesz, wąchasz, a czasem zaczynasz od nowa.
Ocena człowieka, która się nie rozpada 🍪
Kiedy ludzie oceniają wyniki, proces ma większe znaczenie, niż myślisz.
-
Napisz ścisłe kryteria z przykładami zaliczenia, oceny granicznej i oceny niedostatecznej.
-
Jeśli to możliwe, stosuj próby losowe i ślepe.
-
Zmierz zgodność między oceniającymi (np. κ Cohena dla dwóch oceniających, κ Fleissa dla wielu oceniających) i odśwież rubryki, jeśli zgodność się pogorszy.
Dzięki temu Twoje etykiety dotyczące ludzi nie będą zależne od nastroju lub ilości kawy.
Głębokie zanurzenie: jak mierzyć wydajność sztucznej inteligencji dla LLM w RAG 🧩
-
Jakość wyszukiwania – recall@k, precision@k, nDCG; zakres faktów dotyczących złota. [2]
-
Wierność odpowiedziom - kontrole cytowania i weryfikacji, oceny zasadności, badania antagonistyczne.
-
Satysfakcja użytkownika - kciuki, ukończenie zadań, odległość edycji od sugerowanych wersji roboczych.
-
Bezpieczeństwo – toksyczność, wyciek informacji osobowych, zgodność z polityką.
-
Koszt i opóźnienie – tokeny, trafienia do pamięci podręcznej, opóźnienia p95 i p99.
Powiąż je z działaniami biznesowymi: jeśli stopień ugruntowania spadnie poniżej linii, automatycznie przekieruj do trybu ścisłego lub przeglądu przez człowieka.
Prosty podręcznik, dzięki któremu możesz zacząć już dziś 🪄
-
Zdefiniuj zadanie – napisz jedno zdanie: co sztuczna inteligencja musi zrobić i dla kogo.
-
Wybierz 2–3 metryki zadań – plus kalibrację i co najmniej jeden wycinek uczciwości. [2][3][5]
-
Określ progi na podstawie kosztów , nie zgaduj.
-
Utwórz niewielki zestaw ewaluacyjny — 100–500 oznaczonych przykładów odzwierciedlających strukturę produkcji.
-
Zautomatyzuj ocenę — podłącz ocenę/monitorowanie do CI, aby każda zmiana podlegała tym samym kontrolom.
-
Monitorowanie w produkcie - dryft, opóźnienie, koszt, flagi incydentów.
-
Przeglądaj dane mniej więcej raz w miesiącu — usuwaj dane, z których nikt nie korzysta, a dodaj takie, które odpowiadają na prawdziwe pytania.
-
Dokumentuj decyzje – twórz żywą kartę wyników, którą Twój zespół faktycznie czyta.
Tak, dosłownie o to chodzi. I działa.
Typowe pułapki i jak ich uniknąć 🕳️🐇
-
Nadmierne dopasowanie do pojedynczej metryki – użycie koszyka metryk odpowiadającego kontekstowi decyzji. [1][2]
-
Ignorując kalibrację – pewność siebie bez kalibracji to tylko bufonada. [3]
-
Brak segmentacji – zawsze stosuje się podział według grup użytkowników, lokalizacji geograficznej, urządzenia i języka. [5]
-
Niezdefiniowane koszty – jeśli nie wycenisz błędów, wybierzesz zły próg.
-
Dryf ewaluacyjny człowieka – zmierz zgodność, odśwież rubryki, przeszkol ponownie recenzentów.
-
Brak instrumentów bezpieczeństwa – wprowadź teraz zasady uczciwości, toksyczności i kontroli polityki, a nie później. [1][5]
Fraza, po którą tu przyszedłeś: jak mierzyć wydajność sztucznej inteligencji – za długa, nie przeczytałem 🧾
-
Zacznij od jasnych rezultatów , a następnie ułóż w stosy zadania , system i metryki biznesowe
-
Użyj właściwych metryk do danego zadania – F1 i ROC-AUC do klasyfikacji; nDCG/MRR do rankingu; nakładania się + metryki semantyczne do generacji (w połączeniu z ludźmi). [2][4]
-
Skalibruj swoje prawdopodobieństwa i wyceń swoje błędy , aby wybrać progi. [2][3]
-
Dodaj uczciwości za pomocą wycinków grup i zarządzaj kompromisami w sposób jawny. [5]
-
Zautomatyzuj oceny i monitorowanie , aby móc wprowadzać zmiany bez obaw.
Wiesz, jak to jest - mierz to, co ważne, bo inaczej ulepszysz to, co nie jest ważne.
Odniesienia
[1] NIST. AI Risk Management Framework (AI RMF). czytaj więcej
[2] scikit-learn. Ocena modelu: kwantyfikacja jakości przewidywań (Podręcznik użytkownika). czytaj więcej
[3] scikit-learn. Kalibracja prawdopodobieństwa (krzywe kalibracji, wynik Briera). czytaj więcej
[4] Papineni i in. (2002). BLEU: metoda automatycznej oceny tłumaczenia maszynowego. ACL. czytaj więcej
[5] Hardt, Price, Srebro (2016). Równość szans w uczeniu nadzorowanym. NeurIPS. czytaj więcej