Jak działa skalowanie sztucznej inteligencji

Jak działa AI Upscaling?

Krótka odpowiedź: upscaling w sztucznej inteligencji polega na trenowaniu modelu na sparowanych obrazach o niskiej i wysokiej rozdzielczości, a następnie wykorzystaniu go do przewidywania wiarygodnych dodatkowych pikseli podczas upscalingu. Jeśli model widział podobne tekstury lub twarze podczas treningu, może dodać przekonujące szczegóły; jeśli nie, może „wywoływać” artefakty, takie jak aureole, woskowata skóra lub migotanie na wideo.

Najważniejsze wnioski:

Prognoza : Model generuje wiarygodne szczegóły, ale nie gwarantuje rekonstrukcji rzeczywistości.

Wybór modelu : Sieci CNN są z reguły bardziej stabilne; sieci GAN mogą wydawać się bardziej wyraziste, ale istnieje ryzyko wymyślania nowych funkcji.

Sprawdzanie artefaktów : Uważaj na aureole, powtarzające się tekstury, „prawie litery” i plastikowe powierzchnie.

Stabilność obrazu : Użyj metod czasowych, w przeciwnym razie zobaczysz migotanie i dryfowanie obrazu klatka po klatce.

Użycie w sytuacjach wysokiego ryzyka : jeśli dokładność ma znaczenie, ujawnij przetwarzanie i traktuj wyniki jako poglądowe.

Jak działa skalowanie sztucznej inteligencji? Infografika.

Pewnie to widziałeś: malutki, chrupiący obrazek zmienia się w coś na tyle ostrego, że można go wydrukować, przesłać strumieniowo lub wrzucić do prezentacji bez mrugnięcia okiem. To jak oszukiwanie. I – w najlepszym tego słowa znaczeniu – trochę nim jest 😅

Tak więc, jak działa skalowanie AI, sprowadza się do czegoś bardziej szczegółowego niż „komputer uwydatnia szczegóły” (niejasne), a bliższego „model przewiduje prawdopodobną strukturę o wysokiej rozdzielczości na podstawie wzorców, które wyuczył się z wielu przykładów” ( Deep Learning for Image Super-resolution: A Survey ). Ten etap przewidywania to cała gra – i to właśnie dlatego skalowanie AI może wyglądać oszałamiająco… albo trochę plastikowo… albo jakby kotu wyrosły dodatkowe wąsy.

Artykuły, które mogą Ci się spodobać po przeczytaniu tego:

🔗 Jak działa sztuczna inteligencja
Poznaj podstawy modeli, danych i wnioskowania w sztucznej inteligencji.

🔗 Jak uczy się sztuczna inteligencja
Zobacz, jak dane szkoleniowe i informacje zwrotne poprawiają wydajność modelu w czasie.

🔗 Jak sztuczna inteligencja wykrywa anomalie
Poznaj wzorce zachowań i dowiedz się, w jaki sposób sztuczna inteligencja szybko sygnalizuje nietypowe zachowania.

🔗 Jak sztuczna inteligencja przewiduje trendy
Poznaj metody prognozowania, które pozwalają wykrywać sygnały i przewidywać przyszły popyt.


Jak działa skalowanie sztucznej inteligencji: główna idea, w codziennym języku 🧩

Skalowanie w górę oznacza zwiększanie rozdzielczości: więcej pikseli, większy obraz. Tradycyjne skalowanie w górę (jak interpolacja bisześcienna) zasadniczo rozciąga piksele i wygładza przejścia ( interpolacja bisześcienna ). Jest w porządku, ale nie potrafi tworzyć nowych szczegółów – po prostu interpoluje.

Skalowanie AI próbuje czegoś odważniejszego (znanego w świecie badań jako „superrozdzielczość”) ( Głębokie uczenie się dla superrozdzielczości obrazu: przegląd ):

  • Sprawdza dane wejściowe o niskiej rozdzielczości

  • Rozpoznaje wzory (krawędzie, faktury, rysy twarzy, kreski tekstu, sploty tkanin…)

  • powinna wyglądać wersja o wyższej rozdzielczości

  • Generuje dodatkowe dane pikselowe, które pasują do tych wzorców

Nie „idealnie odtworzyć rzeczywistość”, a raczej „zrobić wysoce wiarygodne przypuszczenie” ( obraz superrozdzielczości z wykorzystaniem głębokich sieci splotowych (SRCNN) ). Jeśli brzmi to nieco podejrzanie, nie mylisz się – ale właśnie dlatego to działa tak dobrze 😄

I owszem, oznacza to, że skalowanie za pomocą sztucznej inteligencji jest w zasadzie kontrolowaną halucynacją… ale odbywa się w produktywny sposób, z poszanowaniem pikseli.


Co sprawia, że ​​skalowanie sztucznej inteligencji jest dobre? ✅🛠️

Jeśli oceniasz upscaler sztucznej inteligencji (lub predefiniowane ustawienia), oto co ma największe znaczenie:

  • Odzyskiwanie szczegółów bez przesady
    Dobre skalowanie dodaje wyrazistości i struktury, a nie chrupkości czy sztucznych porów.

  • Dyscyplina krawędzi.
    Czyste linie pozostają czyste. Złe modele powodują, że krawędzie drżą lub tworzą aureole.

  • Realizm tekstury.
    Włosy nie powinny być efektem pociągnięcia pędzlem. Cegła nie powinna być powtarzającym się wzorem.

  • Szum i kompresja.
    Wiele codziennych obrazów jest mocno zniekształconych w formacie JPEG. Dobry upscaler nie wzmacnia tych uszkodzeń ( Real-ESRGAN ).

  • Świadomość twarzy i tekstu.
    Twarze i tekst to miejsca, w których najłatwiej wykryć błędy. Dobre modele traktują je delikatnie (lub mają wyspecjalizowane tryby).

  • Spójność między klatkami (w przypadku wideo).
    Jeśli szczegóły migają klatka po klatce, oczy będą krzyczeć. Skalowanie wideo opiera się na stabilności czasowej ( BasicVSR (CVPR 2021) ).

  • Sensowne sterowanie
    Potrzebujesz suwaków, które odpowiadają rzeczywistym wynikom: odszumianiu, usuwaniu rozmycia, usuwaniu artefaktów, zachowywaniu ziarna, wyostrzaniu... praktycznym rozwiązaniom.

Cicha zasada, która się sprawdza: „najlepsze” skalowanie to często to, którego prawie nie zauważasz. Wygląda po prostu tak, jakbyś od początku miał lepszy aparat 📷✨


Tabela porównawcza: popularne opcje skalowania sztucznej inteligencji (i do czego się nadają) 📊🙂

Poniżej znajduje się praktyczne porównanie. Ceny są celowo niejasne, ponieważ narzędzia różnią się w zależności od licencji, pakietów, kosztów obliczeniowych i innych tego typu ciekawostek.

Narzędzie / Podejście Najlepszy dla Atmosfera cenowa Dlaczego to działa (w przybliżeniu)
Urządzenia do zwiększania rozdzielczości pulpitu w stylu Topaz ( Topaz Photo , Topaz Video ) Zdjęcia, wideo, łatwy przepływ pracy Płatne Mocne, ogólne modele + dużo dostrajania, zazwyczaj „po prostu działają”…
Funkcje typu „Super Resolution” firmy Adobe ( Adobe Enhance > Super Resolution ) Fotografowie już są w tym ekosystemie Subskrypcja-y Solidna, szczegółowa rekonstrukcja, zazwyczaj konserwatywna (mniej dramatyczna)
Real-ESRGAN / warianty ESRGAN ( Real-ESRGAN , ESRGAN ) Zrób to sam, programiści, prace wsadowe Bezpłatne (ale czasochłonne) Świetnie podkreśla szczegóły tekstury, ale może być pikantny na twarzy, jeśli nie będziesz ostrożny
Tryby skalowania oparte na dyfuzji ( SR3 ) Praca twórcza, stylizowane rezultaty Mieszany Potrafi tworzyć wspaniałe detale, ale potrafi też wymyślać bzdury, więc… tak
Upscalery gier (w stylu DLSS/FSR) ( NVIDIA DLSS , AMD FSR 2 ) Gry i renderowanie w czasie rzeczywistym W pakiecie Wykorzystuje dane o ruchu i zdobyte wcześniejsze doświadczenia - płynna wydajność 🕹️
Usługi skalowania w chmurze Wygoda, szybkie wygrane Płatność za użytkowanie Szybko i skalowalnie, ale tracisz kontrolę i czasami subtelność
Upscalery AI skoncentrowane na wideo ( BasicVSR , Topaz Video ) Stare materiały filmowe, anime, archiwa Płatne Sztuczki czasowe redukujące migotanie + specjalistyczne modele wideo
„Inteligentny” telefon/upscaling galerii Do użytku okazjonalnego Dołączony Lekkie modele dostrojone do przyjemnej wydajności, a nie perfekcji (nadal przydatne)

Wyznanie dotyczące dziwactw formatowania: „Paid-ish” robi w tej tabeli mnóstwo roboty. Ale rozumiesz, o co chodzi 😅


Wielki sekret: modele uczą się mapowania od niskiej rozdzielczości do wysokiej rozdzielczości 🧠➡️🖼️

Podstawą większości operacji skalowania sztucznej inteligencji jest nadzorowana konfiguracja uczenia ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ):

  1. Zacznij od obrazów o wysokiej rozdzielczości („prawdy”)

  2. Przeskaluj je do wersji o niskiej rozdzielczości („wejściowych”)

  3. Wytrenuj model, aby odtworzyć oryginał w wysokiej rozdzielczości z obrazu o niskiej rozdzielczości

Z czasem model uczy się korelacji takich jak:

  • „Tego rodzaju rozmycie wokół oka zwykle jest spowodowane przez rzęsy”

  • „Ten klaster pikseli często wskazuje na tekst szeryfowy”

  • „Ten gradient krawędzi wygląda jak linia dachu, a nie jak przypadkowy szum”

To nie jest zapamiętywanie konkretnych obrazów (w prostym sensie), to nauka struktury statystycznej ( Deep Learning for Image Super-resolution: A Survey ). Pomyśl o tym jak o nauce gramatyki tekstur i krawędzi. Nie gramatyki poetyckiej, raczej jak… gramatyka podręcznika IKEA 🪑📦 (niezgrabna metafora, ale wystarczająco bliska).


Podstawy: co dzieje się podczas wnioskowania (podczas skalowania) ⚙️✨

Gdy przesyłasz obraz do urządzenia skalującego AI, zazwyczaj istnieje taki proces:

  • Wstępne przetwarzanie

  • Ekstrakcja cech

    • Wczesne warstwy wykrywają krawędzie, rogi i gradienty

    • Głębsze warstwy wykrywają wzorce: tekstury, kształty, składniki twarzy

  • Rekonstrukcja

    • Model generuje mapę cech o wyższej rozdzielczości

    • Następnie konwertuje to na rzeczywisty wynik pikseli

  • Postprodukcja

    • Opcjonalne ostrzenie

    • Opcjonalne odszumianie

    • Opcjonalne tłumienie artefaktów (dzwonienie, aureole, blokowanie)

Jeden subtelny szczegół: wiele narzędzi skaluje kafelki, a następnie łączy łączenia. Świetne narzędzia ukrywają granice kafelków. Słabe narzędzia pozostawiają delikatne ślady siatki, jeśli mrużysz oczy. I tak, mrużysz oczy, bo ludzie uwielbiają badać drobne niedoskonałości przy powiększeniu 300% jak małe gremliny 🧌


Główne rodziny modeli używane do skalowania sztucznej inteligencji (i dlaczego wydają się inne) 🤖📚

1) Superrozdzielczość oparta na CNN (klasyczny koń roboczy)

Sieci neuronowe splotowe świetnie sprawdzają się w przypadku lokalnych wzorców: krawędzi, tekstur i małych struktur ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ).

  • Zalety: dość szybki, stabilny, mniej niespodzianek

  • Wady: może wyglądać trochę „przetworzonie”, jeśli się go mocno naciśnie

2) Skalowanie w oparciu o GAN (w stylu ESRGAN) 🎭

Sieci GAN (Generative Adversarial Networks) uczą generator, jak wytwarzać obrazy o wysokiej rozdzielczości, których dyskryminator nie jest w stanie odróżnić od obrazów rzeczywistych ( Generative Adversarial Networks ).

  • Zalety: wyraziste detale, imponująca faktura

  • Wady: może wymyślać szczegóły, których tam nie było – czasami błędne, czasami niesamowite ( SRGAN , ESRGAN )

GAN może zapewnić Ci zapierającą dech w piersiach ostrość. Może też dodać Twojemu portretowanemu dodatkowej brwi. Więc… wybieraj swoje bitwy 😬

3) Skalowanie oparte na dyfuzji (kreatywna karta przetargowa) 🌫️➡️🖼️

Modele dyfuzyjne odszumiają dane krok po kroku i mogą być wykorzystywane do generowania szczegółów o wysokiej rozdzielczości ( SR3 ).

  • Zalety: może być niesamowicie dobry w tworzeniu wiarygodnych szczegółów, szczególnie w pracach kreatywnych

  • Wady: może dojść do odejścia od oryginalnej tożsamości/struktury, jeśli ustawienia są agresywne ( SR3 )

To właśnie tutaj „upscaling” zaczyna mieszać się z „reinterpretacją”. Czasami jest to dokładnie to, czego chcesz. Czasami nie.

4) Skalowanie wideo z zachowaniem spójności czasowej 🎞️

Skalowanie wideo często dodaje logikę uwzględniającą ruch:

  • Wykorzystuje sąsiadujące klatki do stabilizacji szczegółów ( BasicVSR (CVPR 2021) )

  • Próbuje unikać migotania i pełzających artefaktów

  • Często łączy superrozdzielczość z odszumianiem i usuwaniem przeplotu ( Topaz Video )

Jeśli skalowanie obrazu jest jak renowacja obrazu, to skalowanie wideo jest jak renowacja książki z ruchomymi obrazami bez zmiany kształtu nosa postaci na każdej stronie. Co jest… trudniejsze, niż się wydaje.


Dlaczego upscaling AI czasami wygląda na fałszywy (i jak to rozpoznać) 👀🚩

Skalowanie AI zawodzi w oczywisty sposób. Gdy poznasz te wzorce, zobaczysz je wszędzie, jakbyś kupował nowy samochód i nagle zauważył ten model na każdej ulicy 😵💫

Typowe sygnały:

  • Woskowanie skóry twarzy (zbyt dużo szumów + wygładzanie)

  • Zbyt wyostrzone aureole wokół krawędzi (klasyczne terytorium „przekroczenia”) ( interpolacja bikubiczna )

  • Powtarzające się tekstury (ściany z cegieł stają się wzorami kopiuj-wklej)

  • Chrupiący mikrokontrast , który krzyczy „algorytm”

  • Zniekształcanie tekstu , w którym litery stają się prawie-literami (najgorszy rodzaj)

  • Dryf szczegółów , w którym drobne cechy ulegają subtelnym zmianom, szczególnie w przypadku przepływów pracy dyfuzyjnych ( SR3 )

Problem w tym, że czasami te artefakty wydają się „lepsze” na pierwszy rzut oka. Mózg lubi ostrość. Ale po chwili wydaje się… dziwna.

Dobrą taktyką jest oddalenie i sprawdzenie, czy wygląda naturalnie z normalnej odległości oglądania. Jeśli wygląda dobrze tylko przy powiększeniu 400%, to nie jest sukces, to hobby 😅


Jak działa skalowanie sztucznej inteligencji: strona szkoleniowa, bez matematycznego bólu głowy 📉🙂

Szkolenie modeli o superrozdzielczości zwykle obejmuje:

Typowe rodzaje strat:

  • Utrata pikseli (L1/L2)
    Zwiększa dokładność. Może dawać lekko rozmyte rezultaty.

  • Utrata percepcji
    Porównuje głębsze cechy (np. „czy to wygląda podobnie”), a nie dokładne piksele ( Utrata percepcji (Johnson i in., 2016) ).

  • Straty przeciwnika (GAN)
    Zachęcają do realizmu, czasami kosztem dosłownej dokładności ( SRGAN , Generative Adversarial Networks ).

Trwa nieustanna walka:

  • Uczyń
    go wiernym oryginałowi

  • Uczyń to wizualnie przyjemnym

Różne narzędzia znajdują się w różnych miejscach tego spektrum. I możesz preferować jedno w zależności od tego, czy odnawiasz zdjęcia rodzinne, czy przygotowujesz plakat, gdzie „ładny wygląd” liczy się bardziej niż precyzja kryminalistyczna.


Praktyczne przepływy pracy: zdjęcia, stare skany, anime i wideo 📸🧾🎥

Zdjęcia (portrety, krajobrazy, zdjęcia produktów)

Najlepszą praktyką jest zazwyczaj:

  • Najpierw wykonaj delikatne odszumianie (jeśli to konieczne)

  • Ekskluzywny, z konserwatywnymi ustawieniami

  • Jeśli ciasto wydaje się zbyt gładkie, dodaj ziarno (tak, naprawdę)

Ziarno jest jak sól. Zbyt dużo psuje obiad, ale żadne nie jest trochę mdłe 🍟

Stare skany i mocno skompresowane obrazy

Są one trudniejsze, ponieważ model może traktować bloki kompresji jako „teksturę”.
Spróbuj:

  • Usuwanie lub odblokowywanie artefaktów

  • Następnie ekskluzywny

  • Następnie lekkie wyostrzenie (nie za dużo… wiem, każdy tak mówi, ale mimo wszystko)

Anime i grafika liniowa

Zalety grafiki liniowej:

  • Modele zachowujące czyste krawędzie

  • Zmniejszona halucynacja tekstur.
    Skalowanie anime często wygląda świetnie, ponieważ kształty są prostsze i spójne. (Szczęściarz.)

Wideo

Film zawiera dodatkowe kroki:

  • Denoise

  • Deinterlace (dla niektórych źródeł)

  • Ekskluzywny

  • Wygładzanie lub stabilizacja czasowa ( BasicVSR (CVPR 2021) )

  • Opcjonalne ponowne wprowadzenie ziarna w celu zapewnienia spójności

Jeśli pominiesz spójność czasową, otrzymasz migoczące migotanie detali. Kiedy je zauważysz, nie możesz tego odzobaczyć. Jak skrzypiące krzesło w cichym pokoju 😖


Wybieranie ustawień bez zgadywania (mała ściągawka) 🎛️😵💫

Oto dobry sposób myślenia na początek:

  • Jeśli twarze wyglądają sztucznie
    , zmniejsz poziom szumów, wyostrzenie, wypróbuj model lub tryb zachowujący twarz.

  • Jeśli tekstury wyglądają zbyt intensywnie,
    obniż ustawienia suwaków „wzmocnienia szczegółów” lub „odzyskania szczegółów”, a następnie dodaj delikatną ziarnistość.

  • Jeśli krawędzie świecą,
    zmniejsz wyostrzanie i sprawdź opcje usuwania efektu halo.

  • Jeśli obraz wygląda zbyt „sztucznie”,
    postaw na bardziej zachowawcze podejście. Czasami najlepszym rozwiązaniem jest po prostu… mniej.

A tak przy okazji: nie zwiększaj rozdzielczości do 8x tylko dlatego, że możesz. Czyste 2x lub 4x to często idealny punkt. Powyżej tego, prosisz modelkę o napisanie fanfika o twoich pikselach 📖😂


Etyka, autentyczność i niezręczna kwestia „prawdy” 🧭😬

Skalowanie sztucznej inteligencji zaciera pewne granice:

  • Restauracja oznacza odzyskanie tego, co było

  • Ulepszanie oznacza dodawanie tego, czego nie było

W przypadku zdjęć osobistych zazwyczaj wszystko jest w porządku (i piękne). W przypadku dziennikarstwa, dowodów prawnych, obrazowania medycznego czy czegokolwiek, gdzie liczy się wierność… należy zachować ostrożność ( OSAC/NIST: Standardowy przewodnik po zarządzaniu obrazami cyfrowymi w celach kryminalistycznych , Wytyczne SWGDE dotyczące analizy obrazów w celach kryminalistycznych ).

Prosta zasada:

  • Jeśli stawka jest wysoka, traktuj skalowanie sztucznej inteligencji jako przykład , a nie coś ostatecznego.

Ujawnianie informacji ma również znaczenie w kontekście zawodowym. Nie dlatego, że sztuczna inteligencja jest zła, ale dlatego, że odbiorcy zasługują na wiedzę, czy szczegóły zostały zrekonstruowane, czy zarejestrowane. To po prostu… szacunek.


Podsumowanie i krótkie podsumowanie 🧡✅

Skalowanie AI działa więc w następujący sposób: modele uczą się, jak szczegóły o wysokiej rozdzielczości zazwyczaj odpowiadają wzorcom o niskiej rozdzielczości, a następnie wiarygodnie przewidują dodatkowe piksele podczas skalowania ( Deep Learning for Image Super-resolution: A Survey ). W zależności od rodziny modeli (CNN, GAN, dyfuzja, wideo-czas), ta prognoza może być konserwatywna i wierna… lub śmiała, a czasem wręcz nieobliczalna 😅

Krótkie podsumowanie

Jeśli chcesz, powiedz mi, co chcesz przeskalować (twarze, stare zdjęcia, wideo, anime, skany tekstu), a ja zasugeruję strategię ustawień, która pozwoli uniknąć typowych pułapek związanych z „wyglądem AI” 🎯🙂


Często zadawane pytania

Skalowanie sztucznej inteligencji i jak to działa

Skalowanie w górę (często nazywane „superrozdzielczością”) zwiększa rozdzielczość obrazu poprzez przewidywanie brakujących szczegółów o wysokiej rozdzielczości na podstawie wzorców wyuczonych podczas treningu. Zamiast po prostu rozciągać piksele jak w interpolacji bisześciennej, model analizuje krawędzie, tekstury, twarze i obrysy przypominające tekst, a następnie generuje nowe dane pikselowe, które są spójne z wyuczonymi wzorcami. To mniej „przywracanie rzeczywistości”, a bardziej „tworzenie wiarygodnego przypuszczenia”, które brzmi naturalnie.

Skalowanie AI w porównaniu ze skalowaniem bikubicznym lub tradycyjnym

Tradycyjne metody skalowania w górę (takie jak bikubiczne) polegają głównie na interpolacji między istniejącymi pikselami, wygładzając przejścia bez tworzenia prawdziwie nowych szczegółów. Skalowanie w górę z wykorzystaniem sztucznej inteligencji (AI) ma na celu rekonstrukcję prawdopodobnej struktury poprzez rozpoznawanie sygnałów wizualnych i przewidywanie, jak będą wyglądać wersje tych sygnałów w wysokiej rozdzielczości. Dlatego wyniki uzyskane za pomocą AI mogą wydawać się znacznie ostrzejsze, a także dlatego mogą wprowadzać artefakty lub „wymyślać” szczegóły, których nie było w źródle.

Dlaczego twarze mogą wyglądać jak woskowe lub zbyt gładkie

Woskowe twarze zazwyczaj powstają w wyniku agresywnego usuwania szumów i wygładzania w połączeniu z wyostrzaniem, które usuwa naturalną teksturę skóry. Wiele narzędzi traktuje szum i delikatną teksturę w podobny sposób, więc „czyszczenie” obrazu może usunąć pory i subtelne detale. Powszechnym podejściem jest redukcja szumów i wyostrzania, użycie trybu zachowania twarzy, jeśli jest dostępny, a następnie ponowne wprowadzenie odrobiny ziarna, aby efekt był mniej plastikowy i bardziej fotograficzny.

Typowe artefakty skalowania AI, na które należy zwrócić uwagę

Typowe oznaki to aureole wokół krawędzi, powtarzające się wzory tekstur (jak cegły kopiowane i wklejane), wyrazisty mikrokontrast i tekst, który zmienia się w „prawie litery”. W procesach pracy opartych na dyfuzji można również zaobserwować dryf detali, gdzie drobne elementy ulegają subtelnym zmianom. W przypadku wideo migotanie i przesuwanie się detali w klatkach to poważne sygnały ostrzegawcze. Jeśli efekt wygląda dobrze tylko przy ekstremalnym powiększeniu, ustawienia są prawdopodobnie zbyt agresywne.

Jak skalatory GAN, CNN i dyfuzyjne różnią się pod względem wyników

Superrozdzielczość oparta na CNN jest zazwyczaj bardziej stabilna i przewidywalna, ale może sprawiać wrażenie „przetworzonej”, jeśli zostanie mocno przeciążona. Opcje oparte na GAN (w stylu ESRGAN) często zapewniają bardziej wyrazistą teksturę i postrzeganą ostrość, ale mogą powodować halucynacje z nieprawidłowymi szczegółami, szczególnie na twarzach. Skalowanie w górę oparte na dyfuzji może generować piękne, wiarygodne szczegóły, ale może odbiegać od oryginalnej struktury, jeśli ustawienia naprowadzania lub siły są zbyt wysokie.

Praktyczna strategia ustawień, która pozwoli uniknąć wrażenia „zbyt sztucznej inteligencji”

Zacznij konserwatywnie: zwiększ rozdzielczość 2x lub 4x, zanim sięgniesz po ekstremalne parametry. Jeśli twarze wyglądają sztucznie, zmniejsz poziom szumów i wyostrzania oraz wypróbuj tryb rozpoznawania twarzy. Jeśli tekstury stają się zbyt intensywne, zmniejsz poziom detali i rozważ dodanie subtelnego ziarna. Jeśli krawędzie świecą, zmniejsz poziom wyostrzania i sprawdź redukcję aureoli lub artefaktów. W wielu procesach produkcyjnych „mniej” wygrywa, ponieważ zachowuje wiarygodny realizm.

Obsługa starych skanów lub mocno skompresowanych obrazów JPEG przed skalowaniem

Skompresowane obrazy są problematyczne, ponieważ modele mogą traktować artefakty blokowe jako rzeczywiste tekstury i je wzmacniać. Typowy proces pracy polega na najpierw usunięciu artefaktów lub deblokowaniu, następnie zwiększeniu skali, a następnie delikatnym wyostrzeniu tylko w razie potrzeby. W przypadku skanów delikatne czyszczenie może pomóc modelowi skupić się na rzeczywistej strukturze, a nie na uszkodzeniach. Celem jest redukcja „fałszywych wskazówek dotyczących tekstury”, aby osoba dokonująca skalowania nie była zmuszona do podejmowania trafnych decyzji na podstawie zaszumionych danych wejściowych.

Dlaczego skalowanie wideo jest trudniejsze niż skalowanie zdjęć

Skalowanie wideo musi być spójne we wszystkich klatkach, a nie tylko dobre na jednym nieruchomym obrazie. Jeśli szczegóły migoczą klatka po klatce, efekt szybko staje się rozpraszający. Podejścia skoncentrowane na wideo wykorzystują informacje czasowe z sąsiednich klatek, aby ustabilizować rekonstrukcję i uniknąć migotliwych artefaktów. Wiele procesów obejmuje również odszumianie, usuwanie przeplotu dla niektórych źródeł oraz opcjonalne ponowne wprowadzenie ziarna, aby cała sekwencja wydawała się spójna, a nie sztucznie ostra.

Kiedy skalowanie sztucznej inteligencji nie jest odpowiednie lub jest ryzykowne

Skalowanie AI najlepiej traktować jako udoskonalenie, a nie dowód. W kontekstach wysokiego ryzyka, takich jak dziennikarstwo, dowodowość prawna, obrazowanie medyczne czy badania kryminalistyczne, generowanie „wiarygodnych” pikseli może wprowadzać w błąd, ponieważ może dodawać szczegóły, które nie zostały zarejestrowane. Bezpieczniejszym sposobem jest użycie tego w sposób ilustracyjny i ujawnienie, że proces AI zrekonstruował szczegóły. Jeśli wierność jest kluczowa, zachowaj oryginały i udokumentuj każdy etap i ustawienie przetwarzania.

Odniesienia

  1. arXivGłębokie uczenie się dla superrozdzielczości obrazu: przeglądarxiv.org

  2. arXivSuperrozdzielczość obrazu z wykorzystaniem głębokich sieci splotowych (SRCNN)arxiv.org

  3. arXiv - Real-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. NVIDIA Developer - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com

  8. Fundacja Computer Vision Foundation (CVF) Open AccessBasicVSR: Poszukiwanie kluczowych komponentów w superrozdzielczości wideo (CVPR 2021)openaccess.thecvf.com

  9. arXiv - Generatywne sieci adwersarskie - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - Straty percepcyjne (Johnson i in., 2016) - arxiv.org

  12. GitHub - repozytorium Real-ESRGAN (opcje kafelków) - github.com

  13. WikipediaInterpolacja bikubicznawikipedia.org

  14. Topaz Labs - Zdjęcie Topaz - topazlabs.com

  15. Topaz Labs - Topaz Video - topazlabs.com

  16. Centrum pomocy AdobeAdobe Enhance > Super rozdzielczośćhelpx.adobe.com

  17. NIST/OSACStandardowy przewodnik po zarządzaniu cyfrowymi obrazami do celów kryminalistycznych (wersja 1.0)nist.gov

  18. SWGDEWytyczne dotyczące analizy obrazów kryminalistycznychswgde.org

Znajdź najnowszą sztuczną inteligencję w oficjalnym sklepie z asystentami AI

O nas

Powrót do bloga