Wyścig zbrojeń w branży AI trwa w najlepsze, a w dodatku dołączają do niego ciągle nowi gracze. Z jednej strony sami pisaliśmy niedawno o tym, że Elon Musk wchodzi w AI, żeby „zrozumieć rzeczywistość”, a Apple robi swojego chatbota. Z drugiej strony „starsi” gracze na rynku rozwijają swoje programy, które z każdym dniem pokonują nowe kamienie milowe. Tym razem nowy update zaprezentowało Stability AI, twórcy znanego AI do generowania grafik Stable Diffusion.
Co oferuje Stable Diffusion XL?
Stable Diffusion XL 1.0 to według twórców „najbardziej zaawansowany” model przekładający treść na obraz, który jest już dostępny na Githubie i w aplikacjach konsumenckich. W porównaniu do poprzednich modeli ma dostarczać „żywsze” i „dokładniejsze” odwzorowania barw, lepszy kontrast, cienie i oświetlenie.
Szczegóły znamy z wywiadu udzielonego portalowi TechCrunch przez Joego Penna – szefa działu zastosowania uczenia maszynowego (Head of Applied Machine Learning). Silnik nowego Stable Diffusion XL 1.0 zawiera aż 3,5 miliarda parametrów, co przekłada się na tworzenie jedno megapikselowych obrazów w sekundy w rozmaitych proporcjach. Największy wzrost względem wersji 0.9 widać w zmniejszeniu mocy obliczeniowej wymaganej do tworzenia obrazów.
Stable Diffusion XL 1.0 jest konfigurowalny, gotowy do precyzyjnego dostrojenia pod kątem koncepcji i stylów. Jest również łatwiejszy w użyciu, odpowiedni do złożonych projektów z podstawowymi promptami przetwarzania języka naturalnego — Joe Penna
Inne nowości to ulepszone generowanie napisów, rekonstrukcja ubytków w obrazach, poszerzanie obrazów, a także używanie innych obrazów jako promptów. Użytkowników może „pokazać” Stable Diffusion XL obraz, który zostanie użyty jako prompt razem z promptami tekstowymi do stworzenia nowych obrazów na jego podstawie. Same prompty powinny wymagać mniejszej ilości tekstu, żeby zostać zrozumianymi.
Rezultatem całości ma być nie tylko zwiększenie jakości przez możliwe tworzenie obrazów o większej rozdzielczości. Generowanie obrazów powinno być prostsze, bardziej przystępne, a same obrazy jeszcze dokładniejsze niż były dotychczas.
Stability AI podejmuje dodatkowe kroki w walce z deepfake’ami
Jak każde AI, także Stable Diffusion generuje problemy z prawami autorskimi oraz tworzeniem tzw. deepfaków, czyli np. „umieszczaniem” czyichś twarzy na dwuznacznych zdjęciach, oczywiście bez zgody samych zainteresowanych. Penna dodał, że Stability AI podjęło dodatkowe kroki, żeby uczynić używanie ich programu bezpieczniejszym i ograniczyć używanie niebezpiecznych promptów. Chociaż wszystko jest możliwe, to jednak nowy model został „odfiltrowany” z treści uznanych za problematyczne.
Kompletnie innym tematem są oczywiście prawa autorskie. Pojawił się już pozew przeciwko AI w tym zakresie. Jak mówi Penna:
Stale ulepszamy funkcje bezpieczeństwa Stable Diffusion i poważnie podchodzimy do kontynuowania iteracji tych środków. Co więcej, jesteśmy zobowiązani do respektowania próśb artystów o usunięcie ich z zestawów danych szkoleniowych.
Stability AI mocno skupia się na tej kwestii i dlatego podjęło współpracę ze startupem Spawning, który zajmuje się przetwarzaniem żądań „wyłączeń” sztuki konkretnych artystów z modeli treningowych.
Całość ma być jednak tylko aktem dobrej woli, gdyż jednocześnie Penna zauważa, że użycie tych danych do trenowania modeli AI jest chronione przez doktrynę dozwolonego użytku. Przynajmniej w Stanach Zjednoczonych.
Co o tym wszystkim sądzicie? Dajcie znać w komentarzach!
WARTO PRZECZYTAĆ: