Sora to najnowszy model sztucznej inteligencji od OpenAI, który umożliwia generowanie realistycznych i złożonych wideo na podstawie tekstowych instrukcji. Model ten, oparty na architekturze transformerów i technikach dyfuzji, działa na podobnej zasadzie jak popularne modele do generowania obrazów, takie jak DALL·E, ale jest zoptymalizowany do tworzenia ruchomych obrazów wideo. Jest obecnie dostępny tylko w fazie zamkniętych testów.

Sora wykorzystuje technikę tzw. „łat przestrzenno-czasowych” (ang. spacetime patches), które dzielą wideo na mniejsze fragmenty, co umożliwia bardziej efektywne przetwarzanie zróżnicowanych danych wideo, w tym klipów o różnych rozdzielczościach, aspektach czy długościach. Dzięki temu Sora jest w stanie generować spójne wideo, które wiernie odzwierciedla wszystkie detale podane w opisie, nawet jeśli postaci wychodzą z kadru lub zmienia się perspektywa kamery.
Całe filmy w Sorze
Jednym z najbardziej interesujących aspektów Sory jest jej zdolność do generowania całych filmów od razu, bez konieczności tworzenia ich klatka po klatce. Dzięki temu model jest bardziej efektywny i może utrzymać spójność detali w różnych ujęciach. Co więcej, Sora potrafi również przekształcać statyczne obrazy w animacje, dodawać efekty specjalne do istniejących klipów, a także przedłużać wideo lub tworzyć ich płynne pętle.
Pomimo wielu zalet, model ma też swoje ograniczenia. Sora może mieć trudności z dokładnym odwzorowaniem złożonych interakcji fizycznych, takich jak np. upadający i rozbijający się szklany przedmiot. Czasami zdarza się też, że model miesza szczegóły przestrzenne, takie jak kierunki (lewo-prawo), co prowadzi do błędnych wyników w symulacjach.
OpenAI pracuje również nad wzmocnieniem bezpieczeństwa Sory, wprowadzając mechanizmy chroniące przed nadużyciami, takimi jak generowanie treści nieodpowiednich czy deepfake’ów.
Źródła: OpenAI, Towards AI, Zapier.
