Google po raz kolejny stawia na kreatywność. Tegoroczna konferencja programistów I/O przyniosła nie tylko drobne ulepszenia, ale fundamentalne zmiany. Firma wykorzystuje Flow, platformę kreatywności AI uruchomioną w zeszłym roku, oraz Flow Music, siostrzaną usługę generowania dźwięku. Jaki jest cel? Spraw, aby proces tworzenia treści mniej przypominał zmaganie się z oprogramowaniem, a bardziej pracę z partnerem.
W zeszłym roku Google przedstawiło Flow jako centrum „dla kreacji przez kreacje”. Obietnica miała uchronić użytkownika przed koniecznością korzystania z kilkunastu różnych aplikacji. Zamiast przełączać się między narzędziami do wideo, animacji i edycji, pozostaniesz w jednym miejscu. Teraz firma spełnia tę obietnicę, wprowadzając funkcje, które naprawdę pozwalają sztucznej inteligencji poprowadzić Cię za rękę przez cały proces.
Flow zyskał inteligencję (i pamięć)
Elias Roman, starszy dyrektor ds. zarządzania produktami w Google, zauważył, że kreatywni profesjonaliści nienawidzą fragmentarycznych przepływów pracy. Nazwał to zabójcą „twórczego przepływu”. Przełączanie się pomiędzy drogimi, wysoce wyspecjalizowanymi aplikacjami zakłóca koncentrację. Flow próbuje rozwiązać ten problem za pomocą trzech głównych inicjatyw: lepszej kontroli, kompatybilności między mediami i zmniejszonej izolacji narzędzi.
Przede wszystkim Flow nie jest już tylko polem do wpisywania poleceń. Zamienia się w agenta konwersacyjnego. Bazując na modelu Gemini, zapamiętuje historię Twojego projektu. Pełni funkcję poduszki do intelektualnej rozmowy. Utknąłeś w dialogach? Sztuczna inteligencja może pomóc w generowaniu zwrotów akcji. Nie mówimy o generowaniu jednorazowych klipów, ale o długoterminowej wspólnej kreatywności.
Następnie pojawią się Narzędzia przepływu. Możesz tworzyć niestandardowe przepływy pracy, używając prostego języka angielskiego. Nie wymaga JavaScriptu. Czy potrzebujesz specjalnego narzędzia do zmiany rozmiaru wideo lub nietypowego modułu cieniującego? Po prostu to opisz. Tworzyć. Udział. Ta funkcja zmienia użytkowników w miniprogramistów bez problemów związanych z programowaniem.
Prawdziwa zmiana nie polega na szybkości, ale na autonomii. Mówisz narzędziu czego chcesz, a nie jak to obliczyć.
Silnikiem stojącym za tym wszystkim jest Gemini Omni Flash. Google żartobliwie nazywa go „Nano Banana”, co może nie być najlepszym wyborem z punktu widzenia PR. Ale mówimy o poważnej technologii. Oferuje dokładną edycję wideo na wideo. Co ważniejsze, zapewnia spójność postaciom. Jeśli Twój awatar ma bliznę w pierwszej scenie, pojawi się ona w drugiej. Model jest już dostępny dla abonentów Google AI na całym świecie.
Powieść pokazała możliwości systemu, który mniej przypominał prezentację sprzedażową, a bardziej sztukę magiczną. Stworzył od podstaw scenę na Times Square inspirowaną latami 80. Narzucił rygorystyczne ograniczenia, takie jak umieszczanie w każdym kadrze miniaturowego pinczera jako pisanki. Edytował filmy obok siebie za pomocą poleceń tekstowych. Renderował znaki w grafice ASCII w locie. System nie zwolnił ani na sekundę.
I tak, w końcu wypuścili aplikacje mobilne. Flow jest w fazie testów beta na Androidzie (wersja na iOS jest w fazie rozwoju). Flow Music jest już dostępny na iOS (oczekuje się, że Android będzie opóźniony). Teraz kreatywni ludzie mogą generować pomysły, stojąc w kolejce po kawę.
Muzyka staje się precyzyjna
Flow Music również otrzymało aktualizacje. Zazwyczaj generatory muzyki AI to tępe instrumenty. Szukasz „fun jazz” i masz nadzieję na najlepsze. Google chce dać Ci skalpel.
Możesz teraz edytować poszczególne części utworu indywidualnie. Chcesz zmienić tekst, ale zachować rytm? Łatwo. Chcesz przetłumaczyć wokale na inny język bez zmiany melodii? Naprawdę. Nie musisz za każdym razem regenerować całego toru. Oszczędza to czas i utrzymuje stałą atmosferę.
Następnie jest funkcja okładek. Umożliwia wykorzystanie istniejącego utworu — zachowując melodię i strukturę — i zastąpienie gatunku. Zamień popowy hymn w rytmy lo-fi. Struktura pozostaje ta sama, zmienia się tylko „smak”.
Wreszcie technologia Omni Flash pojawiła się w teledyskach. Dostajesz nie tylko ścieżkę dźwiękową. Możesz interaktywnie kontrolować tworzenie akompaniamentu wizualnego. Powiedz AI, że chcesz neonów, deszczowej uliczki lub zachodu słońca z falą synthwave. Stworzy sceny pasujące do nastroju Twojej piosenki. Funkcja jest już dostępna dla abonentów.
Co dalej? Mamy sztuczną inteligencję, która nas zapamiętuje, rozmawia z nami i edytuje wraz z nami treści. To wydaje się potężnym narzędziem. A może trochę straszny?
