OpenAI trafia na ścianę, a branża AI szuka nowych kierunków rozwoju

Ten tydzień przyniósł kilka znaczących sygnałów o kierunku rozwoju AI. Pojawiły się doniesienia wskazujące, że dotychczasowa strategia „po prostu większe modele, więcej danych i mocy obliczeniowej” przestaje przynosić spodziewane rezultaty – firmy takie jak OpenAI natrafiają na naturalne ograniczenia zarówno w dostępie do wysokiej jakości danych treningowych, jak i w korzyściach ze zwiększania mocy obliczeniowej. Jednocześnie widzimy, jak rynek się dywersyfikuje – Qwen wypuszcza obiecujące modele do kodowania, DeepMind dzieli się kodem AlphaFold 3 ze środowiskiem naukowym, a Google może przyspieszyć wydanie Gemini 2.0. Przyjrzyjmy się bliżej tym i innym istotnym wydarzeniom z ostatnich dni.

🚀 Koniec ery „większe = lepsze” w AI? OpenAI trafia na ścianę

OpenAI i inne firmy z branży AI zaczynają dostrzegać, że sama strategia „dokładania mocy obliczeniowej i danych” przestaje przynosić spodziewane rezultaty. Według doniesień The Information i Reuters, kolejny flagowy model firmy – znany pod kryptonimem „Orion” – nie przynosi tak spektakularnych ulepszeń w porównaniu z GPT-4, jak GPT-4 przyniósł w porównaniu z GPT-3. Co więcej, niektórzy pracownicy OpenAI zauważają, że Orion może nie być konsekwentnie lepszy we wszystkich zadaniach – szczególnie w kodowaniu – mimo potencjalnie wyższych kosztów operacyjnych.

Problem wydaje się być fundamentalny: firmy AI wyczerpały już wysokiej jakości dane treningowe i muszą sięgać po dane syntetyczne (czyli generowane przez AI). OpenAI utworzyło nawet specjalny zespół pod kierownictwem Nicka Rydera, który ma znaleźć rozwiązanie problemu niedoboru danych treningowych. Do tego dochodzą rosnące koszty – niektórzy eksperci, jak badacz OpenAI Noam Brown, otwarcie kwestionują ekonomiczny sens trenowania coraz większych modeli, pytając „czy naprawdę będziemy trenować modele kosztujące setki miliardów czy biliony dolarów?”

W odpowiedzi na te wyzwania firmy zaczynają szukać alternatywnych metod ulepszania swoich modeli. OpenAI eksperymentuje z modelami rozumowania, takimi jak o1, które mogą poprawiać swoje odpowiedzi poprzez dłuższe „myślenie” nad problemem. Jak stwierdził były współzałożyciel OpenAI, Ilya Sutskever: „Lata 2010-te były erą skalowania, teraz wracamy do ery odkryć”. Wydaje się, że branża AI stoi przed koniecznością znalezienia nowych ścieżek rozwoju, wykraczających poza proste zwiększanie skali.

Czytaj więcej lub tutaj

No i proszę – okazuje się, że prawa fizyki i ekonomii działają nawet w Dolinie Krzemowej! Kto by pomyślał? Swoją drogą ta historia przypomina mi trochę schyłek Moore’a Law w procesorach. Tam też przez lata wydawało się, że wystarczy „po prostu” upychać więcej tranzystorów na płytce krzemu aż w końcu… się nie dało. I co? I nic – przemysł półprzewodników znalazł inne sposoby na zwiększanie mocy obliczeniowej. Teraz wielkie firmy AI będą musiały poszukać nowych sposobów na ulepszanie swoich modeli.

Jeden kolega na LinkedIn pytał „kto teraz kupi kolejne GPU od NVidia”. Odpisałem mu: „choćby te firmy, które z różnych względów będą chciały postawić swoje własne instancje różnych modeli”. I tak właśnie uważam – to nie „koniec” ery AI, przeciwnie, wciąż dopiero początek, bo nawet jeśli nastąpi stagnacja w rozwoju możliwości modeli to i tak daleko, bardzo daleko nam jeszcze do tego, żeby powiedzieć, że szeroko wykorzystaliśmy możliwości tych, które już są.

🖥️ Qwen wypuszcza nowe modele do kodowania dorównujące GPT-4

Firma Qwen, należąca do Alibaba Cloud, zaprezentowała nową rodzinę modeli sztucznej inteligencji do zadań związanych z kodowaniem – Qwen2.5-Coder. Najbardziej zaawansowany model z tej serii, mający 32 miliardy parametrów, ma według twórców dorównywać możliwościami takim systemom jak GPT-4 czy Claude 3.5 Sonnet w zadaniach programistycznych. Co ważne, w przeciwieństwie do wspomnianych modeli, Qwen2.5-Coder jest w pełni open-source.

Nowe modele Qwen dostępne są w kilku rozmiarach – od 0.5 do 32 miliardów parametrów. Mają one radzić sobie z zadaniami takimi jak generowanie kodu, naprawa błędów czy rozumowanie na temat kodu w ponad 40 językach programowania. Twórcy chwalą się, że ich największy model osiąga najlepsze wyniki wśród modeli open-source w benchmarkach takich jak EvalPlus czy LiveCodeBench.

Qwen2.5-Coder ma być łatwy w integracji z popularnymi narzędziami programistycznymi. Modele udostępnione są na licencji Apache 2.0, co umożliwia ich szerokie wykorzystanie zarówno w zastosowaniach komercyjnych, jak i niekomercyjnych. To kolejny krok w kierunku demokratyzacji zaawansowanych możliwości AI w dziedzinie programowania.

Czytaj więcej

🧬 DeepMind udostępnia kod AlphaFold 3 całemu światu nauki

Google DeepMind dokonało przełomowego kroku, udostępniając pełny kod swojego najnowszego modelu AlphaFold 3 społeczności naukowej. To spełnienie obietnicy złożonej po wcześniejszej krytyce ograniczonego dostępu do tej technologii. AlphaFold 3 to zaawansowany system sztucznej inteligencji do przewidywania struktur białek, który zrewolucjonizował badania w dziedzinie biologii strukturalnej.

Teraz cały model jest dostępny na GitHubie do użytku niekomercyjnego. Naukowcy mogą nie tylko korzystać z portalu online, ale także eksplorować kod źródłowy, co otwiera nowe możliwości badawcze. AlphaFold 3 pozwala na analizę interakcji między białkami a innymi cząsteczkami, takimi jak DNA, RNA czy potencjalne leki.

To posunięcie DeepMind może znacząco przyspieszyć badania naukowe w wielu dziedzinach, od biologii po medycynę. Umożliwia ono naukowcom z całego świata nie tylko korzystanie z gotowych wyników, ale także dostosowywanie i rozwijanie modelu do swoich specyficznych potrzeb badawczych. Jednocześnie komercyjne prawa do technologii pozostają w rękach Isomorphic Labs, spółki zależnej DeepMind.

Czytaj więcej

🚀 Google Gemini 2.0 może pojawić się wcześniej niż zapowiadano

Wygląda na to, że Google może szykować się do wcześniejszego niż planowano wydania nowej wersji swojego modelu AI – Gemini 2.0. Informacje te pojawiły się po tym, jak jeden z użytkowników zauważył w menu chatbota nową opcję o nazwie „Gemini-2.0-Pro-Exp-0111”. Wcześniej Google zapowiadało premierę Gemini 2.0 na grudzień tego roku.

Obecnie dostępna jest darmowa wersja modelu Gemini 1.5 Flash. Nowa wersja 2.0 prawdopodobnie będzie wymagała subskrypcji, podobnie jak ma to miejsce w przypadku zaawansowanych modeli konkurencji. Google nie ujawniło szczegółów dotyczących usprawnień w nowej wersji, co w świetle doniesień o ogólnych problemach z rozwojem dużych modeli językowych jest szczególnie interesujące.

Przyspieszenie premiery może być podyktowane presją konkurencyjną, ale kluczowe pytanie brzmi, czy nowa wersja przyniesie rzeczywiste usprawnienia, czy będzie to raczej inkrementalna aktualizacja. Branża z zainteresowaniem czeka na szczegóły techniczne i testy porównawcze, które pokażą, czy Google znalazło sposób na przezwyciężenie ograniczeń, z którymi borykają się obecnie duże modele językowe.

Czytaj więcej

🖼️ Google wprowadza GenSelfie do tworzenia stylizowanych portretów

Google zaprezentował nowe narzędzie AI o nazwie GenSelfie, które pozwala na tworzenie stylizowanych portretów na podstawie zwykłych selfie. Ta innowacyjna technologia wykorzystuje tzw. „zero-shot learning”, co oznacza, że nie wymaga specjalnego treningu na konkretnych danych użytkownika.

GenSelfie używa zaawansowanych technik przetwarzania obrazu, w tym adaptery obrazu i kontroli, aby zachować charakterystyczne cechy twarzy i ekspresję oryginalnego zdjęcia. Dzięki temu wygenerowane portrety zachowują podobieństwo do osoby na zdjęciu, jednocześnie transformując je w różne style artystyczne.

Użytkownicy mogą wybierać spośród wielu stylów, takich jak grafika 3D, akwarela, anime czy szkic ołówkiem. Co więcej, możliwe jest modyfikowanie wyrazu twarzy, na przykład dodanie uśmiechu czy zmarszczenie brwi. GenSelfie jest dostępne w ramach platformy Imagen w Google Vertex AI.

Google planuje dalszy rozwój tej technologii, w tym dodanie możliwości personalizacji pozycji ciała. To kolejny krok w kierunku bardziej kreatywnego i spersonalizowanego wykorzystania AI w tworzeniu obrazów, otwierający nowe możliwości dla artystycznej ekspresji.

Czytaj więcej

🤖 AI wciąż daleko od rozwiązywania zaawansowanych problemów matematycznych

Nowy benchmark o nazwie FrontierMath, stworzony przez Epoch AI we współpracy z czołowymi matematykami, ujawnia znaczące ograniczenia sztucznej inteligencji w rozwiązywaniu zaawansowanych problemów matematycznych. Według tego testu, nawet najbardziej zaawansowane modele AI, takie jak GPT-4o i Gemini 1.5 Pro, są w stanie rozwiązać mniej niż 2% złożonych problemów matematycznych.

FrontierMath składa się z unikalnych, badawczych problemów matematycznych, które wymagają głębokiego rozumowania i kreatywności. W przeciwieństwie do standardowych benchmarków, gdzie AI często radzi sobie dobrze ze względu na znajomość danych, FrontierMath celowo stawia przed AI zadania, które nie mogą być rozwiązane przez proste odtwarzanie znanych wzorców.

Test ten podkreśla obecne ograniczenia AI w zakresie wieloetapowego rozumowania logicznego i precyzyjnego rozwiązywania problemów. Choć wyniki FrontierMath mogą być rozczarowujące dla entuzjastów AI, stanowią one ważny punkt odniesienia dla przyszłego rozwoju systemów AI. Benchmark ten może być używany do śledzenia postępów w kierunku bardziej zaawansowanej, ludzkiej inteligencji w dziedzinie matematyki.

Czytaj więcej

🔬 Nowy model AI wykrywa nadciśnienie i cukrzycę na podstawie krótkiego nagrania wideo

Japońscy naukowcy opracowali nowatorski system AI, który potrafi wykrywać choroby takie jak nadciśnienie i cukrzyca na podstawie krótkiego nagrania wideo twarzy i dłoni pacjenta. Co niezwykłe, dokładność tego systemu dorównuje lub nawet przewyższa tradycyjne metody diagnostyczne.

System łączy w sobie technikę szybkiego nagrywania wideo z zaawansowanymi algorytmami AI do analizy subtelnych zmian w przepływie krwi. Analizuje on 30 obszarów twarzy i dłoni, aby wykryć potencjalne problemy zdrowotne. Wstępne testy wykazały 94% dokładność w wykrywaniu nadciśnienia i 75% dokładność w przypadku cukrzycy w porównaniu do standardowych metod diagnostycznych.

Co ciekawe, nawet 30-sekundowe nagranie pozwala osiągnąć 86% dokładność w wykrywaniu nadciśnienia, a 5-sekundowy klip wciąż utrzymuje 81% dokładność. Naukowcy przewidują, że w przyszłości ta technologia mogłaby zostać zintegrowana ze smartfonami lub inteligentnymi lustrami, umożliwiając wygodne monitorowanie zdrowia w domu.

Ta innowacja może zrewolucjonizować sposób, w jaki monitorujemy nasze zdrowie, czyniąc regularne badania przesiewowe łatwiejszymi i bardziej dostępnymi dla szerokiego grona osób.

Czytaj więcej

Co jeszcze w świecie AI?

  • Google DeepMind udostępnił nowy model do prognozowania powodzi, który poprawia dokładność i czas wyprzedzenia na całym świecie, przewidując powodzie nawet do siedmiu dni wcześniej. Czytaj więcej
  • Firma 11x, tworząca boty AI do wspomagania zespołów sprzedażowych, pozyskała 50 milionów dolarów w nowej rundzie finansowania, osiągając wycenę 320 milionów dolarów. Czytaj więcej
  • Platforma X (dawniej Twitter) testuje darmowy dostęp do chatbota AI o nazwie Grok, wcześniej dostępnego tylko dla płatnych użytkowników. Czytaj więcej
  • Watykan we współpracy z Microsoft i Iconem uruchomił wirtualne wycieczki po Bazylice św. Piotra wspomagane sztuczną inteligencją, zwiększając dostępność i atrakcyjność zwiedzania przed Jubileuszem 2025. Czytaj więcej
  • Anthropic zatrudnił Kyle’a Fisha jako pierwszego dedykowanego badacza „dobrostanu AI”, który będzie badał, czy przyszłe modele AI mogą doświadczać świadomości i wymagać uwzględnienia etycznego. Czytaj więcej
  • Spadkobiercy Jerry’ego Garcii ogłosili współpracę z ElevenLabs, która ma na celu stworzenie AI-generowanego głosu zmarłego muzyka Grateful Dead do czytania audiobooków i innych treści w 32 językach. Czytaj więcej

Świat AI wchodzi w nową, ciekawą fazę. Z jednej strony widzimy, że dotychczasowa strategia „większe znaczy lepsze” napotyka na naturalne ograniczenia, z drugiej – obserwujemy rosnącą dywersyfikację zastosowań istniejącej technologii: od specjalistycznych modeli do kodowania, przez narzędzia do generowania obrazów, aż po obiecujące zastosowania w medycynie.

Wygląda na to, że branża AI zaczyna dojrzewać – zamiast gonić za coraz większymi modelami, firmy skupiają się na praktycznych implementacjach i specjalizacji.

Zachęcam do śledzenia kolejnych wydań newslettera, aby być na bieżąco z tym, jak rozwija się ta fascynująca transformacja. Jeśli uważasz, że te informacje są wartościowe, podziel się nimi ze znajomymi! Każdy kolejny subskrybent to większa motywacja dla mnie, żeby tworzyć dla Was ten newsletter.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *