OpenAI rzuciło wyzwanie Google, wprowadzając funkcję wyszukiwania do ChatGPT – szykuje się tu ciekawa „rozgrywka” a zarazem zmiana w tym jak wyszukujemy informacje a nawet co zapamiętujemy (przy okazji: czy i Tobie zdarzyło się pytać AI o coś, co pamiętasz tylko w zaraysie? Ja robię to już regularnie! Czyli wystarczy pamiętać skrawek informacji by na żądanie móc wyciągnąć całość z pomocą AI!). Dochodzą „pomruki” o nowych modelach od Google i OpenAI, a Meta – moim zdaniem mocno niedoceniania – wypuszcza swoją wersję Notebook LLM. Poza tym pojawiają się nowe modele graficzne a spryciarze wykorzystują AI do kreatywnego zarabiania na „koneserach sztuki”.
Przyjrzyjmy się bliżej tym i innym wydarzeniom z minionego tygodnia. To wydanie jest wyjątkowo obfite, ale mamy już prawie długie zimowe wieczory – można spokojnie poczytać co się dzieje. Zapraszam do lektury.
🔍 OpenAI wprowadza wyszukiwanie do ChatGPT
OpenAI rzuca wyzwanie Google, wprowadzając nową funkcję wyszukiwania do ChatGPT. Pozwala ona użytkownikom na zadawanie pytań w naturalnym języku i otrzymywanie odpowiedzi opartych na aktualnych informacjach z Internetu. ChatGPT Search łączy możliwości wyszukiwania z zaawansowanym przetwarzaniem języka naturalnego, co może zrewolucjonizować sposób, w jaki znajdujemy i przetwarzamy informacje online.
Nowa funkcja zapewnia szybki dostęp do aktualnych danych na temat bieżących wydarzeń, pogody, sportu czy finansów. Co ważne, ChatGPT podaje źródła informacji, umożliwiając użytkownikom weryfikację danych. To znaczący krok w kierunku stworzenia bardziej intuicyjnego i efektywnego narzędzia do wyszukiwania informacji, które może poważnie zagrozić dominacji Google w tej dziedzinie.
Ciekawe różnicowanie tu następuje – bo OpenAI dodaje funkcje do modelu, Anthropic koncentruje się na zwiększaniu możliwości modelu. Chociaż…
🚀 OpenAI szykuje nowy model „Orion” na grudzień
OpenAI, firma stojąca za ChatGPT, planuje wprowadzić nowy model AI o kryptonimie „Orion” już w grudniu tego roku. Według doniesień, model ten ma być znacznie potężniejszy od swojego poprzednika, GPT-4, potencjalnie nawet 100 razy bardziej zaawansowany. Co ciekawe, Orion nie będzie od razu dostępny dla szerokiej publiczności. Zamiast tego, OpenAI planuje udostępnić go początkowo wybranym firmom partnerskim, w tym Microsoftowi, do integracji z ich własnymi produktami i usługami.
Wprowadzenie Oriona zbiega się z istotnymi zmianami w strukturze OpenAI, w tym z niedawną zbiórką 6,6 miliarda dolarów i odejściem niektórych kluczowych pracowników. Warto jednak zauważyć, że sam OpenAI nie potwierdził oficjalnie tych doniesień, a CEO Sam Altman nazwał je nawet „fake newsami”. Niezależnie od tego, czy model zostanie nazwany Orion czy inaczej, jedno jest pewne – OpenAI intensywnie pracuje nad kolejną generacją swoich modeli AI, co może znacząco wpłynąć na krajobraz technologiczny w najbliższej przyszłości.
🧑💻 Google: 25% nowego kodu firmy tworzy AI
Sundar Pichai, CEO Google, ujawnił podczas kwartalnego sprawozdania finansowego, że ponad 25% nowego kodu w firmie jest obecnie generowane przez sztuczną inteligencję. To znaczący wzrost wykorzystania AI w procesach rozwoju oprogramowania w jednej z największych firm technologicznych na świecie.
Ta informacja pokazuje, jak głęboko AI zaczyna przenikać do codziennej pracy programistów i inżynierów. Pichai podkreślił, że rola inżynierów ewoluuje w kierunku nadzorowania i udoskonalania kodu generowanego przez AI, skupiając się bardziej na rozwiązywaniu złożonych problemów i innowacjach. Google intensywnie integruje swoje narzędzia AI, takie jak model Gemini, w różne aspekty swojej działalności, w tym do GitHub Copilot, co czyni zaawansowane narzędzia AI dostępnymi dla programistów na całym świecie.
To kolejny news – po informacji od Amazona, że wykorzystują wewnętrzne modele do refaktoringu kodu w Javie – pokazujący, że najszybciej największą zmianę AI przyniesie właśnie w samym IT a konkretnie w programowaniu. Z tym, że zanim my – freelancerzy, mali przedsiębiorcy – dostaniemy możliwość wykupienia za drogi abonament tych narzędzi korporacje klasy Google, Microsoft czy Meta będą już daaawno daleko do przodu. Czy AI okaże się – w odróżnieniu od Internetu – technologią faworyzującą wielkich i bogatych kosztem całej reszty? Czas pokaże…
🖼️ Recraft V3: Nowy lider w generowaniu obrazów AI?
Firma Recraft ujawniła, że stoi za tajemniczym modelem „red_panda”, który niedawno zdominował benchmarki generowania obrazów AI. Recraft V3, bo tak nazywa się oficjalnie ten model, wyznacza nowe standardy w jakości generowanych obrazów, przewyższając konkurencyjne rozwiązania takie jak Midjourney czy DALL-E 3 od OpenAI.
Model Recraft V3 wyróżnia się niezwykłą precyzją w generowaniu tekstu w obrazach, poprawną anatomią postaci i ogólnie wysoką wartością estetyczną. Nowe funkcje pozwalają użytkownikom na dokładne określanie rozmiaru i położenia tekstu w obrazach, łączenie tekstu z innymi obrazami do tworzenia złożonych projektów, oraz precyzyjną kontrolę nad stylami dla zachowania spójności marki. Co więcej, Recraft V3 obsługuje zarówno obrazy rastrowe, jak i wektorowe, oferując narzędzia AI do edycji, takie jak wymazywanie, inpainting i usuwanie tła.
Czytaj więcej lub obejrzyj ich stronę
🗣️ ChatGPT i Claude dostępne na komputerach stacjonarnych
OpenAI i Anthropic wprowadziły swoje flagowe modele AI – ChatGPT i Claude – na komputery stacjonarne. OpenAI dodało Advanced Voice Mode (AVM) do aplikacji desktopowej ChatGPT, umożliwiając użytkownikom prowadzenie rozmów głosowych z chatbotem na komputerach PC i Mac. AVM, napędzany przez GPT-4, pozwala na naturalną konwersację, w tym wyrażanie emocji i przerywanie.
Równolegle, Anthropic udostępniło aplikacje desktopowe dla swojego chatbota Claude na platformy Mac i Windows w ramach publicznych beta testów. Firma wprowadziła również funkcję dyktowania dla urządzeń mobilnych, umożliwiając użytkownikom nagrywanie wiadomości głosowych o długości do 10 minut, które Claude transkrybuje i na które odpowiada.
Te ruchy pokazują, jak firmy AI dążą do zwiększenia dostępności i wszechstronności swoich modeli, integrując je głębiej z codziennym środowiskiem pracy użytkowników.
🤖 Google pracuje nad „Project Jarvis” – AI asystentem do obsługi przeglądarki
Google, nie chcąc pozostać w tyle za konkurencją, intensywnie pracuje nad własnym projektem o kryptonimie „Jarvis”. Jest to zaawansowany asystent AI, który ma być zdolny do samodzielnego wykonywania zadań w przeglądarce internetowej. Według informacji przekazanych przez The Information, Jarvis będzie mógł autonomicznie nawigować po stronach internetowych, dokonywać zakupów online, przeprowadzać badania i rezerwować podróże.
System działa na zasadzie interpretacji zrzutów ekranu przeglądarki, co pozwala mu na podejmowanie decyzji i wykonywanie akcji w czasie rzeczywistym. Google planuje wprowadzić tę technologię jeszcze w tym roku, prawdopodobnie w grudniu, wraz z premierą nowej wersji modelu językowego Gemini. Warto zauważyć, że Jarvis jest odpowiedzią Google na podobne inicjatywy konkurencji, takie jak niedawno zaprezentowana funkcja „computer use” od Anthropic dla ich modelu Claude.
Wprowadzenie Jarvisa może zrewolucjonizować sposób, w jaki korzystamy z internetu, automatyzując wiele codziennych zadań online. Jednocześnie rodzi to pytania o prywatność i bezpieczeństwo danych użytkowników, które niewątpliwie będą musiały zostać adresowane przed oficjalnym wprowadzeniem tej technologii na rynek.
Google w trybie „nadganiania konkurencji”… kto by pomyślał, że to przyjdzie tak szybko?
🎨 Autonomiczny artysta AI zarabia krocie na aukcjach Sotheby’s
Botto, autonomiczny artysta AI stworzony przez Mario Klingemanna i ElevenYellow, zarobił niedawno 351 600 dolarów na aukcji w Sotheby’s. To niezwykłe osiągnięcie stanowi kamień milowy w świecie sztuki AI i pokazuje, jak zaawansowane stały się systemy generatywne. Od swojego debiutu w 2021 roku, Botto wygenerował już ponad 4 miliony dolarów ze sprzedaży swoich dzieł.
Co ciekawe, Botto nie jest zwykłym generatorem obrazów. To złożony system, który tworzy sztukę autonomicznie, ale jest „kuratorowany” przez społeczność liczącą 15 000 członków, znaną jako BottoDao. Podczas niedawnej wystawy „Exorbitant Stage”, zaprezentowano sześć lotów NFT, które znacznie przekroczyły oczekiwania cenowe.
Sukces Botto jest szczególnie imponujący w kontekście spadku zainteresowania rynkiem NFT po 2022 roku. Pokazuje to, że wysokiej jakości sztuka generowana przez AI może nadal przyciągać znaczące inwestycje. Jednocześnie rodzi to fascynujące pytania o naturę kreatywności, autorstwa i wartości w erze sztucznej inteligencji. Czy w przyszłości zobaczymy więcej takich autonomicznych artystów AI konkurujących z ludzkimi twórcami na prestiżowych aukcjach?
🎙️ Meta wprowadza NotebookLlama – open-source’owe narzędzie do tworzenia podcastów
Meta, reagując na rosnące zainteresowanie narzędziami do automatycznego tworzenia treści, wprowadziła NotebookLlama – open-source’ową alternatywę dla NotebookLM Google’a. To innowacyjne narzędzie pozwala na przekształcanie plików tekstowych, takich jak PDF-y czy blogi, w konwersacyjne nagrania w stylu podcastów.
NotebookLlama wykorzystuje modele Llama od Meta do generowania transkrypcji, dodawania elementów dramatycznych i przerw, a następnie konwertuje tekst na mowę za pomocą otwartych modeli text-to-speech. Choć jakość dźwięku na obecnym etapie może wydawać się nieco robotyczna, z okazjonalnymi nakładaniami się głosów, narzędzie to otwiera fascynujące możliwości dla twórców treści.
Wprowadzenie NotebookLlama to kolejny krok w kierunku demokratyzacji tworzenia treści audio. Narzędzie to może potencjalnie zrewolucjonizować sposób, w jaki tworzymy i konsumujemy podcasty, umożliwiając szybkie przekształcanie różnorodnych źródeł tekstowych w format audio. Jednocześnie rodzi to pytania o przyszłość tradycyjnego tworzenia podcastów i rolę ludzkiego głosu w erze AI.
No do Google-owego podcastu na życzenie to mu jeszcze trochę brakuje.
📊 Yale odkrywa „krawędź chaosu” w uczeniu maszynowym
News dla interesujących się głębiej tym jak modele działają: naukowcy z Uniwersytetu Yale dokonali fascynującego odkrycia w dziedzinie uczenia maszynowego. Okazuje się, że modele AI osiągają najlepsze wyniki, gdy są trenowane na danych balansujących na granicy między porządkiem a chaosem, w stanie określanym jako „krawędź chaosu”.
Badacze wykorzystali elementarne automaty komórkowe (ECA) o różnym stopniu złożoności do trenowania modeli AI. Odkryli, że modele trenowane na ECA klasy IV – tych, które balansują między porządkiem a chaosem – wykazywały znacznie lepsze wyniki w zadaniach takich jak rozumowanie czy przewidywanie ruchów szachowych.
To odkrycie może mieć ogromne znaczenie dla przyszłości rozwoju AI. Sugeruje ono, że kluczem do tworzenia bardziej zaawansowanych i efektywnych modeli AI może być właśnie ten balans między prostotą a złożonością danych treningowych. Może to również wyjaśniać, dlaczego duże modele językowe, takie jak GPT-3 i GPT-4, które są trenowane na ogromnych i zróżnicowanych zbiorach danych, osiągają tak imponujące wyniki.
Badacze planują rozszerzyć swoje eksperymenty na większe modele i bardziej złożone systemy, co może prowadzić do przełomowych odkryć w dziedzinie sztucznej inteligencji i uczenia maszynowego.
🖼️ Modele wizualne AI mają problemy z prostymi zagadkami wizualnymi
Nowe badanie przeprowadzone przez naukowców z TU Darmstadt ujawniło zaskakujące ograniczenia najnowocześniejszych modeli wizualnych AI, w tym wysoko cenionego GPT-4o. Okazuje się, że te zaawansowane systemy mają trudności z rozwiązywaniem prostych zagadek wizualnych znanych jako problemy Bongarda, które dla ludzi są często intuicyjne.
W badaniu GPT-4o zdołał rozwiązać zaledwie 21 ze 100 zagadek, a inne modele, takie jak Claude, Gemini i LLaVA, osiągnęły jeszcze gorsze wyniki. Ta znacząca luka w wydajności między ludźmi a AI podkreśla, jak daleko jeszcze jesteśmy od stworzenia prawdziwie ludzkiej inteligencji wizualnej.
Wyniki te stawiają ważne pytania o skuteczność obecnych metod oceny AI. Sugerują one, że obecne benchmarki mogą nieadekwatnie odzwierciedlać prawdziwe zdolności rozumowania systemów AI. Badacze postulują potrzebę ponownej oceny metod oceny, aby lepiej uchwycić niuanse rozumowania wizualnego w systemach AI.
To odkrycie przypomina nam, że mimo imponujących postępów w dziedzinie AI, wciąż istnieją fundamentalne aspekty ludzkiego poznania, które pozostają wyzwaniem dla maszyn. Jednocześnie otwiera to nowe, fascynujące obszary badań, które mogą prowadzić do rozwoju bardziej zaawansowanych i ludzkopodobnych systemów AI w przyszłości.
🪖 Chińscy badacze adaptują model Llama do celów wojskowych
Według niedawnych doniesień, chińscy naukowcy zaadaptowali model AI Llama, stworzony przez Meta (dawniej Facebook), do zastosowań militarnych. Badacze związani z Akademią Nauk Wojskowych Chińskiej Armii Ludowo-Wyzwoleńczej opracowali narzędzie o nazwie „ChatBIT”, dostosowując starszą wersję Llama do wspomagania decyzji wojskowych, analizy wywiadowczej i planowania strategicznego.
Ta informacja budzi poważne obawy dotyczące etycznego wykorzystania AI i potencjalnego wyścigu zbrojeń w dziedzinie sztucznej inteligencji. Meta podkreśliła, że takie wykorzystanie ich modelu jest niezgodne z warunkami użytkowania, które zabraniają zastosowań militarnych (ha, ha, ha).
Jak zwykle media anglosaskie nie biorą pod uwagę takiej możliwości, że Chińczycy mogą mieć własne modele stworzone całkowicie od zera. I o tych wojskowych raczej nie piszą publicznie. Wręcz bym podejrzewał, że specjalnie nagłaśniają wykorzystanie modelu Lama do takich celów by uśpić czujność Zachodu.
Swoją drogą: ja chińskiego niestety nie znam, ale musi być bardzo ciekawe jak wygląda model językowy dla języka o innej strukturze i piśmie hielogrificznym. Czy ktoś z Was zna może chiński?
Co jeszcze w świecie AI?
- Google eksperymentuje z narzędziem „Learn About”, które ma być konkurencją dla Perplexity, oferując interaktywne funkcje do nauki i odkrywania wiedzy. Czytaj więcej (w EU niedostępne)
- Meta rozwija technologie dotykowe dla robotów, w tym sztuczny palec Meta Digit 360 i system Meta Sparsh, umożliwiający robotom lepsze wyczuwanie dotyku. Czytaj więcej
- Nvidia opracowała mały model AI HOVER o wielkości 1,5M parametrów, który kontroluje ruchy robotów humanoidalnych lepiej niż specjalistyczne kontrolery. Czytaj więcej (trochę straszne…)
- ElevenLabs wprowadza funkcję „X to Voice”, pozwalającą na tworzenie unikalnych głosów AI na podstawie konta na platformie X (dawniej Twitter). Czytaj więcej
- D-ID, startup AI, zaprezentował Personal Avatars – nową gamę hiper-realistycznych awatarów AI dla marketerów, generowanych z zaledwie minuty materiału źródłowego. Czytaj więcej (Heygen ma konkurencję… mocną!)
- Suno wprowadza funkcję Personas, umożliwiającą użytkownikom przechwytywanie i przetwarzanie esencji piosenek za pomocą AI. Czytaj więcej
- Apple wprowadza Ferret-UI 2, innowacyjny system AI umożliwiający kontrolę aplikacji na różnych urządzeniach, w tym iPhonach, iPadach i Android. Czytaj więcej
- Meta nawiązuje wieloletnią współpracę z Reuters, integrując treści informacyjne z chatbotem AI na platformach takich jak Facebook, Instagram i WhatsApp. Czytaj więcej
- Nvidia wyprzedziła Apple jako najcenniejsza firma na świecie, dzięki ogromnemu popytowi na komponenty AI. Czytaj więcej
- Coinbase uruchamia „Based Agent”, narzędzie umożliwiające tworzenie botów transakcyjnych opartych na AI w kryptowalutach w mniej niż trzy minuty. Czytaj więcej
- Disney przygotowuje się do ogłoszenia znaczącej inicjatywy AI skupionej na procesach postprodukcji i efektach specjalnych. Czytaj więcej (ciekawe czy AI powstrzyma degenerację Disneya czy wprost przeciwnie…)
- Google prawdopodobnie wprowadzi Gemini 2.0 w grudniu, co może potwierdzać tezę o stagnacji w rozwoju dużych modeli językowych. Czytaj więcej
Uff… było tego trochę. W przyszłym tygodniu zwiększam tempo i będą dwa wydania! Bądź na bieżąco i śledź kolejne wydania mojego newslettera, aby nie przegapić żadnych istotnych wydarzeń ze świata AI.
Dodaj komentarz