Spis treści
Natywna Edycja obrazów w ChatGPT, Gemini i Grok
W marcu 2025 roku ChatGPT, Google Gemini i Grok wprowadziły natywne funkcje generowania i edycji obrazów, rewolucjonizując sposób tworzenia wizualnych treści.
Oto porównanie edycji zdjęcia krakowskiego Wawelu w stylu Ghibli z generacjami ze wszystkich 3 platform.

Oto oryginalne zdjęcie
ChatGPT 4o (OpenAI Image Generator)
OpenAI zaktualizował model GPT-4o, dodając natywny generator obrazów o wysokiej rozdzielczości i zaawansowane funkcje edycji za pomocą tekstowych komend, np. zmiana stylu czy dodanie elementów. Popularność funkcji wzrosła dzięki obrazom w stylu Ghibli w mediach społecznościowych. Dostępna dla wszystkich użytkowników, lecz z ograniczeniami.

Gemini (Gemini 2.0 Flash)
Google rozszerzył Gemini 2.0 Flash o eksperymentalne generowanie i edytowanie obrazów w Google AI Studio. Model pozwala na wieloetapowe, kontekstowe modyfikacje obrazów za pomocą naturalnego języka, wykorzystując wiedzę i rozumowanie do tworzenia realistycznych wizualizacji, np. ilustracji kulinarnych. Dostępna dla deweloperów we wszystkich regionach obsługiwanych przez Google AI Studio: ai.dev

Grok (xAI)
Grok od xAI zyskał natywne wsparcie dla generowania i edycji obrazów, umożliwiając użytkownikom tworzenie wysokiej jakości wizualizacji i modyfikowanie dostarczonych zdjęć za pomocą tekstowych komend. Funkcja dostępna na X w wybranych krajach od marca 2025, z planowanym pełnym wdrożeniem, oraz na Telegramie, oferując wszechstronność w stylach i kompozycjach.
Darmowe dla każdego użytkownika Grok z poziomu platformy X.

Najważniejsze wydarzenia ze świata AI i LLM
Google Gemini 2.5 Pro
Google wypuścił Gemini 2.5 Pro, swój najbardziej zaawansowany model, który prowadzi na liście LMArena. Model wyróżnia się wyjątkowymi zdolnościami rozumowania, kontekstem 1 miliona tokenów oraz doskonałymi wynikami w kodowaniu, matematyce i naukach ścisłych.Reve Image 1.0 (Halfmoon)
Firma Reve, debiutując po okresie cichego rozwoju, wprowadziła model Reve Image 1.0, który błyskawicznie zdobył tytuł lidera globalnych rankingów modeli generujących obrazy, wyprzedzając takie giganty jak Midjourney i Google’s Imagen. Model wyróżnia się oszałamiającym fotorealizmem, precyzyjnym przestrzeganiem promptów oraz zaawansowanym renderowaniem tekstu. Reve Image osiągnął najwyższy wynik w rankingu ELO – 1247 punktów – na platformie Artificial Analysis Image Arena, plasując się przed modelami takimi jak Imgs (sjc) z 1180 ELO, Flux (dev) z 1129 ELO, RealVisXL (v4) z 1101 ELO oraz Dalle3 z 910 ELO. Reve Image jest dostępny za darmo na stronie reveai.org, oferując nieograniczoną generację obrazów bez konieczności rejestracji, co czyni go dostępnym dla szerokiego grona użytkowników.Ideogram 3.0
Ideogram zaprezentował model 3.0, który znacząco poprawił fotorealizm, renderowanie tekstu i zrozumienie języka. Nowe funkcje, takie jak „Style Reference” (umożliwiające przesyłanie do trzech referencyjnych obrazów do określenia stylu) oraz „Random Style” (dostęp do biblioteki 4,3 miliarda presetów), otwierają nowe możliwości dla projektantów, marketerów i twórców. Model jest dostępny dla wszystkich użytkowników na ideogram.ai i w aplikacji iOS, oferując zaawansowane narzędzia do tworzenia realistycznych i spójnych stylów wizualnych.Nowe Modele Qwen
Alibaba Cloud wprowadził trzy nowe modele Qwen: QVQ-Max, Qwen2.5-Omni-7B i Qwen2.5-VL-32B-Instruct, dostosowane do różnych zastosowań – od ogólnych po specjalistyczne przetwarzanie obrazu i tekstu. Modele te są dostępne na platformie Hugging Face, co ułatwia ich testowanie i integrację przez społeczność AI.Alibaba LHM
Alibaba zaprezentował model LHM (Large Animatable Human Reconstruction), który generuje w pełni animowane, 3D awatary ludzi na podstawie jednego zdjęcia całego ciała. Model jest open-source i dostępny na licencji Apache 2.0, co czyni go atrakcyjnym dla badaczy i twórców w dziedzinie animacji i rzeczywistości wirtualnej.Microsoft Researcher
Microsoft wprowadził agenta Researcher, integrującego zaawansowany model badawczy OpenAI z Microsoft 365 Copilot. Agent ten umożliwia kompleksowe, wieloetapowe badania w oparciu o dane robocze i zasoby internetowe, dostępne 24/7, co rewolucjonizuje sposób pracy z danymi i analizą.Perplexity Answer Tabs
Perplexity wprowadził funkcję Answer Tabs, która kategoryzuje wyniki wyszukiwania (np. obrazy, filmy, podróże, zakupy), czyniąc wyszukiwanie oparte na AI bardziej intuicyjnym i efektywnym. Funkcja jest dostępna na stronie internetowej i wkrótce pojawi się na urządzeniach mobilnych.DeepSeek V3
DeepSeek zaktualizował swój model do wersji V3, poprawiając zdolności rozumowania. Użytkownicy muszą wyłączyć opcję „DeepThink”, aby w pełni wykorzystać nowe możliwości, co wskazuje na bardziej precyzyjne dostosowanie modelu do specyficznych zadań.
Nowe narzędzia AI w katalogu Ainsider
Mureka AI
Potężny generator muzyki AI, który pozwala tworzyć unikalne kompozycje za pomocą sztucznej inteligencji.
https://www.mureka.ai/
Roocode
Autonomiczny agent kodujący, który działa bezpośrednio w twoim edytorze, pomagając w tworzeniu i optymalizacji kodu.
https://github.com/RooketGit/Roo-Code
Yeahvideo
Zaawansowany generator wideo AI, który łączy najlepsze modele generowania wideo w jednym interfejsie.
https://yeahvideo.ai/
Supercut
Narzędzie do łatwego nagrywania ekranu i dzielenia się nagraniami, usprawniające komunikację w pracy.
https://supercut.video/
Bytedance InfiniteYou
Model AI specjalizujący się w generowaniu spójnych postaci i obiektów na zdjęciach.
https://huggingface.co/spaces/ByteDance/InfiniteYou-FLUX
GPT 4o Image Gen
Model generowania obrazów od OpenAI, dostępny w ChatGPT, umożliwiający tworzenie grafik na podstawie tekstu.
https://chatgpt.com/
Expertise AI
Agent AI działający jako asystent sprzedaży i wsparcia klienta, integrujący się z danymi strony internetowej.
https://expertise.ai/
Spatial LM
Model językowy przetwarzający dane 3D, umożliwiający lepsze zrozumienie i generowanie scen trójwymiarowych.
https://github.com/manycore-research/SpatialLM
Camel AI
Otwartoźródłowy system do orchestracji wielu agentów AI, ułatwiający współpracę między różnymi modelami.
https://github.com/camel-ai/camel
Agno
Lekka biblioteka do budowania wielomodalnych agentów AI, oferująca elastyczność w tworzeniu zaawansowanych rozwiązań.
https://github.com/agno-agi/agno
Topview
Generator wideo AI przeznaczony dla marketingu i sprzedaży, pomagający tworzyć angażujące materiały wideo.
https://www.topview.ai/
Reve
Ultrarealistyczny generator obrazów AI, pozwalający tworzyć fotorealistyczne grafiki i zdjęcia.
https://preview.reve.art/app/e-splore
