- Компанія Google випустила Gemini 2.0 Pro Experimental — професійну і найбільш продуктивну модель у лінійці.
- «Думаюча» Gemini 2.0 Flash Thinking стала доступною в застосунку ШІ-асистента.
- У Gemini 2.0 Flash з’явилася економічна та оптимізована версія Lite.
- Дослідники зі Стенфорда та Університету Вашингтона створили нейромережу, що міркує, за $50 із застосуванням відповідей Gemini 2.0 Flash Thinking Experimental.
Корпорація Google представила нову флагманську ШІ-модель Gemini 2.0 Pro Experimental. Також вона зробила нейромережу Gemini 2.0 Flash Thinking доступною в застосунку Gemini.
Today we’re expanding the Gemini 2.0 family with new options and broader availability.
This builds on the first model we launched in December: 2.0 Flash, our model with low latency and better performance ⚡
Read more on today’s launches ⬇️ pic.twitter.com/SRpDIJMhUP
— Google (@Google) February 5, 2025
Gemini 2.0 Pro Experimental — наступник Gemini 1.5 Pro. Вона доступна на платформах Vertex AI, Google AI Studio і передплатникам Advanced у застосунку Gemini. Компанія підкреслила хороші навички нейромережі в програмуванні та обробці складних запитів. Вона «краще розуміє і обмірковує знання про світ».
Контекстне вікно професійної версії становить 2 млн токенів. Вона здатна за раз зрозуміти всі сім книг про Гаррі Поттера, залишивши в запасі близько 400 000 слів.
У Gemini 2.0 Flash з’явилася економічна та оптимізована версія Lite.
Продуктивність серії Gemini 2.0 демонструє значний приріст порівняно з 1.5 у низці бенчмарків.
Порівняння Gemini 2.0 з попередниками. Дані: Google.
Компанія зменшила вартість виведення для Flash і Flash-Lite, встановивши її нижчою, ніж у Gemini 1.5 Flash, водночас підвищивши продуктивність.
Вартість виведення Gemini 2.0 Flash, Flash-Lite і Gemini 1.5 Flash. Дані: Google.
Хайп навколо дешевої та ефективної китайської ШІ-моделі DeepSeek-R1 викликав питання щодо доцільності мільярдних витрат на штучний інтелект. Почалися перегони за здешевлення нейромереж.
ШІ-модель, що міркує, за $50
У січні компанія NovaSky презентувала мислячу ШІ-модель із відкритим вихідним кодом Sky-T1, навчання якої обійшлося всього в $450.
Дослідники зі Стенфорда та Університету Вашингтона пішли далі та змогли навчити ШІ, який міркує, за менш ніж $50. Модель s1 демонструє схожі з o1 від OpenAI та R1 від DeepSeek результати в тестах. Вона доступна на GitHub разом із даними та кодом, який застосовувався для навчання.
Команда проєкту взяла за основу готову базову нейромережу і доопрацювала за допомогою дистиляції — процесу, за якого з іншої ШІ-моделі витягують здібності до «міркування» шляхом навчання на її відповідях.
В основі s1 лежить невелика безплатна ШІ-модель Qwen від Alibaba. Дослідники створили набір даних, що складається з 1000 ретельно підібраних запитань і відповідей на них із Gemini 2.0 Flash Thinking Experimental.
Навчання із застосуванням 16 графічних процесорів Nvidia H100 тривало менше ніж 30 хвилин.
Дистиляція етична?
Ідея запуску передових ШІ-моделей без мільйонних вкладень може здатися захоплюючою. Однак великі лабораторії, ймовірно, незадоволені таким підходом.
OpenAI звинуватила DeepSeek у неправомірному зборі даних зі свого API для дистиляції.
Розробники s1 прагнули знайти найпростіший спосіб досягти високої продуктивності. Для навчання застосували підхід Supervised Fine-Tuning (SFT), у рамках якого моделі дають вказівку наслідувати певну поведінку в наборі даних.
SFT дешевше за великомасштабне навчання з підкріпленням.
Google пропонує безоплатний доступ до Gemini 2.0 Flash Thinking Experimental на платформі Google AI Studio.
Великі інвестиції потрібні
Попри високий ажіотаж навколо дешевих нейромереж, техгіганти не поспішають знижувати обсяг інвестицій у навчання нових моделей.
Meta, Google і Microsoft мають намір зберегти мільярдні вливання в ШІ-інфраструктуру.
Дистиляція показала себе як хороший метод доопрацювання моделей, але вона не створює нові нейромережі, які здатні значно перевершити доступні сьогодні рішення.
Нагадаємо, 21 січня Дональд Трамп оголосив про інвестиції приватного сектора на суму $500 млрд в інфраструктуру штучного інтелекту.