ШІ-модель s1 перевершила OpenAI у математиці

07.02.2025 15:47

214

Дослідники зі Стенфорда та Університету Вашингтона представили модель штучного інтелекту s1, яка, використовуючи всього 1000 навчальних запитань, перевершила OpenAI у математичних тестах, доводячи ефективність компактного навчання нейромереж.

Метод дистиляції, застосований у s1, дозволив моделі вчитися на відповідях більш потужних ШІ-систем, значно скорочуючи обсяги необхідних обчислень. Дослідники взяли за основу відкритий проєкт Qwen2.5 від Alibaba, проте зменшили навчальний набір до 1000 завдань, що дозволило досягти високої ефективності всього на 16 графічних процесорах Nvidia H100. Це підтверджує, що успішне навчання ШІ не обов’язково потребує тисяч GPU та мільярдних вкладень.

Інноваційною особливістю моделі стала техніка «масштабування часу тестування», яка дала змогу s1 перевіряти свої міркування перед генерацією відповіді. Використання команди “Wait” дозволяло моделі повторно аналізувати свої рішення та виправляти помилки, що значно підвищувало точність розв’язання математичних задач. Як результат, у тестах s1 продемонструвала на 27% кращі результати, ніж OpenAI o1-preview, і наблизилася до продуктивності моделі R1 від DeepSeek.

Поява компактних, високоефективних ШІ може змінити ринок, оскільки дозволяє зменшити витрати на навчання нейромереж та робить їх доступнішими для широкого кола компаній. Проте така тенденція вже викликає суперечки: OpenAI звинуватила розробників R1 у порушенні умов використання, а Google заборонила застосування API Gemini у конкурентних проєктах. Подальший розвиток цієї технології може призвести до значних змін у сфері штучного інтелекту, що підтверджують публікації у бібліотеці препринтів arXiv.

cikavosti.com