OpenAI представила новую языковую модель ChatGPT o1, которая умеет мыслить как человек и решать логические задачи, разбивая сложные проблемы на более простые шаги, анализируя различные подходы и исправляя ошибки. По данным 3DNews и Gazeta.ru, модель o1 демонстрирует впечатляющие результаты в тестах и соревнованиях, сопоставимые с достижениями экспертов. В области программирования o1 заняла 49-е место на Международной олимпиаде по информатике (IOI) 2024 года и обошла 89% участников на платформе Codeforces. В математике она вошла в число 500 лучших студентов США на квалификационном этапе Американской математической олимпиады (AIME).

Модель также превосходит результаты докторов и кандидатов наук в тесте GPQA diamond, который оценивает знания в химии, физике и биологии. Хотя это не означает абсолютного превосходства над любыми учеными, оно демонстрирует способность модели решать задачи на уровне высококвалифицированных специалистов.

ChatGPT o1 обошла предыдущие модели по тестам интеллекта и решению задач, таким как MMMU и MMLU. По данным OpenAI, o1 значительно опережает GPT-4o в задачах, связанных с логическим мышлением, решая в среднем 83% задач на тестах AIME, тогда как GPT-4o справляется только с 13%.

Кроме того, модель o1 меньше подвержена галлюцинациям по сравнению с GPT-4o, хотя она работает медленнее и требует более высоких затрат на обслуживание. Она уступает GPT-4o в области энциклопедических знаний и не может обрабатывать веб-страницы, файлы и изображения. Также модель может подгонять решения под нужные результаты.

Успех модели объясняется новым алгоритмом обучения «цепочка мыслей», который помогает o1 улучшать результаты, исправляя ошибки и пробуя различные подходы. OpenAI уже выпустила предварительную версию модели o1-preview, доступную через ChatGPT и API для разработчиков. Стоимость использования o1-preview составляет $15 за 1 миллион входных токенов и $60 за 1 миллион выходных токенов, в то время как GPT-4o стоит $5 и $15 соответственно.

От MyNews

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *