В декабре Openai утверждал, что модель O3 AI набрала 25 процентов в FrontierMath, на основе внутреннего тестирования. src=”https://i.gadgets360cdn.com/large/chatgpt_unsplash2_1733300707821.jpg?downsize=950:*” alt=”OpenAI’s o3 AI Model Falls Short of Benchmark Claims in FrontierMath Test”/>
OpenAI told ARC Приз, что выпущенная модель O3 отличается от той, что проверяется организацией
реклама
Модель Operai's O3 Artificial Intelligence (AI), которая была выпущена на прошлой неделе, неэффективна по конкретному эталону. Epoch AI, компания, стоящая за эталоном FrontierMath, подчеркнула, что общедоступная версия модели O3 AI набрала 10 процентов на тесте, что гораздо меньше, чем претензия компании при запуске. Главный исследовательский директор компании AI, базирующейся в Сан-Франциско, Марк Чен, заявил, что модель набрала 25 процентов в тесте, создав новый рекорд. Тем не менее, расхождение не означает, что Openai солгал о метрике.
Operai's O3 Model Model на 10 процентов на Frontiermath
В декабре 2024 года Openai провел прямую трансляцию на YouTube и других социальных сетях, объявив о модели O3 AI. В то время компания подчеркнула улучшенный набор возможностей в модели большого языка (LLM), в частности, ее улучшенная производительность в запросах на основе рассуждений.
Одним из способов, которыми компания иллюстрировала утверждение, было разделение баллов модели в разных популярных тестах. Одним из этих тестов была Frontiermath, созданная Epoch AI. Математический тест известен тем, что является сложным и защищенным от подделки, так как более 70 математиков разработали тест, а проблемы-все новые и неопубликованы. Примечательно, что до декабря ни одна модель ИИ не решила более девяти процентов вопросов за одну попытку.
Однако во время запуска Чен утверждал, что O3 смог установить новый рекорд, набрав 25 процентов в тесте. Внешняя проверка производительности была невозможна в то время, так как модель не была доступна в общественном доступе. После того, как O3 и O4-Mini были запущены на прошлой неделе, Epoch AI сделал сообщение о X (ранее известном как Twitter), утверждая, что модель O3, фактически, набрала 10 процентов в тесте. Пост привел к тому, что несколько энтузиастов ИИ рассказывают о достоверности баллов.
Расхождение не означает, что Openai солгал о производительности своей модели ИИ. Вместо этого невыпущенная модель фирмы ИИ, вероятно, использовала более высокий вычислитель, чтобы получить этот балл. Тем не менее, коммерческая версия модели, вероятно, была настраивана в более эффективной мощности, и в этом процессе некоторые из ее производительности были смягчены. Пост подтвердил: «Выпущенный O3 – отличная модель, чем то, что мы протестировали в декабре 2024 года». Компания утверждала, что выпущенные вычислительные уровни модели O3 меньше, чем проверка версия. Тем не менее, это подтвердило, что O3 не был обучен данным ARC-AGI, даже на стадии предварительного обучения. Компания также повторно испытает модель O4-Mini и пометит предыдущие результаты как «Предварительный просмотр». Не уверен, что выпущенная версия O3 также будет недооценена на этом тесте.