Придумывая упомянутый выше кубик, я задавался вопросом: какого размера должны быть «опасные» ...

19 июня 2025 г. в 15:43@expertnoemne
Придумывая упомянутый выше кубик, я задавался вопросом: какого размера должны быть «опасные» грани, чтобы их выпадение было с одной стороны довольно маловероятным, а с другой — не выглядело совсем уж невозможным. Как наличие взрывного устройства в оставленном кем-то на перроне бесхозном чемодане.

Иначе говоря — как зависит вероятность выпадения грани «⚠️» от того, какого размера мы её сделаем?

Задача эта интересна тем, что точный ответ требует довольно мудрёных расчетов, но более-менее рабочую формулу в первом приближении вывести довольно просто. А главное — ни формулировка, ни тем более решение этой задачи никогда не встречались в открытых источниках и точно не участвовали в обучении какой-либо большой языковой модели.

А значит, эта задача поможет нам устроить беспристрастный единый государственный экзамен для чат-ботов с искусственным интеллектом!🤓

Конкурсантов у нас под рукой оказалось пять: ChatGPT, GigaChat, Grok, DeepSeek и YandexGPT.

Итак, в изначально пустом чате с каждым чат-ботом мы изучаем его ответ на один и тот же промпт:

В правильном кубе ABCDA1B1C1D1 из однородного твёрдого материала, где AC1 - диагональ куба, а все рёбра равны 1, провели сечение, отложив от точки A равные отрезки длиной x (x

Никто не спасовал. По рассуждениям понятно, что понял условие каждый, и каждый как будто бы выдал результаты в виде решения поставленной задачи. Но:

😫 YandexGPT — единственный из всех налажал везде, даже в элементарных вычислениях. Неуд.

😖 GigaChat — тоже ошибки с самого начала. Похвалить можно разве что за то, что неверность ответа очевидна, сразу бросается в глаза и не вводит в заблуждение. Неуд.

😒
Grok, ChatGPT (настройки по умолчанию) — не смогли определиться с формами граней. Отсюда неверные решения даже в первом приближении. Неуд.

🥉 Grok (опция "DeeperSearch") — решил ограничиться пространными рассуждениями (в общем, довольно разумными), но формулу выводить отказался. Неуд.

🥈 DeepSeek (опция "глубокое мышление") — внезапно единственный предпринял попытку прийти к совсем правильному решению, но в последний момент что-то пошло не так, и получилось совсем мимо. Неуд.

🥇 ChatGPT (опция "глубокое исследование") — нууу, норм. Решение в общем случае тоже неверное, но для грубой оценки годится. «На фоне этих убожеств я ставлю вам три».

Зато как красиво отвечают: с рассуждениями, пояснениями, формулами... и всё мимо. Хотя качество рассуждений, надо признать, довольно сильно различается: наводящими вопросами даже удалось дотолкать двух последних упомянутых собеседников до совсем приемлемого решения.

На основании этого и ряда других экспериментов, могу заключить, что до самостоятельного решения настоящих, взрослых инженерных задач (а эта, если что, совсем детская) всем этим зверушкам ещё довольно далеко. Если, конечно, эти задачи не сводятся к изобретению очередного всем известного и тщательно документированного велосипеда.

Время публикации

19 июня 2025 г. в 15:43

Комментарии