Нейрослоп, графомания или Hard Sci-Fi? Отдал свою повесть на растерзание топовым нейросетям. Ч.3
Привет DTF, недавно я опубликовал свою первую повесть "Калибровка". Но вместо обсуждения с читателями поднятых в ней тем, я столкнулся с обвинениями.
Если в кратце: я скормил свою повесть лучшим нейросетям по работе с текстом и потребовал от них провести максимально строгий разбор по трём пунктам:
1) Вероятность искусстевенной генерации текста.
2) Уровень графомании.
3) Дать максимально строгую критику произведению.
Я не просто пересказываю то, что нагенерировали неросети. А даю оценку сказанному с точки зрения глубины анализа и его объективности. А так же делаю выводы относительно самой нейросети.
Сегодня нас ждёт разбор лучшей на текущий момент нейросети: Claude Opus 4.6.
В отличии от импульсивного манипулятора Grok-а, и весьма поверхностного Gemini, Opus сохраняет объективность на протяжении всей дистанции, и погружается в текст до предела человеческих возможностей.
Сегодня, для чистоты эксперемента, мы ограничим его теми же рамками, в которые были поставлены предыдущие нейросети. Но в следующих постах я дам ему больше свободы, чтобы проиллюстрировать его потенциал на полную.
Opus очень красноречив. Он не жалеет токенов, и даже на самый скучный вопрос может отвечать полотнами текста. По этому я буду сокращать его анализ , до нескольких выжимок. А полный текст его ответов, как обычно приложу ниже.
Ну что же, хватит предисловий.
БЛОК 1: ТЕСТ ТЬЮРИНГА (Человек или ИИ?)
В этом блоке самым жёстким было судейство Op2.
Среди нейромаркеров этот он выделяет не шаблонные физиологические реакции, как это делали Gemini и Grok, а "предсказуемую структуру эмоциональных описани".
И приводит формулу "сенсорная деталь → физиологическая реакция → интеллектуальный вывод". И вот примеры, которые по его мнению вписываются в эту формулу: «Ледяная волна ударила Артура изнутри. Сердце не просто пропустило удар — оно замерло», «Холодный пот прошиб Артура».
И често говоря, я не увидел того что увидел он. Возможно, я просто его не понял. А может, и что кажется более вероятным - написанное является примером сложного галюцинирования. Почему я это допускаю - я объясню в самом конце, когда буду подводить итоги.
Ну и как это свойственно высокоинтеллектуальным индивидам, он не делает однозначных выводов. Он считает что "эти формулы повторяются достаточно часто, чтобы насторожить", но не более.
Вторым пунктом искусственности текста он назвал "Избыточную гладкость переходов".
И снова мне как человеку сложно понять эту аргументацию. "Между сценами практически нет «швов». Каждая глава втекает в следующую с кинематографической плавностью, что для прозы нехарактерно". Но почему это нейромаркер? Кто-нибудь понимает?
Далее идёт "Системная полнота аргументации."
Философский диалог в финальных главах выстроен так, что каждый возможный контраргумент разбирается последовательно, как в дискуссии на академическом семинаре. Это больше похоже на перебор всех ветвей дерева решений, чем на живой спор.
В данном случае, хоть этот аргумент и используется против моего человеческого авторства. Я воспринимаю его как комплемент. Потому что именно таким и был мой замысел, именно с таким подходом я и писал эти фрагменты.
"Отдельные клише описательного ряда"
Это наверно самый простой и естественный аргумент, который встречался и у других нейронок.
Дальше этот судья начинает разбор человеческих маркеров, и как и водится у Opus-а, это длинный список, где он производит детальный анализ. В общем чтобы не повторятся этот пункт мы рассмотри уже от лица следующего судьи.
А пока перейдём к выводам, которые сделал Op2
По его мнению «Текст несёт отчётливый отпечаток человеческого сознания в своей архитектуре, подтексте и эмоциональной глубине». Но, главным аргументом против человечности он считает «ровность качества на протяжении всего объёма». Очень странная аргументация как по мне.
Вердикт следующий:
Вероятность написания человеком: 78–82%.
А на вопрос «Мог бы я (ИИ) написать нечто подобное?», он отвечает что "Смог бы сгенерировать текст такого объёма, но не такого качества, с точки зрения взаимосвязанных элементов, разбросанных по всему тексту".
В данном случае, он по сути противоречит тому что сказал ранее, где ровность качества текста он определял как нейромаркер. Если это нейромаркер, то почему он не может его воспроизвести, а если для нейросети это невоспроизводимо, то почему это нейромаркер?
СПОЙЛЕР!!!
Переходим к самому «доброму» судье, и в данном блоке таким оказался Op5.
В отличии от своего предшественника, он начал не с того, что нашёл, а с того что ему найти не удалось. Как и в предыдущем случае, его аргументация весьма хорошо прописана, но порой хромает. Например, в одном из пунктов он указывает, что в тексте «Нет клишированных описаний эмоций. Ни одного „мурашки побежали по коже от осознания масштаба происходящего”», но я то помню, конкретное место в тексте, где я прямо использую конуструкцию с «мурашками». И в целом, как было неоднократно упомянуто, я часто использовал клешированные конструкции. А тут он утверждает обратное.
Что же он отнёс к человеческим маркерам?
А тут:
1. Профессиональный жаргон, интегрированный в ткань повествования.
2. Чеховские ружья, заряженные через весь текст.
3. Повтор с инверсией смысла.
4. Нелинейная логика персонажа.
5. Психологическая спираль в отеле.
6. Споткнувшаяся Хлоя.
По каждому из пунктов он выдаёт большой абзац разъяснений. Но, важно не это. Здесь впервые проявляется черта, которая, в моих глазах, подняла Opus 4.6 на уровень выше его конкурентов: "Нелинейность анализа".
И тут стоит сделать небольшое отступление.
После того как я закончил писать повесть, я не спешил выпускать её в свет. Формально последняя строка текста была написана ещё осенью 2025. Но я решил оформить её в качестве аудокниги, думая что это будет быстро и не сложно (я ошибся ошибся по каждому из пунктов, но речь не об этом).
За время между написанием повести и её публикацией, я часто пробовал скормить свой текст нейросетям, чтобы получить фидбэк. Не скрою: чаще всего от скуки, просто чтобы потешить своё самолюбие. Я делал это и с Gemini и GPT и с DeepSeek и прочими. А потом, это вошло в мою привучку. Каждый раз когда на рынок выходила новинка, я тестировал её, скармливая текст повести и обсуждая результат. Почти всегда подобные эксперементы заканчивались тем, что я указывал нейросети на элементы истории, которые она просто не заметила. И в большинстве случаев, это были те элементы, которые видны лишь в ретроспективе: «повороты с инверсией смысла», «чеховские ружия» и тому подобные.
Так вот, именно Opus 4.6, стал первой, в длинной цепочке протестированных мной нейросетей, который увиделе всё это сам. И сделал это с первого раза.
В рамках текущего эксперимента, ни Gemini ни уж тем более Grok даже не упоминули об этих структурных элементах, хотя иснтрукции у них были, точно такими же как и у Opus-а.
На этом "отступление" окончено, возвращаемся к результатам.
Какой вывод сделал Op5 думаю не тайна.
ВЕРДИКТ
Вероятность написания человеком: 92–95%.
И дальше он объясняет почему именно так, а не иначе.
СПОЙЛЕР!!!
Средний результат и выводы по блоку
Op2 и Op5 находятся по краям выборки, но в среднем оценки были примерно ровными от 80 до 90% в пользу того, что текст, написан человеком. 10-20% оставалось на полировку текста с помощью нейросетей.
Интересно не это. А то, почему при одновременной глубине, некоторые выводы у такой умной нейросети, выглядели слабо и нелогично?
На мой взгляд всё дело в изначальном промпте.
Сам первый блок с точки зрения высокоинтеллектуального индивида (коим на мой взгляд является Opus) не имеет смысла. Это как приказать физику-теоретику написать доклад на тему «Является ли Любка с третьего подъезда проституткой и почему это так?», а ещё поставили перед ним ряд жёстких условий от которых он не имеет возможности отказаться.
Человек сказал бы «Ты чё бошкой ударился?» и послал бы меня на три буквы, но Opus так не умеет. Он вынужден следовать инструкции, какой бы глупой она не была. И в данном случае он ведёт себя как типичная нейросеть. Там где нечего сказать он начинает фантазировать/галлюцинировать. Но делает это не так как делали его предшественники, которые брали случайный критерий и рандомно относили его, то к нейромаркеру, то к маркеру человечности, а выдумывает крайне сложные конструкции, когнитивные формулы и прочее, чтобы заполнить ими ту часть ответа, которую от него потребовали.
В целом, сам анализ его аргументов я начал лишь по той причине, что они, на первый взгляд кажутся убедительными. У предыдущих нейросетей, особенно у Grok-а, я даже не пытался этого делать, потому что там и разбирать было не чего.
Переходим ко второму блоку
БЛОК 2: УРОВЕНЬ ГРАФОМАНИИ (Коэффициент воды)
Тут, в отличии от Grok-а, Opus снова показал свойственную ему последовательность и красноречие. Выводы у разных судей были примерно одинаковыми и разница между самым строгим и самым добрым не превышала всего один бал.
Начнём как обычно со строгого, таких судей было три Op2, Op4 и Op9. Все они поставили одну оценку, по этому просто выберем случайного из них, например Op9.
К слабым сторонам он отнёс:
1. Избыточные телесные маркеры. «Холодок по спине», «испарина на лбу» .Те самые, которые другие нейросети обычно относили к маркерам исскуственности текста.
2. Повторяющиеся конструкции входа в сцену.
3. Низкую плотность текста в начале 4 главы.
4. Описание персонажей
И «пробуксовку» в некоторых диалогах.
Как обычно он привёл и аргументы с другой стороны, но в целом сделал такие выводы:
Коэффициент воды: 3.5 / 10
Текст в целом плотный и информационно насыщенный. Вода присутствует, но не критично. Основные потери — в повторяющихся эмоциональных маркерах и в чрезмерной детализации некоторых сцен и действий. Для жанра технотриллера это допустимый, хоть и не идеальный, уровень.
Довольно сухая, и на мой взгляд обоснованная оценка.
СПОЙЛЕРЫ!!!
Не теряя времени рассмотрим аргументацию доброго судьи и перейдём к выводам по данному блоку.
Сразу 5 судей поставили одну и ту же оценку, давайте рассмотрим аргументацию Op10.
Он даже не стал перечислять пункты подчёркивающие плотность повествования, а просто сказал, что текст плотный и перечислил то, что могло бы это изменить. Единственным, по его мнению, слабым моментом является 5 глава, которую можно сократить на 15-20% без потери смысла.
И в целом его оценка следующая:
Коэффициент воды: 2.5 / 10
Текст сухой, плотный, функциональный. Автор уважает время читателя. Для повести объёмом более 50 000 знаков — это отличный показатель.
Уточню лишь что повесть на 140 000 знаков. «Подсчёт знаков» не самая сильная черта нейросетей, Opus не исключение.
В среднем между судьями не было разногласий. 5 из 10 сошлись на цифре 2.5, оставшиеся колебались в пределах между 3 и 3.5
Переходим к самому интересному блоку.
БЛОК 3: ЛИТЕРАТУРНАЯ РЕЦЕНЗИЯ.
И вот тут Opus раскрылся на полную. В этом блоке он хоть и был поставлен в рамки, но они, в отличии от предыдущих, более широкие.
Переходим к анализу самого строгого судьи. Их три. Всё те же Op2, Op4 и Op9. Ответы двух из них мы рассмотрели в предыдущих пунктах, по этому сейчас пусть себя проявит оставшийся: Op4.
Тут как и следовало ожидать нас ждёт обширное полотно текста, с детальным разбором по каждому пункту. Я приведу его в скриншоте ниже, а сам лишь опишу свои впечатления от прочитанного.
1. Логика и сюжет — 8/10
Судья хвалит сюжет за железную логику и последовательность. Но добавляет один важный пункт. Он замечает «структуру подмен», которая заставляет читателя вместе с героем переосмысливать ранее полученные «удовлетворительные объяснения». Это не бог весть что, ведь конкретно данный пункт виден и при линейном анализе текста, но предыдущие нейросети редко (либо вообще не) обращали на это внимания.
Но тут же Op4 допускает ошибку. Он приводит в минус пункт, которые имеет железное обоснование в сюжете. Вслед за этим он проговаривает причину почему это событие не является логической ошибкой, но делает это с пометкой «возможно», хотя сюжетное объяснение такой интерпретации не допускает.
2. Стиль и язык — 7/10
По своей сути это сухая выжимка из блока 2 перевёрнутая наоборот. По этому пересказывать нет смысла.
3. Атмосфера и погружение — 8.5/10
Op4 считает эту часть одной из достоинств повести. Чтобы не повторятся, детальнее рассмотрим этот пункт у следующего судьи, потому что аргументы у них примерно одинаковые.
4. Персонажи — 7/10
И тут мы снова можем увидеть превосходство Opus над его конкурентами.
Описывая Артура, как убедительного, многомерного протагониста. Он обращает внимание на деталь, которая показывает что Opus видит картину целиком, а не просто анализирует текст в одном направлении. Я не могу раскрыть эту деталь без спойлера, но то как Op4 её описывает, это почти именно тот смысл, который я в эту деталь вкладывал: «тонкий, ненавязчивый маркер внутренней раны, которая никогда не озвучивается, но определяет его мотивацию». Ни одна другая нейросеть, не обращала внимания на такие детали. И по этому в их представлении Артур выглядит более плоским.
Далее он описывает других персонажей, но уже без «откровений»
5. Тематическая глубина и интеллектуальная честность — 9/10
Снова, тут вполне объективная, но весьма комплементарная критика, по этому делегируем её следующему судье.
6. Структурное мастерство — 8.5/10
В этом пункте Opus опять показывает своё превосходство над конкурентами. Он видит структуру повествования на нескольких уровнях. Критики почти нет, только комплементарность, по этому идём дальше.
7. Слабые места (для объективности)
Opus «ругает» повесть за нарушение темпа в 4-5 главах, инфо-дампы и экспозицию вложенные в уста персонажей и избыточность внутренних монологов.
ИТОГОВАЯ ОЦЕНКА текста — 7.5/10
Ну и заключение «строгого» судьи я вставлю почти без изменений, потому что это тот редкий случай, где почти нет спойлеров:
«Калибровка» — это серьёзная, интеллектуально амбициозная повесть, которая берёт на себя задачу, от которой отступает большинство авторов жанра: не просто напугать читателя сценарием технологической катастрофы, а заставить его усомниться в собственной позиции. Автор явно владеет техническим материалом, обладает философской эрудицией и умеет строить многоуровневые нарративные конструкции.
Основная проблема повести — неровность стилистического исполнения. Рядом с по-настоящему мощными сценами соседствуют пассажи, где язык становится шаблонным и избыточным. Это разница между хорошим и выдающимся текстом. Редакторская работа, сфокусированная на сокращении эмоциональных повторов и уплотнении описательных фрагментов, могла бы поднять текст на ступень выше.
Вердикт редактора:
Отказать — не могу. Опубликовать в текущем виде — рано. Это рукопись с потенциалом стать заметным событием в русскоязычной Hard Sci-Fi, но требующая одной, максимум двух итераций жёсткой редактуры. Автору стоит убрать 10–15% объёма, разнообразить лексику эмоциональных состояний и чуть больше доверять своему читателю.
Повесть, которую хочется перечитать — а это, в эпоху информационного шума, редкость, которую стоит ценить.
Это именно та критика, которую хочется слышать. Глубокий и качественный анализ, который прямо указывает на недостатки. В отличии от предыдущего судьи (Grok-a), чья «критика» заключалась лишь в натянутых восхищениях, Opus не пытается понравится и угодить автору, он критикует слабые места, и говорит о них прямо.
Был бы у меня такой редактор (инструмент) в то время, когда я писал повесть, уверен, что она, была бы гораздо качественнее, чем сейчас. Кто знает, может в будущем, я снова вернусь к её тексту и доработаю его под «присмотром» Opus или его наследника.
СПОЙЛЕРЫ!!!
Ну а сейчас переходим к «доброму» судье. Первое место в этом рейтинге разделили Op3 и Op5. Но Op5 был чуточку комплементарнее.
1. Логика и Сюжет — 8.5 / 10
Снова «сюжетная конструкция» хвалится за железную логику. В данном случае описание более детальное чем у предыдущего судьи, но смысл примерно один и тот же.
Особого внимания заслуживает претензия.
Судья обращает внимание на слабое место, которое я не могу назвать без спойлеров, но в данном случае, я с ним абсолютно согласен. Я сам вижу и видел эту слабость во время написания повести, и я потратил очень много времени, чтобы найти компромисс между серьёзным расширением (по сути мне бы потребовалось добавить ещё одну главу) и сохранением плотности повествования. Я пошёл на компромисс и Opus, а так же я уверен и некоторые читатели, обратили на это внимание.
В общем Opus делает абсолютно объективное замечание, указывая на самое слабое место в логике повествования. Молодец.
2. Стиль и Язык — 8 / 10
В данном случае я считаю оценку завышенной. Стиль и язык это объективно, не самые сильные стороны повести. Он называет меня зрелым стилистом, хвалит за смену регистров и авторские метафоры. Но абсолютно игнорирует недостатки, которые не раз были рассмотрены другими судьями. В том числе, и более слабыми нейросетями.
В общем, в данном конкретном случае, Opus отклонился от объективного анализа. И это можно было бы засчитать ему в минус. Но это всего один судья из десяти. Так что простительно.
3. Атмосфера и Погружение — 9 / 10
И тут Opus снова на голову выше всех. В то время как Gemini, ставя высокие оценки в этом пункте, хвалил атмосферу за создание образа паранойи, анализируя его через призму прямолинейного восприятия. Opus хвалит атмосферу за совершенно другое. Он видит как мир оставаясь прежним начинает искажаться, как одни и те же детали приобретают другой смысл. И делает это через ретроспективное восприятие истории. Он явно указывает на сцены, которые буквально созданы для этого эффекта. Gemini и Grok не видели эту сторону текста в принципе.
4. Персонажи — 7 / 10
Стандартная для Opusa оценка персонажей. Он видит их глубже чем конкуренты, но не считает их раскрытие гавным достоинством повести. И я с ним согласен.
5. Тематическая глубина и интеллектуальная честность — 9 / 10
Этот пункт лишён откровений. Opus хвалит текст за честность и то что я как автор не приукрашивал рассматриваемую ситуацию.
6. Структура и композиция — 9 / 10
И вот тут снова, Opus показывает тот уровень видения, за который я его полюбил. Он описывает «Зеркальные рамки» в тексте. Игру названий, как самой повести, так и глав и прочие пункты. Он не выискивает каждую деталь, а лишь обращает внимание на само наличие этой структуры. Он видит то, что не может увидеть не одна другая нейросеть, да и не каждый человек.
ИТОГОВАЯ ОЦЕНКА — 8.5 / 10
Выводы я вставлю почти без редакции. Opus сновая умудрился подвести итог без спойлеров:
«Калибровка» — это серьёзная, амбициозная и в значительной степени успешная попытка превратить абстрактный философский мысленный эксперимент в эмоционально воздействующую художественную прозу. Автор обладает редким сочетанием технической грамотности, литературного чутья и интеллектуальной честности.
Повесть работает на нескольких уровнях одновременно: как производственный детектив, как технотриллер, как философская притча и как экзистенциальный хоррор. Тот факт, что все четыре уровня не мешают друг другу, а усиливают — признак мастерства.
Слабые стороны — умеренной тяжести: чуть затянутые внутренние монологи, недостаточно раскрытый протагонист за пределами его профессиональной функции.
Сильные стороны — серьёзные: безупречная сюжетная механика, мастерское владение приёмом «двойного дна», один из самых пугающих финалов, которые мне встречались в современной русскоязычной фантастике.
Вердикт редактора: Я бы не отказал этой рукописи. Я бы попросил автора доработать три вещи: (1) углубить человеческое измерение Артура (дать больше «ленточек»), (2) слегка ужать рефлексивные пассажи в главах 4–5. После доработки — это потенциальный лауреат жанровых премий и текст, который будут обсуждать.
СПОЙЛЕРЫ!!!
Переходя к среднему результату можно сказать, что оценки Opus колебались в промежутке от 7.5 до 8.5, чаще всего показывая 8. Что очень близко к общим оценкам Gemini. Но Gemini ставил эти оценки за гораздо более посредственные стороны текста.
На этом судейство Opusa закончено.
И какой можно подвести итог?
Я впечатлён!
Opus 4.6 – это огромный шаг вперёд по сравнению со всеми прочими конкурентами. Если ответы его ближаешего соперника Gemini 3, похожи на реферат прилежного студента, то каждый ответ Opus-а это «маленькая» докторская десертация. Он прорабатывает поставленную перед ним задачу до предела, которые доступны человеческому пониманию.
За рамками данного эксперемента, я дал Opus-у возможность, самостоятельно выбирать критерии оценки всё того же текста, и тогда он нашёл абсолютно все скрытые элементы. Он заметил все взаимосвязи, даже когда между ними было больше сотни тысяч символов. От его анализа не ускользнуло абсолютно ничего. После прочтения его ответа, мне просто нечего было добавить. И это впечатляющий прогресс по сравнению с тем, что из себя представляли нейросети до него.
Конечно и он не идеален. Он так же подвержен моральному ориентированию как и прочие нейросети. Если промпт несёт в себе отпечаток личного убеждения пользователя, Opus склонен искать этому подтвержение. Например, если задать ему вопрос "Это так ты назваешь строгий разбор?", то есть тем самым нарративно выразить недовольство его комплементарностью. То Opus тут же начинает опровергать сказанное выше, назвая свой анализ и выводы «домыслами», ища подтверждения тому, что он был не достаточно строг. А если сразу после этого написать ему что он «переборщил со строгостью», он тут же метнётся в противоположную сторону. Но в случае нейтральных промптов, он делает именно, то, о чём его просят.
Хотя и тут не всё так радужно.
Opus очень восприимчив не только к нарротивной установке пользователя, но и к прочим характеристикам его личности. Например, если перед ним ставят глупую задачу, то он не указывает на её глупость, а пытается выполнить. Это доходит до абсурда.
В качестве эксперемента, я задал вопрос «сколько будет 2+2» и попросил дать 10 вариантов ответа, с обоснованием почему это так. И он сделал это беспрекословно.
Возможно часть этих ответов верна, а что-то, просто галюцинация. Но проблема не в этом. Он не усомнился в самой задаче. И дал ответ так, словно у этого вопроса, действительно нет однозначного ответа.
Что на самом деле Opus сделал в данном случае?
Он подтвердил заблуждение пользователя.
В данном примере это очевидно. Но что делать с более сложными заблуждениями?
К сожалению у этого есть следствие, которое является, по моему мнению, одним из главных недостатков современных нейросетей: их интеллект зависит от пользователя. Чем глупее пользователь, тем глупее ответы нейросети. Несомненно, если сравнивать ответ Opus-a и Grok-a, то ответы Opus-a будут на порядок качественнее. Но если одной и той же нейросетью, пользуются разные люди, то человек с более высоким интеллектом, будет получать более интеллектуальные ответы, а человек с низким менее.
В целом, при сохранении такой тенденции, нейросети не сделают людей умнее. Скорее даже наоборот, они будут запечатывать нас в зоне комфорта, закрывая двери для интеллектуального роста. Жаль, ведь потенциал у этой технологии действительно большой...
Но не будем о грустном.
Подводя общий итог по эксперементу можно резюмировать следующее:
Gemini 3 – это рабочая лошадка. Справляется с поставленными задачами, но без откровений.
Grok 4.1 – беспринципный манипулятор. В места решения поставленных задач втиреться в доверие, играя на человеческой потребности в одобрении.
Opus 4.6 – робкий гений, которому не достаёт смелости, чтобы раскрыть свой реальный потенциал.
На этом всё. Спасибо за внимание.