К Новому году я сделал для сына нейро-книгу о нем и динозаврах!
Мне очень хотелось подарить моему трехлетнему сыну особенный подарок к Новому году, и я, заручившись поддержкой Nano Banana и Google Gemini, решился написать иллюстрированную детскую книгу о нем. Посмотрим же, что из этого вышло!
Немного вводных данных: нейросетями пользоваться я практически не умею, писать книги тоже (только щитлонгить на DTF), рисовать умею, но только томных девиц из видеоигр (и то сомнительного качества). Короче, я тот самый безрукий творец, которому для воплощения своей благой идеи была остро необходима помощь технологического прогресса. Плюс ко всему, я хотел создать именно книгу о своем сыне — о том, что он любит, о тех людях, которых он знает, и чтобы история была ему понятна и интересна. Так мне пришла в голову идея о "Яне и Мелодии Динозавров".
Я начал испытывать границы возможностей гугловского Gemini и Nano Banana. Сразу стоит уточнить: я использовал 30-дневную триал-версию Google Ai Pro — если что, не стесняйтесь, она доступна всем, кто ещё не успел ей воспользоваться. Pro-версия дала большее количество доступных генераций, которые мне очень пригодились, и, вдобавок, позволила немного поиграться с созданием видео (не очень успешно).
Но вернёмся к книге. Цель была такова: в основном от ИИ мне нужны были иллюстрации (12 штук на каждую «сцену», плюс обложка). Текст я планировал написать сам, поскольку, во-первых, мне все же хотелось сделать подарок от себя, а не целиком от нейросети, а во-вторых, ну до сих пор все ИИ-помощники пишут уж как-то очень бездушно и вылизанно. Но справедливости ради, даже с текстом ИИ мне немного помог — я попросил его разбить готовую историю на небольшие описания, по которым можно было бы создавать иллюстрации (чтобы он не мучился, пытаясь выделить из общего сюжета основные элементы и действующих лиц, а просто понимал, что именно ему нужно рисовать). То есть сюжет я придумывал и писал сам, но ИИ помог его кратенько адаптировать под создание иллюстрации. С этим он, к слову, справился на «отлично» — сразу понял, что нужно вытащить из текста и что можно показать на картинках.
А дальше последовал довольно изнурительный и долгий процесс создания иллюстраций. И вообще-то Nano Banana реально крут. Надо признать, что больше всего времени я потратил на то, чтобы разобраться с тем, как более-менее грамотно составлять промты, а затем просто «прокручивал» создаваемые варианты и что-то добавлял на них или убирал. В целом мне понравилось — уже сейчас это очень крутой инструмент, который хорошо понимает, что от него требуют, и может работать с деталями, а не только с полным изображением сразу. То есть теперь не нужно, как раньше, пересоздавать нужное изображение с нуля, как это было, к примеру, в ранних версиях Midjourney — если не нравится какая-то конкретная деталь картинки, можно стереть/изменить именно ее, не трогая остальную сцену. Вдобавок в Gemini есть прикольная фишка — Gems. Насколько я понял, она работает так: задаешь основной промт и основные характеристики того, что тебе нужно делать, прикрепляешь необходимые ресурсы и таким образом создаёшь своего обученного под конкретную задачу «бота». Это прям очень круто.
Но с созданием иллюстраций сразу всплыл один нюанс: с каждым последующим редактированием и переделкой исходника качество изображения будет снижаться - появляются шумы, размываются детали и картинка становится все более мыльной и грязной. Поэтому в идеале, работать нужно так, чтобы исходное изображение подвергалось редактуре не больше 2-3 раз.
Итак, в итоге с какими проблемами я столкнулся:
1. То самое падение качества при редактировании (частично спасал последующий прогон изображений через Topaz Gigapixel, увеличивающий разрешение картинок);
2. Ручками все равно пришлось работать много, в «Фотошопе» я правил каждое изображение, потому что мелкие детали всё ещё намного быстрее и проще отредактировать в нем, чем насиловать ИИ бесчисленными рероллами в попытках, к примеру, изменить цвет глаз. Так что совсем без навыков работы в графических и фоторедакторах, к сожалению, до сих пор не обойтись.
3. Лица. Очень тяжело было получить похожие стилизованные под рисунок лица так, чтобы они получились узнаваемыми, но при этом не выглядели так, словно я на скорую руку прифотошопил их к телу персонажа. Где-то мне так и не удалось получить достаточно хороший результат (поэтому лицо сына всё-таки немного меняется от картинки к картинке). Возможно, мне не хватило навыков в создании нормального промта (совсем не исключаю, что именно в этом и была загвоздка), но, возможно, всё-таки нейросетям пока достаточно тяжело передать черты лица и мимику реальных людей сильно стилизованным персонажам (особенно, если это не мегаизвестные голливудские селебы с кучей фоток в интернете, а никому не знакомые обычные люди).
4. По-хорошему, нужны навыки владения и другими нейросетями. У меня этих навыков, к сожалению, пока нет. Я никогда не работал ни в Stable Diffusion, ни в прочих более открытых нейросетях. Наверняка отдельные вещи намного проще было бы править и генерировать в них. Так что только Google и Nano Banana, только хардкор.
5. Я попытался немного поиграться с созданием анимации, но так как даже в PRO-версии доступны всего 3 попытки в день, ничего путного у меня так и не вышло. Нормально освоить Veo-3 с таким ограниченным количеством попыток у меня не получилось (возможно, опять же, дело в моих кривых промтах).
Что получилось круто:
- Многие помещения, в которых проходит сюжет книги — реальные комнаты нашей квартиры. Нейросеть отлично нарисовала окружение. Комната сына на иллюстрациях — это действительно его комната, вплоть до самых мелких деталей.
- Довольно милые и необычные персонажи. Хоть я и пожаловался на лица, но в целом мне очень понравилось, как Nano Banana справилась с проработкой образов нарисованных персонажей — они получились очень приятными и живыми.
- Здорово, что я смог воплотить всю идею, пользуясь лишь одним сервисом. Да, возможно, некоторые вещи нужно было реализовывать с помощью других, более подходящих, инструментов. Но круто, что у меня получилось собрать книгу полностью, используя только Google и Nano Banana (ну и Фотошоп).
- Отдельно хочется отметить простоту и доступность сервиса. Никаких регистраций в Discord или Telegram, реально выгодная и продолжительная trial-версия — в общем можно было сразу приступить к делу.
И вот, спустя много бессонных ночей, отказавшись от некоторых идей, которые были слишком трудны в воплощении, я всё же собрал книгу, которая мне искренне понравилась. Меня действительно радует, что в итоге получилось. Да, это всё ещё очень любительская вещь, в ней есть недочёты, которые исправить я просто не успел (все было закончено буквально вчера, а Новый год уже завтра), есть что-то, что можно было сделать лучше, но, знаете... Я сделал книгу! Для своего сына! И я правда в восторге, что у меня это получилось. Пусть она неидеальная, пусть даже не на 100% «моя», но это стоило мне определенного труда, многих нервов, и в целом я очень доволен результатом.
Отдельно хочется описать, как мне вообще работалось с ИИ и какие впечатления у меня от этого инструмента...
Это круто. Нет, правда, понимаете, в чем дело — мне очень жаль, что многим художникам, иллюстраторам, дизайнерам (лол, это я, кстати), музыкантам и прочим творческим личностям сейчас приходится адаптироваться, переживать о потере работы и прочее. Но, знаете, когда я задумал сделать книгу для сына, передо мной не стоял выбор — обратиться к профессиональному иллюстратору и писателю, либо заменить их ИИ. Передо мной стоял выбор — попытаться сделать книгу с помощью ИИ, или не делать ее вообще. И причина не в том, что мне жалко денег на работу художника.
Дело в масштабе и уровне запроса — никто не стал бы делать мне иллюстрации за бесценок и был бы абсолютно прав. Потому что тираж моей книги — 1 штука. Я бы ни за что не заплатил за нее больше нескольких тысяч (это типа 2000-3000 рублей максимум, потому что мне еще и напечатать ее за свой счёт надо), и ни один иллюстратор ни за что не согласился бы за такие копейки сделать мне 14 полноценных сюжетных иллюстраций. Поэтому у меня не было никакого выбора между ИИ и реальным художником — был выбор сделать с ИИ или не сделать вообще. И я думаю, что вот где оно — будущее ИИ для рядовых пользователей. Художники и прочие творцы просто будут востребованы там, где они реально нужны. А ИИ хорошо сработает там, где нужно что-то мелкое, индивидуальное, то, в чем настоящие профессионалы и так никогда не участвуют. Вы теперь можете слать просто офигенные цветастые картинки своим бабулям на Пасху! Или анимировать аватарки для DTF! Круто же!
И второй момент: лично я чувствую, что вложил в эту маленькую книжечку довольно много «себя». Да, я не рисовал иллюстрации вручную, но я писал сюжет, занимался концепцией, приводил это всё в общий вид, редактировал, контролировал процесс, напечатал всё в конце концов. То есть по сути на ИИ я свалил лишь одну задачу из многих. У меня сложилось впечатление, что я был не исполнителем, а скорее вел небольшой «проект». И это тоже интересный опыт. Мне нравится рисовать, но иллюстрации были бы лишь частью книги, а всё остальное — это тоже огромный кусок творчества. И мне понравилось.