Я заставил нейросеть слушать подкаст IXBT Games про Blizzard и провести факт-чекинг
Дисклеймер: если вы негативно относитесь к белорусским игровым журналистам или лично ко мне, то уберите свой палец с кнопки пожаловаться и покиньте данный блог. Для всех остальных я предлагаю считать данную статью шуточным, но полезным примером использования нейросетей.
Да, я грешен и опять смотрел ixbt, слушал их типичную "пургу" про Blizzard. Мне захотелось более формально проанализировать их подкаст на полезность, но делать это вручную... - нет, спасибо. Так как я "тыж программист" и китайская партия подарила мне свои мощные нейросети, то имеется возможность обойтись совсем небольшими силами и денежными вложениями, а в идеале можно обойтись совсем бесплатными инструментами.
Этап 1: получение звуковой дорожки с подкаста (до сих пор не понимаю, зачем они вообще вкладываются в видеопродакшен, их никто не смотрит, а слушают в фоне) - с этим прекрасно справилась утилита yt-dlp. Этап 1.5: транскрибация звуковой дорожки в файл csv с помощью бесплатного сервиса TurboScribe (в нём будут отмечены метки времени для анализа нейросетью). К сожалению, сервис не разделяет голоса подкастеров, но эти ребята "два сапога пара", так что мне плевать.
Этап 2: закидываем эти данные (csv файл) в китайскую нейросеть Kimi K2 и включаем в ней "агентский режим". Почему в неё? Потому что именно в ней так можно (самое большое контекстное окно на рынке - это значит вы можете загрузить в неё очень много данных) и китайская партия дарит 3 бесплатных запуска этого довольно ресурсозатратного мероприятия. В других нейросетях эта функция платная. Наверное что-то можно сделать через развёртывание локального агента, но этот эксперимент я оставлю на будущее.
Спустя 10 минут напряженной работы и запуска питоновских скриптов, которые на ходу придумывали агенты, был получен следующий немного обескураживающий результат:
Китайская бездушная машина посчитала подкаст в целом полезным (93% - в последствии она объяснила, что шутки, "вода" и необъективное мнение тоже добавлены в полезность с маркетинговой точки зрения), но в тоже время процент достоверных сведений в нём меньше 40%, а всё остальное по сути "вода", не несущее никакой полезной нагрузки и не являющиеся фактами. Больше всего там было субъективщины, которая никак не проверяется, но доносится авторами как факт. Так что, если вы приходите в их подкаст послушать свежие новости игровой индустрии, то вас кормят в среднем 40% достоверных сведений - не сказать, чтобы мы об этом не знали раньше.
Вот такой интересный эксперимент, работой нейросети в целом доволен: нейронка неплохо провела факт-чекинг по открытым ресурсам и СМИ, даже считывала белорусскую иронию и шутки. А слушать или не слушать этих чуваков с 40% полезной и достоверной информации - решать вам. Я же понимаю, что многие это делают не ради фактов.
P.S.: найс, кто-то из модераторов швырнул пост в шадоубан 👍