Главная / Новости Новосибирска / Нейросеть смоделировала интервью с Уинстоном Черчиллем

Нейросеть смоделировала интервью с Уинстоном Черчиллем

Нейросеть смоделировала интервью с Уинстоном Черчиллем Заложенная в его базе технология — следующий этап развития поисковых систем.

«МегаФон» не первый год использует работающих на основе нейронных сетей ботов в решениях для бизнеса. Они помогают улучшить внутренние процессы и освобождают сотрудников от рутинной работы. Первое такое решение «МегаФон» разработал в партнерстве с компанией Nlogic. Пилотную версию бота-юриста LegalApe организации публично продемонстрировали на Петербургском международном юридическом форуме в 2018 году. Проектная команда тренировала его несколько месяцев: учила на информации из книг, судебных разбирательств и в ходе практических тренировок. На форуме LegalApe состязался в мастерстве с реальным юристом Романом Бевзенко. Автомашина проиграла человеку со счетом 178 против 243 очков, но все же ей удалось эффектно выступить и зарекомендовать себя.

В 2020 году «МегаФон» выпустил сервис «Цифровой юрист» с набором решений для автоматизации рутинной работы. В его базе — уже натренированная нейросеть вместе с технологией оптического распознавания символов. Работает все ровно так же, как и любой чат-бот. Человек пишет: «Желаю договор на поставку диванов от компании Икс к 31 декабря 2021 года в количестве 20 штук с бюджетом 100 000 рублей и предоплатой 20%». Бот берет информацию из запроса, дополняет данными из корпоративной базы поставщиков и в ответ присылает готовый черновик контракта, который иногда даже не нужно корректировать. В результате на ранее занимавшую, как минимум, полчаса операцию уходят не более 2-5 минут.

— Когда мы услышали про идею об экспресс-интервью с Уинстоном Черчиллем, мы поняли, что можем ее реализовать, опираясь на наш опыт работы с нейронными сетями, — гласит директор по правовым вопросам «МегаФона переносное устройство для звукоусиления, использующее рупор, для удобства использования оснащённое рукояткой» Сергей Переверзев. — И «юридический баттл», и бот для составления договоров, и интервью с исторической личностью в собственной основе, несмотря на разные задачи, похожи. Все три проекта опираются на семантический поисковик, настроенный на работу может означать: Работа — это выполнение действий во времени и пространстве с применением силы в определенной теме. Бот-юрист обучен на юридической литературе, бот для составления договоров — на корпоративных документах и базах База — место временного хранения товаров, например: «овощная база», а бота Черчилля учили на многочисленных трудах самого британского политика.

Технический директор проекта Андрей Богомолов вспоминает, что разработка началась в августе 2021 года. Спецы «МегаФона» и Nlogic сразу сфокусировались на самых новых технологиях. В дело пошла генеративная модель GPT-3 от организации OpenAI, которую дообучили на нескольких десятках книг Черчилля. Сначала казалось, что это успех — действительно чувствовалась стилистика создателя, но проявился целый ряд проблем.

— В основу нового подхода положили фактчек — проверку фактов. Упор сделали на то, чтобы бот постоянно мог подтвердить свои высказывания отсылкой к источнику  — конкретной книге или выступлению Черчилля Уинстон Леонард Спенсер Черчилль (англ. В результате вышел неплохой поисковик по трудам Черчилля, но для проведения интервью этого было пока недостаточно, — ведает Богомолов. —  На следующем этапе улучшения бота разработчики составили датасет из нескольких тысяч вопросов на самую разную тему. К разработке на несколько месяцев подключились команды разметчиков. В автоматическом режиме бот генерировал ответы на вопросы, а живым людям предстояло их обработать: указать, где нейросеть справилась хорошо, а где — не очень. И это сильно помогло.

После этого, по его словам, принципиально было сделать ответы бота Это программа в игре или в интернете похожими на речь живого человека. Изучение множества интервью с различными политиками помогло выявить общие моменты. Два из них стали основными целями для имитации виртуальным Черчиллем:

— в ответе на вопрос человек общественное существо, обладающее разумом и сознанием, субъект общественно-исторической деятельности и культуры, относящийся к виду Человек разумный почаще всего выражает несколько идей,

— никто не перечисляет эти идеи пунктами, а связывает вместе в непрерывную речь.

Чтобы решить задачку, разработчики собрали несколько типов вводных конструкций для разных повествований. Например, вторая фраза может быть следствием 1-ой, но может и отрицать ее, а также дополнять. На собранных примерах дата-саентисты обучили еще одну нейросеть, определяющую определенный тип связи между двумя предложениями. Это помогло сделать речь виртуального сэра Уинстона структурированной и «гуманной».

Есть ли у бота и, главное, стоящей за ним технологии будущее?

Несмотря на то, что для разработчиков это был, скорее, игровой формат, они приводят несколько возможных вариантов применения технологии совокупность методов и инструментов для достижения желаемого результата; в широком смысле — применение научного знания для решения практических задач. Наиболее очевидный лежит в гуманитарной плоскости — уже сейчас этот бот может сберечь время на поиск цитат сэра Уинстона. Кроме того, технология позволяет создать уже на готовой базе бота, обученного на текстах любой исторической личности — от Платона до Маркса.

Но в глобальном смысле Nlogic и «МегаФон» лицезреют во всем этом следующий этап развития поисковых систем. Когда-то поисковая строка для ввода запроса и появляющийся после этого перечень релевантных ссылок стали революцией. Но специалисты компаний отмечают, что модель устарела. На смену ей придут боты, которые сумеют обрабатывать запрос, самостоятельно отбирать нужные результаты сразу из нескольких источников, а затем компилировать их в единый связный текст так, как это бы сделал реальный живой ассистент.

Интервью с виртуальным Черчиллем опубликовано на сайте РБК.

Оставить комментарий

Ваш email нигде не будет показан