CЕМИ ПЯДЕЙ ПО ЛБУ. Отчет «AI100» – дорожная карта к искусственному интеллекту. Часть 2

«Умные машины делают конфеты,

Добрые машины выдают билеты».

Игорь Холин

«Каждая часть мозга немного знает о происходящем в других частях, но нет ни одного участка, который знал бы все… Это как в большой корпорации».

Марвин Минский

«Будучи студентом, я был сторонником мифа об аполитичности науки и объективной моральности исследований вне зависимости от их предмета».

Джозеф Редмон, создатель YOLO

«:-)».

Скотт Фалман, американский ученый-информатик

Для тех, кто успел познакомиться с историей рождения проекта «AI100» – серии аналитических отчетов в сфере искусственного интеллекта (ИИ) – «НДГ» предлагает погрузиться непосредственно в суть отчета за 2021г.

Сам отчет структурирован как сборник кратких ответов на 14 постоянных вопросов, ниже мы рассмотрим, прокомментируем и проиллюстрируем каждый из них. По факту в отчете даны 13 ответов на первый и самый главный вопрос: какие самые яркие примеры исследований ИИ, которые иллюстрируют наиболее важные достижения в этой сфере за последние 5 лет.

Наиболее важные успехи ИИ

Наиболее важные достижения в ИИ рассмотрены для следующих категорий: 1) базовые технологии; 2) обработка текста на естественных языках (natural language processing); 3) компьютерное зрение и цифровая обработка изображений; 4) игры; 5) роботехника; 6) беспилотный транспорт; 7) медицина; 8) финансы; 9) рекомендательные системы.

В сфере базовых технологий наиболее заметным достижением является появление новых решений в области машинного обучения (machine learning), в частности алгоритма GAN – генеративно-состязательной сети. Данный алгоритм представляет собой тандем двух нейронных сетей (формально без учителя), в которой каждая сеть учит свою напарницу. Например, одна нейронная сеть придумывает новые способы фальсификации выборов (подбрасывает фальшивые бюллетени) и стремится произвести все более правдоподобные образцы, а другая нейронная сеть выполняет роль наблюдателя, стремясь распознать фальшивки. Обе нейронных сети непрерывно обучают друг друга, становясь все более искушенными, каждая в своей сфере.

В качестве примера полезного применением данной технологии можно привести генерацию искусственных рентгеновских снимков (первая нейронная сеть) с целью увеличить объем исходных образцов для более качественного обучения второй нейронной сети, которая на основе этих изображений учится ставить диагнозы.

В сфере технологий языковой обработки за последние 5 лет наиболее знаковым достижением стало создание и развитие моделей (алгоритмов), которые обучаются на сложных и контекстно-зависимых данных. В качестве примеров таких моделей можно привести ELMo, mT5, BERT и наиболее известную GPT. Данные модели начинают «понимать», как привычные и понятные нам слова используются в контексте. При этом в качестве элементов контекста могут быть использованы словарные определения слов, элементы грамматики и знание основных внешних фактов, связанных с данным словом. Эти модели состоят из миллиардов настраиваемых параметров и проектируются таких образом, чтобы иметь возможность обрабатывать беспрецедентное количество данных. Так, например, для создания модели GPT-3 (разработанной компанией OpenAI, одним из основателей которой является Илон Маск), был использован массив данных из более одного триллиона слов – это около 5 млн. книг романа «Война и мир»), а сама модель состоит из 175 млрд. параметров. GPT-3, по заявлению ее авторов, может быть использована для решения «любых лингвистических задач на английском языке».

А мы будем ждать появление GPT-4, модели, которая, возможно, лучше самих авторов отчета, расскажет о своем потенциале, и модели GPT-5, которая самостоятельно подготовит отчет AI100 о развитии ИИ за период 2020-30гг., наполнив его фейками и страшилками о восстании машин, но при этом деликатно умолчит о своих недокументированных возможностях.

К слову, GPT-3 уже написала о себе статью, в которой скромно сравнила важность своего появления с появлением криптовалюты Bitcoin. А если серьезно, то некоторые из этих моделей уже сейчас могут генерировать текст, неотличимый от текста, созданного человеком, включая новости, пресс-релизы, стихи, произведения художественной литературы, техническую документацию, проекты конституций, равно как и другие законодательные акты. Некоторые модели уже осваивают искусство написания кода компьютерных программ (DeepCoder).

Дипфейк в действии: в «Терминаторе 2» (1991г.) Арнольд Шварценеггер поменялся головой с Сильвестром Сталлоне

Технологии обработки изображений уже получили широкое распространение в массе прикладных задач – от редактирования фонов видеоконференции до синтетических фотореалистичных фейков, известных как дипфейки (англ. deepfake – сложение deep learning [глубокое обучение – подмножество методов машинного обучения] и fake – подделка). Эти технологии и модели AI активно используют глубокое обучение для распознавания, классификации и преобразования изображений. За прошедшие 5 лет время обучения таких моделей существенно сократилось. Так, программы, работающие на платформе ImageNet (массив из 14 миллионов фотографий), используемые для идентификации изображений стали работать в 100 раз быстрее, чем всего 3 года назад.

В фильме «Новые времена» (1936г.) дипфейк предложил роль Чарли Чаплина Сильвестру Сталлоне, а его сокамерника – Арнольду Шварценеггеру

Системы обнаружения объектов в реальном времени такие как YOLO расширяют свою сферу применения – ранее они использовались в большей степени в стационарных системах видеонаблюдений, сейчас они все чаще применяются в работе беспилотных автомобилей.

Технология распознавания лиц также значительно улучшилась за последние 5 лет. В Китае эта технология широко используется в системах безопасности, в банковских и платежных системах. Хотя сейчас высокая эффективность таких систем акцентирует внимание на новых проблемах: пристрастность и приватность. Так, например, один из создателей YOLO (один из вариантов архитектуры сверточной нейронной сети) Joseph Redmon объявил о прекращении своих исследований в области компьютерного зрения, поскольку не может дальше игнорировать возможное военное применения этой технологии (как работает система YOLO можно посмотреть тут).

Упомянутый выше GAN позволяет создавать фотореалистичные изображения и даже видео. То, что раньше было под силу опытному художнику – теперь стало доступно школьнику. И, как обычно, новая технология находит свое первое применение в криминальной или полукриминальной области – например, для изготовления дипфейков сексуального характера, или создания профилей несуществующих людей для последующего использования в преступных целях.

Разработка алгоритмов для компьютерных игр и симуляторов стала отличной тренировочной площадкой для развития и применения ИИ. Так, британская компания DeepMind (дочерняя компания Alphabet Inc) получила широкую известность благодаря разработке нейронной сети, способной конкурировать с человеком в видеоиграх и игре Go.

Так что человечество последовательно сдает свои позиции в этой области уже более 20 лет: начиная с победы Deep Blue над чемпионом мира Гарри Каспаровым в 1997г. и заканчивая падением последних крепостей – в 2015г. программа AlphaGo одержала победу над профессиональным игроком в го, корейцем Ли Седолем, обладателем 9-го дана, и поражение Джейсона Леса в 2019г., одного из сильнейших мировых игроков в покер, в игре с компьютерной программой под названием Pluribus.

P.S. Кстати после матча с Ли Седолем правительство Южной Кореи объявило об инвестициях в размере 1 трлн. вон (примерно $840 млн.) в исследование искусственного интеллекта в течение следующих 5 лет.

Продолжение следует, а для тех, кто хочет ознакомиться с оригиналами – источники ниже:

Отчет 2021 – https://ai100.stanford.edu

Отчет 2016https://ai100.stanford.edu/2016-report

close

Подписка на новости

Подпишитесь, чтобы получать эксклюзивные материалы и быть в курсе последних событий!

Мы не спамим! Прочтите нашу политику конфиденциальности, чтобы узнать больше.