На что способен искусственный интеллект: репортаж с конференции AI-MEN 2019

Искусственный интеллект — это недалёкое будущее или уже настоящее? Подобный вопрос занимает умы множества людей, а около 1000 из них посетили международную конференцию по artificial intelligence, data science и machine learning AI-MEN 2019 в субботу, 6 июля.

Открыл её Игорь Мамоненко, генеральный директор Belhard, автор концепции "ИТ-Страна".

Он подчеркнул, что зарплата начинающего специалиста по AI — 500 тысяч долларов в год. Это цифра из Швейцарии и она — из 2017 года. В Беларуси решили проверить, правдивы ли данные. Так вот, 500 тысяч — преувеличение. У нас это 300 тысяч. Но откуда такие цифры? Почему же специалисты в этой области так востребованы? Естественно, они своим заказчикам и работодателям приносят денег больше, чем уходит на их же зарплату.

В Беларуси сейчас более 120 старапов в области искусственного интеллекта, а если грубо посчитать, то всего в мире насчитывается около 10 тысяч дипломированных специалистов. Из них в Беларуси — около тысячи. В отличие от других специальностей, которые мы "пропагандируем", обучение для работы с AI мы ещё не освоили. Можно научить человека программированию, выучить оператора буквально за два месяца, но для освоения ИИ необходимо ещё и "базовое" образование — математика, философия, логика.

Также он отметил, что, вероятнее всего, разработки в области ИИ затронут более миллиона специальностей, то есть коснётся практически каждого. Это и быт, и работа, и умный город, и медицина, и аналитика, роботы, автомобили. Это уже реальность, а массовым явлением станет в совсем недалёком будущем. Если в древние времена больше ценился тот, у кого топор тяжелее, то теперь важнее ум. А среди умных специальностей искусственный интеллект — это высший пилотаж.

Наши разработки уже могут заявить о себе: если они хорошие, то уже буквально через неделю они появятся и в Америке, и в Китае, и где угодно. Потихоньку стираются границы физические благодаря интернету, и появляется своего рода фирма "планета Земля". И в этой фирме можно зарабатывать 100 долларов в месяц, а можно 40 тысяч. Так давайте же зарабатывать больше, обмениваться знаниями и помогать друг другу, не нарушая, конечно, условий конкуренции.

AI: магия VS математика

Дмитрий Федоров, Head of AI R&D компании Synesis затронул тему предубеждений об AI. И предложил сравнить структуру мифов об ИИ с древнегреческими мифами. Так, в основе каждого мифа — событие. Рождение Зевса, например. Для искусственного интеллекта одно из основных грандиозных событий — появление программы Alpha Go — искусственной нейронной сети, которая обыграла человека в Го.

Это событие поспособствовало развитию технологии. Конечно, как и во многих мифах, есть люди, которые за стоят за произошедшим. В данном случае это компания DeepMind. Естественно, в любом мифе есть последствия, и в нашем понимании возможно появление некого разума, которое уничтожит всё живое. Свою обеспокоенность по этому поводу выражали и Илон Маск, и Стивен Хокинг.

Основные задачи в AI, которые решаются сейчас, это, во-первых, компьютерное зрение, это необходимость распознавания изображения, во-вторых, перевод и анализ текста, в-третьих, анализ Big Data, в-четвёртых, это аналитика аудиоинформации. Если посмотреть на алгоритмы решений подобных задач, то можно заметить, что все можно решить с помощью искусственной нейронной сети. Есть, конечно, и много других подходов. Но в массовом создании появляется мнение, что нейронные сети — это новая технология, универсальный "чёрный ящик", который можно воткнуть и сразу получить результат, и который работает как человеческий мозг.

Конечно же, технология не нова — свёрточная нейронная сеть, которую сейчас используют для 80 разных задач в компьютерном зрении, с точки зрения математики была предложена ещё в 1988 году. Сети, которые имеют память, предлагались в 1997 году. То есть технологии не новы, но почему мы ждали 20 лет? Самое простое объяснение: появилось много различных открытых данных. Есть много датасетов, которые можно использовать для обучения нейронных сетей. Естественно, развилось само коммьюнити.

Об универсальности. Представьте любую архитектуру, которая вам нравится, которая способна решить такую задачу: у нас есть на входе массивы вещественных чисел, в каждом массиве 4 значения, и нам нужно их отсортировать с помощью нейросети. Теперь подумайте: сможет ли ваша архитектура с такой же точностью решить иную задачу: на входе получаем изображение, а надо посчитать ранг матрицы. Хотя, в теории, такой чёрный ящик есть —многослойный персептрон, почти идеальный апроксиматор почти любой математической функции. Чем больше добавлять нейронов, чем лучше делать сеть, тем лучше апроксиматор будет работать. Но будет увеличиваться количество нейронов, связей и вычислений. Нам это не совсем на руку.

Когда мы задумываем задачу и хотим её решить, мы стараемся соблюдать некоторые условия. В задачах с компьютерным зрением мы хотим, чтобы изображения, которые мы используем, были инварианты к поворотам, каким-то скейлам, и чтобы сеть это определяла. Тем самым мы приходим к свёрточным нейронным сетям. А, значит, универсальный чёрный ящик невозможен, а к каждой задаче мы создаём свою архитектуру.

Возникает вопрос, стоит ли этим заниматься небольшим инди-разработчикам? Кажется, нужно много ресурсов, сложно и много информации изучить. Скорее всего, это не так, потому что сейчас можно получить мощную поддержку от коммьюнити, если начнёте этим заниматься сейчас.

Как обычному учителю нейросетей стать заслуженным тренером в области машинного зрения?

О деталях распознавания и работы в области машинного обучения рассказал Дмитрий Поздняков, Head of Deep Learning Department в компании Oxagile. Выступление спикер начал с вопроса-проблемы: как вообще стать высококлассным разработчиком в сфере искусственного интеллекта и попытаться монетизировать свои знания в этой области.

Казалось бы, есть много людей, заинтересованных в теме ИИ применительно к машинному зрению. Они начинают свой путь с заимствования готовых решений на гитхабе, пытаються писать что-то своё, пользуясь широкими возможностями современных фрейморков. Но при этом не достигают коммерческого успеха, почему? Потому что они, главным образом, решают проблему весьма поверхностно: в стиле "учить, учить, ещё раз учить... нейросети" безо всякого погружения в математические и алгоритмические аспекты этой проблемы.

Современные разработчики аналитических программных средств, работающие на стыке областей знаний “машинное зрение” – “глубокое обучение” – “машинное обучение”, прокладывают типичный путь в область машинного зрения со стороны глубокого обучения, откуда входной барьер в область машинного зрения весьма высокий. Но существует и альтернатива: нужно учиться, учиться и снова учиться! Тогда комплексные проблемы, связанные с анализом изображений и видеоконтента, можно решать по-другому, и пробиться в эту дорогостоящую область с другой стороны, откуда входной барьер достаточно низкий. Но как же это сделать?

Если мы говорим о машинном зрении, то нужно идти от начала, от момента получения изображения. Иногда полезно иметь представление, часто и фундаментальное, о том, как получаются данные. Бывает полезно понимать о ПЗС-матрицах, о светофильтрах для каждого из пикселей и то, как взаимодействуют фотоны с полупроводниками, о том, что есть и другие, не только оптические приборы: те, которые видят инфракрасное, ультрафиолетовое и даже рентгеновское излучение, как они его преобразовывают в цифровой сигнал.

Допустим, мы воздействовали на фотоприёмник квантами света. И что мы получаем? Получаем что-то крайне непонятное и с трудом воспринимаемое. В процессе производства фотоприёмников каждый отдельный пиксель имеет свою уникальную чувствительность к свету, которую АЦП-блок преобразует буквально в цифровой шум.

Чтобы получить качественное изображение необходимо всю аппаратную часть приёмника откалибровать. После этого благодаря обратной процедуре нормализации можно восстановить получаемую картинку до привычного нам вида. Но не всегда это можно сделать с помощью аппаратных средств. В частности, несмотря на достижения полупроводниковой техники, если сьемку осуществлять в условиях значительного затемнения, когда количество фотонов недостаточное для релевантной оценки интенсивности их потока, то имеет место квантовый шум.

Всё, что мы видим на фотоаппаратах в тёмное время суток, обусловлено недостаточностью интенсивности потока фотонов, а также нелинейной чувствительностью фотоприёмника при очень низком уровне освещённости. Тогда необходимы дополнительные средства: различные фильтры для подавления шума, такие как медианный, билатеральный, статистический и многие другие. Далее можно ещё поработать над изображением: применить к нему преобразование Фурье, отфильтровать низкие гармоники, а можно воспользоваться маской нерезкости с окном плавающего размера, определяемого локальным средним, дисперсией и, возможно, другим параметрами, и так далее, чтобы получить красивую, информативную картинку.

Но что делать, когда работать приходится в цвете? Для этого нужны дополнительные знания. Информация, закодированная в RGB, для нас не очень-то репрезентативна. Человек видит не RGB-каналами, он воспринимает яркость (светлоту), насыщенность и тон (цвет). К примеру, чтобы осуществить корректное увеличение резкости изображения без искажения его насыщенности с правильной передачей всех тоновых характеристик, нам нужно перевести данные из RGB-пространства в HSL-пространство или, что ещё лучше, в AHSL-пространство, провести необходимые намипуляции с L-каналом и затем всё вернуть обратно в RGB. Результат — улучшенное изображение. И вот, когда пройден длинный путь препроцессинга, процессинга и постпроцессинга изображения, остается непосредственно его анализ.

Это может быть задача классификации объектов: берём картинки, там какие-то объекты, пытаемся их классифицировать по заданному множеству классов, в том числе, с помощью обученной нейросети. Более сложный тип задач — классификация с локализацией. Нейросеть “смотрит” на картинку и находит область наиболее вероятного расположения искомого объекта. Далее — обнаружение (детекция): задача не только найти, но и различить объекты поиска между собой.

Может возникнуть и более сложная задача, такая как семантическая сегментация изображения, когда необходимо классифицировать каждый пиксель на принадлежность к тому или иному классу объектов. Ещё более сложная сегментация — экземплярная, когда нам нужно не только классифицировать пиксели, но и различить их принадлежность к разным объектам одного и того же класса.

Также интересна область расцвечивания чёрно-белых изображений и видео. Например, обучаем нейросеть на цветном видео и его чёрно-белом аналоге, а потом обрабатываем с её помощью старые чёрно-белые фильмы, чтобы получить их цветную реконструкцию. Ещё одна, относительно недавно появившаяся область, — когда берут некачественное изображение с низким разрешением, а соответствующим образом обученная нейросеть, как правило, генеративная, восстанавливает изображение до уровня Full HD и выше.

Задача посложнее, если у нас имеется фрагментарное изображение, то можно обучить нейросеть его реконструировать с весьма приличным уровнем достоверности. Конечно, результат не идеален, но он уже чем-то напоминает небольшое чудо.

На сегодняшний день, в конечном счете, анализ изображения это достаточно рутинная задача, а вот анализ видео, особенно в режиме реального времени, это — вызов даже для высококлассных специалистов по ИИ. Даже такая, ставшая уже классической, задача видеотрекинга далека от своего окончательного решения и требует вливания “свежих мозгов” в эту область.

Выбор решения для Data Science продукта

О решениях для Data Science продукта говорил Николай Карелин, Head of AI компании Silk Data. Каждый раз, когда стартап или команда в корпорации начинает новый проект, сразу же возникает вопрос, какое решение взять, что же есть современного, модного и так далее. Здесь возникает ситуация, что то, что изучает наука, то, о чём говорят на конференциях и то, на чём зациклен бизнес, имеют разную направленность и цели. У бизнеса также появляется противоречие: слишком свежее решение может оказаться нестабильным, но что-то уже хорошо обкатанное не будет конкурентноспособным. В любом из этих случаев время, деньги и возможности уже будут потеряны.

Необходимо учитывать такую тему, как кривая инноваций, которая связывает разные этапы разработки инновационного продукта с их стоимостью и рисками. Когда у нас в самом начале есть прототип, то цены и риски достаточно маленькие, но, когда мы уже реализуем это в рабочей системе, все многократно возрастает.

По мнению спикера, нужно учитывать определенное время (2-4 года), которое нужно, чтобы новый результат был обсужден в научном сообществе. Другими словами, для коммерческого решения больше всего подходит т.н. “strong baseline”, т.е. решение которое активно используется во многих свежих статей, как база для сравнения.

В следующей части доклада спикер поделился опытом создания приложения для автоматического реферирования текста (text summarization). Кроме собственно модели, нужно обращать внимание на другие важные компоненты решения, например определение языка документа, предобработку и визуальное представление результатов. В частности, показ ключевых предложений в виде подсветки на исходной web-странице позволяет читателю получить больше информации исходя из заголовков, изображений и текста рядом с выделенным автоматически.

В последней части выступления Николай обратил внимание на процессы внутри команды, важные для успешной реализации проекта на основе машинного обучения. В частности, тестирование различных моделей и работа с научными статьями добавляет еще один фактор сложности для тестирования, разработки и документации.

AI 2019: Прогнозы и тренды

О прогнозах и трендах в AI 2019 говорил Никита Филимонов, бизнес-консультант. Чтобы подвести какие-то итоги, он предложил сперва вернуться к началу. Определений у ИИ может быть несколько, стоит хотя бы заглянуть в оксфордский словарь, чтобы уже наверняка. Примерно это звучит как " Теория и разработка компьютерных систем, которые могут выполнять задачи, требующие человеческого интеллекта, в таких сферах как визуализация, распознавание речи, принятие решения и тому подобное". В 1956 году Джон Маккарти впервые выдвинул определение AI как концепт "думающих машин".

Человечество уже давно пытается создать суперинтеллект, так называемый AGI — Artificial General intelligence — интеллект машины, способной понять или освоить любую интеллектуальную задачу, которую может выполнить человек. Это основная цель некоторых исследований искусственного интеллекта и общая тема в научной фантастике. AGI и вправду может беспокоить, поскольку не хотелось бы в старости осознать, что эта технология может принести вред человечеству.

Возможно, стоит серьезнее прислушаться к таким людям как Илон Маск, который призывает ввести надлежащий нормативный контроль, который будет иметь решающее значение для защиты будущего, поскольку сети искусственного интеллекта становятся все более изощренными и на них возлагают все более ответственные задачи.

Сегодня самый популярный концепт основан на возможности программ учиться и думать как люди. Пока что основная часть развития ИИ, которое происходит сегодня лидерами отрасли, использует человеческие рассуждения в качестве руководства для предоставления более качественных услуг или создания более качественных продуктов, скорее пытаясь достичь идеальной копии человеческого разума.

Разумеется, в структуру самого AI входит machine learning — технология, которая также имеет свои определения, тренды и проблемы.

Для простого человека объяснение может быть такое: это что-то вроде человеческой интуиции, которая находит зависимости, паттерны. Если вы нашли 100 зависимостей, то интуиция подскажет, что в 101 случае будет также. Для развития такой интуиции людям нужен опыт, а алгоритмам машинного обучения – исторические данные.

Есть, правда, реальная проблема в ML, которая влияет даже на обычных людей — предвзятость. Машинное обучение может быть предвзятым, поскольку алгоритмы не могут принимать рациональное решение, они делают вывод лишь на основе данных, на которых обучаются. То есть от входных данных зависят дальнейшие решения, поскольку технология находит закономерности. Как AI может быть предвзятым?

Алгоритмы машинного обучения не способны принимать рациональные решения, потому что они не рационализируют - они находят закономерности. Хотя принято представлять алгоритмы абсолютно бесчувственными и нейтральными, к сожалению, это неправда. Программы AI состоят из алгоритмов, которые следуют правилам. Их необходимо научить этим правилам, и это происходит путем снабжения алгоритмов данными, которые затем используются для вывода скрытых закономерностей. Если данные обучения собраны неточно, ошибка или несправедливое решение приводят к искаженным результатам.

В качестве примера американская некоммерческая организация ProPublica опубликовала шокирующую статью, разоблачающую очевидную предвзятость в алгоритмах COMPAS - системе, которая используется для вынесения приговора обвиняемым преступникам на основании нескольких факторов, в том числе расы. В основном, отчет ясно показал несколько случаев, когда было очевидно, что алгоритм ложно предсказывает показатели рецидивов в зависимости от тонуса кожи.

В качестве основных трендов на 2019 год, Никита выделяют следующие:

Автономные транспортные средства – несмотря на значительные возможности рынка ясные сроки повседневного использования все еще неясны, однако широкий спектр отраслей активно инвестирует, тестирует и внедряет данную технологию в повседневные жизни людей.
Conversational AI (разговорный AI), базирующийся на внедрение технологии в чат боты и применение их в таких сферах, как здравоохранение, страхование и ритейл.
Edge AI, дающая возможность принятия решений в режиме реального времени, где устройства способны обрабатывать информацию локально и быстрее реагировать. Одной из главных тенденций в области искусственного интеллекта в 2019 году будет рост EDGE AI во всех направлениях и индустриях.
Распознание Лиц. От разблокировки телефонов до посадочных рейсов распознавание лиц становится массовым. Ранние коммерческие приложения набирают популярность в области безопасности, розничной торговли и бытовой электроники. Распознавание лиц быстро становится доминирующей формой аутентификации.

Google, Microsoft, Apple, Facebook, и Amazon продолжают скупать подающие надежды стартапы. Данные компании действительно применяют AI в том числе для нас с вами. И мы используем машинное обучение даже так, что уже и не замечает этого.

Готовы ли средние и малые бизнесы внедрять технологии AI? Никита, полагает, что это уже возможно, если плавно следовать обеденным уровням и запастись терпением.

Базовый уровень ознакомления, где происходит плавное понимание технологии и исследование релевантных бизнес кейсов.
Уровень активации — первые эксперименты с данными. Понимание, как технология может принести пользу именно вашему бизнесу. На данный момент это возможно, поскольку многие компании предоставляют пилотные проекты бесплатно либо за небольшие деньги
Рабочий / Операционный уровень. Использование AI в самом бизнесе, зачастую параллельно текущим бизнес-процессами, с целью дополнительной помощи.
Всеохватный уровень. С помощью данной технологии и полного его понимания внутри вашего бизнеса, теперь вы полностью готовы создавать новые цифровые бизнес модели и новые внутренние бизнес-процессы.

Звучит просто и быстро? Разумеется нет.

Такое погружение может занять до трех лет, однако уже сейчас в США можно наблюдать успешные кейсы в абсолютно разных сферах бизнеса. Потому что каждый случай использование технологии уникальный. И, разумеется, пока что не шаблонный.

Ведь главная цель – это не автоматизировать все, что возможно. В большинстве случаев - ценность технологий достигается в рамках эффективного взаимодействия людей и принятия решений.

Вы думаете AI исключение? Допускаю, что нет.

Организатор конференции: Старейший белорусский IT-портал KV.by.

Партнеры конференции: WorkFusion, Oxagile, Positive Technologies, Synesis, Skinive.

Партнер кофе-паузы: Природная вода "Боровая".

Все фото с конференции доступны по ссылке. Презентации спикеров можно скачать тут.