Машинное обучение, где это работает, а где нет
Блог Никсейл
Февраль 2017
Машинное обучение, где это работает, а где нет
machine-learning-needs-a-human-touch2-630x330.jpg

Трудно говорить об аналитике безопасности, не принимая во внимание машинное обучение. Машинное обучение используется для обнаружения вредоносных веб-сайтов, потоковых аномалий, зараженных файлов, зараженных страниц и нестандартного поведения пользователей. Оно применяется для больших хранилищ данных, чтобы собирать информацию и идеи, которые в другом случае могут остаться незамеченными.

Некоторые отрасли промышленности используют машинное обучение для улучшения автоматизации проверок безопасности, пересечения границ, отбора заявок на поступление в колледж, кредитного анализа и здравоохранения. Неофициально почти каждая отрасль, которая влияет на нашу повседневную жизнь, использует так или иначе машинное обучение.

Подготовка системы


Машинное обучение основано на статистическом анализе существующих данных и применению этих знаний к новым данным. В случае абитуриентов, аналитика поступающих была основана на обучении системы путем сбора протоколов, финансовой информации, демографической информации, информации из средней школы, оценок отборочного теста и других данных, которые могли оказаться полезными для принятия решения об абитуриенте. В случае сетевой безопасности, эксперты по вопросам безопасности обучали систему путем изучения трендов веб-серфинга, данных входа / выхода, тенденций в области электронной переписки, данных аутентификации для входа и любой другой доступной аналитики поведения пользователя.

Цель этого в том, чтобы идентифицировать и классифицировать аномальные ситуации, которых будет достаточно для обучения системы. Это звучит здорово, не так ли? Не так быстро – на ранней стадии машинное обучение может привести к ошибочным результатам.


Полный провал первых тестов машинного обучения


Например, моему сыну недавно отказали в ипотечном кредите. У него была хорошая кредитная история, стабильная работа, он удовлетворял минимальным критериям для первоначального взноса. Но его заявку отклонили с минимальными объяснениями, что по данным компьютера в этом был большой риск. После нескольких недель значительного давления на банк, мы узнали, что его работа была классифицирована как профессия с высоким риском в долгосрочной перспективе.

Один из моих коллег также недавно был идентифицирован как с большой вероятностью подозрительный пользователь, основываясь на данных просмотра истории веб-серфинга и пользования программами для интернет-звонков (VoIP). Полный анализ геолокации коммуникаций определил его в качестве преступника, в совокупности с его привычками веб-серфинга. Привычки веб-серфинга не могут быть полностью идентифицированы или раскрыты, поэтому они были просто "аномальными". Я подозреваю что это потому, что он часто общался со своей семьей на родине и геолокация была из страны, связанной с киберпреступностью.

Точность и классификация


Машинное обучение делает сложные статистические решения о данных, основываясь исключительно на точности классификации. Она рекурсивно определяет и коррелирует миллионы потенциальных деревьев принятия решений до тех пор, пока не находит наиболее точной классификации. Говоря человеческим языком, машина не понимает, почему эти решения имеют смысл, она знает только то, что это наиболее точное решение, основываясь на классификации. И это действительно проблема.

machine-learning.jpg

На диаграмме выше представлено очень простое дерево решений, полученное с помощью классификаторов машинного обучения. Эллипсы – это разные наборы данных, используемые классификатором. Если бы это было классификатором кредитных заявок, имело бы это смысл для человека? Машинное обучение принимает решения на основе алгоритмов наилучших вероятностей, но что более важно, оно принимает решения, которые не имеют никакого очевидного объяснения с точки зрения человека.

На самом деле, основная польза машинного обучения - умение принимать решения, которые не очевидны человеку - и это же его потенциальная опасность. Представьте идентификацию с помощью машинного обучения вредоносного сайта и блокировку к нему доступа. Владелец хочет объяснения и понимания, что исправить, но классификация не может ни чего объяснить.

Человеческий фактор


Машинное обучение постепенно проникает в такие области нашей жизни и принятия решений, о которых мы, возможно, не в полной мере догадываемся. Очень важно понимать, как лежащие в основе данные, так и механизмы этих процессов. В настоящее время IBM с помощью аналитики на основе машинного обучения работает над выявлением мошеннических доменов и сайтов. С этим приходит этическая ответственность по раскрытию информации и принятию решений аналитиками, которые отделяют невиновных от злоумышленников. Если мы заблокируем доступ к веб-сайту, мы должны затем предоставить человеческое объяснение и данные, на основе которых было принято решение.

В безопасности эта ответственность так же имеет юридический аспект. Какой урон будет нанесен владельцу сайта, если доступ был закрыт неправомерно? IBM разрабатывает одновременно отслеживаемость и раскрытие информации в нашем анализе безопасности DNS и верит, что это поможет изменить ситуацию. У этого так же есть интересный побочный эффект, включающий человеческий разбор неверных данных: возможность объяснить что-то человеческим языком, а затем обучить классификатор с помощью новых данных. Может быть, мы добавим кнопки "нравится" или "не нравится" для неправильно классифицированных данных.

IBM гордится тем, что бизнес-этика является одним из основных качеств для построения доверительных отношений с потребителями. Таким образом, мы создаем прозрачность в понимании аналитики машинного обучения и стараемся чаще быть правыми, чем ошибаться. Я хотел бы призвать ответственных за продукты с машинным обучением уделить больше внимания проблеме прозрачности предложения и требованиям человечески интерпретируемой проверки результатов.

Оригинал : https://securityintelligence.com/machine-learning-works-doesnt/

Перевод и адаптация: Елена Грабарь

  • Facebook
  • Вконтакте