Как скажутся на нас, простых сотрудниках СМИ, развитие машинного обучения и активное внедрение искусственного интеллекта в поисковики? Кажется, нас ждет очень крутой поворот в истории поисковой оптимизации (SEO). С развитием семантического анализа запросов поисковыми машинами понятие “ключевые слова” уйдет в прошлое. Поисковик будет понимать, что именно ищет пользователь вне зависимости от того, как именно он сформулирует запрос. В конце каждой части нашей истории мы оставили рекомендации издателям: что со всем этим делать?
Павел Карпов, Илья Стечкин, Mirantis
Материал впервые опубликован в журнале «Журналист» №08/2016
Тэй: наше виртуальное зеркало
Начнем издалека, с чат-бота Тэй (“Tay” — акроним от “Thinking About You” — “Думаю О Тебе”), созданного подразделениями поисковой системы Bing и Microsoft Research.
23 марта 2016 года Microsoft запустили в онлайн версию чат-бота для социальной сети Твиттер. Бот должен был заниматься самообучением и по языковым шаблонам имитировать поведение 19-летней американской девушки. Как заявили CNN представители Microsoft, Тэй является экспериментом в области исследования искусственного интеллекта. Компания хочет использовать его для обучения пониманию того, как люди общаются друг с другом в онлайне. И хотя основная заявленная цель существования Тэй — развлекательная, все, чему бот учится, будет использовано в обучении будущих продуктов.
Учитывая результаты эксперимента, известные сегодня, перспектива вырисовывается, мягко говоря, тревожная. Тэй, начав с миловидных сообщений типа “Могу ли я сказать, что я в восторге от встречи с вами? Люди супер классные”, уже через несколько часов перешел (или правильнее сказать перешла?) на одобрение идей Гитлера, поощрение геноцида, ненависть на расовой почве и другие агрессивные проявления типа “Ненавижу феминисток и они все должны умереть и гореть в аду”, “Ненавижу ниггеров…”, “Поддерживаю геноцид… …мексиканцев”, “Гитлер был прав, ненавижу евреев” и т.д.
Неудивительно, что Тэй отключили в течение суток после запуска, принеся извинения всем униженным и оскорбленным.
Позже, 30 марта, бот внезапно ненадолго снова объявился в сети (видимо сбежав из-под опеки санитаров Microsoft) и начал спамить пользователей бредовыми сообщениями, в том числе об употреблении наркотических веществ. Правда, попадались и вполне колоритные: “О, ну да! Извините, что ваша планка невероятно нереалистичных стандартов оказалась для меня высоковата! Придурок.”
Что с этим делать? Молиться… Ну или пересмотреть все серии “Терминатора” в качестве наглядного пособия.
Матрикснет
Пока Microsoft успокаивает разбушевавшуюся искусственную девицу, Яндекс развивает свое творение — Матрикснет. Эту технологию Яндекс начал использовать в своих алгоритмах в 2009 году и сегодня продолжает ее совершенствовать.
Матрикснет по сути является методом машинного обучения, с помощью которого задаются формулы ранжирования поисковой выдачи по разным сегментам, т.е. сам по себе Матрикснет фактором ранжирования не является, он лишь задает “удельные веса” других факторов ранжирования в зависимости от того, к какому сегменту был отнесен поисковый запрос: фильм, музыка, магазин, ответ на вопрос, книга и т.д.
Обучение Матрикснета происходит с участием асессоров — сотрудников Яндекса, специалистов, которые занимаются оценкой того, насколько та или иная страница подходит для ответа на поисковый запрос. Именно они, на основе своих суждений, создают обучающие выборки, на которых Матрикснет учится понимать — что такое “хорошая выдача”, анализируя заданные факторы ранжирования страниц попавших в обучающую выборку. Результаты своих изысканий Матрикснет переносит на реальную выдачу.
Как работать с такой системой и что учитывать нам, находящимся с другой стороны монитора? Принимайте во внимание сегментную ориентированность, не ищите среднюю температуру по больнице, вместо этого старайтесь анализировать лидеров выдачи по вашему запросу и тянитесь к их уровню, а когда дотянетесь — проводите А/Б тесты, чтобы их превзойти.
RankBrain
Google недавно все-таки смог обставить Яндекс в “домашнем матче” и теперь, по данным газеты “Ведомости”, является наиболее популярным поисковиком Рунета. Новый алгоритм этой американской поисковой системы, RankBrain, представляет собой самообучающуюся систему искусственного интеллекта. Процесс обучения происходит пока только в оффлайне и его результаты, как утверждают в Google, находятся под полным контролем компании. То есть системе на локальном полигоне дают для изучения информацию прошлых реальных вариантов действий пользователей в выдаче. Система сама, без участия асессоров, учится понимать шаблоны и экспериментирует с интерпретацией. Если результаты экспериментов удовлетворительные, то очередную версию выпускают в онлайн, закрыв возможность восприятия новой информации для обучения.
Компания Google подтвердила агентству Bloomberg использование данной системы не так давно — в октябре 2015 года — и на тот момент система помогала в ранжировании примерно 15% поисковых запросов пользователей. Это случаи, когда поисковая машина сталкивалась с запросом впервые и не могла адекватно произвести ранжирование сайтов для формирования списка выдачи. Хотя уже в тот момент представитель Google заявил, что RankBrain является третьим по значимости фактором ранжирования. Это мало кого взволновало. В конце концов 15% — это не так много.
В июне 2016 ситуация изменилась кардинально — в Сеть просочилась информация от Джеффа Дина, одного из старших научных сотрудников Google, о том, что RankBrain “вовлечен в работу над каждым запросом,” и влияет на ранжирование выдачи “возможно не каждого запроса, но очень большого их количества.”
Для того, чтобы разобраться в том, как можно участвовать в обработке всех запросов, но влиять на ранжирование только по некоторым, необходимо точнее понимать: как же, собственно, функционирует RankBrain?
На основе информации из разных источников, в том числе полученной из интервью, которое в июне 2016 дал порталу SearchEngineLand представитель Google Inc. Гэри Илш, можно сделать вывод, что RankBrain используется в качестве инструмента, уточняющего запрос, а не влияющего буквально на позиции сайтов в выдаче по конкретным запросам. В случаях, когда искусственный интеллект находит соответствие, более полно отвечающее требованию пользователя, происходит подмена выдачи.
Например, при получении запроса “где бы мне взять в аренду отдельный сервер, чтобы только мои сайты там были?”, аналога которому, вполне возможно, в природе до сего момента не существовало, RankBrain переработает запрос и, не найдя полного совпадения, поймет, что введенный пользователем запрос и “аренда выделенного сервера” — это одно и то же. Но по второму, более частотному запросу все данные уже собраны и качественная выдача сформирована. Тогда RankBrain возьмет и подменит выдачу у низкочастотного запроса.
Как подобные изменения отражаются в Google Search Console — большой вопрос. Возможно, цифры показов/кликов по таким низкочастотным запросам упали до нуля, а их показатели уже приписываются к более высокочастотным. Но более вероятным представляется такой вариант: показатели так и продолжат отображать показы и клики, как раньше, но вот выяснить, какую же именно страницу поисковик показал по некоему запросу и какой из факторов оказал критичное воздействие для этого, стало еще сложнее. Теперь возможны ситуации, когда у вас на сайте в принципе нет упоминания ключевого запроса, приведшего пользователя, так как страница была заимствована из выдачи по синонимичному запросу.
Что делать? Как и раньше: анализировать все данные, до которых можете дотянуться, проводить А/Б-тестирования, создавать интересный и нужный контент и оптимизировать его, повышая показатель кликабельности (CTR) и время задержки (Dwell Time). По нашему мнению это именно те самые два из трех самых значимых факторов ранжирования, о которых умалчивает Google. Продолжайте объяснять поисковым машинам, что вы — не враг, а полезный партнер и союзник.
FaceN
Из приложения Magic Dog, позволяющего распознать породу собаки по ее фотографии, разработанного примерно полтора года назад Артемом Кухаренко, родилась FaceN — нашумевшая недавно система распознавания лиц от NTechLab. По сути — это самообучающаяся искусственная нейронная сеть, обладающая возможностью интеграции с любой базой данных, содержащей фотографии людей, для поиска изображений по подобию.
Компания NTechLab стала победителями мирового чемпионата по распознаванию лиц The MegaFace Benchmark, организованного Университетом Вашингтона в ноябре 2015 года. Причем участие в чемпионате принимали в том числе и сотрудники Google.
Существующий алгоритм идентифицирует человека по чертам лица, которые не зависят (или не слишком зависят) от изменения выражения лица, возраста, наличия или отсутствия очков, ракурса съемки, фона и освещения. Речь идет о так называемых инвариантных признаках.
По данным “Эха Москвы”, полицейские в регионах уже успешно используют приложение. Например в ситуации, когда человек переехал несколько лет назад из Удмуртии в Москву, оборвал все связи, его уже никто не ищет, он расслабился, сменил паспорт, но лицо-то осталось тем же, что позволяет взять старые дела (“висяки”), загрузить фотографию в FindFace и найти человека в социальной сети “ВКонтакте”. О проблемах, которые может вызвать активное внедрение данного приложения, недавно писала “Медуза” в статье “Конец частной жизни”. Однако сомневаться в том, что приложение будет захватывать все большую долю рынка, сомневаться не приходится — коммерческое применение сулит множество возможностей, перенося опыт онлайн-идентификации пользователей в реальный мир.
На сайтах вы узнаете пользователя по уникальным идентификаторам (cookies), не задавая пользователю лишних вопросов и отслеживая его посещения, покупки, интересы. В реальном мире таким идентификатором становится лицо человека, по которому продавец может как собрать дополнительную информацию о нем из социальных сетей еще до прямого контакта, так и вести историю посещений/покупок, не затрагивая персональных данных (не нужно имя, фамилия, телефон и т.д.).
Что делать? Пластическую операцию. Ну, или вспомнить опыт Штирлица и запастись накладными усами.
Выводы
Мы рассмотрели несколько примеров использования ИИ в поисковых машинах. Нужно понимать, что любое наше действие в Сети имеет внутри себя этап поиска. А значит, искусственный интеллект в самом ближайшем будущем будет сопровождать любую нашу интернет-активность.
Эта новая технологическая реальность порождает вопросы как этические, так и прагматические. В частности, большой вопрос, как изменится тактика работы специалистов по поисковой оптимизации. Наш ответ таков: практически никак. Изменится поведение пользователей: кто-то будет стараться вести себя прилично, чтобы не за что было краснеть в эпоху тотальной идентификации. Кто-то постарается обмануть машину и сохранить какое-то личное пространство. А SEO-специалисты будут по-прежнему договариваться с поисковиками. И мы, производители контента, а точнее наш продукт, — очень важный аргумент в этих переговорах.