Яндекс: Самые сложные слова в поисковых запросах

Поиск Яндекса автоматически распознаёт ошибки в запросах. Для определения ошибок используются данные о частоте и сочетаемости слов в запросах, история исправлений и уточнений запросов, которые делают сами пользователи, а также статистика употребления слов на крупных сайтах, таких как Википедия.

Основная задача исправления ошибок — восстановить правильное написание запроса, чтобы поиск находил именно то, что нужно пользователю, несмотря на ошибки при вводе. Ошибки или опечатки поиск определяет примерно в каждом десятом запросе.

Иногда правила автоматического исправления могут противоречить словарным нормам. Например, «Таиланд» в 85 случаях из ста пишут в поиске через «й», и с недавних пор поиск Яндекса перестал исправлять эту ошибку — по запросу «Тайланд» он просто ищет оба варианта написания.

Самые частые и самые сложные

Самые часто встречающиеся ошибки — это неправильные написания наиболее используемых в поиске слов. Например, «одноклассники» с одной буквой «с» или через букву «а», «онлайн» с «и» вместо «й» или «скачать» через «я». Таких ошибок много, но сами слова не вызывают большой сложности у пользователей — в августе 2013 года пользователи из России спросили слово «одноклассники» более 70 млн раз, при этом разные ошибки допускали менее чем в 3% случаев.

Есть часто употребляемые слова, которые вызывают у пользователей заметно больше затруднений. Из десяти тысяч самых часто используемых в поиске слов в августе 2013 года чаще всего ошибались в словах «комментарий», «девчонка» и «жесткий».

Наибольшие сложности у пользователей вызывают русские слова с двойными и непроизносимыми согласными, а также слова, заимствованные из других языков.

Новые слова

Для относительно новых слов часто существует несколько вариантов написания — одно и то же слово в разных словарях может писаться по-разному. Поиск Яндекса, руководствуясь статистикой запросов, автоматически определяет вариант, которого придерживается больше всего пользователей, и предлагает исправления для менее распространенных вариантов.

Источник: Yandex

Категории: Статистика