«Яндекс» изучил, какие ошибки чаще всего встречаются в поисковых запросах. Наибольшие сложности у пользователей вызывают русские слова с двойными и непроизносимыми согласными, а также слова, заимствованные из других языков.
Например, «одноклассники» с одной буквой «с» или через букву «а», «онлайн» с «и» вместо «й» или «скачать» через «я». Таких ошибок много, но сами слова не вызывают большой сложности у пользователей – в августе 2013 года они спросили слово «одноклассники» более 70 млн раз, при этом разные ошибки допускали менее чем в 3% случаев.
Из десяти тысяч самых часто используемых в поиске слов в августе 2013 года чаще всего ошибались в словах «комментарий», «девчонка» и «жесткий». Те или иные ошибки при написании этих слов совершали в каждом четвёртом случае.
Поиск «Яндекса» автоматически распознает ошибки или опечатки, система определяет их примерно в каждом десятом запросе. Для определения ошибок используются данные о частоте и сочетаемости слов в запросах, история исправлений и уточнений запросов, которые делают сами пользователи, а также статистика употребления слов на крупных сайтах, таких как «Википедия».
Иногда правила автоматического исправления могут противоречить словарным нормам. Например, «Таиланд» в 85 случаях из 100 пишут в поиске через «Й», и с недавних пор поиск «Яндекса» перестал исправлять эту ошибку — по запросу «Тайланд» он ищет оба варианта написания.
Если относительно новое слово имеет несколько вариантов написания, то поиск «Яндекса» ориентируется на статистику запросов, автоматически определяет самый частотный вариант и предлагает исправления для менее распространенных вариантов.