Як визначити семантич Чи пошуковик?

Останнім часом поняття «семантичний пошуковик» стало настільки часто вживатися, що неминуче межі цього поняття розмилися. У цій статті наведено переклад витягів з доповіді виконавчого віце-президента Відділу пошуку і відповідей Ask.com Томаша Імелінскій. У доповіді, який буде повністю прозвучить тільки восени 2009 року, він пропонує декілька умов, за якими можна визначити , наскільки пошуковик розуміє запити користувачів і може вважатися семантичним.

Уявімо чотирирічну дитину в якості пошукача …

Припустимо, що пошукові системи володіють інтелектом чотирирічну дитину. У такому випадку представимо такий діалог

Користувач: Як погодка в Москві?

Пошуковик: Я не знаю.

Користувач: Яка зараз погода з Москві?

Пошуковик: Я не знаю!

Користувач: OK. Погода Москва.

Пошуковик: І скільки разів потрібно ставити одне і те ж питання? Я ж сказав, поняття не маю.

Незважаючи на те, що цей пошукач зовсім не знає, яка погода зараз в Москві, він все одно семантичний, тому що він знає, що не знає про погоду. І до того ж він розуміє, що користувач продовжує ставити одне і те ж питання, просто в різних формулюваннях.

Люди дуже швидко розуміють, що два питання можуть бути різними формулюваннями одного і того ж. А ось пошукові системи зазвичай це не розуміють. І до тих пір, поки вони цього не розуміють, вони не можуть називатися семантичними. Тому запити «Топ-10 пісень» і «десять кращих пісень» виводять різні, але практично рівнозначно релевантні результати. Хоча пошукачі не повинні цього робити.

Це не технології, які ви використовуєте, а результат, якого ви досягаєте …

Відображенням семантичності пошуковика можна вважати рівень зміни результатів при перефразировании одного і того ж запиту. Чим сильніше вони відрізняються, тим менше можливості назвати цей пошукач семантичним.

Не має значення, яким чином досягається незмінність результатів при переформуліровка запиту, тобто не важливо, яка використовується технологія (обробка натурального мови, статистичний аналіз серії запитів). Важливий результат. Якщо результати змінюються сильно, це означає, що користувачам доводиться більше думати, щоб правильно сформулювати свій запит. А це означає, що пошукові системи погано виконують свою роботу. Вони не намагаються зробити процес пошуку для користувача простіше.

Ми припускаємо, що за допомогою декількох показників, що вимірюють зміни результатів, що видаються пошуковою системою на переформулювати запит, можна визначити рівень семантичності пошукача. Наприклад, до таких показників можна віднести зміна положення на сторінці видачі результатів єдино правильної відповіді або зміна порядку всіх результатів при переформулювання запиту.

Висновки

1. У більшості пошуковиків результати сильно змінюються від виду запиту. Сучасні пошукачі все ще сильно залежать від формулювань запиту. У більшості своїй вони засновані на ключових словах, і далекі від розуміння людської мови запитів.

2. Пошукові запити з єдино можливим варіантом відповіді (В якому році народився Гагарін?) Добре сприймаються пошуковими системами. Відповіді на них на диво мало відрізняються при зміні порядку слів або переформулювання пошукового запиту. Але швидше за все це заслуга не пошуковиків, а Інтернету, а, точніше, великої кількості інформації у всесвітній мережі, її переписування в різних варіантах від сайту до сайту, особливо інформації на популярні теми. Це допомагає пошуковим системам знайти правильну відповідь знову ж за ключовими словами.

По-справжньому семантичний пошуковик піклується про незмінність результатів при переформулювання запитів. Він збирає в одному кластері всі можливі варіанти одного і того ж за змістом запиту, щоб надати однакові результати, що стосуються як запитів на популярні, так і на непоширені теми.

Дані, які ми зібрали, підтверджують, що серед основних пошуковиків навіть прості перефразирования сильно змінюють результати видачі. Наприклад, зміна числового написання «10» на текстове «десять» змінює результати в залежності від варіанту написання, яке присутнє на веб-сторінці. Також результати міняються від додавання зайвого слова в запит.

Ключові слова, використовувані в запиті, їх порядок, сильно впливають на ранжирування результатів на сторінці видачі. Це неприйнятно при семантичному пошуку, завданням якого є зняття з користувача тяжкості «правильного формулювання запиту» для отримання правильної відповіді.

Оригінал статті

Похожие посты:

Оставить комментарий

Лимит времени истёк. Пожалуйста, перезагрузите CAPTCHA.

Июль 2018
Пн Вт Ср Чт Пт Сб Вс
« Фев    
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
Статистика