Розпізнавання непотістскіх посилань в Інтернеті

Від перекладача.

У статті Брайна Девісона «Розпізнавання непотістскіх посилань в Інтернеті» вперше було озвучено поняття «непотістскіе посилання», була дана трактування терміна і запропоновано алгоритм виявлення посилань такого типу.

Хоча й минуло вже більше 7 років з моменту публікації Брайна Девісона, дана робота все одно не втратила своєї актуальності, оскільки озвучений вченим підхід застосовний і сучасних реаліях.

При перекладі було вирішено не приділяти багато уваги частковостей алгоритму виявлення непотістскіх посилань, а навпаки, докладніше зупинитися на самому методичному підході.

На завершення запропонований варіант використання розглянутого алгоритму в умовах сучасного SEO. У будь-якому випадку, нам здається, що оптимізаторам буде корисно ознайомитися з даними перекладом.

Тема Непота, мабуть, одна з найбільш часто обговорюваних тем до останнього часу. Обговорювали різні сторони роботи фільтра, алгоритми діагностики Непота та інше.

У новому році Яндекс серйозно поміняв свій алгоритм і оптимізатори подрастерял інтерес до Непота, почавши замість цього обговорювати такі параметри як вік посилання, якість посилається сайту, «трастових», тобто довіру до сайту з боку Яндекса.

До того ж, пару тижнів тому Яндекс прикрив можливість визначати непот по всьому відомим алгоритмом — через унікальні посилання (питання, прикрив чи Яндекс роботу самого непот-фільтра, залишається відкритим). Так от, в принципі, залишився інший алгоритм перевірки Непота, досить простий у розумінні і складний в реалізації.

Алгоритм наступний:

• Беремо небудь просувний запит, наприклад, «пластикові вікна»

• Додаємо одне слово, яке робить запит не таким конкурентним; при цьому сторінка залишається релевантної новому запитом. Нехай ми знайшли шматочок тексту «пластикові вікна забезпечують …» — це якраз нам підійде

• Фіксуємо позицію нашого сайту з цього запиту. Якщо місце за топом — обраний запит підійде

• Купуємо посилання на майданчику, яку хочемо перевірити

• Після індексації посилання відстежуємо зрушення за запитом і робимо висновок.

Погодьтеся, щоразу так визначати непот таким чином дуже затратно. А що якщо один раз зібрати інформацію про занепоченних сторінках, знайти у них спільні риси і далі по створеному шаблону аналізувати нові сторінки, з яких хочете купити посилання. Цікаво?

Давайте подивимося, що пропонують нам американський колега.

Вступ

Алгоритми визначення популярності сайтів в даний час базуються на обліку посилального оточення сайту. Серед звичайних посилань можна виділити групу непотістскіх посилань. Такі посилання повинні бути виключені з розрахунку популярності сторінок, так як вони неприродні, і не говорять насправді про популярність сторінок, на які посилаються.

У розглянутій роботі досліджується питання про те, які посилання потрібно враховувати і також розкриваються попередні результати експериментів роботи самонавчального алгоритму, заснованого на створених вручну наборах даних, який повинен розпізнавати подібні посилання.

Вступні дані

Зазвичай популярність сайту розраховується в урахуванням величини його посилального оточення (маються на увазі сукупність внутрішніх і зовнішніх посилань). Однак такі обчислення не зовсім точні з кількох причин:

• Наявність на сайтах навігаційних меню. На таких сайтах всі сторінки, на які ведуть посилання з меню, мають по n вхідних посилань, де n — кількість сторінок на сайті. На наш погляд, враховувати такі посилання недоцільно.

• Посилальний спам. Спамери, знайомі з алгоритмом ранжирування пошукових систем, можуть спеціально створювати сторінки для проставляння з них посилань на інші сторінки, які вони хочуть підняти у видачі.

Другий приклад ілюструє проблему спаму пошукових систем ("search engine spam"), коли окремі сторінки намагаються підняти у видачі штучними методами. Деякі пошукові системи, алгоритм ранжирування яких враховує посилання, заявляють, що успішно борються зі спамом. Однак їх алгоритми діагностики грунтуються більше на текстовому аналізі і стають вразливими, коли справа стосується спаму посилального.

З «проблемних сайтів» можна привести в приклад сайт doorkey.com. Це сайт, який містить безліч посилань на інші сайти, але сам не містить унікального контенту.

Також дослідники виділяють окремі групи сайтів, які посилаються на якийсь один сайт з єдиною метою — підняти його у видачі. (Від перекладача: це наші з вами «промосайт» 🙂)

Щоб боротися з цими проблемами пропонується наступне:

• Вести список сторінок, які зловживають вхідними посиланнями

• Використовувати евристики *, щоб виключити з розрахунку внутрішні посилання (препроцессінг)

• Розпізнавати випадки, коли результати пошуку були піддані впливу спаму і відповідно коректувати видачу (пост-обробка)

Від перекладача. * Евристика — сукупність логічних прийомів і методичних правил теоретичного дослідження і відшукання істини

На жаль, деякі прості евристики можна визначати по-різному. Наведемо приклад.

Посилання між сторінками з однаковим хостом (identical host-names) можна вважати як внутрішні, при цьому

• не враховувати посилання між сторінками різних користувачів на одному сайті

• враховувати посилання між різними хостами на одному домені.

Або, наприклад, облік виробляти навпаки, не беручи до уваги посилання між різними хостами на одному домені.

Також є спірні моменти, що стосуються обліку посилань між сторінками, розташованими на одному домені, але різних піддоменів.

У будь-якому випадку, проблема не стільки в тому, які посилання визнавати внутрішніми, а скільки в тому, які посилання потрібно враховувати при аналізі посилального оточення, а які ні. При цьому відзначимо, що технологія неврахування посилань може бути реалізована двома способами: посилання можна просто відкидати, а можна враховувати з дуже малою вагою.

Також виникає питання — виробляти «обробку» посилань до розрахунку релевантності (препроцессінг) або після (постпроцесінг). З одного боку, якщо ми виробляємо облік непотістскіх посилань до розрахунку посилальної релевантності, то збільшується швидкість розрахунку кінцевої релевантності (т.к. частина посилань просто відкидається). З іншого боку, постпроцесінг дозволяє зберегти вихідний набір даних, до якого можна застосовувати інші алгоритми обробки, відшукуючи серед них найефективніший.

Попередні експерименти

Набори дани�

Ми використовували 2 набору даних. Для першого ми вручну відзначили 1536 посилань (тобто пар сторінок, одна з яких посилається на іншу), спеціально обраних таким чином, щоб в набір потрапили різні типи сторінок. Потім відзначили, які посилання є непотістскімі, а які ні.

Другий набір даних був отриманий шляхом випадкового відбору з 7 млн. сторінок 750 посилань, які були вручну промодеріровани і помічені, чи є вони непотістскімі чи ні.

У підсумку вийшли такі значення ймовірностей: 89.5% посилань були відзначені як непотістскіе в першому наборі даних і 72.8% — у другому.

Після цього був визначений набір факторів (наприклад, кількість посилань на сторінці, DNS-сервер сайту, IP-адресу) і для кожної зі сторінок двох наборів значення факторів були зібрані. У першому випадку вийшло 255 унікальних класів, у другому — 535.

Визначення показників

Певний вручну набір з 75 пар показників. включили в тести знайти відповіді на питання:

• Ідентичні чи заголовки сторінок (title) або опису (description)?
• Перегукуються чи (і якщо так, то наскільки, в%) опису (description) з текстом станиці?
• Чи повністю збігаються імена хостів (host-names)?
• Ідентичні чи тільки домени?
• Ідентичні чи тільки хости без доменів?
• Чи співпадають, хоча б частково, IP-адреси?
• посилається сторінка містить більш ніж n вихідних посилань?
• Сторінки містять певний відсоток однакових вихідних посилань?
• Чи співпадають, хоча б частково, URL сторінок?
• Чи належать сторінки доменній зоні. Com,. Net,. Org, або. Edu?
• Сторінка-донор посилається на linkstoyou.com?
• Опис (description) посилається містить фразу «посилання»?
• URL містить такі слова як «додому», «користувач» або символ «тильда» — ~
• Домени містять однакові e-mail?
• Домени мають однакові DNS-сервера?

Далі ці 75 показників були розбиті на групи:

•         Базова група (46 показників) (base): показники, що стосуються URL'ов сторінок

•         Базова група + інформація про посилання (59 показників) (base + links): показники, що входять у першу групу плюс показники, що стосуються вихідних посилань на сторінці, що посилається і IP-адрес

•         Базова група + текст (71 ознака) (base + text): показники, що входять в першу і другу групу плюс інформація про title і descriptions

•         Загальна група (all), включає всі показники плюс дані по перевірці інформація про e-mail і DNS-серверах (доступно лише для доменних імен в простих доменів верхнього рівня gTLD).

Ці групи були визначені виходячи з часу, який витрачається на збір заданої інформації. Значення показників, що входять в перші три групи обчислюються на основі інформації, що міститься в базі даних пошукової системи. Четверта група містить ряд показників, інформація про які може бути отримана тільки із зовнішніх джерел (що ускладнює, власне, її збір). І нарешті, п'яту групу утворюють дані за показниками (їх 25), які збираються вручну для підвищення точності).

Отже, після визначення набору показників і збору потрібної інформації використовується програмне забезпечення, що дозволяє будувати дерева рішень. Дослідники використовували «C4.5 decision tree package (Quinlan 1993)», створену Россом Куіланом

З використанням в якості навчальної вибірки першого набору даних було побудовано дерево рішень, фрагмент якого представлений на малюнку 1.

Дерево рішень, фрагмент
Малюнок 1. Фрагмент дерева рішень, побудованого на підставі першого набору дани�

Що ми бачимо на малюнку? У рядках у нас розташовані правила, що утворюють «гілки» дерева рішень. Якщо посилання непотістская, то результат = 1, якщо нормальна, то результат = -1. У дужках вказано кількість випадків з навчальної вибірки, які задовольняють заданій умові.

Пояснимо. Звернемо увагу на правила, виділені червоним. ЯКЩО e-mail у двох сторінок однаковий, ТО тоді посилання вважати непотістской. Всього з навчальної вибірки під цю умову потрапляє 5 випадків, коли посилання була дослідниками марковано як непотістская (Same contact e-mail = 1: 1 (5.0)). ЯКЩО e-mail двох сторінок розрізняється, то ми опускаємося на рівень нижче і робимо наступну перевірку: ЯКЩО сторінки мають> 10% однакових посилань, ТО тоді посилання між двома сторінками треба вважати непотістскімі, ІНАКШЕ — немає. Під першу частину правила у нас потрапляють 62 посилання, які були спочатку помічені як непотістскіе і 7 посилань, які були помічені як хороші. Тобто ми тут спостерігаємо помилку, правило не зовсім коректно визначає непот. Але про помилки поговоримо трохи пізніше.

Результати

В першу чергу нам треба визначити точність результатів, які дає побудова дерева. Дослідники провели два експерименти: у першому в якості навчальної вибірки виступав перший набір даних (1536 посилань), а другий використовувався як тестовий, у другому експерименті — все навпаки. Також використовувалися різні набори показників.

На малюнку нижче ми бачимо графіки, що показують точність двох експериментів. Неозброєним оком видно, що перший спосіб побудови дерева рішень виявився більш точним. При цьому самий хороший результат досягається, коли використовуються значення показників, відібраних вручну (група з 24 показників). У цьому випадку помилка складає менше 10%. Помилки, як було показано вище, трапляються, коли посилання, позначена як непотістская, класифікується як «хороша», або навпаки.

Рівні помилок алгоритму
Малюнок 2. Рівні помилок алгоритму

Пояснюються такі відмінності між двома експериментами наступним чином. Перший набір даних репрезентативна, охоплює більшу кількість випадків, діагностуючих про Непіт. Другий набір даних малий. Тому, навчаючи алгоритм діагностики на першому наборі даних, ми отримуємо більш точний інструмент. Також варто відзначити, що використання більш повного набору показників, що характеризують сторінки з непотістскімі посиланнями, дає кращий результат (за винятком випадків, коли показники відбираються вручну).

Висновки

Набори даних і результати

Як може використовувати пошукова система запропонований в даній роботі підхід? Сценарій досить простий. Створюються два набори даних, що включають два типи посилань: хороші і непотістскіе. Перший набір даних вибирається таким чином, щоб у ньому зустрічалися всілякі варіанти непотістскіх посилань. Другий набір являє собою випадкову вибірку з реального Веба. На підставі першого набору будується дерево рішень і генеруються правила. На другому наборі правила тестуються. Використання другого набору даних для генерації правил дає гірші результати, оскільки в другому наборі не розглядаються всі варіанти непотістскіх посилань, тобто вибірка нерепрезентативна.

В роботі представлений лише окремий приклад використання повчального алгоритму для виявлення непотістскіх посилань. Звичайно, результати його роботи не дуже точні, так як для тестування і навчання використовувалися досить малі набори даних, та й дерева рішень — це всього лише один з багатьох інструментів роботи самонавчального алгоритму.

Обсяг робіт

В ході досліджень не виникло проблем із швидкістю обчислень. З іншого боку, враховуючи масштаби реального пошуку в Інтернеті, можна очікувати, що у реальних пошукових систем можуть виникнути деякі проблеми з продуктивністю.
Найбільш оптимальним буде використання даного алгоритму визначення непотістскіх посилань не в режимі реального часу, а офлайн, тобто не в момент подачі запиту та виведення релевантних результатів, а до цього.

Майбутні роботи

Проблема непотістскіх посилань набагато ширше і не обмежується описуваними в роботі припущеннями. Основні питання, які слід вирішити в майбутньому, це яким чином потрібно враховувати дублікати сторінок і «дзеркала» сайтів.
Чи потрібно ігнорувати посилання зі сторінок, що містять однаковий текст або все ж брати їх до уваги?
Так само, як було зазначено раніше в роботі, неясним залишається питання з евристиками: яким із способів їх задати, щоб краще враховувати посилання між сайтами і між сторінками одного сайту.
Ці проблеми ще належить вирішити пошуковим системам.

Висновок від перекладача

Як же це використовувати простому сеошник? А все просто. Припустимо, у нас є кілька тисяч покупних посилань. Ми визначили їх працездатність способом, який описувався у вступі. Далі, поділяємо порівну розглянуті кілька тисяч випадків. Отримуємо два набори даних. На основі першого ми будуємо дерево рішень, другий використовуємо для перевірки точності. Після того як ми побудували адекватне дерево рішень і визначили правила, використовуємо їх для діагностики майданчиків, на яких хочемо придбати посилання. Якщо правила вказують нам на те, що посилання буде робочою, значить, купуємо, інакше — не беремо.

Від себе хотілося б додати, що можна не обмежуватися тільки деревами рішень — в Data Mining є багато інших способів! Дерзайте!

Зі списком літератури, якою користувалися дослідники, можна ознайомитися в джерелі.
Брайан Д.Девісон, факультет інформаційних технологій, Державний Університет Нью-Джерсі

Переклад під ред. Дмитра Рузанова, аналітика-проектувальника компанії Ingate.

Похожие посты:

Оставить комментарий

Лимит времени истёк. Пожалуйста, перезагрузите CAPTCHA.

Июль 2018
Пн Вт Ср Чт Пт Сб Вс
« Фев    
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
Статистика