Описание базы данных
Поиск в базе
- Нет разницы между заглавными и строчными буквами для обоих языков
- Логика поиска- только И
- Поиск точных соответствий с начала каждого слова (без учета морфологии)
т.е., поиск "кактус" даст кактусы, кактусам, и т.д., но поиск "кактусов" не даст кактус
так же, поиск "актус" НЕ даст кактус
- Неинформативными считаются слова из 1 и 2-х букв.
Влияние настроек
- Все страницы упорядочены по убыванию релевантности. Релевантность тем больше, чем ближе слово запроса к реально найденному слову (для каждого из слов запроса).
- Если ссылок больше 500 - сортировка по убыванию прозведения включений каждого из слов запроса
- Если ссылок больше 100 - то же, но для каждого из найденных слов вычисляется "степень похожести" к соответстсвующему слову запроса.
- Если ссылок больше 10 - учитывается близость расположения найденных слов в тексте сайта.
- Если ссылок меньше 10 - то же, но с учетом "степени похожести" слов.
- Группировка по серверам:- все страницы с одного домена показыаются в одном списке. Главная страница - наиболее релевантная.
- Учет "общего качества ресурса" - релевантность умножается на число найденных на странице "необходимых" слов. (Увеличивает вес названий кактусов)
- Учет "количества ссылок на ресурсы по кактусам" - релевантность умножается на число ссылок с данной страницы на другие страницы, попавшие в базу. (Увеличивает вес страниц каталогов)
Создание базы
База написана на языке perl 5, работет на Win, UNIX. Состоит из 3-х частей: скрипт-паук и скрипт индексации на локальном компьютере и поисковая часть - на сервере. Система аналогична - поиск деловой информации.
- Составлен первичный список уникальных URL страниц (около 700, по известным спискам ссылок и запросам Yandex типа "кактус выращивание" или "Mammillaria")
- Внутри каждого домена по ссылкам просмотрены все документы, те из них, где есть "необходимые" слова, записаны в виде сырых текстов (3700 страниц)
- Поиск слов происходит с удалением всех тегов, в т.ч. и внутренних текстов в тегах <img> и <a>
- Ссылки находятся в тегах <a (href)>, <script (location)>, <meta (refresh)>, редирект поддерживается.
- Ссылки на другие (неизвестные) домены запоминаются для второго прохода, которого еще не было.
- Сырые тексты разбираются по словам и позициям в тексте. Группа слов и номеров сайтов содержится в файлах <8 Kb, объемом 30 Mb, общий словарный запас кактусоводов - 115 тыс. слов, включая латиницу.
Что не поддерживается, но будет-
- Логические операторы
- Поиск в различных элементах сайта (заголовок, текст, описание, и т.д.)
Для того, чтобы поставить на свой сайт подобную базу по любой тематике и (или) по любому набору сайтов партнеров (конкурентов)
"Необходимые слова" -
глохиди, ареол, нематод, кактус, cactus, astrophytum, mammillaria, gymnocalycium, glandulicactus, ferocactus, parodia, horridocactus, neoporteria, neochilenia, copiapoa, opuntia, fillocactus, epiphillum, echinocactus, cereus, echinocereus, rebutia, echinopsis, aztekium, brazilicactus, carnegiea, melocactus, gymnocactus, neolloydia, pyrrhocactus, cephalocereus
- для того, чтобы страница была занесена в базу, необходимо наличие на ней хотя бы одного из этих слов (без учета регистра)
|