home@usask?site map
Начало
Новости
Советы по уходу
База данных
Книги о кактусах
Фотографии
Обои для Windows
Контакты
Техописание



14 апреля
Если Вы хотите установить название кактуса, URL картинки можно привести в сообщении форума. Удачного опознания!
25 марта
Создан новый раздел, в котором можно скачать обои для рабочего стола Windows с кактусами и суккулентами. Представлены все разрешения экрана.
15 февраля
Раз в две недели появляются выпуски новостей, а рассылку пока делать лень...
19 декабря
Решено добавить раздел "Новое о кактусах", и рассылку этой информации по E-mail (в будущем...)
4 декабря
Теперь можно не только загрузить фото на сайт, но и поставить ссылку на картинку в интернете. Теперь на сайте будет много новых фотографий кактусов!
21 ноября
Новый раздел - Книги о кактусах! Можно найти и заказать книги в интернет-магазинах Озон и Болеро. Информация по уходу за кактусами добавляется.
15 ноября
Начала появляться информация по уходу за кактусами.
25 сентября
12 сентября
Я начинаю проект, основная часть которого- создание поисковой базы по сайтам Интернет, посвященным кактусам. Первичный список ссылок- около 700 страниц.


Описание базы данных

Поиск в базе

  1. Нет разницы между заглавными и строчными буквами для обоих языков
  2. Логика поиска- только И
  3. Поиск точных соответствий с начала каждого слова (без учета морфологии)
    т.е., поиск "кактус" даст кактусы, кактусам, и т.д., но поиск "кактусов" не даст кактус
    так же, поиск "актус" НЕ даст кактус
  4. Неинформативными считаются слова из 1 и 2-х букв.

Влияние настроек

  1. Все страницы упорядочены по убыванию релевантности. Релевантность тем больше, чем ближе слово запроса к реально найденному слову (для каждого из слов запроса).
  2. Если ссылок больше 500 - сортировка по убыванию прозведения включений каждого из слов запроса
  3. Если ссылок больше 100 - то же, но для каждого из найденных слов вычисляется "степень похожести" к соответстсвующему слову запроса.
  4. Если ссылок больше 10 - учитывается близость расположения найденных слов в тексте сайта.
  5. Если ссылок меньше 10 - то же, но с учетом "степени похожести" слов.
  6. Группировка по серверам:- все страницы с одного домена показыаются в одном списке. Главная страница - наиболее релевантная.
  7. Учет "общего качества ресурса" - релевантность умножается на число найденных на странице "необходимых" слов. (Увеличивает вес названий кактусов)
  8. Учет "количества ссылок на ресурсы по кактусам" - релевантность умножается на число ссылок с данной страницы на другие страницы, попавшие в базу. (Увеличивает вес страниц каталогов)

Создание базы

База написана на языке perl 5, работет на Win, UNIX. Состоит из 3-х частей: скрипт-паук и скрипт индексации на локальном компьютере и поисковая часть - на сервере. Система аналогична - поиск деловой информации.
  1. Составлен первичный список уникальных URL страниц (около 700, по известным спискам ссылок и запросам Yandex типа "кактус выращивание" или "Mammillaria")
  2. Внутри каждого домена по ссылкам просмотрены все документы, те из них, где есть "необходимые" слова, записаны в виде сырых текстов (3700 страниц)
  3. Поиск слов происходит с удалением всех тегов, в т.ч. и внутренних текстов в тегах <img> и <a>
  4. Ссылки находятся в тегах <a (href)>, <script (location)>, <meta (refresh)>, редирект поддерживается.
  5. Ссылки на другие (неизвестные) домены запоминаются для второго прохода, которого еще не было.
  6. Сырые тексты разбираются по словам и позициям в тексте. Группа слов и номеров сайтов содержится в файлах <8 Kb, объемом 30 Mb, общий словарный запас кактусоводов - 115 тыс. слов, включая латиницу.

Что не поддерживается, но будет-

  1. Логические операторы
  2. Поиск в различных элементах сайта (заголовок, текст, описание, и т.д.)

Для того, чтобы поставить на свой сайт подобную базу по любой тематике и (или) по любому набору сайтов партнеров (конкурентов)

"Необходимые слова" -
глохиди, ареол, нематод, кактус, cactus, astrophytum, mammillaria, gymnocalycium, glandulicactus, ferocactus, parodia, horridocactus, neoporteria, neochilenia, copiapoa, opuntia, fillocactus, epiphillum, echinocactus, cereus, echinocereus, rebutia, echinopsis, aztekium, brazilicactus, carnegiea, melocactus, gymnocactus, neolloydia, pyrrhocactus, cephalocereus

- для того, чтобы страница была занесена в базу, необходимо наличие на ней хотя бы одного из этих слов (без учета регистра)

Design & programming & © (2001-2007): cactus.dax.ru.
home@ussite map