Начало
	Новости
	Советы по уходу
	База данных
	Книги о кактусах
	Фотографии
	Обои для Windows
	Контакты
	Техописание

14 апреля

Если Вы хотите установить название кактуса, URL картинки можно привести в сообщении форума. Удачного опознания!

25 марта

Создан новый раздел, в котором можно скачать обои для рабочего стола Windows с кактусами и суккулентами. Представлены все разрешения экрана.

15 февраля

Раз в две недели появляются выпуски новостей, а рассылку пока делать лень...

19 декабря

Решено добавить раздел "Новое о кактусах", и рассылку этой информации по E-mail (в будущем...)

4 декабря

Теперь можно не только загрузить фото на сайт, но и поставить ссылку на картинку в интернете. Теперь на сайте будет много новых фотографий кактусов!

21 ноября

Новый раздел - Книги о кактусах! Можно найти и заказать книги в интернет-магазинах Озон и Болеро. Информация по уходу за кактусами добавляется.

15 ноября

Начала появляться информация по уходу за кактусами.

25 сентября

12 сентября

Я начинаю проект, основная часть которого- создание поисковой базы по сайтам Интернет, посвященным кактусам. Первичный список ссылок- около 700 страниц.

Описание базы данных

Поиск в базе

Нет разницы между заглавными и строчными буквами для обоих языков
Логика поиска- только И
Поиск точных соответствий с начала каждого слова (без учета морфологии)
т.е., поиск "кактус" даст кактусы, кактусам, и т.д., но поиск "кактусов" не даст кактус
так же, поиск "актус" НЕ даст кактус
Неинформативными считаются слова из 1 и 2-х букв.

Влияние настроек

Все страницы упорядочены по убыванию релевантности. Релевантность тем больше, чем ближе слово запроса к реально найденному слову (для каждого из слов запроса).
Если ссылок больше 500 - сортировка по убыванию прозведения включений каждого из слов запроса
Если ссылок больше 100 - то же, но для каждого из найденных слов вычисляется "степень похожести" к соответстсвующему слову запроса.
Если ссылок больше 10 - учитывается близость расположения найденных слов в тексте сайта.
Если ссылок меньше 10 - то же, но с учетом "степени похожести" слов.
Группировка по серверам:- все страницы с одного домена показыаются в одном списке. Главная страница - наиболее релевантная.
Учет "общего качества ресурса" - релевантность умножается на число найденных на странице "необходимых" слов. (Увеличивает вес названий кактусов)
Учет "количества ссылок на ресурсы по кактусам" - релевантность умножается на число ссылок с данной страницы на другие страницы, попавшие в базу. (Увеличивает вес страниц каталогов)

Создание базы

База написана на языке perl 5, работет на Win, UNIX. Состоит из 3-х частей: скрипт-паук и скрипт индексации на локальном компьютере и поисковая часть - на сервере. Система аналогична - поиск деловой информации.

Составлен первичный список уникальных URL страниц (около 700, по известным спискам ссылок и запросам Yandex типа "кактус выращивание" или "Mammillaria")
Внутри каждого домена по ссылкам просмотрены все документы, те из них, где есть "необходимые" слова, записаны в виде сырых текстов (3700 страниц)
Поиск слов происходит с удалением всех тегов, в т.ч. и внутренних текстов в тегах <img> и <a>
Ссылки находятся в тегах <a (href)>, <script (location)>, <meta (refresh)>, редирект поддерживается.
Ссылки на другие (неизвестные) домены запоминаются для второго прохода, которого еще не было.
Сырые тексты разбираются по словам и позициям в тексте. Группа слов и номеров сайтов содержится в файлах <8 Kb, объемом 30 Mb, общий словарный запас кактусоводов - 115 тыс. слов, включая латиницу.

Что не поддерживается, но будет-

Логические операторы
Поиск в различных элементах сайта (заголовок, текст, описание, и т.д.)

Для того, чтобы поставить на свой сайт подобную базу по любой тематике и (или) по любому набору сайтов партнеров (конкурентов)

"Необходимые слова" -
глохиди, ареол, нематод, кактус, cactus, astrophytum, mammillaria, gymnocalycium, glandulicactus, ferocactus, parodia, horridocactus, neoporteria, neochilenia, copiapoa, opuntia, fillocactus, epiphillum, echinocactus, cereus, echinocereus, rebutia, echinopsis, aztekium, brazilicactus, carnegiea, melocactus, gymnocactus, neolloydia, pyrrhocactus, cephalocereus

- для того, чтобы страница была занесена в базу, необходимо наличие на ней хотя бы одного из этих слов (без учета регистра)

Design & programming & © (2001-2007): cactus.dax.ru.