Follow Alternative v.1.0 – примочка для парсеров
Submitted by DmitryHT on Sat, 22/03/2008 - 00:01.
Вы все еще парсите? Тогда мы идем к вам!
Заметил тут случайно, что валяется среди всех моих программок одно забытое чудное творение: Follow Alternative 1-ой версии. Писалась эта примочка ну ооочень давно, но рас уж внезапно объявилась, то решил чего добру пропадать – выношу в паблик, авось кому и пригодится.
Итак, что же это за примочка и для чего она нужна.
Многие из вас знают такую программу как Spamit-B, а в ней есть такая функцию Follow (да и не только в ней, а во всех нормальных парсерах). Так вот если нажать на Follow, то программа выдирает ссылки из текущего списка страниц и ищет на них благоприятные формы для добавления комментариев. Все бы ничего, но результативность такого подхода не ахти, а ресурсов при этом съедается ооочень много. Зачастую гораздо проще указать шаблоны, по которым на определенных типах гостевых и находятся эти самые формы.
Именно это и помогает сделать Follow Alternative.
Подробности работы:
После того как вы нажмете на “Start”:
Вместе с программой идут следующие файлы:
С файлом Queries.csv все понятно, а вот про Rules.csv следует еще кое-что рассказать. Итак, в файле Rules.csv всего 5 колонок. Подробнее о том, что должно быть в каждой из них:
Вот, в общем-то, и все! Добавлю лишь то, что полученный результат не помешает дополнительно проверить каким-нибудь форм чекером или 404 чекером.
Хотя этот процесс и вносит дополнительную рутину в процесс работы, но все же при этом он помогает вам собрать чистую и хорошую базу, в которую вы можете быстро запостить ваши комментарии в том формате, который пригоден для данного типа гостевых
__________________________
Заметил тут случайно, что валяется среди всех моих программок одно забытое чудное творение: Follow Alternative 1-ой версии. Писалась эта примочка ну ооочень давно, но рас уж внезапно объявилась, то решил чего добру пропадать – выношу в паблик, авось кому и пригодится.
Итак, что же это за примочка и для чего она нужна.
Многие из вас знают такую программу как Spamit-B, а в ней есть такая функцию Follow (да и не только в ней, а во всех нормальных парсерах). Так вот если нажать на Follow, то программа выдирает ссылки из текущего списка страниц и ищет на них благоприятные формы для добавления комментариев. Все бы ничего, но результативность такого подхода не ахти, а ресурсов при этом съедается ооочень много. Зачастую гораздо проще указать шаблоны, по которым на определенных типах гостевых и находятся эти самые формы.
Именно это и помогает сделать Follow Alternative.
Подробности работы:
- выбираете файл с результатами напарсенного (формат файла должен быть вида: “URL”,“Query”)
- выбираете файл с шаблонами для подстановок
- выбираете файл для сохранения результатов
После того как вы нажмете на “Start”:
- программа построчно считает каждую запись по значению в поле Query
- определит все необходимые шаблоны
- преобразует URL в соответствии с шаблоном и сохранит измененную запись в файл с результатами
Вместе с программой идут следующие файлы:
- Queries.csv – файл соответствий признаков для парсинга и имен шаблонов
- Rules.csv – файл шаблонов для обработки записей
С файлом Queries.csv все понятно, а вот про Rules.csv следует еще кое-что рассказать. Итак, в файле Rules.csv всего 5 колонок. Подробнее о том, что должно быть в каждой из них:
- В 1-ой колонке пишется макрос для отрезания лишнего от URL. Возможны следующие значения: QUESTION – удаляет все после последнего знака вопроса, SLASH – удаляет все после последнего слеша, AnyText.php – удаляет все после последнего указанного текста;
- Во 2-ой колонке пишется то, что необходимо подставить к URL после обрезания;
- В 3-ей колонке пишется путь, по которому следует проверять результативность постинга;
- В 4-ей пишется тип обрамления ссылки (AHREF - html, CLEAR – просто URL, PROFILE – ссылка в профиле, URL - BBCode);
- В 5-ой колонке пишется имя шаблона.
Вот, в общем-то, и все! Добавлю лишь то, что полученный результат не помешает дополнительно проверить каким-нибудь форм чекером или 404 чекером.
Хотя этот процесс и вносит дополнительную рутину в процесс работы, но все же при этом он помогает вам собрать чистую и хорошую базу, в которую вы можете быстро запостить ваши комментарии в том формате, который пригоден для данного типа гостевых

__________________________
Оптимизация поисковых систем: идеи и софт!
| Attachment | Size |
|---|---|
| FollowAlternative_v1-0.rar | 182.47 KB |
- 747 reads
Tags:


привет
хочу попросить Вас выложить исходник этой проги...
если не жалко ессесна )))
- reply
Submitted by Гость on Fri, 18/07/2008 - 04:46.__________________________
Оптимизация поисковых систем: идеи и софт!
- reply
Submitted by DmitryHT on Mon, 21/07/2008 - 08:22.Post new comment