Парсинг Google - несколько секретов мастерства
Приведу несколько примеров не очень распространенных запросов к Google, которые зачастую значительно помогают наиболее полно распарсить Google по интересующему вас запросу.
Итак, поехали…
Пример №1
Где-то с квартал назад Google изменил подход к тегу daterange, теперь запросы с тегом daterange помогают парсить выдачу по дате (диапазон дат задается согласно Юлианскому календарю).
Так например, по запросу daterange:2454496-2454496 Google выдает страницы от 30 января 2007.
Примеры запросов:
- "guestbook" daterange:2454496-2454496
- "guestbook" daterange:2454495-2454495
- "guestbook" daterange:2454494-2454494
Пример №2
Использую следующие два типа запросов можно разделить выдачу Google на половинки, т.е. на сайты с www и без www
- "some words" inurl:"www." только домены с префиксом www
- "some words" -inurl:"www." только домены без префикса www
Пример №3
Теперь немного на примере самой популярной зоны com (приненимо и для всех других известных вам доменных зон) рассмотрим ряд специфических запросов, которые позволяют разбить выдачу на более мелкие кусочки
- site:com только домены зарегистрированные в зоне com
- site:*com только домены зарегистрированные в зоне com и без дефиса в имени домена
- site:com -site:*com только домены зарегистрированные в зоне com и с одним или более дефисами в имени домена
- site:*-*com только домены с одним дефисом в имени домена
- site:*-*-*com только домены с двумя дефисами в имени домена
- site:*-*...-*com только домены с N кол-вом дефисов в имени домена
- site:com -site:*com -site:*-*com -site:*-*-*com только домены с двумя дефисами подряд или с тремя и более дефисами в имени домена
- site:*.*com только домены с одной точкой в имени домена (сабдомены)
- site:*.*.*com только домены с двумя точками в имени домена
- site:*.*...*.*com только домены с N кол-вом точек в имени домена
- site:com/* в адресе одна и более поддиректорий
- site:com/*/* в адресе есть 2 поддиреторий
- site:com/*/*/* в адресе есть 3 поддиреторий
- site:com/*/*.../* в адресе есть n поддиреторий
Важно: подстановка дирректорий возможна совместно с точками и дефисами!
__________________________
- 13869 reads

оглосите, плз, весь список операторов...
Submitted by Гость on Wed, 27/02/2008 - 08:37.Все операторы есть в хелпе Google!
А тут приведены только нестандартные вариации из этих операторов.
п.с. вставлять ссылки на свои ресурсы могут только зарегистрированные пользователи, см. поле Signature.
__________________________
Оптимизация поисковых систем: идеи и софт!
Submitted by DmitryHT on Wed, 27/02/2008 - 09:48.ВОТ ТИПА ХЕЛП ОТ ГУГЛИ
Submitted by Гость on Wed, 05/03/2008 - 19:57.http://code.google.com/apis/soapsearch/reference.html
СТАТЬЯ ПРОСТО СУПЕР СПАСИБО
Про этот хелп я знаю.
Но за ссылку спасибо - пусть служит дополнением к статье ;)
__________________________
Оптимизация поисковых систем: идеи и софт!
Submitted by DmitryHT on Thu, 06/03/2008 - 08:16.Супер.
Submitted by Гость on Thu, 13/03/2008 - 10:26.Есть еще моя статья
Submitted by Гость on Tue, 13/05/2008 - 20:41.http://www.seonews.ru/article/.publication/410/
и бесплатный парсер
http://bajron.od.ua/?p=68
Как перевести человеческие даты в формат datarange. Юлианский это просто старый стиль, который отстаёт от нашего на сколько-то там дней.
Submitted by Гость on Fri, 27/06/2008 - 22:47.тоже интересно http://auzigog.com/2007/08/21/google-over-1000-result-hack/
Submitted by Гость on Tue, 28/10/2008 - 09:06.Даты конвертировать можно здесь http://aa.usno.navy.mil/data/docs/JulianDate.php
Submitted by Гость on Sun, 19/07/2009 - 16:25.Спасибо за пост
Я пытаюсь получить список URL НЕ проиндексированных в Google. Все URL с одного домена, их примерно 130 000. В Google, из этих 130 000 проиндексировано 63 000. Я нашёл два подхода к решению задачи, однако ни один из них пока не сработал.
Submitted by Гость on Sun, 19/07/2009 - 16:56.Первый: вытащить из гугла URL всех проиндексированных страниц и “отнять” от списка всех URL (такой имеется). Здесь или я не до конца разобрался или гугл не корректно отвечает на запросы. (Например, используя daterange:0-2455033 выдаёт всего 14 000 результатов вместо 63 000)
Второй: найти программу (или услугу) которая проверит одну за другой все URL из списка и скажет, какие в индексе, а какие нет. Такую программу/услугу найти не получается (((
У кого-то есть решение? Как найти не проиндексированные страницы большого сайта (www.avtomagazine.ua например)???