Парсинг Google - несколько секретов мастерства

Приведу несколько примеров не очень распространенных запросов к Google, которые зачастую значительно помогают наиболее полно распарсить Google по интересующему вас запросу.

Итак, поехали…

Пример №1

Где-то с квартал назад Google изменил подход к тегу daterange, теперь запросы с тегом daterange помогают парсить выдачу по дате (диапазон дат задается согласно Юлианскому календарю).

Так например, по запросу daterange:2454496-2454496 Google выдает страницы от 30 января 2007.

Примеры запросов:

  • "guestbook" daterange:2454496-2454496
  • "guestbook" daterange:2454495-2454495
  • "guestbook" daterange:2454494-2454494

 

Пример №2

Использую следующие два типа запросов можно разделить выдачу Google на половинки, т.е. на сайты с www и без www

  • "some words" inurl:"www." только домены с префиксом www
  • "some words" -inurl:"www." только домены без префикса www

 

Пример №3

Теперь немного на примере самой популярной зоны com (приненимо и для всех других известных вам доменных зон) рассмотрим ряд специфических запросов, которые позволяют разбить выдачу на более мелкие кусочки

  • site:com только домены зарегистрированные в зоне com

  • site:*com только домены зарегистрированные в зоне com и без дефиса в имени домена
  • site:com -site:*com только домены зарегистрированные в зоне com и с одним или более дефисами в имени домена

  • site:*-*com только домены с одним дефисом в имени домена
  • site:*-*-*com только домены с двумя дефисами в имени домена
  • site:*-*...-*com только домены с N кол-вом дефисов в имени домена
  • site:com -site:*com -site:*-*com -site:*-*-*com только домены с двумя дефисами подряд или с тремя и более дефисами в имени домена

  • site:*.*com только домены с одной точкой в имени домена (сабдомены)
  • site:*.*.*com только домены с двумя точками в имени домена
  • site:*.*...*.*com только домены с N кол-вом точек в имени домена

  • site:com/* в адресе одна и более поддиректорий
  • site:com/*/* в адресе есть 2 поддиреторий
  • site:com/*/*/* в адресе есть 3 поддиреторий
  • site:com/*/*.../* в адресе есть n поддиреторий

Важно: подстановка дирректорий возможна совместно с точками и дефисами!

Google парсинг

__________________________

Оптимизация поисковых систем: идеи и софт!

Tags:

оглосите, плз, весь список операторов... 

Submitted by Гость on Wed, 27/02/2008 - 08:37.

Все операторы есть в хелпе Google!
А тут приведены только нестандартные вариации из этих операторов.

п.с. вставлять ссылки на свои ресурсы могут только зарегистрированные пользователи, см. поле Signature.


__________________________

Оптимизация поисковых систем: идеи и софт!

Submitted by DmitryHT on Wed, 27/02/2008 - 09:48.

ВОТ ТИПА ХЕЛП ОТ ГУГЛИ
http://code.google.com/apis/soapsearch/reference.html
СТАТЬЯ ПРОСТО СУПЕР СПАСИБО

Submitted by Гость on Wed, 05/03/2008 - 19:57.

Про этот хелп я знаю.
Но за ссылку спасибо - пусть служит дополнением к статье ;)


__________________________

Оптимизация поисковых систем: идеи и софт!

Submitted by DmitryHT on Thu, 06/03/2008 - 08:16.

Супер.

Submitted by Гость on Thu, 13/03/2008 - 10:26.

Есть еще моя статья
http://www.seonews.ru/article/.publication/410/
и бесплатный парсер
http://bajron.od.ua/?p=68

Submitted by Гость on Tue, 13/05/2008 - 20:41.

Как перевести человеческие даты в формат datarange. Юлианский это просто старый стиль, который отстаёт от нашего на сколько-то там дней.

Submitted by Гость on Fri, 27/06/2008 - 22:47.

тоже интересно http://auzigog.com/2007/08/21/google-over-1000-result-hack/

Submitted by Гость on Tue, 28/10/2008 - 09:06.

Даты конвертировать можно здесь http://aa.usno.navy.mil/data/docs/JulianDate.php

Submitted by Гость on Sun, 19/07/2009 - 16:25.

Спасибо за пост

Я пытаюсь получить список URL НЕ проиндексированных в Google. Все URL с одного домена, их примерно 130 000. В Google, из этих 130 000 проиндексировано 63 000. Я нашёл два подхода к решению задачи, однако ни один из них пока не сработал.
Первый: вытащить из гугла URL всех проиндексированных страниц и “отнять” от списка всех URL (такой имеется). Здесь или я не до конца разобрался или гугл не корректно отвечает на запросы. (Например, используя daterange:0-2455033 выдаёт всего 14 000 результатов вместо 63 000)
Второй: найти программу (или услугу) которая проверит одну за другой все URL из списка и скажет, какие в индексе, а какие нет. Такую программу/услугу найти не получается (((
У кого-то есть решение? Как найти не проиндексированные страницы большого сайта (www.avtomagazine.ua например)???

Submitted by Гость on Sun, 19/07/2009 - 16:56.

Запомнить сайт   Запомнить страницу 

RSS + статистика



AffiliateCube

  • 75% от действий
  • 75% от продаж
  • 5% реферальских

T3Leads

  • до 63.88$ за лид
  • до 1:4 конверт
  • 5% реферальских

GlavMed

  • до 250$ за сайн
  • до 40% с продаж
  • до 16,6% реферальских

Tube-Reactor

  • 35-40% от продаж
  • ~80$ с 1к трафа
  • 6% реферальских

MP3SkyLine

  • 30% от продаж
  • ~50$ с 1к трафа
  • 6% реферальских