Namecheap.com - Cheap domain name registration, renewal and transfers - Free SSL Certificates - Web Hosting

Проверка количества проиндексированных страниц в Google

Written on 07/09/2010 – 1:43 am | by webninja |

Как определить кол-во проиндексированных страниц в гугле? реализация на Python. Недавно нужно было срочно, написал :

import urllib
import re

from urllib2 import urlopen
from urlparse import urlparse
from urllib import FancyURLopener

class GOpener(FancyURLopener):
    version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.6) Gecko/2009011913 Firefox/3.0.6'

def web_getpage(url):
    g_opener = GOpener()
    page = g_opener.open(url)
    return page.read()

def get_index(url):
    request = 'http://www.google.com/search?q=site:' + url
    # About 105,000,000 results
    index = 0
    try:
        gs = web_getpage(request)
        p = re.compile('About (.*) results')
        index = int(p.findall(gs)[0].replace(",", ""))
    except SearchError, e:
        index = -1
        #print "Search Failed : %s" % e
    finally:
        #print "Index: %d\tURL: %s" % (int(index), url)
        return index

Related posts:

  1. Проверка Google PR на Python
  2. Анализ Google SERP на Python
  3. Проверка подключения к интернету
  4. Проверка прокси – простейший Proxy Checker.
  • Cabal

    Если проиндексирована всего одна страница то регулярка сольёт. Надо бы как то так:
    ‘(\d+\S*?) resul(?:t|ts)’

  • http://ninjaside.info webninja

    спасибо ) + если стоит задача проверять много сайтов подобным образом, то нужно с таймингами работать аккуратно, т.к. гугл сопротивляется.

My blog is Do-Follow


Пишу код, делаю сайты.
Check out my about.me profile!

парсинг сайтов, форумов, интернет магазинов

Want to subscribe?

istinspring twitter account
istinspring facebook account

 Subscribe in a reader Or, subscribe via email:
Enter your email address:  
Find entries :