Namecheap.com - Cheap domain name registration, renewal and transfers - Free SSL Certificates - Web Hosting

Распределенные поисковые системы. majestic12.

Thursday, November 25th, 2010

Фантастика! А такие есть…. Пару дней назад рассматривая бегающих туда-сюда по блогу ботов наткнулся на – http://www.majestic12.co.uk/

Majestic-12 усердно работает над созданием World Wide Web поисковика основанного на концепции распределенных вычислений, таким же образом как и проекты типа SETI@home.

т.е. проект работает за счет того, что энтузиасты по всему миру расшаривают вычислительные ресурсы своих компьютеров помогая поисковику индексировать страницы. Отсюда следует немаловажный вывод – ботов нельзя отсечь используя список IP адресов, и бывает они создают достаточно серьезную нагрузку на ресурс который индексируют, заблокировать ботом можно только через robots.txt. Скачать клиента можно тут :
http://www.majestic12.co.uk/projects/dsearch/download.php

Поисковые технологии потихоньку развиваются, гуглу приходится все труднее т.к. со все сторон его атакуют различные набольшие проекты, конечно вряд ли он сдаст свои позиции в скором времени, но тем не менее здоровая конкуренция всегда идет на пользу рынку. У гугла сейчас есть крайне неприятная проблема – сайты контент-помойки, вроде ehow, mahalo и т.д. Уже недостаточно написать хорошую статью чтобы оказаться в топе поисковика, нужны кучи бэклинков – обычный человек никогда не будет этим заниматься, в то время как в топах зависают сайты с миллионами входящих бэков контент для которых пишут дешевые копирайтеры-индусы. В итоге что-то действительно полезное найти становится все труднее. И это как говорится – suck.

динамика развития majestic-12
http://www.majestic12.co.uk/projects/dsearch/stats.php
Индекс Majestic-12 уже достаточно внушителен и динамика развития проекта радует глаз. Не такая уж новая идея распределенных вычислений идея была реализована и теперь у разработчиков в руках находится огромное кол-во данных для анализа. И они извлекают из этого какую-то прибыль – продают доступ на сервис http://www.majesticseo.com/

Dotbot – индекс веба доступный каждому.

Saturday, November 13th, 2010

Заметил сегодня у себя в статистике бота который представлялся как dotBot и имел адрес http://www.dotnetdotcom.org/.

Наши цели.

Наши цели довольно просты. Мы хотим сделать интернет настолько открытым – насколько это возможно. На текущий момент только несколько избранных корпораций имеют полный и подходящий для использования иденкс веба. Наша цель – изменить этот факт, для этого наш бот собирает данный о вебе и мы публикуем как можно более полную информацию о структуре и контенте всемирной паутины. Мы планируем делать это так, чтобы перекрывать наши расходы (продажа индекса) и релизить его бесплатно – полезная штука для вебмастеров. Очевидно эта цель имеет множество потенциальных проблем с технической частью, легальностью, финансами и этикой. Вообщем мы пока будем работать и стараться сделать интернет среду как можно более открытой.

Техническая составляющая системы написана на C/Python с использованием libcurl. Авторы передают респект всему open source сообществу.

www.example.com/  HTTP/1.1 200 OK
Date: Sat, 20 Sep 2008 15:43:15 GMT
Server: Apache/2.0.52 (CentOS)
X-Powered-By: PHP/4.3.9
Content-Length: 557
Connection: close
Content-Type: text/html; charset=UTF-8

	<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
	<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
	<head>
	<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
	<title>I am an example.</title>
	</head>
	<body>
	...
	<body>
	</html>

www.example2.com/  HTTP/1.1 200 OK
Date: Sat, 20 Sep 2008 15:43:15 GMT
Server: Apache/2.0.52 (CentOS)
X-Powered-By: PHP/4.3.9
Content-Length: 557
Connection: close
Content-Type: text/html; charset=UTF-8

	<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
	<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
	<head>
	<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
	<title>I am a different example.</title>
	</head>
	<body>
	...
	<body>
	</html>

Там же можно скачать текущий индекс. Это 3.2 гигабайта в запакованном виде и более 14 гигов в распакованном. На данный момент индекс грубо говоря представляет собой урл и http-response (т.е. хтмл код страницы). Но даже из этого в принципе можно получить достаточно много интересной инфы, правда база достаточно большая и обработка её даже простыми операциями (например подсчет ссылок) может занять длительное время )

My blog is Do-Follow


Пишу код, делаю сайты.
Check out my about.me profile!

парсинг сайтов, форумов, интернет магазинов

Want to subscribe?

istinspring twitter account
istinspring facebook account

 Subscribe in a reader Or, subscribe via email:
Enter your email address:  
Find entries :