Wednesday, January 5th, 2011
Первый пост в новом году, поздравляю всех читателей блога с Новым Годом! Главное свежие идеи и обучаемость, бабло же как правило приложится.
Вообщем обнаружил топ 1000 от гугла, решил записать, чтобы не забыть.
You can see a list of the largest 1000 sites worldwide, based on Unique Visitors (users), as measured by Ad Planner. This list is updated monthly as new Ad Planner datasets are released. The list defines sites as top-level domains.
Posted in Advertising | 2 Comments »
Friday, December 10th, 2010
Веб технологии стремительно развиваются, в интернете появляется все больше и больше источников информации а так же сайтов которые её агрегируют для более удобного доступа – так называемые машапы (Mashup).
Одна из предполагаемых концепций Web 3.0 – сайты которые общаются с другими сайтами, быстро предоставляя всю смежную информацию по интересующей пользователя теме. На шаг ближе к семантическому вебу, на этих технологиях будут основываться последующие улучшения информационного пространства, что в конечном итоге наверняка приведет к созданию AI. Ну а пока информация нуждается в складировании, упорядочению и организации интерфейсов доступа к ней.
Подобные сайты уже начали появляться в рунете, например – текущие тенденции hottrends.ru. Сайт использует собственный алгоритм для определения текущих “горячих тем” и сервисы google для агрегации сопутствующей информации. Все это дело сохраняется в архив по датам, из которого можно извлекать данные. В планах автора развитие ресурса в сторону большей социализации и предоставления API интерфейсов.
Posted in Mashup | 4 Comments »
Friday, December 10th, 2010
Фокус общественного внимания все еще не сходит с событий развернувшихся вокруг проекта WikiLeaks. Пару дней назад руководитель проекта Джуллиан Ассандж был арестован британской полицией по нелепому обвинению, а банки и платежные системы блокируют счета проекта на которые принимаются добровольные пожертвования (возможно под давлением госдепа). Многие не сомневаются в том, что все это имеет политический оттенок. Но теперь интернет может нанести ответный удар, который будет стоить гос-ву и компаниям которые препятствуют работе проекта (MasterCard/Visa/Paypal/Banks) больших денег. Координация действий тысяч пользователей интернета идет через Twitter/IRC каналы, миллионы людей во всем мире участвуют в акциях протеста.
The next target MIGHT be http://mastercard.com/ again. But we are currently targeting http://api.paypal.com, port 443. GET INVOLVED.
“Our payment transaction systems are all done through Paypal and as of about 3 hours ago I am unable to collect payments from my customer’s in any sort of way.”
На данный момент фактически единственный сайт который может возглавить подобного рода атаки – это imageboard 4chan, в связи с тем, что обладает гигантскими ресурсами по трафику и миллионной аудиторией.
На счету участников акции уже есть успешные атаки на сайты MasterCard/Paypal и на очереди другие ресурсы. Пользователи используют LOIC и TOR для организации DOS атак, и это очень эффективно когда в процесс вовлечены одновременно несколько тысяч или даже десятков тысяч человек, позволяя проводить атаки фактически круглы сутки.
Следить за событиями или поучаствовать можно :
Posted in Cool Story Bro | 2 Comments »
Wednesday, December 1st, 2010
Есть такая фича в google.com/translate – пасхальное яйцо от гугла. Появилось в треде на reddit.com – и там еще много готовых “пресетов”
- Идем на google translate
- Ставим перевод с немецкого на немецкий (german to german)
- Копипастим это в гугл транслейт : pv zk pv pv zk pv zk kz zk pv pv pv zk pv zk zk pzk pzk pvzkpkzvpvzk kkkkkk bsch <<< или жмем сразу сюда.
- Жмем Listen
- Радуемся
Используя таблицу можно составить драм-паттерн самому :
- zk = suspended cymbal
- bschk = snare
- pv = brush
- bk = bass
- tk = flam1
- vk = roll tap
- kt = flam2
- kttp = flam tap
- krp = hi hat tap
- pv = short roll
- th = better hi hat
- thp, ds = instant rimshot.
Posted in Fun, Google | 1 Comment »
Wednesday, December 1st, 2010
WikiLeaks, которые занимаются распространением неприятных для гос-в материалов вихрем ворвались в медиа-сферу, будоража интернет сообщество скандальными разоблачениями и сотнями тысяч документов. Это своего рода первые проявления мира завтрашнего дня, времени когда правительства будут прозрачны и их деятельность будет полностью подконтрольна гражданским институтам. Интернет как средство коммуникации неизбежно изменит мир и если следовать историческому тренду – в лучшую сторону. Деятельность чиновников и прочей шушеры должна контролироваться, иначе неизбежно начинаются злоупотребление. Ничего нового для государств и дипломатов Wikileaks естественно не сообщила, все все знают, разведки работают, а вот простым людям почитать про всю эту возню будет интересно.
Источник : http://techcrunch.com/2010/11/30/wikileaks-julian-assange/
Однако не всем это нравится. И вот буквально пару часов назад интерпол объявил основателя WikiLeaks foundation – Джулиана Эссенджа (Julian Assange) в розыск за…. “Sex Crimes”. Как заявляют сотрудники этой уважаемой организации в связи с тем, что на 2е различные дамы из Швеции обратились в полис с заявлениями об изнасиловании.
Из комментов :
Haha, this is more of a blow to the reputation of the interpol than anything else. Gonna be hard to take anything interpol related seriously after this one!
Хаха это более чем дискредитирует репутацию интерпола чем что-либо еще. Будет сложно воспринимать что-либо относящееся к интерполу серьезно после этого.
“If the freedom of speech is taken away, then dumb and silent we may be led, like sheep to the slaughter.” George Washington
Если свобода слова была отнята, тогда немых и безмолвных нас могут вести как овец на убой. Джордж Вашингтон.
На данный момент неизвестно где скрывается Эссендж после своего последнего вброса. Ходят слухи, что где-то в Англии, в Twitter аккаунте Wikileaks пока тихо.
P.S.
По шведским законам изнасилованием является все в сексуальных отношениях, что не нравится женщине. В заявлении указано, что они были введены в заблуждение, потому что быстрая смена партнерши – это обман, а обман – это изнасилование. Кроме того, он не представил им справку из вендиспансера. Это тоже обман и изнасилование. Вообще же, по шведским понятиям, женщина не всегда может понимать, что она изнасилована, потому что для этого нужно юридическое образование. Для этого есть специальные адвокаты.
Posted in Cool Story Bro, Fun | No Comments »
Thursday, November 25th, 2010
Фантастика! А такие есть…. Пару дней назад рассматривая бегающих туда-сюда по блогу ботов наткнулся на – http://www.majestic12.co.uk/
Majestic-12 усердно работает над созданием World Wide Web поисковика основанного на концепции распределенных вычислений, таким же образом как и проекты типа SETI@home.
т.е. проект работает за счет того, что энтузиасты по всему миру расшаривают вычислительные ресурсы своих компьютеров помогая поисковику индексировать страницы. Отсюда следует немаловажный вывод – ботов нельзя отсечь используя список IP адресов, и бывает они создают достаточно серьезную нагрузку на ресурс который индексируют, заблокировать ботом можно только через robots.txt. Скачать клиента можно тут :
http://www.majestic12.co.uk/projects/dsearch/download.php
Поисковые технологии потихоньку развиваются, гуглу приходится все труднее т.к. со все сторон его атакуют различные набольшие проекты, конечно вряд ли он сдаст свои позиции в скором времени, но тем не менее здоровая конкуренция всегда идет на пользу рынку. У гугла сейчас есть крайне неприятная проблема – сайты контент-помойки, вроде ehow, mahalo и т.д. Уже недостаточно написать хорошую статью чтобы оказаться в топе поисковика, нужны кучи бэклинков – обычный человек никогда не будет этим заниматься, в то время как в топах зависают сайты с миллионами входящих бэков контент для которых пишут дешевые копирайтеры-индусы. В итоге что-то действительно полезное найти становится все труднее. И это как говорится – suck.

http://www.majestic12.co.uk/projects/dsearch/stats.php
Индекс Majestic-12 уже достаточно внушителен и динамика развития проекта радует глаз. Не такая уж новая идея распределенных вычислений идея была реализована и теперь у разработчиков в руках находится огромное кол-во данных для анализа. И они извлекают из этого какую-то прибыль – продают доступ на сервис http://www.majesticseo.com/
Posted in Cool Story Bro, Search Engine | No Comments »
Sunday, November 14th, 2010
Как написать многопоточный прокси чекер на Python? Как нефиг делать =) Я уже писал немного о том как проверять прокси на alive, с тех пор прошло много времени и чекер немного усовершенствовался. Изначально я передал материал на форум Privatetalks, но теперь пришло время пополнить им блог. Исходные ходы поставляются как есть, в отрыве от контекста, собственно для тех кто шарит не составит труда доработать и реализовать многопоточность (на ActiveState и StackOverflow есть уже готовые решения по этой части).
Все просто. Есть какая-то страница, которую нужно запрашивать через прокси, и проверят что там отдали. Помимо этой простейшей проверки на метод GET, есть еще проверки на POST и Cookie, некоторые прокси не держат, и поэтому часто бывают бесполезны для каких-то задач. Проверка на куки мне пока была не нужна, а вот проверку на POST я сделал.
TProxy – класс который обеспечивает работу с данными прокси. Такая тема в программировании называется – инкапсуляция.
На сервере нужно разместить несколько файлов с которыми будет взаимодействовать скрипт. Можно размещать и скрипт и эти файлы на одном сервере, я так и делал =) правда тогда будьте осторожны с многопоточностью у меня скрпит в 300 потоков бодро ложил апачи (не всегда, но бывало), на неслабом железе.
Предположим это index.php :
<html>
<head>
</head>
<body><h1>SIGNATURE</h1>
<h2>Real IP : xx.xx.xx.xx</h2>
<h2>IP : xx.xx.xx.xx</h2>
</body>
</html>
SIGNATURE – уникальный идентификатор страницы. должен совпадать с CHECK_STR. Еще нужно определить 2е “константы” CHECK_URL – урл где лежит вышеприведенная страница, и CHECK_MAX_TIMEOUT – максимальный таймаут (если отклик через прокси больше, то она помечается как bad) поставьте 2.0 для начала.
Как формируются Real IP и IP? Getting real IP address in PHP – вообщем с помощью этого кода нужно сформировать Real IP и IP.
А вот тут умные дядьки пишут как чекать геолокейшн – Check GEO Location. В принципе, я так понимаю таких сервисов много и можно долбить следующий если первый не вернул адекватный результат.
def check_proxy(proxy, need_country=False):
"""Check if proxy alive + anonymity and record proxy to file if we need this"""
ip = TProxy(proxy)
gt = urllib2.build_opener(urllib2.ProxyHandler({"http":ip.get_proxy()}))
start_time = time.time()
try:
result = gt.open(CHECK_URL, timeout=CHECK_MAX_TIMEOUT)
result = result.read()
except (urllib2.URLError, socket.timeout, httplib.BadStatusLine, httplib.InvalidURL):
ip.set_alive_status(False)
return ip
except:
ip.set_alive_status(False)
return ip
ip.set_alive_status(True)
ip.set_timout(time.time() - start_time) # proxy response time
# get ip and real ip values. check for anonymity
search = re.compile(CHECK_STR)
pattern = re.search(search, result)
if pattern != None:
ip.set_alive_status(True)
search = re.compile("IP : \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}")
ips = re.findall(search, result)
# extract ip and real ip values from page
if ips != []:
try:
real_ip = ips[0]
given_ip = ips[1]
if real_ip == given_ip:
ip.set_anonymous_status(True)
except:
ip.set_alive_status(False)
return ip
# check country
if need_country:
try:
response = gt.open('http://api.hostip.info/get_html.php?ip=%s' % ip.get_host(), timeout=5).read()
country = re.search('Country: (.*)', response)
if country <> "":
ip.set_country(country.group(1))
else:
ip.set_country('undefined')
except:
ip.set_country('undefined')
return ip
Теперь как проверить на POST.
def generate_random_str(length=10):
str = string.lowercase+string.digits
return ''.join(random.sample(str, length))
def check_proxy_for_post(proxy):
token = generate_random_str(20)
try:
gt = urllib2.build_opener(urllib2.ProxyHandler({"http":proxy}))
post_data = urllib.urlencode({'zpost' : token})
response = gt.open(CHECK_URL + "post.php", post_data, timeout=POST_MAX_TIMEOUT).read()
# check token
print response
search = re.compile(token)
pattern = re.search(search, response)
if pattern != None:
return True
else:
return False
except HTTPError, e:
print "Http error"
return False
except URLError, e:
print "Url error"
return False
except:
print "Unknown error"
return False
Легко встраивается в функцию check_proxy приведенную выше. Нужно только немножко пошевелить мозгами.
в файл index.php добавляется форма :
<form action="post.php" "method="post">
<input type="text" name="zpost" value="post check">
<input type="submit" value="Check POST method">
</form>
В ту же папочку аккуратно ложится файлик
<html>
<body>
<h1><?php echo $_POST["zpost"]; ?></h1>
</body>
</html>
Вообщем код легко собирается в готовый продукт, добавляются фичи по вашему вкусу и вперед ура.
Кстати говоря готовый код недавно обнаружил на гитхабе – чекер прокси. Оттуда тоже можно взять несколько идей.
А еще нужно не жадничать и быть аккуратным т.к. ДЦ может абузить по подозрению в Netscan.
Понравилась статья? Зарегайся на форуме privatetalks – общайся с профессионалами.
Posted in Code, Proxy | 1 Comment »
Saturday, November 13th, 2010
Заметил сегодня у себя в статистике бота который представлялся как dotBot и имел адрес http://www.dotnetdotcom.org/.
Наши цели.
Наши цели довольно просты. Мы хотим сделать интернет настолько открытым – насколько это возможно. На текущий момент только несколько избранных корпораций имеют полный и подходящий для использования иденкс веба. Наша цель – изменить этот факт, для этого наш бот собирает данный о вебе и мы публикуем как можно более полную информацию о структуре и контенте всемирной паутины. Мы планируем делать это так, чтобы перекрывать наши расходы (продажа индекса) и релизить его бесплатно – полезная штука для вебмастеров. Очевидно эта цель имеет множество потенциальных проблем с технической частью, легальностью, финансами и этикой. Вообщем мы пока будем работать и стараться сделать интернет среду как можно более открытой.
Техническая составляющая системы написана на C/Python с использованием libcurl. Авторы передают респект всему open source сообществу.
www.example.com/ HTTP/1.1 200 OK
Date: Sat, 20 Sep 2008 15:43:15 GMT
Server: Apache/2.0.52 (CentOS)
X-Powered-By: PHP/4.3.9
Content-Length: 557
Connection: close
Content-Type: text/html; charset=UTF-8
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>I am an example.</title>
</head>
<body>
...
<body>
</html>
www.example2.com/ HTTP/1.1 200 OK
Date: Sat, 20 Sep 2008 15:43:15 GMT
Server: Apache/2.0.52 (CentOS)
X-Powered-By: PHP/4.3.9
Content-Length: 557
Connection: close
Content-Type: text/html; charset=UTF-8
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>I am a different example.</title>
</head>
<body>
...
<body>
</html>
Там же можно скачать текущий индекс. Это 3.2 гигабайта в запакованном виде и более 14 гигов в распакованном. На данный момент индекс грубо говоря представляет собой урл и http-response (т.е. хтмл код страницы). Но даже из этого в принципе можно получить достаточно много интересной инфы, правда база достаточно большая и обработка её даже простыми операциями (например подсчет ссылок) может занять длительное время )
Posted in Cool Story Bro, Search Engine | No Comments »
Friday, June 25th, 2010
Dear ePassporte Account Holder,
We are proud to announce the owner of ePassporte, Christopher Mallick, has recently produced a film entitled Middle Men, which will be distributed by Paramount Pictures and is set to hit theaters in the United States and Canada on August 6. The film stars Luke Wilson, Giovanni Ribisi, James Caan and Kelsey Grammer.
Mr. Mallick was inspired to create this film based on his many years of experience in online billing and is excited to share the official trailer with you. Please copy and paste the links below into your browser to view the trailer:
Middle Men Website:
http://www.middlemenmovie.com/trailer/
If you get a chance, we hope you will go see this exciting movie.
Собственно, ньюс, трейлер по ссыке.
Posted in Fun | 1 Comment »
Tuesday, May 4th, 2010
FireFox достаточно популярный в середе вебмастеров именно из-за большого количества тематических плагинов. Я использую достаточно много плагинов, однако браузер у меня несколько другой – Flock. Рекомендую посмотреть, к нему подходят все привычные FF plugins + множество фишек : букмарки delicious, digg, blog editor и т.д.
Итак какие у меня стоят плагины.
SEOQuake “Индастри стандарт” – многие уже настолько привыкли к нему, что на чужих компьютерах мешинально ищут глазами знакомую панельку.
StumbleUpon Toolbar – отличная штука, рекомендую ознакомится, неисчерпаемый источник пиздатых картинок и свежих идей. Щелкаешь на кнопку и он загружает рандомный сайт согласно рейтингу и интересам, таким образом можно найти что-то реально интересное.
SQLLite manager – работа и просмотр баз данных SQLLite. Если ваши скрипты взаимодействуют в базами данный (особенно это актуально это для тех, кто кодит на python, по причине того, что поддержка sqllite как бы “встроенна”).
FoxClocks – часы, показывает разные таймзоны.
Firebug – тоже индастри стандарт, позволяет редактировать страницу на лету, дебаггер ява скрипт, анализ производительности и т.д.
HttpFox – просмотр заголовков GET/POST запросов которые отправляет бразуер. Удобнее не видел. Must have, особенно для тех, кто работает с curl.
ScrapBook – сохраняет страницы. Пригодится подрезать шаблоны для доров.
Web Developer – часто использую для отключения JavaScript на странице. Реально нужный плагин.
Abduction! – позволяет делать скриншот страницы или её части.
Roboform Toolbar – автоматическое заполнение форм, сохранение паролей. Актуально для тех, кто зарегистрирован на множестве различных партнерок =)
Вот в принципе и все, думаю это необходимый минимум для каждого вебмастера. btw рекомендую так же глянуть iMacros.
Posted in Notes | 1 Comment »
Sunday, March 14th, 2010
Бвает возникает задача – разместить на странице (лэндинге) скрншоты сайтов (платников), чтобы создать у пользователя иллюзию выбора.
Покопавшись в интернетах нешел неплохой онлайн сервис :
http://www.thumbalizr.com/
Еще есть масса плагинов для файрфокса, со всем списком можно ознакомиться здесь : http://mashable.com/2007/08/24/web-screenshots/
Posted in Fun | No Comments »
Sunday, March 14th, 2010

1pixel = 1million dollars
Все познается в сравнении. На картинке 1 пиксель равен одному ляму долларов. Триллионы – это бюджеты государств )
Posted in Fun | No Comments »
Wednesday, March 10th, 2010
Частенько на западных форумах, где люди общаются по английски и для многих постеров это родной язык всплывают непонятные слова и обороты. Практически все они имеют расшифровку на сайте urbandictionary.com
Например этот клевый символ в тайтле поста ٩๏̯͡๏)۶
Posted in Fun | No Comments »