Namecheap.com - Cheap domain name registration, renewal and transfers - Free SSL Certificates - Web Hosting

Обертка для Curl : grab

Saturday, May 21st, 2011

Многие (почти все) используют такую замечательную библиотеку как curl (ну, или в нашем случае pycurl), работать с ней конечно можно – но не слишком удобно. Приходится думать о разных вещах – куках, установке параметров и т.д. а ведь это время и в конечном итоге – деньги. Как правило, на определенном этапе многие пишут свои “функции” разной степени кривости облегчающие работу с curl’ом .

Однако грамотные программисты предпочитают реюзать чужой код и не изобретать колесо, особенно в том случае если он хорошо написан и часто обновляется.

Итак, GRAB

(установка в убунте – sudo pip install grab)

Grab идеально подходит для большинства типичных задач (парсинг, регистрации), фактически освобождая программиста от рутины прямой работы с курлом и значительно сокращает размер кода. Я бы сказал, что Grab в какой-то степени эмулирует браузер (естественно без js). Итак, что внутри?

  • Отправка разных HTTP запросов
  • Обработка HTTP ответа
  • Парсинг и заполнение HTML форм
  • Работа с HTML DOM через XPath.
  • XPath для обхода html

Использование XPath сильно упрощает задачу выбора элементов, это гораздо более удобно чем иметь дело с мутными регулярками.
Более подробно про XPath - http://www.w3schools.com/xpath/default.asp

В качестве примера – простой код.

# выделяем каждый элемент td с классом "postbody"
for item in document.xpath('//td[@class="postbody"]//'):
	print item.text

Документация по Grab достаточно подробна, примеры использования тут и тут (в этих примерах граб создается в объекте parser). Как орудовать самим грабом можно посмотреть тут (парсинг форума), пример не рабочий, сразу предупреждаю, служит только для наглядной демонстрации того как можно его использовать.

clip2net – шаринг картинок.

Wednesday, May 12th, 2010

Есть масса сервисов которые позволяют захостить у себя картинку, пожалуй самые известные это imageshack.us и tinypics.com

Однако есть сервис получше – clip2net.com

clip2net

Фишка в том, что вы ставите себе небольшую программку – клиент, которые висит в трее и позволяет парой кликов выложить в нет область экрана. Это очень удобно, как для блоггеров, так и просто для тех кто работает в комманде.

Создание скриншота сайта.

Sunday, March 14th, 2010

Бвает возникает задача – разместить на странице (лэндинге) скрншоты сайтов (платников), чтобы создать у пользователя иллюзию выбора.
Покопавшись в интернетах нешел неплохой онлайн сервис :
http://www.thumbalizr.com/

Еще есть масса плагинов для файрфокса, со всем списком можно ознакомиться здесь : http://mashable.com/2007/08/24/web-screenshots/

Один день в интернете.

Sunday, December 13th, 2009

A Day in the Internet
Created by Online Education

Вот такие вот масштабы. В общем потоке данных можно легко затеряться.

База данных WordNet. Словарь синонимов.

Thursday, December 3rd, 2009

Более подробно сабж можно оценить сходив по ссылке.

WordNet – большая лексическая база данных Английского языка разработанная под руководством George A. Miller.
В наличии имеются существительные, глаголы, прилагательные и наречия, которые сгруппированы в наборы когнитивных синонимов (synsets), каждый из которых выражает различные понятия. Synsets взаимосвязаны посредством концептуально-семантических и лексических отношений (жесть!!!).
Итоговую сеть связей между значениями слов и понятий, можно просматривать с помощью WordNet, который свободно распространяется и доступен для скачивания. Структура WordNet делает его полезным инструментом для компьютерной лингвистике и обработки естественного языка.

Я думаю, намек довольно прозрачен.

Скачать и посмотреть.

Это канешно замечательно. Но можно и нужно копнуть поглубже, пощелкав по сайту нашел то на что надеялся, а именно библиотеки для различных языков программирования.

Библиотеки для работы с WordNet.

Там есть на что посмотреть. Например онлайн словари http://www.a2zdefined.com/ и http://www.memidex.com/

Рекомендую взглянуть на Natural Language Toolkit – это библиотека для Python. Примеры использования по ссылке.

My blog is Do-Follow


Пишу код, делаю сайты.
Check out my about.me profile!

парсинг сайтов, форумов, интернет магазинов

Want to subscribe?

istinspring twitter account
istinspring facebook account

 Subscribe in a reader Or, subscribe via email:
Enter your email address:  
Find entries :