Saturday, May 21st, 2011
Многие (почти все) используют такую замечательную библиотеку как curl (ну, или в нашем случае pycurl), работать с ней конечно можно – но не слишком удобно. Приходится думать о разных вещах – куках, установке параметров и т.д. а ведь это время и в конечном итоге – деньги. Как правило, на определенном этапе многие пишут свои “функции” разной степени кривости облегчающие работу с curl’ом .
Однако грамотные программисты предпочитают реюзать чужой код и не изобретать колесо, особенно в том случае если он хорошо написан и часто обновляется.
(установка в убунте – sudo pip install grab)
Grab идеально подходит для большинства типичных задач (парсинг, регистрации), фактически освобождая программиста от рутины прямой работы с курлом и значительно сокращает размер кода. Я бы сказал, что Grab в какой-то степени эмулирует браузер (естественно без js). Итак, что внутри?
- Отправка разных HTTP запросов
- Обработка HTTP ответа
- Парсинг и заполнение HTML форм
- Работа с HTML DOM через XPath.
- XPath для обхода html
Использование XPath сильно упрощает задачу выбора элементов, это гораздо более удобно чем иметь дело с мутными регулярками.
Более подробно про XPath - http://www.w3schools.com/xpath/default.asp
В качестве примера – простой код.
# выделяем каждый элемент td с классом "postbody"
for item in document.xpath('//td[@class="postbody"]//'):
print item.text
Документация по Grab достаточно подробна, примеры использования тут и тут (в этих примерах граб создается в объекте parser). Как орудовать самим грабом можно посмотреть тут (парсинг форума), пример не рабочий, сразу предупреждаю, служит только для наглядной демонстрации того как можно его использовать.
Posted in Code, OpenSource, Python | No Comments »
Wednesday, May 12th, 2010
Есть масса сервисов которые позволяют захостить у себя картинку, пожалуй самые известные это imageshack.us и tinypics.com
Однако есть сервис получше – clip2net.com
Фишка в том, что вы ставите себе небольшую программку – клиент, которые висит в трее и позволяет парой кликов выложить в нет область экрана. Это очень удобно, как для блоггеров, так и просто для тех кто работает в комманде.
Posted in Notes | 2 Comments »
Sunday, March 14th, 2010
Бвает возникает задача – разместить на странице (лэндинге) скрншоты сайтов (платников), чтобы создать у пользователя иллюзию выбора.
Покопавшись в интернетах нешел неплохой онлайн сервис :
http://www.thumbalizr.com/
Еще есть масса плагинов для файрфокса, со всем списком можно ознакомиться здесь : http://mashable.com/2007/08/24/web-screenshots/
Posted in Fun | No Comments »
Sunday, December 13th, 2009

Created by Online Education
Вот такие вот масштабы. В общем потоке данных можно легко затеряться.
Posted in Fun | No Comments »
Thursday, December 3rd, 2009
Более подробно сабж можно оценить сходив по ссылке.
WordNet – большая лексическая база данных Английского языка разработанная под руководством George A. Miller.
В наличии имеются существительные, глаголы, прилагательные и наречия, которые сгруппированы в наборы когнитивных синонимов (synsets), каждый из которых выражает различные понятия. Synsets взаимосвязаны посредством концептуально-семантических и лексических отношений (жесть!!!).
Итоговую сеть связей между значениями слов и понятий, можно просматривать с помощью WordNet, который свободно распространяется и доступен для скачивания. Структура WordNet делает его полезным инструментом для компьютерной лингвистике и обработки естественного языка.
Я думаю, намек довольно прозрачен.
Скачать и посмотреть.
Это канешно замечательно. Но можно и нужно копнуть поглубже, пощелкав по сайту нашел то на что надеялся, а именно библиотеки для различных языков программирования.
Библиотеки для работы с WordNet.
Там есть на что посмотреть. Например онлайн словари http://www.a2zdefined.com/ и http://www.memidex.com/
Рекомендую взглянуть на Natural Language Toolkit – это библиотека для Python. Примеры использования по ссылке.
Posted in Code, Python | No Comments »