On Mon, Jan 24, 2011 at 9:56 PM, John Magolske <span dir="ltr"><<a href="mailto:listmail@b79.net">listmail@b79.net</a>></span> wrote:<br><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

I'm trying to get a particular python program installed, a port of<br>

Arc90's readability project. It plucks the readable content out of<br>

web pages:<br>

<br>

  <a href="http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/" target="_blank">http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/</a><br>

  <a href="http://code.google.com/p/decruft/" target="_blank">http://code.google.com/p/decruft/</a><br>

<br>

I was wondering if someone with more python-fu might be able to point<br>

the way towards successfully installing & using this (can't find any<br>

contact info on the above linked sites or I'd ask there). See below<br>

for details.<br>

<br>

TIA for any help,<br></blockquote><div><br>You're doing it just right -- the instructions on that page are wrong.<br><br>It should be<br><br>f= urllib2.urlopen(url)<br><br>not urllib2.open(url)<br><br>(Obviously you should supply your own URL, so something like:<br>

<br>from decruft import Document<br>import urllib2<br>f=urllib2.urlopen("<a href="http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/">http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/</a>")<br>

print Document(f.read()).summary()<br><br>would work<br><br>d.<br> <br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

<br>

John<br>

<br>

----<br>

<br>

(on Debian Sid)<br>

<br>

 % cd /home/john/bin/python<br>

 % wget <a href="http://decruft.googlecode.com/files/decruft-0.1.tgz" target="_blank">http://decruft.googlecode.com/files/decruft-0.1.tgz</a><br>

 % tar -zxf decruft-0.1.tgz<br>

 % cd decruft<br>

 % ls<br>

BeautifulSoup.py   decruft.py*  __init__.py     page_parser.pyc  url_helpers.pyc<br>

BeautifulSoup.pyc  decruft.pyc  page_parser.py  url_helpers.py<br>

 % echo $PYTHONPATH<br>

/home/john/bin/python:/home/john/bin/python/decruft<br>

 % sudo aptitude install python-lxml<br>

    [ ... ]<br>

Setting up python-lxml (2.2.8-2) ...<br>

 % python<br>

Python 2.6.6 (r266:84292, Oct  9 2010, 11:40:09)<br>

[GCC 4.4.5] on linux2<br>

Type "help", "copyright", "credits" or "license" for more information.<br>

>>> from decruft import Document<br>

WARNING:root:hi<br>

>>> import urllib2<br>

>>> f = urllib2.open(url)<br>

Traceback (most recent call last):<br>

  File "<stdin>", line 1, in <module><br>

AttributeError: 'module' object has no attribute 'open'<br>

>>> print Document(f.read()).summary()<br>

Traceback (most recent call last):<br>

  File "<stdin>", line 1, in <module><br>

NameError: name 'f' is not defined<br>

>>><br>

<font color="#888888"><br>

<br>

<br>

<br>

--<br>

John Magolske<br>

<a href="http://B79.net/contact" target="_blank">http://B79.net/contact</a><br>

_______________________________________________<br>

Noisebridge-discuss mailing list<br>

<a href="mailto:Noisebridge-discuss@lists.noisebridge.net">Noisebridge-discuss@lists.noisebridge.net</a><br>

<a href="https://www.noisebridge.net/mailman/listinfo/noisebridge-discuss" target="_blank">https://www.noisebridge.net/mailman/listinfo/noisebridge-discuss</a><br>

<br>

</font></blockquote></div><br>