On Mon, Jan 24, 2011 at 9:56 PM, John Magolske <span dir="ltr"><<a href="mailto:listmail@b79.net">listmail@b79.net</a>></span> wrote:<br><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
I'm trying to get a particular python program installed, a port of<br>
Arc90's readability project. It plucks the readable content out of<br>
web pages:<br>
<br>
  <a href="http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/" target="_blank">http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/</a><br>
  <a href="http://code.google.com/p/decruft/" target="_blank">http://code.google.com/p/decruft/</a><br>
<br>
I was wondering if someone with more python-fu might be able to point<br>
the way towards successfully installing & using this (can't find any<br>
contact info on the above linked sites or I'd ask there). See below<br>
for details.<br>
<br>
TIA for any help,<br></blockquote><div><br>You're doing it just right -- the instructions on that page are wrong.<br><br>It should be<br><br>f= urllib2.urlopen(url)<br><br>not urllib2.open(url)<br><br>(Obviously you should supply your own URL, so something like:<br>
<br>from decruft import Document<br>import urllib2<br>f=urllib2.urlopen("<a href="http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/">http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/</a>")<br>
print Document(f.read()).summary()<br><br>would work<br><br>d.<br> <br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<br>
John<br>
<br>
----<br>
<br>
(on Debian Sid)<br>
<br>
 % cd /home/john/bin/python<br>
 % wget <a href="http://decruft.googlecode.com/files/decruft-0.1.tgz" target="_blank">http://decruft.googlecode.com/files/decruft-0.1.tgz</a><br>
 % tar -zxf decruft-0.1.tgz<br>
 % cd decruft<br>
 % ls<br>
BeautifulSoup.py   decruft.py*  __init__.py     page_parser.pyc  url_helpers.pyc<br>
BeautifulSoup.pyc  decruft.pyc  page_parser.py  url_helpers.py<br>
 % echo $PYTHONPATH<br>
/home/john/bin/python:/home/john/bin/python/decruft<br>
 % sudo aptitude install python-lxml<br>
    [ ... ]<br>
Setting up python-lxml (2.2.8-2) ...<br>
 % python<br>
Python 2.6.6 (r266:84292, Oct  9 2010, 11:40:09)<br>
[GCC 4.4.5] on linux2<br>
Type "help", "copyright", "credits" or "license" for more information.<br>
>>> from decruft import Document<br>
WARNING:root:hi<br>
>>> import urllib2<br>
>>> f = urllib2.open(url)<br>
Traceback (most recent call last):<br>
  File "<stdin>", line 1, in <module><br>
AttributeError: 'module' object has no attribute 'open'<br>
>>> print Document(f.read()).summary()<br>
Traceback (most recent call last):<br>
  File "<stdin>", line 1, in <module><br>
NameError: name 'f' is not defined<br>
>>><br>
<font color="#888888"><br>
<br>
<br>
<br>
--<br>
John Magolske<br>
<a href="http://B79.net/contact" target="_blank">http://B79.net/contact</a><br>
_______________________________________________<br>
Noisebridge-discuss mailing list<br>
<a href="mailto:Noisebridge-discuss@lists.noisebridge.net">Noisebridge-discuss@lists.noisebridge.net</a><br>
<a href="https://www.noisebridge.net/mailman/listinfo/noisebridge-discuss" target="_blank">https://www.noisebridge.net/mailman/listinfo/noisebridge-discuss</a><br>
<br>
</font></blockquote></div><br>