这篇文章是专门针对solidot的,solidot这网站的feed只输出摘要确实挺讨厌的,不过觉得它的文章还算有价值,评论也比cnbeta有营养多了,还是订阅并用Google reader full feed changer来对付,用下面两条xpath来获取全文和评论
{
url: 'http://solidot.org',
xpath: '//div[@class="body"] | //ul[@id="commentlisting"]'
},
全文获取没问题,当然引用部分居然用“<i>”来包住确实值得强烈鄙视,抓取全文在Google Reader就成斜体。 Read the rest of this entry »
之前解决了搜索页面点击快照链接的问题,继续没事找事。
网页快照的用处
- 不用注册就能浏览某些论坛的帖子,不想为了几句话就去注册,如果不开放注册就更郁闷。
- 加速浏览网页,比如一些外国网站, 打开很慢,如果只需要看文字,就可以用快照。
- 最常用的,浏览已经不存在的网页,典型现象是在Google Reader里打开原始地址却发现文章被低俗了,这时就需要用快照。
- 另类用法:高亮当前页的关键字,见下说明。
Read the rest of this entry »
声明:下面提到的Google,就是指Google.com,不是河蟹版的Google.cn,这叫谷歌,请严格区分。
众所周知的原因,Google的快照是不能用的,但谷歌的快照能用,但我坚决用Google,原因和恢复快照功能看月光的《正常访问Google网页快照的方法》,装一个Greasemonkey脚本就能搞定,但是对我来说还有个问题。 Read the rest of this entry »