小爬虫之下载豆瓣文章

这个小东西来源于某一天我浏览豆瓣的一个养生帖子，然后突发奇想，想把所有养生的东西下载下来。于是想到了用python写个小爬虫

#!/usr/bin/python

import re

import urllib



#获取html页面内容

def getHtml(url):

    page = urllib.urlopen(url)

    html = page.read()

    return html



#将html中满足pattern的内容找出，写入filePath中

def getContent(html,pattern,filePath="1.txt"):

    contentre = re.compile(pattern)

    contentList = re.findall(contentre,html)

    for i in contentList:

        i = i.replace("<br/>", "\n") #这里由于写入txt文件，所以要做个字符替换

        i = i + "\n\n***********************************************************\n\n"

        #write into xx file

        writeFile(i,filePath)



#将content以追加的形式写入filePath

def writeFile(content, filePath):

    output = open(filePath, "a+")

    output.writelines(content)

    output.close()



#要爬的内容不只一页哦，所以这个函数是从html中获取下一页的地址

def getNext(html,pattern):

    nre = re.compile(pattern)

    nt = re.findall(nre,html)

    return nt



#这个url就是要爬的网址，可以替换成任意想要的网址

url = "http://www.douban.com//group//topic//5480779//?author=1#sep"

#这个pattern和nextPage都是查看网页源代码中发现的内容和下一页地址的格式，可以用正则表达式获取相应的内容

pattern = r'<p class="">(.*?)</p>'

nextPage = r'<link rel="next" href="(.*?)"/>'

while True:

    html = getHtml(url)

    getContent(html, pattern,"forHealth.txt")

    has = getNext(html,nextPage) #若下一页地址为空，则记得退出

    if 0 == len(has):

        print "Finish!"

        break

    url = has[0]

后面的话：其实这个东西可以扩展应用下，用来下载想要的图片呀，小说呀，视频神马的，只要查看网页源代码，找到所在内容的前后格式，用正则表达式抠出来就可以了。我比较懒，经常在没网络的地方玩，因此想下载点东西可以离线看看，所以这个小东西对我还是挺有用的……