大橙子网站建设,新征程启航

为企业提供网站建设、域名注册、服务器等服务

Python爬虫中获取图片的方法-创新互联

这篇文章给大家分享的是有关Python爬虫中获取图片的方法的内容。小编觉得挺实用的,因此分享给大家做个参考。一起跟随小编过来看看吧。

10年积累的成都网站设计、做网站经验,可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你,你也不认识我。但先网站制作后付款的网站建设流程,更有山南免费网站建设让你可以放心的选择与我们合作。

直接上代码:

spider.py
__author__ = 'CQC'
# -*- coding:utf-8 -*-
 
import urllib
import urllib2
import re
import tool
import os
 
#抓取MM
class Spider:
 
    #页面初始化
    def __init__(self):
        self.siteURL = 'http://mm.taobao.com/json/request_top_list.htm'
        self.tool = tool.Tool()
 
    #获取索引页面的内容
    def getPage(self,pageIndex):
        url = self.siteURL + "?page=" + str(pageIndex)
        request = urllib2.Request(url)
        response = urllib2.urlopen(request)
        return response.read().decode('gbk')
 
    #获取索引界面所有MM的信息,list格式
    def getContents(self,pageIndex):
        page = self.getPage(pageIndex)
        pattern = re.compile('(.*?).*?(.*?).*?(.*?)',re.S)
        items = re.findall(pattern,page)
        contents = []
        for item in items:
            contents.append([item[0],item[1],item[2],item[3],item[4]])
        return contents
 
    #获取MM个人详情页面
    def getDetailPage(self,infoURL):
        response = urllib2.urlopen(infoURL)
        return response.read().decode('gbk')
 
    #获取个人文字简介
    def getBrief(self,page):
        pattern = re.compile('(.*?)