• ADADADADAD

    我的第一个Scrapy 程序 - 爬取当当网信息[ mysql数据库 ]

    mysql数据库 时间:2024-12-25 09:58:00

    作者:文/会员上传

    简介:

    前面已经安装了Scrapy,下面来实现第一个测试程序。概述Scrapy是一个爬虫框架,他的基本流程如下所示(下面截图来自互联网)简单的说,我们需要写一个item文件,定义返回的数据结构;写一

    以下为本文的正文内容,内容仅供参考!本站为公益性网站,复制本文以及下载DOC文档全部免费。

    前面已经安装了Scrapy,下面来实现第一个测试程序。

    概述

    Scrapy是一个爬虫框架,他的基本流程如下所示(下面截图来自互联网)

    简单的说,我们需要写一个item文件,定义返回的数据结构;写一个spider文件,具体爬取的数据程序,以及一个管道 pipeline 文件,作为后续操作,比如保存数据等等。

    下面以当当网为例,看看怎么实现。
    这个例子里面我想爬取的内容是前面20页的羽绒服产品,包括产品名字,链接和评论数。

    过程1. 创建一个Scrapy的项目
    scrapy startproject dangdang
    2. 创建一个爬虫文件**

    scrapy genspider -t basic dd dangdang.com

    这样他会自动创建一个爬虫文件,结构如下所示:

    3. 编写items.py

    items.py

    # -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# https://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass DangdangItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()title=scrapy.Field()url=scrapy.Field()comment=scrapy.Field()
    4. 编写爬虫文件dd.py

    前面第二步已经自动生成了一个模板,我们直接修改就行。
    dd.py

    # -*- coding: utf-8 -*-import scrapyfrom dangdang.items import DangdangItemfrom scrapy.http import Requestclass DdSpider(scrapy.Spider):name = 'dd'allowed_domains = ['dangdang.com']start_urls = ['http://category.dangdang.com/pg1-cid4010275.html']def parse(self, response):item=DangdangItem()item['title']=response.xpath(u"//a[@dd_name='单品标题']/text()").extract()item['url']=response.xpath("//a[@dd_name='单品标题']/@href").extract()item['comment']=response.xpath("//a[@dd_name='单品评论']/text()").extract()text = response.body# content_type = chardet.detect(text)# if content_type['encoding'] != 'UTF-8':# text = text.decode(content_type['encoding'])# text = text.encode('utf-8')# print(text)yield itemfor i in range(2,20):url='http://category.dangdang.com/pg%d-cid4010275.html'%iyield Request(url,callback=self.parse)
    5. 编写pipelines.py

    为了使用pipeline,配置文件需要做个小修改,我顺便关掉了对robot文件的确认
    settings.py

    ROBOTSTXT_OBEY = FalseITEM_PIPELINES = { 'dangdang.pipelines.DangdangPipeline': 300,}

    pipeline.py

    # -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipeline to the ITEM_PIPELINES setting# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.htmlimport pymysqlclass DangdangPipeline(object):def process_item(self, item, spider):conn=pymysql.connect(host='127.0.0.1',user='root',passwd='root',db='dangdang',use_unicode=True,charset='utf8')for i in range(0,len(item['title'])):title=item['title'][i]link=item['url'][i]comment=item['comment'][i]print(type(title))print(title)# sql="insert into dd(title,link,comment) values ('"+title+"','"+link+"','"+comment+"')"sql = "insert into dd(title,link,comment) values('" + title + "','" + link + "','" + comment + "')"try:conn.query(sql)except Exception as err:passconn.close()return item
    6. 创建数据库和表

    我最后的数据要保存到mysql里面,python里面可以通过pymysql进行操作。我提前在mysql命令行界面里面创建了一个数据库和空表

    mysql> create database dangdang;mysql> create table dd(id int auto_increment primary, title varchar(100), link varchar(100), comment varchar(32));
    7. 执行

    scrapy crawl dd
    如果不想看日志 可以使用
    scrapy crawl dd --nolog

    8. 检测结果

    test.py

    #!/usr/bin/env python#! -*- coding:utf-8 -*-# Author: Yuan Liimport pymysqlconn=pymysql.connect(host='127.0.0.1',user='root',passwd='root',db='dangdang',use_unicode=True,charset='utf8')cursor = conn.cursor(cursor=pymysql.cursors.DictCursor)#SQL查询cursor.execute("select * from dd")row=cursor.fetchall()for i in row:print(i)conn.close()

    结果测试成功

    我的第一个Scrapy 程序 - 爬取当当网信息.docx

    将本文的Word文档下载到电脑

    推荐度:

    下载
    热门标签: Scrapymysqlpython