租房数据爬取并分析

一、实验目的

本实验旨在通过Scrapy框架爬取链家网的租房数据,并对数据进行清洗、分析和可视化展示。通过分析不同城市的租金水平、单位面积租金等指标,探讨租金与城市经济指标(如GDP、人均工资)的关系。

二、实验过程

1. 数据获取

数据获取使用scrapy框架,项目由多个模块构建而成,包括爬虫(spider),中间件(middlewares),管道(pipelines),设置(settings),数据(items)等。如下图所示,为scrapy的基本框架结构

1.2代码分析

*lianjia.py*

定义了详细的爬虫类

1
2
3
4
5
6
7
8
9
class LianjiaSpider(scrapy.Spider):

name = "lianjia"

allowed_domains = ["lianjia.com"]

def __init__(self, cities=None, args, kwargs):

def start_requests(self):