本文探究了以Python语言为基础的多种爬虫技术,实现了一个搜索微博用户信息的系统,目的是获取微博用户的相关信息,并具有保存到本地和数据可视化等功能。主要的开发工具是PyCharm和Chrome,运行环境是windows操作系统,Python版本为Python 3.6。
Since the rise of Web technology in the 1990s, a variety of websites have emerged, gradually enriching and changing people's lives.
Sina Weibo was born in 2009 and is a domestic media platform based on user relations. Users can share content in various forms such as text, pictures, and videos through terminals such as PCs, mobile phones, or tablets to realize real-time information dissemination and interaction. Due to its power and ease of use, it has become one of the most well-known social networking sites in the country. With years of development, Sina Weibo has hundreds of millions of registered users and a wide range of Weibo V, so how to effectively obtain the user's Weibo information has become a hot topic.
Key Words:Web; Sina Weibo; Web Spider; Python;
第1章绪论 1
1.1背景 1
1.2国内外研究现状 1
1.3 研究目的及意义 2
1.4 各章节的安排及概述 2
第2章相关技术介绍 3
2.1 Python语言 3
2.1.2 Python语言的产生和发展 3
2.1.2 Python语言的特点 4
2.2 HTTP协议 5
2.2.1 HTTP简介 5
2.2.2 HTTP特点 5
2.3 Web页面的构成 5
2.4 URL 6
第3章系统设计 8
3.1总体框架设计 8
3.2 数据库设计 9
第4章系统实现 11
4.1爬虫模块的实现 11
4.1.1 请求网页 11
4.1.2 解析网页 12
4.1.3 数据库操作 13
4.2 网页模块的实现 13
4.2.1 前端部分 14
4.2.2 后台部分 14
4.2.3 数据可视化部分 14
4.3 系统实现中的一些问题探讨 15
4.3.1 爬虫的效率 15
4.3.2 页面的反爬 15
4.3.3 JavaScript动态渲染的页面 16
4.3.4网络爬虫合法性的探讨 16
第5章系统测试及结果展示 17
5.1 正确结果页面 17
5.2 错误结果页面 19
5.3 保存页面 19
5.4 数据可视化页面 20
第6章结论 21
6.1收获 21
6.2不足与展望 21
参考文献 22
致谢 23