博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[学习]笔记]爬虫的学习(每天学习一点点)
阅读量:4147 次
发布时间:2019-05-25

本文共 462 字,大约阅读时间需要 1 分钟。

学习笔记来源

1.爬虫的介绍

爬虫

自动从互联网获取所感兴趣的数据的一段程序。

2.爬虫技术的价值

爬虫技术的价值

未来是信息为王的社会,要好好抓住这个末班车,听了这个价值,整个人都激动得不行。

3.爬虫技术的架构

这个网页可以将互联网相关网页的数据都爬取下来。

爬虫框架

  • 爬虫调度端:

    启动爬虫,停止爬虫,监视爬虫运行情况

  • URL管理器:

    对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器”

  • 网页下载器:

    将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”

  • 网页解析器:

    解析网页可解析出①有价值的数据②另一方面,每个网页都包含有指向其他网页的URL,解析出来后可补充进“URL管理器”

4.爬虫技术的架构

爬虫架构-运行流程

5.URL管理器功能

url管理器的目的防止循环抓取,重复抓取同样的url

URL管理器

6.URL管理器的实现方式

set可以剔除重复的内容,防止重复爬取;

is_crawled用来判断是否已经爬取
URL管理器的实现方式
大型公司使用缓存数据库,永久行保持使用关系型数据库,我们一般可以使用内存或者关系型数据库

x.明天继续学习

你可能感兴趣的文章
【数据结构java篇】- 栈
查看>>
【排序算法】- 冒泡排序
查看>>
【排序算法】- 选择排序
查看>>
【排序算法】- 插入排序
查看>>
ElasticSearch详解文档
查看>>
一个获取多级目录的小案例
查看>>
网站跨域问题理解及解决方案
查看>>
mybatis-plus实现逻辑删除
查看>>
获取SpringCloud gateway响应的response的并进行修改
查看>>
SpringCloud项目整合OSS对象存储
查看>>
Java重写equals方法
查看>>
Nginx+Windows搭建域名访问环境
查看>>
压力测试和性能优化实践
查看>>
缓存及分布式锁
查看>>
异步与线程池及异步编排
查看>>
消息队列RabbitMQ
查看>>
git进行项目版本管理
查看>>
SpringSecurity 退出登录使JWT失效的解决方案
查看>>
接口幂等性问题处理
查看>>
本地事务与分布式事务
查看>>