强烈建议你试试无所不能的chatGPT，快点击我

[学习]笔记]爬虫的学习（每天学习一点点）

阅读量：4147 次

发布时间：2019-05-25

本文共 462 字，大约阅读时间需要 1 分钟。

学习笔记来源

1.爬虫的介绍

自动从互联网获取所感兴趣的数据的一段程序。

2.爬虫技术的价值

爬虫技术的价值

未来是信息为王的社会，要好好抓住这个末班车，听了这个价值，整个人都激动得不行。

3.爬虫技术的架构

这个网页可以将互联网相关网页的数据都爬取下来。

爬虫框架

爬虫调度端：
启动爬虫，停止爬虫，监视爬虫运行情况

URL管理器：
对将要爬取的和已经爬取过的URL进行管理；可取出带爬取的URL，将其传送给“网页下载器”

网页下载器：
将URL指定的网页下载，存储成一个字符串，在传送给“网页解析器”

网页解析器：
解析网页可解析出①有价值的数据②另一方面，每个网页都包含有指向其他网页的URL，解析出来后可补充进“URL管理器”

4.爬虫技术的架构

爬虫架构-运行流程

5.URL管理器功能

url管理器的目的防止循环抓取，重复抓取同样的url

URL管理器

6.URL管理器的实现方式

set可以剔除重复的内容，防止重复爬取；

is_crawled用来判断是否已经爬取

URL管理器的实现方式

大型公司使用缓存数据库，永久行保持使用关系型数据库，我们一般可以使用内存或者关系型数据库

x.明天继续学习

你可能感兴趣的文章

【数据结构java篇】- 栈

【排序算法】- 冒泡排序

【排序算法】- 选择排序

【排序算法】- 插入排序

ElasticSearch详解文档

一个获取多级目录的小案例

网站跨域问题理解及解决方案

mybatis-plus实现逻辑删除

获取SpringCloud gateway响应的response的并进行修改

SpringCloud项目整合OSS对象存储

Java重写equals方法

Nginx+Windows搭建域名访问环境

压力测试和性能优化实践

缓存及分布式锁

异步与线程池及异步编排

消息队列RabbitMQ

git进行项目版本管理

SpringSecurity 退出登录使JWT失效的解决方案

接口幂等性问题处理

本地事务与分布式事务

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-09-23 03:21:51 当前IP: 18.116.21.239 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我