SEO教程分类
SEO最新文章
SEO教程标签
SEO教程首页 / SEO基础 / 搜索引擎爬虫基础知识介绍

搜索引擎爬虫基础知识介绍

发布时间:2020-11-30 02:00:53      浏览:127

一、网络爬虫概念

1.定义:网络爬虫,搜索引擎爬虫,蜘蛛,或机器人,是一种自动获取网页内容程序,爬虫抓取的网页将会被搜索引擎系统存储,进行一定的分析、过滤,并建立索引,以便之后的用户能够查询到这个页面。这个获取信息的程序就是爬虫。

2.爬虫与搜索引擎的关系

爬虫为搜索引擎收集内容,搜索引擎展示的内容大部分是爬虫收集的。

二、爬虫的工作流程

爬虫通过漫游的形式进行抓取,爬虫爬到一个页面后,看到一个链接,然后顺着那个链接又爬到另外一个页面,爬虫是不停的从一个页面跳到另外一个页面的,它一边下载这个网页,一边在提取这个网页中的链接,那个页面上所有的链接都放在一个公用的“待抓取列表”里。

而且爬虫有个特点,就是他在访问你网站之前,不去做判断你这个网页本身怎么样的,不对网页内容判断就抓取但是会有优先级的划分,尽可能不抓重复的内容,尽量抓重要内容(比如网站的公共部分)。

搜索引同时会派出多个爬虫进行多线程的抓取,所有被爪虫抓取的网页将会被系统储存,进行定的分析、过(去重),并建立索引以便之后的查询和检索。

三、爬虫的分类

根据搜引擎来进行分类:

百度爬虫  baiduspider  百度蜘蛛

谷歌爬虫  googlebot  谷歌机器人

soso爬虫  sosospider  搜搜蜘蛛



本文地址:http://www.seodaxue.com/286.html 标签:
猜你喜欢SEO文章:
欢迎对SEO大学SEO教程表达您的观点