2.2 搜索引擎核心
《精通Python网络爬虫:核心技术、框架与项目实战》本篇主要介绍了网络爬虫的基础知识,让大家从零开始对网络爬虫有一个比较清晰的认识。本节为大家介绍搜索引擎核心。
- 作者:韦玮来源:机械工业出版社|2017-05-11 20:52
技术沙龙 | 4月21日多位区块链专家进行区块链技术应用场景解读!
2.2 搜索引擎核心
爬虫与搜索引擎的关系是密不可分的,既然提到了网络爬虫,就免不了提到搜索引擎,在此,我们将对搜索引擎的核心技术进行一个简单的讲解。
图2-2所示为搜索引擎的核心工作流程。首先,搜索引擎会利用爬虫模块去爬取互联网中的网页,然后将爬取到的网页存储在原始数据库中。爬虫模块主要包括控制器和爬行器,控制器主要进行爬行的控制,爬行器则负责具体的爬行任务。
然后,会对原始数据库中的数据进行索引,并存储到索引数据库中。
当用户检索信息的时候,会通过用户交互接口输入对应的信息,用户交互接口相当于搜索引擎的输入框,输入完成之后,由检索器进行分词等操作,检索器会从索引数据库中获取数据进行相应的检索处理。
用户输入对应信息的同时,会将用户的行为存储到用户日志数据库中,比如用户的IP地址、用户所输入的关键词等等。随后,用户日志数据库中的数据会交由日志分析器进行处理。日志分析器会根据大量的用户数据去调整原始数据库和索引数据库,改变排名结果或进行其他操作。
以上就是搜索引擎核心工作流程的简要概述,可能大家对索引和检索的概念还不太能区分,在此我为大家详细讲一下。
简单来说,检索是一种行为,而索引是一种属性。比如一家超市,里面有大量的商品,为了能够快速地找到这些商品,我们会将这些商品进行分组,比如有日常用品类商品、饮料类商品、服装类商品等组别,此时,这些商品的组名我们称之为索引,索引由索引器控制。如果,有一个用户想要找到某一个商品,那么需要在超市的大量商品中寻找,这个过程,我们称之为检索。如果有一个好的索引,则可以提高检索的效率;若没有索引,则检索的效率会很低。比如,一个超市里面的商品如果没有进行分类,那么用户要在海量的商品中寻找某一种商品,则会比较费力。
喜欢的朋友可以添加我们的微信账号:
51CTO读书频道二维码
51CTO读书频道活动讨论群:342347198
回书目 上一节 下一节 |
- 大家都在看
- 猜你喜欢
- 24H热文
- 一周话题
- 本月最赞
- 3.3.1.1 标准9针串口引脚定义2.6.1 @Produces注解一、中国制造2025主要内容8.2.8 drawRoundRect方法:绘制圆角矩形7.2.3 用ALTER TABLE语句来创建索引3.3.2 填空题(1)深入理解Spring Cloud与微服务构建2.1.1 添加或删除向量元素
- 3.3.1.1 标准9针串口引脚定义8.2.8 drawRoundRect方法:绘制圆角矩形一、中国制造2025主要内容7.2.3 用ALTER TABLE语句来创建索引深入理解Spring Cloud与微服务构建2.6.1 @Produces注解12.2 使用DROP INDEX删除索引8.2.12 drawArc方法:绘制圆弧
- 3.3.1.1 标准9针串口引脚定义深入理解Spring Cloud与微服务构建8.2.8 drawRoundRect方法:绘制圆角矩形一、中国制造2025主要内容2.3 三角函数的图像7.2.3 用ALTER TABLE语句来创建索引12.2 使用DROP INDEX删除索引2.6.1 @Produces注解
视频课程+更多
-
Swift全面深入详解视频课程
讲师:张荣超157553人学习过
-
2018年软考-信息系统项目管理师-基础知识(上)
讲师:小任老师297250人学习过
-
跟上Java8 Lambda表达式实战视频教程
讲师:刘宗泽43219人学习过
最新专题+更多
- 精选博文
- 论坛热帖
- 下载排行
- keepalived+nginx负载均衡反向代理Android 音视频深入 十九 使用ijkplAzure Linux 虚机图像化配置之四:配从零开始创建自己的区块链应用(JAVA51CTO博客2.0造星计划粉丝大奖赛参赛
- 【Exchange板块公告】Office 365新老、第三方邮箱邮件自动34岁就要被清退,工程师的路在何方?茶碗的南下实录(已更新至2018年2月4吐槽,普通运维的生存倒计时...
- Mule_2_Developer’s_Guide_to_ESB_a[android.开发书籍].Hello.Android.3CoffeeScript in ActionORACLE_HP_主备数据库部署专用计时取电开关操作使用说明书
读 书 +更多
Head First 设计模式(中文版)
本书共有14章,每章都介绍了几个设计模式,完整地涵盖了四人组版本全部23个设计模式。前言先介绍这本书的用法;第1章到第11章陆续介绍的设...
-
订阅51CTO邮刊
点击这里查看样刊