Week 06 总结

用户头像
鱼_XueTr
关注
发布于: 2020 年 07 月 15 日
Week 06 总结
  1. CAP原理

A: 可用性

C: 一致性

P: 分区耐受性

一致性:

每次读入的数据都应该是最近写入的数据或返回一个错误,而不是过期数据。

可用性:

每次请求都应该得到一个响应,而不是返回一个错误或者失去响应。

分区耐受性:

即使是应为网络原因,部分服务器节点之间消息丢失或延迟了,系统依然是可以操作的。



  1. Log Structed Merge Tree



  1. Zookeeper



  1. 爬虫系统架构

  • 种子ULR

  • 网页下载器

  • 网页解析器

  • 网页存储

  • 已下载和待下载的URL队列



  1. 文档矩阵与倒排索引

  2. Lucene架构



  1. Lucene索引文件准实时更新

索引有更新,如果数据量巨大,全量更新效率低。Lucene引入了段的概念,将索引未见拆分为多个子文件,每个子文件叫段。每个段是一个独立的可被搜索的数据集,索引的修改针对段进行操作:

  • 新增

  • 删除

  • 更新

为了控制段的数量,必须定期合并段操作。



  1. ElasticSearch架构

  • 索引分片,实现分布式

  • 索引备份,实现高可用

  • API更简单,更高级

用户头像

鱼_XueTr

关注

还未添加个人签名 2019.04.19 加入

还未添加个人简介

评论

发布
暂无评论
Week 06 总结