Week 06 总结
CAP原理
A: 可用性
C: 一致性
P: 分区耐受性
一致性:
每次读入的数据都应该是最近写入的数据或返回一个错误,而不是过期数据。
可用性:
每次请求都应该得到一个响应,而不是返回一个错误或者失去响应。
分区耐受性:
即使是应为网络原因,部分服务器节点之间消息丢失或延迟了,系统依然是可以操作的。
Log Structed Merge Tree
Zookeeper
爬虫系统架构
种子ULR
网页下载器
网页解析器
网页存储
已下载和待下载的URL队列
文档矩阵与倒排索引
Lucene架构
Lucene索引文件准实时更新
索引有更新,如果数据量巨大,全量更新效率低。Lucene引入了段的概念,将索引未见拆分为多个子文件,每个子文件叫段。每个段是一个独立的可被搜索的数据集,索引的修改针对段进行操作:
新增
删除
更新
为了控制段的数量,必须定期合并段操作。
ElasticSearch架构
索引分片,实现分布式
索引备份,实现高可用
API更简单,更高级
评论