开源项目推荐 【SkyEyeSystem】
大家好,今天向大家推荐一个开源项目——SkyEyeSystem。
这是一个基于 Spring Boot 的全网热点爬虫项目,旨在提供全面而准确的全网热搜数据。
关于项目
SkyEyeSystem 通过定时任务间隔 10min 爬取全网热搜数据。目前包括的平台有:
微博热搜
B 站热搜
CSDN 热搜
知乎热搜
今日头条
百度热搜
掘金
36 氪
腾讯新闻
少数派等。
在获取到数据后
SkyEyeSystem 会将原始数据存入 MySQL
进行词频统计后存入 Redis,
以便开发者们能够更方便地分析和利用这些热搜数据。
同时会以页面的形式展示出所有平台的数据。
页面
自定义爬虫平台
当然 也可以自定义自己希望爬取的平台,作者提供了非常清晰的教程,只需要提供对应的平台类,自定义处理爬虫逻辑即可。
首先在 平台表 hot_platform 中新增对应对平台记录。举例如下。
在 [src/main/java/cn/shoxiongdu/SkyEyeSystem/task/hotspot/crawl/impl] 下新增对应的平台类,并实现接口 HotDataCrawler
实现 crawlHotSpotData 方法,执行自定义的数据爬取逻辑,将爬取的数据封装为 HotSpot 的 List 并返回。
将常量 PLATFORM_ID 的值改为您的对应的平台表中的 id。
将实现类添加到 Spring 容器中。( @Component/@Service )
完成。此时,定时任务会执行您的爬取逻辑并入库。同时首页会展示相对应的数据。
项目地址
版权声明: 本文为 InfoQ 作者【程序员阿杜】的原创文章。
原文链接:【http://xie.infoq.cn/article/896dfd158ad2bc9ac2204e2e1】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论