写点什么

开源项目推荐 【SkyEyeSystem】

作者:程序员阿杜
  • 2023-07-05
    北京
  • 本文字数:975 字

    阅读完需:约 3 分钟

大家好,今天向大家推荐一个开源项目——SkyEyeSystem。


这是一个基于 Spring Boot 的全网热点爬虫项目,旨在提供全面而准确的全网热搜数据。

关于项目

SkyEyeSystem 通过定时任务间隔 10min 爬取全网热搜数据。目前包括的平台有:


  • 微博热搜

  • B 站热搜

  • CSDN 热搜

  • 知乎热搜

  • 今日头条

  • 百度热搜

  • 掘金

  • 36 氪

  • 腾讯新闻

  • 少数派等。


在获取到数据后


SkyEyeSystem 会将原始数据存入 MySQL


进行词频统计后存入 Redis,


以便开发者们能够更方便地分析和利用这些热搜数据。


同时会以页面的形式展示出所有平台的数据。

页面

自定义爬虫平台

当然 也可以自定义自己希望爬取的平台,作者提供了非常清晰的教程,只需要提供对应的平台类,自定义处理爬虫逻辑即可。


  1. 首先在 平台表 hot_platform 中新增对应对平台记录。举例如下。


INSERT INTO sky_eye_system.hot_platform VALUES (2,         '微博',        'https://ts3.cn.mm.bing.net/th?id=ODLS.05d45f55-2151-4d66-83e5-d10018607094&w=32&h=32&qlt=90&pcl=fffffa&o=6&pid=1.2',        '随时随地发现新鲜事!微博带你欣赏世界上每一个精彩瞬间,了解每一个幕后故事。分享你想表达的,让全世界都能听到你的心声!',        'https://weibo.com',         '随时随地发现新鲜事!',         '王志东',         null,         null,         0);
复制代码


  1. 在 [src/main/java/cn/shoxiongdu/SkyEyeSystem/task/hotspot/crawl/impl] 下新增对应的平台类,并实现接口 HotDataCrawler


public class XXXCrawler implements HotDataCrawler {       // 平台表中的id     private static final Long PLATFORM_ID = ${platformId};        private PlatformMapper platformMapper;        @Override    public List<HotSpot> crawlHotSpotData() {        // 执行自定义爬虫逻辑 返回的HotSpot列表。        return hotSpotList;    }        @Override    public Platform getPlatform() {        return platformMapper.selectById(PLATFORM_ID);    }}
复制代码


  1. 实现 crawlHotSpotData 方法,执行自定义的数据爬取逻辑,将爬取的数据封装为 HotSpot 的 List 并返回。

  2. 将常量 PLATFORM_ID 的值改为您的对应的平台表中的 id。

  3. 将实现类添加到 Spring 容器中。( @Component/@Service )

  4. 完成。此时,定时任务会执行您的爬取逻辑并入库。同时首页会展示相对应的数据。

项目地址

https://github.com/shaoxiongdu/SkyEye

发布于: 刚刚阅读数: 3
用户头像

分享好玩的项目,挖掘开源的价值! 2021-07-27 加入

公众号:【挖掘开源的价值】

评论

发布
暂无评论
开源项目推荐 【SkyEyeSystem】_Java_程序员阿杜_InfoQ写作社区