如何将爬虫爬的信息去重后入库?

如题,现遇到以下问题:爬虫爬到的信息内容某些情况下会出现80%左右的相似度,有没有什么比较好的解决方案?
是先将信息入库然后后续爬到的信息与这个信息进行对比去重?(总感觉如果数据量大的话效率会很慢。。)
还是将爬到的信息存放至缓存中进行一些算法比对去重(如simhash等),若使用此方法的话是挨个数据进行比对还是有其他高效率的方法?
望各位大佬指点。。感谢。。

《L05 电商实战》
从零开发一个电商项目,功能包括电商后台、商品 & SKU 管理、购物车、订单管理、支付宝支付、微信支付、订单退款流程、优惠券等
《L02 从零构建论坛系统》
以构建论坛项目 LaraBBS 为线索,展开对 Laravel 框架的全面学习。应用程序架构思路贴近 Laravel 框架的设计哲学。
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!