java jsoup 爬虫 怎么防止重复爬取

正好最近在学习这方面的内容。

两种思路:

可以将当前爬取的url存在一个list中作登记,在下一次开始爬子链接的时候进行比对,如果已经存在在list中则跳过,如果不存在那么继续爬

可以将所有的url网络先遍历一遍存在list中,然后根据list而不是再次访问子链接url进行爬取,在url存入list的过程中进行查重处理

顺便为了方便控制。建议设置爬取深度,在一定深度内进行爬取。