Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技术原理（二）

程序首次执行成功后，我们已经成功获取了源页面所提供的链接地址。下面我们自然要做的就是通过计时器来爬抓链接列表里的地址。

下一步就是要通过地址列表里的地址逐一爬抓，去掉已经爬抓过的练级，并记录新的有效链接到地址列表里。

再看一下我们的main函数：

上面的firstStart函数（首次执行爬抓）已经执行过了，那就会重新调用main函数，也就是在执行一次判断，但是因为我们的url.txt里已经有12条Url地址，所以这次会执行Timer函数。

Timer函数里我们写了一个计时器，防止程序崩溃或者网络崩溃，所以我这里设置了1秒执行一次，其实没有必要这样，一秒钟执行3-8次也是没什么大问题的（本地情况下），如果放在服务器上，那你得看一下自己的服务器配置和带宽配置酌情考虑了

看一下Timer函数吧：

emm...毫不夸张的表示我看自己的代码都有点吃力

上面的代码创建了一个计时器，时间为一秒。刚开始肯定是先要打开url.txt文件,因为是要做删除和添加操作的，所以打开的模式是读写追加。

这一句就是获取url.txt里的第一条链接地址，我们要先判断一下这个链接内容是不是我们想要的，所以我又用到了之前封装的一个正则检查的函数。

checkRegexp函数：

所用到的正则 => regTitle、regCheckTitle

regTitle是为了在代码中匹配真标题，因为有些网站为了防止爬虫，做了一些假标题以混淆视听，但是这些小伎俩还是很容易解决的，这个regTitle足以屏蔽掉70%的假标题。

反正爬虫就是要和各大网站斗智斗勇 /手动滑稽

regCheckTitle是为了过滤出这个网址是不是我想要的内容，所以我简单的写了一串正则。这串正则的意思主要是标题要带有为什么、怎么等关键词，然后标题必须有golang或者go的存在，这样的内容基本上是我想要的了。

判断的代码段：

如果匹配不到，那就跳过这一条链接咯，反正不是我想要的~

然后这一段就是说删掉这一条链接地址，如果没有有一段，你的爬虫将不厌其烦的去爬抓第一条链接地址，能一直爬到你的ip被服务器安全程序处理掉

应该有人发现，然后呢？怎么没有把东西入库，怎么没有抓取新的链接。

emm...博主最近有点忙，这一段还没写，不过这些内容已经把爬虫的基本原理都给讲掉了，其实很简单对不对，就是发起http请求，然后通过正则匹配出自己想要的内容，再做后续的入库或者注入新鲜链接地址，让程序一直运行下去就好了。

运行一下：

嗯，就这样，有效内容就过滤出来了。

然后如果想要把文章内容提取出来，只需要一个很简单的正则就可以了，这里的处理步骤其实可以写一个单独的函数来调用。但博主现在还没有写，可能会在第三篇写上，如果访问量破2k的话

为了防止有些地方细节代码没有贴上，我把main.go的代码贴一下吧，也可以进文章底部的链接下载整个程序的代码实例，如果还有问题可以call我，qq在上一篇文章里，就不重复贴了。

main.go:

版权声明：本文来源简书，感谢博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。
原文链接：https://www.jianshu.com/p/ec3c27af8abf
站方申明：本站部分内容来自社区用户分享，若涉及侵权，请联系站方删除。

0 条评论