GO语言实现一个简单的网页爬虫 - Go语言中文社区

GO语言实现一个简单的网页爬虫


具体思路是利用go语言提供的远程包github.com/PuerkitoBio/goquery,但是有时候链接会出错,导致程序编译不通过,我们可以直接将这个包下载到本地,然后将import导入地址修改为本地的goquery地址即可

首先建立文件,保存从网页上扒下来的内容

接下来使用goquery.NewDocument("//wangzhi//"),来获取网页的那种

接下来使用goquery.NewDocument("//wangzhi//").Find(".标签名").Each(func(i int,s *goquery.Selecton){

//可以做一些操纵

})把符合条件的存储到s 里面,可以调用s.Text()来查看

代码如下

package main
import (
	"fmt"
	"./goquery"
	"os"
	"log"
)
func GetJokes() {

	file :="news.txt"
	fout ,err:=os.Create(file)
	defer fout.Close()
	if err!=nil{
		fmt.Println(file,err)
		return
	}
	doc, err := goquery.NewDocument("http://news.qq.com")
	if err != nil {
		log.Fatal(err)
	}
	doc.Find(".linkto").Each(func(i int, s *goquery.Selection) {
		fout.WriteString(s.Text())
		fout.WriteString("n")
	})
}
func main() {

	GetJokes()
}

只有短短的不到30行代码,但是完全可以达到需要的功能

运行 go run test.go后得到news.txt文件

vim news.txt




版权声明:本文来源CSDN,感谢博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/shangguan_1234/article/details/79667651
站方申明:本站部分内容来自社区用户分享,若涉及侵权,请联系站方删除。
  • 发表于 2019-09-04 14:00:15
  • 阅读 ( 733 )
  • 分类:Go

0 条评论

请先 登录 后评论

官方社群

GO教程

猜你喜欢