
概述
笔者近期需要训练连天机器人, 需要准备大量语料。获取语料的方案很多,其中一种是采取爬虫,获取线上问答。调研大部分爬虫,正好colly能满足我的需求。这是一个采用golang编写的爬虫编程框架,思路清晰,操作简单,性能非常不错。但本文重点不在讲述,colly源代码,而在于参数colly爬虫的常用编程场景。
入手
go get -u github.com/gocolly/colly/v2/...
func main() {
c := colly.NewCollector()
// Find and visit all links
c.OnHTML("a[href]", func(e *colly.HTMLElement) {
e.Request.Visit(e.Attr("href"))
})
c.OnRequest(func(r *colly.Request) {
fmt.Println("Visiting", r.URL)
})
c.Visit("#34;)
}
核心api说明
初始化
采用colly.NewCollector()初始化,但是有时候我们需要对爬虫参数进行配置,常见参数如下
方法名称说明UserAgent设置ua参数MaxDepth设置循环访问深度,0表示循环访问AllowedDomains字符串,准许抓取的域名DisallowedDomains字符串,不允许抓取的域名DisallowedURLFilters正则表达式,不允许抓取的连接格式URLFilters正则表达式,允许抓取的连接格式AllowURLRevisit是否允许重复抓取,MaxBodySize响应数据大大小限制默认10MB,0表示无限制CacheDir缓存存放目录IgnoreRobotsTxt是否忽略robots规则文件Async是否采用异步网络请求方案 ,需要和Use Collector.Wait()配套使用Debugger日志配置
举个栗子
c := colly.NewCollector(
colly.UserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299"),
colly.MaxDepth(3),
colly.AllowedDomains("www.techidea8.com","www.baidu.com"),
colly.URLFilters(
regexp.MustCompile("#34;),
regexp.MustCompile("#34;)
),
colly.AllowURLRevisit(),
colly.CacheDir("../tmp"),
colly.Debugger(&debug.LogDebugger{}),
colly.Async(),
)
用户也可以通过c.CacheDir=”../tmp”这种方式直接设置
OnHTML(goqueryselect string,callback (e *colly.HTMLElement ))
该函数对于符合goqueryselect选择器规范的dom执行func 函数操作,对于goqueryselect操作规范,可查询goquery文档,这是一个类似jqury的golangdom操作类库
一般我们在callback 中调用Visit循环访问。
通过上下文传递数据
colly实例携带Context对象,我们可以通过该对象传输数据。这对一些应用场景非常适用
func main() {
// Instantiate default collector
c := colly.NewCollector()
// Before making a request put the URL with
// the key of "url" into the context of the request
c.OnRequest(func(r *colly.Request) {
r.Ctx.Put("url", r.URL.String())
})
// After making a request get "url" from
// the context of the request
c.OnResponse(func(r *colly.Response) {
fmt.Println(r.Ctx.Get("url"))
})
// Start scraping on
c.Visit("#34;)
}
限制爬虫访问频次
colly通过控制爬虫客户端数量和网络请求响应时间来限制爬虫频次,这对一些有频次限制的场景非常重要。colly频次限制关键结构体如下
type LimitRule struct {
// DomainRegexp is a regular expression to match against domains
DomainRegexp string
// DomainRegexp is a glob pattern to match against domains
DomainGlob string
// Delay is the duration to wait before creating a new request to the matching domains
Delay time.Duration
// RandomDelay is the extra randomized duration to wait added to Delay before creating a new request
RandomDelay time.Duration
// Parallelism is the number of the maximum allowed concurrent requests of the matching domains
Parallelism int
waitChan chan bool
compiledRegexp *regexp.Regexp
compiledGlob glob.Glob
}
其中可以通过Parallelism来限制连接到服务器的客户端数量,通过RandomDelay来设置连接时间,也就是下一次连接在什么时候开启。通过DomainRegexp设置该限制对哪个域名有效。当然,该域名限制支持正则表达式。也可以通过DomainGlob来支持匹配*格式化类型的域名如*techidea*demo如下
func main(){
c := colly.NewCollector(
colly.AllowedDomains("www.techidea8.com"),
)
c.Limit(&colly.LimitRule{
DomainRegexp: "www.techidea8.com",
Parallelism: 1,
RandomDelay: 5 * time.Second,
})
c.OnHTML("a[href]", func(e *colly.HTMLElement) {
href := e.Attr("href")
if strings.Contains(href, ".html") {
e.Request.Visit(href)
}
})
}
异步抓取一般方法
colly通过colly.Async()来实现爬虫异步抓取,该方法需要和colly.Wait()配套使用。demo如下
func (){
// Instantiate default collector
c := colly.NewCollector(
// Attach a debugger to the collector
colly.Debugger(&debug.LogDebugger{}),
colly.Async(),
)
// Limit the number of threads started by colly to two
// when visiting links which domains' matches "*httpbin.*" glob
c.Limit(&colly.LimitRule{
DomainGlob: "*httpbin.*",
Parallelism: 2,
RandomDelay: 5 * time.Second,
})
// Start scraping in four threads on
for i := 0; i < 4; i++ {
c.Visit(fmt.Sprintf("%s?n=%d", url, i))
}
// Start scraping on
c.Visit(url)
// Wait until threads are finished
c.Wait()
}
通过队列来组织爬虫访问行为
如果需要顺序抓取,可以使用队列实现,colly提供了队列的支持。demo如下
func main() {
url := "#34;
// Instantiate default collector
c := colly.NewCollector(colly.AllowURLRevisit())
// create a request queue with 2 consumer threads
q, _ := queue.New(
2, // Number of consumer threads
&queue.InMemoryQueueStorage{MaxSize: 10000}, // Use default queue storage
)
c.OnRequest(func(r *colly.Request) {
fmt.Println("visiting", r.URL)
if r.ID < 15 {
r2, err := r.New("GET", fmt.Sprintf("%s?x=%v", url, r.ID), nil)
if err == nil {
q.AddRequest(r2)
}
}
})
for i := 0; i < 5; i++ {
// Add URLs to the queue
q.AddURL(fmt.Sprintf("%s?n=%d", url, i))
}
// Consume URLs
q.Run(c)
}
使用代理
colly支持socket5代理
func main() {
url := "#34;
// Instantiate default collector
c := colly.NewCollector(colly.AllowURLRevisit())
// Rotate two socks5 proxies
rp, err := proxy.RoundRobinProxySwitcher("socks5://127.0.0.1:1337", "socks5://127.0.0.1:1338")
if err != nil {
log.Fatal(err)
}
c.SetProxyFunc(rp)
// Consume URLs
q.Run(c)
}
使用代理
colly支持socket5代理
func main() {
url := "#34;
// Instantiate default collector
c := colly.NewCollector(colly.AllowURLRevisit())
// Rotate two socks5 proxies
rp, err := proxy.RoundRobinProxySwitcher("socks5://127.0.0.1:1337", "socks5://127.0.0.1:1338")
if err != nil {
log.Fatal(err)
}
c.SetProxyFunc(rp)
// Consume URLs
//...
}
上传文件
有时候我们需要把文件作为参数抓取服务器,此时需要采用PostMultipart方法
func generateFormData() map[string][] byte {
f, _ := os.Open("gocolly.jpg")
defer f.Close()
imgData, _ := ioutil.ReadAll(f)
return map[string][]byte{
"firstname": []byte("one"),
"lastname": []byte("two"),
"email": []byte("onetwo@example.com"),
" file ": imgData,
}
}
func main() {
// Start a single route http server to post an image to.
setupServer()
c := colly.NewCollector(colly.AllowURLRevisit(), colly.MaxDepth(5))
//携带文件访问
c.PostMultipart("#34;, generateFormData())
}
登录后抓取
有时候我们需要完成登录后再进行抓取,可以使用Post方法进行登录
func main() {
// create a new collector
c := colly.NewCollector()
// 首先进行登录
err := c.Post("#34;, map[string]string{"username": "admin", "password": "admin"})
if err != nil {
log.Fatal(err)
}
// 登录后再的逻辑操作
c.OnResponse(func(r *colly.Response) {
log.Println("response received", r.StatusCode)
})
// 开始抓取
c.Visit("#34;)
}
抓取本地文件
抓取本地文件有俩种思路,一种是将nginx或apache等服务器将本地文件映射成可以访问的网络地址,再进行抓取,另一种思路是利用colly对文件协议的支持,进行抓取,代码如下
func (){
//注册file协议
t := &http.Transport{}
t.RegisterProtocol("file", http.NewFileTransport(http.Dir("/")))
c := colly.NewCollector()
//支持file协议
c.WithTransport(t)
//开始抓取
c.Visit("file://" + dir + "/html/index.html")
c.Wait()
}
抓取本地文件
抓取本地文件有俩种思路,一种是将nginx或apache等服务器将本地文件映射成可以访问的网络地址,再进行抓取,另一种思路是利用colly对文件协议的支持,进行抓取,代码如下
func (){
//注册file协议
t := &http.Transport{}
t.RegisterProtocol("file", http.NewFileTransport(http.Dir("/")))
c := colly.NewCollector()
//支持file协议
c.WithTransport(t)
//开始抓取
c.Visit("file://" + dir + "/html/index.html")
c.Wait()
}
个性化header
可以在OnRequest方法中使用Headers.Set方法即可
c.OnRequest(func(r *colly.Request) {
r.Headers.Set("X-Requested-With", " XMLHttpRequest ")
r.Headers.Set("Referer", "#34;+instagramAccount)
if r.Ctx.Get("gis") != "" {
gis := fmt.Sprintf("%s:%s", r.Ctx.Get("gis"), r.Ctx.Get("variables"))
h := md5.New()
h.Write([]byte(gis))
gisHash := fmt.Sprintf("%x", h.Sum(nil))
r.Headers.Set("X-Instagram-GIS", gisHash)
}
})
个性化header
可以在OnRequest方法中使用Headers.Set方法即可
c.OnRequest(func(r *colly.Request) {
r.Headers.Set("X-Requested-With", "XMLHttpRequest")
r.Headers.Set("Referer", "#34;+instagramAccount)
if r.Ctx.Get("gis") != "" {
gis := fmt.Sprintf("%s:%s", r.Ctx.Get("gis"), r.Ctx.Get("variables"))
h := md5.New()
h.Write([]byte(gis))
gisHash := fmt.Sprintf("%x", h.Sum(nil))
r.Headers.Set("X-Instagram-GIS", gisHash)
}
})
写在最后
colly代码结构简单,可定制性强,接口友好,是一个不可多得的好作品。