当前位置:首页>编程日记>正文

c语言爬虫代码,simspider

本站寻求有缘人接手,详细了解请联系站长QQ1493399855

simspider - 网络爬虫引擎

1.简介

simspider是一个轻巧的跨平台的网络爬虫引擎,它提供了一组C函数接口用于快速构建你自己的网络爬虫应用,同时也提供了一个可执行的爬虫程序用于演示函数接口如何使用。

simspider只依赖于第三方函数库libcurl。

simspider目前支持平台:

* UNIX/Linux

* WINDOWS

simspider函数接口非常容易使用,主流程如下:

* 创建爬虫引擎环境

* 设置爬虫引擎环境

* 从入口网址递归爬取所有网页

* 销毁爬虫引擎环境

有大量的可选选项用于定制你的爬虫引擎环境,包含但不限于下列:

* 设置请求队列空间大小

* 设置感兴趣的文件扩展名集合

* 是否允许文件扩展名为空

* 是否允许爬出当前网站

* 设置最大递归深度

* 设置HTTPS证书文件名

* 设置爬取间隔时间

* 设置爬取最大并发数量

simspider爬虫引擎实现了一个灵活的流程框架,提供了相当丰富的回调函数指针给予爬虫应用设计者想要在爬取的任何时间点加入自己自定义的处理逻辑,包含但不限于下列:

* 构建HTTP请求头时

* 构建HTTP请求体(往往是POST内容)时

* 获取到HTTP响应头时

* 获取到HTTP响应体(往往是HTML)时

(在以上4个回调函数中,爬虫应用设计者可以使用另外一批simspider函数接口得到上层网址、当前网址、响应码、递归深度、CURL对象以及HTTP缓冲区等信息)

* 爬取完成后检阅完成队列

2.我的第一个爬虫程序

使用simspider爬虫引擎函数库实现一个爬虫应用相当容易,以下是一个简单示例:

[code]

#include "libsimspider.h"

int main()

{

struct SimSpiderEnv*penv = NULL ;

intnret = 0 ;

nret = InitSimSpiderEnv( & penv , NULL ) ;

if( nret )

printf( "InitSimSpiderEnv failed[%d] " , nret );

return 1;

}

nret = SimSpiderGo( penv , "" , "http://www.curl.haxx.se/" ) ;

printf( "SimSpiderGo failed[%d] " , nret );

CleanSimSpiderEnv( & penv );

return 0;

[/code]

这个示例本身没有任何意义,因为它没有把爬取到的数据传递出来,但是可以肯定的是,它把网站localhost:80看了个遍。

可能我觉得串行的爬取比较慢,可以启用并发爬取。把这行插入到创建爬虫引擎环境后面即可(5个异步并发)

SetMaxConcurrentCount( penv , 5 );

可能我想在HTTP中加入一些内容伪装我的爬虫,新增一个回调函数代码,并把它设置到爬虫引擎环境中

funcRequestHeaderProc RequestHeaderProc ;

int RequestHeaderProc( struct DoneQueueUnit *pdqu )

CURL*curl = NULL ;

struct curl_slist*header_list = NULL ;

charbuffer[ 1024 + 1 ] ;

curl = GetDoneQueueUnitCurl(pdqu) ;

header_list = curl_slist_append( header_list , "User-Agent: Mozilla/5.0(Windows NT 6.1; WOW64; rv:34.0 ) Gecko/20100101 Firefox/34.0" ) ;

if( GetDoneQueueUnitRefererUrl(pdqu) )

memset( buffer , 0x00 , sizeof(buffer) );

SNPRINTF( buffer , sizeof(buffer) , "Referer: %s" , GetDoneQueueUnitRefererUrl(pdqu) );

header_list = curl_slist_append( header_list , buffer ) ;

curl_easy_setopt( curl , CURLOPT_HTTPHEADER , header_list );

FreeCurlList1Later( pdqu , header_list );

InitSimSpiderEnv

...

SetRequestHeaderProc( penv , & RequestHeaderProc );

SimSpiderGo

可能我想在爬取中实时输出当前爬取的网址到屏幕上,新增一个回调函数代码,并把它设置到爬虫引擎环境中

funcResponseBodyProc ResponseBodyProc ;

int ResponseBodyProc( struct DoneQueueUnit *pdqu )

printf( ">>> [%s] " , GetDoneQueueUnitUrl(pdqu) );

SetResponseBodyProc( penv , & ResponseBodyProc );

可能我想在爬取完成后浏览一下之前爬取的所有网址及结果,新增一个回调函数代码,并把它设置到爬虫引擎环境中

funcTravelDoneQueueProc TravelDoneQueueProc ;

void TravelDoneQueueProc( char *key , void *value , long value_len , void *pv )

struct DoneQueueUnit*pdqu = (struct DoneQueueUnit *)value ;

printf( "[%5d] [%2ld] [%s] [%s] " , GetDoneQueueUnitStatus(pdqu) , GetDoneQueueUnitRecursiveDepth(pdqu) , GetDoneQueueUnitRefererUrl(pdqu) , GetDoneQueueUnitUrl(pdqu) );

return;

SetTravelDoneQueueProc( penv , & TravelDoneQueueProc );

是不是很简单?

以上完整代码见安装中提供的示例src/simspider.c

3.定制爬虫引擎环境

爬虫环境内部需要两个队列:请求队列和完成队列。爬取过程中产生新的网址被压入请求队列,后面逐一弹出爬取。

请求队列空间大小默认为SIMSPIDER_DEFAULT_REQUESTQUEUE_SIZE,如果你想调整,调用函数ResizeRequestQueue。

注意:simspider引擎内定义网址最大长度为1024,那么预估的请求队列空间大小一般比“最大可容纳请求网址数量*1024”稍稍大一些。

爬虫引擎在递归爬取网址时,会自动忽略不感兴趣的文件扩展名集合,默认值为SIMSPIDER_DEFAULT_VALIDFILENAMEEXTENSION,你也可以调用函数SetValidFileExtnameSet设置成自己需要的。

是否允许爬取“http://www.xxx.com/aaa/”此类的网址?调用函数AllowEmptyFileExtname启用或禁用。

递归爬取中如果出现当前网站以外的网址,是否也爬取?调用函数AllowRunOutofWebsite启用或禁用。

递归爬取中入口网址深度为1,以后下一层深度自增一,如果你想要限制深度,调用函数SetMaxRecursiveDepth。

爬取HTTPS网址时会询问证书文件,调用函数SetCertificateFilename预置好文件名。

爬取两个网址之间需要休眠的调用函数SetRequestDelay设置时间,单位是秒。

嫌串行爬取太慢?试试多路复用并行爬取,调用函数SetMaxConcurrentCount设置并发度。

当设置成SIMSPIDER_CONCURRENTCOUNT_AUTO时将自动调整。(试验性功能)

4.定制流程回调函数

想要在爬虫引擎构建HTTP请求头时加入自己的信息,编写一个回调函数,设置到爬虫引擎环境中。

调用函数GetDoneQueueUnitCurl可以获得当前curl对象,用curl函数curl_easy_setopt设置之,如CURLOPT_HTTPHEADER等。

想要在爬虫引擎构建HTTP请求体时加入自己的信息,编写一个回调函数,设置到爬虫引擎环境中。

一般只针对某些匹配网址请求前,加入POST数据。调用函数GetDoneQueueUnitBodyBuffer得到HTTP体缓冲区指针,直接填充之。如果空间不够大,调用函数ReallocBodyBuffer调整之。

如果要调整HTTP请求体缓冲区中的数据,请同时更新数据长度。

想要在爬虫引擎接收完HTTP响应头后查询自己所需信息,编写一个回调函数,设置到爬虫引擎环境中。

一般用于提取COOKIE信息等。

想要在爬虫引擎接收完HTTP响应体后查询自己所需信息,编写一个回调函数,设置到爬虫引擎环境中。

一般用于使用自己喜欢的HTML或JSON解析器提取信息。

如果要调整HTTP响应体缓冲区中的数据,请同时更新数据长度。

方便有些爬虫最后保存结果到数据库中。

5.其它使用经验

* 如何输出引擎内部日志

初始化爬虫引擎环境时设置日志文件名,struct SimSpiderEnv **ppenv , char *log_file_format , ... );,和sprintf用法一样。

* 如何预置多个入口网址

函数SimSpiderGo只能设置一个入口网址,如果有多于一个入口网址,可以用函数AppendRequestQueue先预置到爬虫引擎环境中,然后调用SimSpiderGo(penv,NULL)。

方便有些爬虫从数据库中提取入口网址列表用于一批入口网址。

* 在构建HTTP请求头回调函数中,如果创建了curl链表(struct curl_slist *),必须在最后面才能释放

调用函数FreeCurlList1Later~FreeCurlList3Later把这些链表串到缓存中,引擎会在最后面自动释放之。

* (增加中)

6.自带爬虫运行演示

安装包中自带了一个爬虫src/simspider.c,运行如下:(家用台机PC中的虚拟机VMWARE的Red Hat Enterprise Linux Server release 5.4环境爬取外面WINDOWS XP Apache中的curl手册文档)

$ time ./simspider 192.168.6.79 5

>>> [http://192.168.6.79/]

>>> [http://192.168.6.79/curl-config.html]

>>> [http://192.168.6.79/TheArtOfHttpScripting]

>>> [http://192.168.6.79/libcurl/index.html]

>>> [http://192.168.6.79/index.html]

>>> [http://192.168.6.79/libcurl/libcurl.html]

>>> [http://192.168.6.79/libcurl/libcurl-easy.html]

>>> [http://192.168.6.79/libcurl/libcurl-multi.html]

>>> [http://192.168.6.79/libcurl/libcurl-share.html]

>>> [http://192.168.6.79/libcurl/libcurl-errors.html]

>>> [http://192.168.6.79/curl.html]

>>> [http://192.168.6.79/libcurl/curl_easy_cleanup.html]

>>> [http://192.168.6.79/libcurl/curl_easy_duphandle.html]

>>> [http://192.168.6.79/libcurl/curl_easy_escape.html]

>>> [http://192.168.6.79/libcurl/curl_easy_getinfo.html]

>>> [http://192.168.6.79/libcurl/curl_easy_init.html]

>>> [http://192.168.6.79/libcurl/curl_easy_pause.html]

>>> [http://192.168.6.79/libcurl/curl_easy_perform.html]

>>> [http://192.168.6.79/libcurl/curl_easy_recv.html]

>>> [http://192.168.6.79/libcurl/curl_easy_reset.html]

>>> [http://192.168.6.79/libcurl/curl_easy_strerror.html]

>>> [http://192.168.6.79/libcurl/curl_easy_unescape.html]

>>> [http://192.168.6.79/libcurl/curl_escape.html]

>>> [http://192.168.6.79/libcurl/curl_formadd.html]

>>> [http://192.168.6.79/libcurl/curl_formfree.html]

>>> [http://192.168.6.79/libcurl/curl_formget.html]

>>> [http://192.168.6.79/libcurl/curl_free.html]

>>> [http://192.168.6.79/libcurl/curl_getenv.html]

>>> [http://192.168.6.79/libcurl/curl_easy_send.html]

>>> [http://192.168.6.79/libcurl/curl_global_cleanup.html]

>>> [http://192.168.6.79/libcurl/curl_global_init.html]

>>> [http://192.168.6.79/libcurl/curl_global_init_mem.html]

>>> [http://192.168.6.79/libcurl/curl_mprintf.html]

>>> [http://192.168.6.79/libcurl/curl_multi_add_handle.html]

>>> [http://192.168.6.79/libcurl/curl_multi_assign.html]

>>> [http://192.168.6.79/libcurl/curl_multi_cleanup.html]

>>> [http://192.168.6.79/libcurl/curl_multi_fdset.html]

>>> [http://192.168.6.79/libcurl/curl_getdate.html]

>>> [http://192.168.6.79/libcurl/curl_multi_info_read.html]

>>> [http://192.168.6.79/libcurl/curl_multi_init.html]

>>> [http://192.168.6.79/libcurl/curl_multi_perform.html]

>>> [http://192.168.6.79/libcurl/curl_multi_remove_handle.html]

>>> [http://192.168.6.79/libcurl/curl_multi_setopt.html]

>>> [http://192.168.6.79/libcurl/curl_multi_socket.html]

>>> [http://192.168.6.79/libcurl/curl_multi_socket_action.html]

>>> [http://192.168.6.79/libcurl/curl_multi_strerror.html]

>>> [http://192.168.6.79/libcurl/curl_multi_timeout.html]

>>> [http://192.168.6.79/libcurl/curl_share_cleanup.html]

>>> [http://192.168.6.79/libcurl/curl_share_init.html]

>>> [http://192.168.6.79/libcurl/curl_share_setopt.html]

>>> [http://192.168.6.79/libcurl/curl_share_strerror.html]

>>> [http://192.168.6.79/libcurl/curl_slist_append.html]

>>> [http://192.168.6.79/libcurl/curl_slist_free_all.html]

>>> [http://192.168.6.79/libcurl/curl_strequal.html]

>>> [http://192.168.6.79/libcurl/curl_unescape.html]

>>> [http://192.168.6.79/libcurl/curl_version.html]

>>> [http://192.168.6.79/libcurl/curl_version_info.html]

>>> [http://192.168.6.79/libcurl/]

>>> [http://192.168.6.79/libcurl/libcurl-tutorial.html]

>>> [http://192.168.6.79/libcurl/curl_easy_setopt.html]

[ 200] [ 1] [] [http://192.168.6.79/]

[ 200] [ 2] [http://192.168.6.79/] [http://192.168.6.79/TheArtOfHttpScripting]

[ 200] [ 2] [http://192.168.6.79/] [http://192.168.6.79/curl-config.html]

[ 200] [ 2] [http://192.168.6.79/] [http://192.168.6.79/curl.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/index.html]

[ 200] [ 4] [http://192.168.6.79/libcurl/curl_easy_getinfo.html] [http://192.168.6.79/libcurl/]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_easy_cleanup.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_easy_duphandle.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_easy_escape.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_easy_getinfo.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_easy_init.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_easy_pause.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_easy_perform.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_easy_recv.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_easy_reset.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_easy_send.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_easy_setopt.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_easy_strerror.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_easy_unescape.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_escape.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_formadd.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_formfree.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_formget.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_free.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_getdate.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_getenv.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_global_cleanup.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_global_init.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_global_init_mem.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_mprintf.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_multi_add_handle.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_multi_assign.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_multi_cleanup.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_multi_fdset.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_multi_info_read.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_multi_init.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_multi_perform.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_multi_remove_handle.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_multi_setopt.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_multi_socket.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_multi_socket_action.html]

[ 404] [ 4] [http://192.168.6.79/libcurl/curl_multi_socket.html] [http://192.168.6.79/libcurl/curl_multi_socket_all.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_multi_strerror.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_multi_timeout.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_share_cleanup.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_share_init.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_share_setopt.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_share_strerror.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_slist_append.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_slist_free_all.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_strequal.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_unescape.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_version.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/curl_version_info.html]

[ 200] [ 2] [http://192.168.6.79/] [http://192.168.6.79/libcurl/index.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/libcurl-easy.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/libcurl-errors.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/libcurl-multi.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/libcurl-share.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/libcurl-tutorial.html]

[ 200] [ 3] [http://192.168.6.79/libcurl/index.html] [http://192.168.6.79/libcurl/libcurl.html]

real 0m0.452s

user 0m0.062s

sys 0m0.360s

7.最后

是不是越看越心动了?那就赶紧下载来玩玩吧

如有问题或建议欢迎联系我 ^_^

开源项目首页 : http://git.oschina.net/calvinwilliams/simspider

作者邮箱 : calvinwilliams.c@gmail.com


http://www.coolblog.cn/news/9075bbbfb9828a09.html

相关文章:

  • asp多表查询并显示_SpringBoot系列(五):SpringBoot整合Mybatis实现多表关联查询
  • s7day2学习记录
  • 【求锤得锤的故事】Redis锁从面试连环炮聊到神仙打架。
  • 矿Spring入门Demo
  • 拼音怎么写_老师:不会写的字用圈代替,看到孩子试卷,网友:人才
  • Linux 实时流量监测(iptraf中文图解)
  • Win10 + Python + GPU版MXNet + VS2015 + RTools + R配置
  • 美颜
  • shell访问php文件夹,Shell获取某目录下所有文件夹的名称
  • 如何优雅的实现 Spring Boot 接口参数加密解密?
  • LeCun亲授的深度学习入门课:从飞行器的发明到卷积神经网络
  • Mac原生Terminal快速登录ssh
  • 法拉利虚拟学院2010 服务器,法拉利虚拟学院2010
  • 支撑微博千亿调用的轻量级RPC框架:Motan
  • mysql commit 机制_1024MySQL事物提交机制
  • java受保护的数据与_Javascript类定义语法,私有成员、受保护成员、静态成员等介绍...
  • 2019-9
  • jquery 使用小技巧
  • vscode pylint 错误_将实际未错误的py库添加到pylint白名单
  • 科学计算工具NumPy(3):ndarray的元素处理
  • 工程师在工作电脑存 64G 不雅文件,被公司开除后索赔 41 万,结果…
  • linux批量创建用户和密码
  • js常用阻止冒泡事件
  • 气泡图在开源监控工具中的应用效果
  • newinsets用法java_Java XYPlot.setInsets方法代碼示例
  • 各类型土地利用图例_划重点!国土空间总体规划——土地利用
  • php 启动服务器监听
  • dubbo简单示例
  • Ubuntu13.10:[3]如何开启SSH SERVER服务
  • [iptables]Redhat 7.2下使用iptables实现NAT
  • Django View(视图系统)
  • 【设计模式】 模式PK:策略模式VS状态模式
  • CSS小技巧——CSS滚动条美化
  • JS实现-页面数据无限加载
  • 最新DOS大全
  • 阿里巴巴分布式服务框架 Dubbo
  • 阿里大鱼.net core 发送短信
  • Sorenson Capital:值得投资的 5 种 AI 技术
  • 程序员入错行怎么办?
  • Arm芯片的新革命在缓缓上演
  • 两张超级大表join优化
  • 第九天函数
  • Linux软件安装-----apache安装
  • HDU 5988 最小费用流
  • 《看透springmvc源码分析与实践》读书笔记一
  • 通过Spark进行ALS离线和Stream实时推荐
  • nagios自写插件—check_file
  • python3 错误 Max retries exceeded with url 解决方法
  • 正式开课!如何学习相机模型与标定?(单目+双目+鱼眼+深度相机)
  • 行为模式之Template Method模式