产品简介
海量网络蜘蛛基础件是海量依托自身先进的中文信息处理技术,推出的准确、高效、接口方便灵活的便于二次开发的软件包,简称为网络蜘蛛基础件。
功能介绍
- 内嵌海量中文分词
- 业界领先的智能分词技术,确保各项信息处理功能快速、准确。
- 代理服务器
- 支持当前较流行的代理协议,包括:SOCKS4、SOCKS5;同时支持多种代理协议。
- 用户登录方式的网站
- 支持有用户登录方式的网站。
- 动态生成超链接的网页
- 支持JavaScript脚本的下载。
- 浏览器端的自动刷新
- HTML语言支持浏览器端的自动刷新命令,可以使浏览器定位到其它的网页。
- 网站结构的分析
- 大多数网站的目录结构代表了内容的结构,支持对网站结构的预先分析。
- 断点续传
- 能够保留上次下载不完整的尸体文件,再次下载时,追加该文件。
- 批处理任务和多线程下载
- 一次可以追加多个任务并以此进行下载。每个任务可启用多个线程进行处理
产品特点
- 快速
- 蜘蛛采集速度快
- 下载全面
-
静态链接,支持全路径、相对路径;
可以直接取得URL的动态网页(CGI,ASP ,PHP 等);
支持Javascript脚本;
支持注册网站的下载;
支持WWW认证网站的下载;
支持经过简单编码的网站(URL编码);
支持Flash 网页的下载;
可以自定义下载的文件的扩展名;
支持自定义URL的下载;
支持限制使用带宽,多线程,多任务;
- 更新率高
-
提供多种更新机制,自定义更新和指定更新;
可更新整个网站;
只更新网站中部分定义内容;
- 下载准确
-
能够识别错误页,空页,转向页等;
对重复(网页的内容相同)的网页不会反复下载;


