注册 登录 设为首页


产品/海量蜘蛛
海量蜘蛛
PRODUCT
产品简介

海量网络蜘蛛基础件是海量依托自身先进的中文信息处理技术,推出的准确、高效、接口方便灵活的便于二次开发的软件包,简称为网络蜘蛛基础件。

功能介绍
内嵌海量中文分词
业界领先的智能分词技术,确保各项信息处理功能快速、准确。
代理服务器
支持当前较流行的代理协议,包括:SOCKS4、SOCKS5;同时支持多种代理协议。
用户登录方式的网站
支持有用户登录方式的网站。
动态生成超链接的网页
支持JavaScript脚本的下载。
浏览器端的自动刷新
HTML语言支持浏览器端的自动刷新命令,可以使浏览器定位到其它的网页。
网站结构的分析
大多数网站的目录结构代表了内容的结构,支持对网站结构的预先分析。
断点续传
能够保留上次下载不完整的尸体文件,再次下载时,追加该文件。
批处理任务和多线程下载
一次可以追加多个任务并以此进行下载。每个任务可启用多个线程进行处理
产品特点
快速
蜘蛛采集速度快
下载全面

静态链接,支持全路径、相对路径;

可以直接取得URL的动态网页(CGI,ASP ,PHP 等);

支持Javascript脚本;

支持注册网站的下载;

支持WWW认证网站的下载;

支持经过简单编码的网站(URL编码);

支持Flash 网页的下载;

可以自定义下载的文件的扩展名;

支持自定义URL的下载;

支持限制使用带宽,多线程,多任务;

更新率高

提供多种更新机制,自定义更新和指定更新;

可更新整个网站;

只更新网站中部分定义内容;

下载准确

能够识别错误页,空页,转向页等;

对重复(网页的内容相同)的网页不会反复下载;


海量蜘蛛