随着信息时代的到来,互联网信息不断膨胀,企业的数据库信息也迅速膨胀。很多企业和社会组织都面临信息利用和管理的问题。如何利用互联网进行精确搜索,获得有效信息,如何针对企业数据库进行检索,如何针对网站进行站内信息搜索,都成为亟待解决的问题。
海量公司利用领先的中文分词和智能计算技术,推出一套大规模数据分布式搜索方案。
- 系统整体架构图
-
整个方案设计分成以下几部分:
信息采集:对待检索数据进行信息的采集
信息处理:对待检索数据进行数据的处理,如查重、提取关键词、提取摘要等。
信息检索:对海量信息利用集群式处理方案,对数据进行分布式检索。

- 蜘蛛采集服务器?
-
该模块的功能是将互联网的页面信息或各种待检索信息进行信息采集。采集后统一进行信息的处理并准备检索。
蜘蛛根据该列表定期采集网络信息,对于不同网络可做不同的采集策略。例如月更新、日更新等,以达到数据及时更新目的。
- 数据加工处理
-
该部分工作根据业务需求分别对数据进行处理,如分类、信息萃取,关键词提取、摘要等信息进行进一步的加工处理。
- 数据分发服务器
-
数据分发服务器、索引服务器、数据检索服务器,几大功能模块主要是对大规模数据的分布式检索应用。
数据分发服务器对加工后的数据进行数据的分发。将数据发放到不同的索引机器,由索引服务器创建索引。
分发机制可根据用户的业务需求和系统需求进行相应的设定,考虑更好的利用系统资源,这里可以采用平均分发机制,数据量平均存储到相应索引服务器上。
- 索引服务器
-
为了达到好的检索性能和便于今后系统的扩展,我们采用多索引机的检索方案。通过该服务对分发数据进行创建索引工作。
- 检索应用服务器
-
通过WEB服务提供搜索服务接口面向搜索用户。用户通过该服务提供搜索请求。
该服务将搜索请求分发到各索引服务器上,接收各索引服务器的返回结果,重新在该机器进行结果排序并输出。
- 待处理数据量大
-
海量分布式检索方案可以处理数亿的信息。
- 高品质、智能化的数据加工处理
-
对检索数据进行加工处理,使引擎具有更高的智能检索功能。
- 检索性能高
-
亿万数据的检索平均耗时秒内响应。
- 扩展性强
-
在海量的分布式检索框架下,系统可方便的实现系统的扩充。


