- 背景介绍
-
Donews是中国最大的IT写作社区。自2000年4月创立以来,已经团结了3.2万名编辑、记者、自由撰稿人以及IT从业人员成为它的专栏作者或论坛用户。目前Donews已经拥有包括社区、邮箱、Blog、论坛、网摘、通讯录、Wiki、下载等多项服务。
作为国内最大的IT写作社区,但利用有限的创作人力资源下,如何快捷,便于作者编辑的系统就十分重要。
2002年,海量科技与Donews携手,搭建了Donews的智能编辑平台,极大的方便了编辑的创作工作。
- 客户需求
-
1、自动实现文章的关键词、摘要、信息分类等智能处理
2、增加快速、准确的站内搜索功能
- 解决方案
-
海量公司利用先进的分词技术及智能计算技术,为DONEWS建立了一个智能化处理平台,帮助编辑进行自动化的工作。有效节省了人力成本。
方案实施后,DONEWS 顺利实现的以下功能:
a) 生成TAG&摘要:对稿件正文进行内容分析,自动为其生成关键词TAG和内容摘要。
b) 生成语意指纹:对稿件正文进行内容分析,基于内容含义,为其生成一组唯一标示这段内容的数字,这组数据就作为改稿件的语意指纹。用于后面的消重使用。
c) 内部消重:针对批量新闻转载、订阅供稿、页面监控供稿、专题&热点供稿在提交给用户入库前,先对要提交数据整体进行消重处理,保证每次提交给用户的稿件不存在重复稿件。
d) 分类标引:用户提出自己的分类标引需求,由我们统一整理并提供自动智能化处理。
海量并为DONEWS提供了先进、成熟的搜索引擎,进行站内搜索和相关文档功能。页面效果:自动实现文章的关键词、摘要、信息分类等智能处理:

- 背景介绍
-
天津日报报业集团成立于2002年8月21日。拥有以《天津日报》为龙头,由《每日新报》、《城市报》、《假日100天》、《采风报》、《球迷》报、《车天下》、《新广角》、《蓝盾》《天津日报•电子版》等组成的十报两刊的报刊体系,日总发行量达150多万份。
为方便广大读者网上阅读十报两刊的内容,天津日报网很快正式与读者见面。但是,站内庞大的信息量十分不利于读者搜寻相关内容。于是,站内搜索和和智能处理就变的十分重要。
- 用户需求
-
1、实现天津日报站内检索
用户在搜索页上输入关键词,搜索后可以得到与该关键词相关的分页搜索结果。
另外,搜索引擎还应针对《每日新报》、《城市报》、《假日100天》等做具体搜索。比如读者搜寻《每日新报》的具体内容,可以在“每日新报”的具体栏目中搜索。
2、自动提供相关文档。
天津日报在进行信息整和的同时,也希望实现相关文档功能,而过去庞大的信息量下靠编辑每篇去做相关文档无疑是一个庞大的工作量,这就希望计算机能提供智能的自动相关文档功能。
- 解决方案
-
用户在搜索页上输入关键词,搜索后可以得到与该关键词相关的分页搜索结果。结果内容包括每一条命中文章的标题链接,正文摘要,发布日期。点击标题链接可以跳转到原网页。
关键词高级检索
用户在高级搜索页上输入关键词,网页类别,发布日期,检索词位置,排序方式,可以得到一个满足搜索条件的搜索结果。结果内容包括每一条命中文章的标题链接,正文摘要,发布日期。点击标题链接可以跳转到原网页。
相关文档检索
在网页上嵌入一段指定提供的html代码,该网页被浏览时,嵌入的地方会显示相关文档的链接列表,链接文字为相关文档的标题。



