注册 登录 设为首页


产品/中文全文智能检索
中文全文智能检索成功案例
PRODUCT
ASK搜索引擎
用户背景

恩杰软件科技(杭州)有限公司是一家致力于搜索引擎技术研究与开发的外商独资公司。其母公司ASK为全球第八大网络资产,美国第四大搜索引擎,总部位于美国加利福尼亚州奥克兰市。ASK在欧洲、美洲和亚洲设有多家分公司及办事处,为全球成长最为快速的高新企业之一。

恩杰软件的核心业务是智能问答式自然语言搜索引擎。恩杰软件在进入中文检索领域以后,中文分词基础件的选择是其产品质量的关键。

经过严格的对比测试,恩杰软件淘汰了国外合同伙伴basistech所提供的中文分词系统,转而采购海量发展有限公司提供的海量中文智能分词系统。

需求分析

恩杰软件认为,中文分词技术是中文信息自动化处理技术发展的瓶颈。词是能独立活动的有意义的最小语言单位。分词是中文信息处理从字符处理水平向语义处理水平提升的关键之一,是中文智能计算技术的基础。

目前,中文分词技术普遍存在分词准确率低和分词效率不高两方面的问题,客户希望海量能很好的解决这个问题。

解决方案

海量中文智能分词采用复方概念平衡各算法,使海量分词在大规模语料测试中的准确率达到了99.5%,分词效率2000万字/分钟,该指标处于国际领先水平。

海量提供的技术自动对ASK搜索引擎网络蜘蛛下载的网页信息内容进行准确分词和词性标注,从而在根本上提高搜索质量和效率,降低系统资源消耗。

由于语言中“词”是承载语义的最小单位,而中文不同于西文,其词与词之间没有分隔,因此能否正确地将中文字序列切分为词序列,是中文信息处理的关键。对于搜索引擎来讲,分词的质量直接影响搜索结果质量。尤其是对于人名、地名、音译名等非词典词,由于经常作为搜索关键词,要求必须准确切分标注。

搜索引擎对信息更新速度要求高,而分词时间占索引更新耗时50%以上,海量分词系统的速度不但满足海量信息处理的要求。其稳定性、强壮性也满足了搜索引擎长期不间断服务的需要。

Antonomy的中文引擎
用户背景

Autonomy 是语义计算 (MBC)领域世界公认的领导者。1996 年成立的 Autonomy建立在剑桥大学计算机研究机构之上。Autonomy 被包括 Gartner Group、Forrester Research 和 Delphi 在内的分析家公认为业界领先的企业,他们称 Autonomy 是有史以来发展速度最快的上市公司,在短短几年时间内市值就迅速达到22 亿美元。Autonomy目前在全球有16000家用户,主要集中在媒体、政府机构、金融和信息产业等需要处理大量非结构化数据的领域。与第二名相比,Autonomy 的收入是其两倍之多。

Autonomy致力于为用户提供合理的、安全稳定的、高可用性的信息检索、分析、管理、加工等信息服务和系统构造服务。但进入中文领域以后,Autonom发现他们面临着中文处理的底层技术的准确率和效率无法达到系统要求,选择先进的中文分词基础件就成为一个迫切的问题。

需求分析

Autonomy提供的语义计算技术主要应用于三方面:
  高级企业搜索:
  基于语义计算技术不仅能找出其他技术(包括关键词搜索以及关系数据库)无法发现的、占企业信息总量 85% 的内容,同时还能理解它们的含义。因此,用户能够查看之前甚至认为并不存在的相关信息,从而以实时的方式对其进行操作。
  知识管理:
  基于语义计算技术使企业能够自动地通过语境理解客户与员工感兴趣的方面,他们的行为,以及与各种类型的信息之间进行的交流。这样,企业就能够通过利用其员工所拥有的重要知识、经验以及专业技能来形成协作。
  电子搜索:
  基于语义计算技术还使得企业能够从上万亿字节的电子邮件、文档、电子表格以及其他非结构化信息中提取出有意义的内容。借助该功能,调查人员就能在了解企业环境之余发现可能存在的不法行为及其发展情况。
  Autonomy虽然在英文语义计算技术方面领先世界,但在中文语义计算领域遇到了很大的文化瓶颈。要使计算机能够自动收集、分析并组织信息,就必须赋予汉字提取语义的能力。而先进的中文智能分词技术是实现这一功能的关键。

解决方案

海量根据上述厂商的系统目标,为他们提供了相应策略的中文分词技术、词性标注技术、查重技术和搜索引擎等关键技术。经过测试发现,海量分词技术全面提升了Autonomy系统检索准确率和检索效率,有效避免了搜索引擎在中文检索中不分词或分词不准所造成的误检,使其索引空间膨胀率大幅度降低,节约存储资源的同时提高了检索速度。为其中文信息处理,分类、聚类等提供高效而准确的核心引擎动力。

2006年9月,Autonomy 在国内发布了多款本地化产品,其中“企业竞争情报智能分析系统”最为 引人注目。该系统采用概念获取、模式匹配的技术进行数据运算与智能分析,使得计算机能够理解信息分析的内容、目的与任务,自动而智能地进行信息的采集、组织、分类、聚类、关联、分析、标引等操作,在无需任何人工干预的情况下,实现对行业竞争态势和竞争情报实时检测、定向跟踪、智能分析,为企业的战略和战术决策提供依据。海量中文智能分词技术通过帮助客户成功,实现了自身的价值。