产品简介
中文智能分词基础件,是海量在中文智能分词技术基础之上推出的便于二次开发的软件包。它具有分词准确、高效、稳定的特点,主要应用于:
信息检索:如全文检索、主题检索等。
语音处理:如语音合成、语音识别等。
内容识别与分析:如信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘等。
自然语言理解:如机器翻译、自然语言接口等。
- 功能特色
-
准确:切分准确率达99.7%。
快速: 2000万字/分钟。
灵活:系统外挂分词规范,用户可自定义。
广泛: 支持多平台,多码制,多线程,应用领域广泛。
- 高内聚低耦合。
-
降低系统各个部分之间的耦合度。
可维护性高。
可重用性高。
产品的升级、维护可以快速反应。
- 可扩展性强。
-
支持的词表:以《现代汉语词典》为基础建立的知识库。
客户可根据应用范围选择需要增加的词表,如中国分类主题词表,中国商用关键词表,行业词表,港台用语词表等。
产品支持的码制:GB18030。
可选择增加的码制:BIG5,Unicode,UTF-8。
功能介绍
- 歧义识别
- 依靠先进的歧义识别算法,有效避免分词歧义的产生,使分词的准确率大大提高。
- 未登录词识别
- 采用先进的新词识别算法,能够自动准确地识别未登录词。
- 可外挂用户自定义词典
- 用户可以根据自己的需求定义新词,利用海量中文智能分词软件包的接口与分词系统进行挂接。
- 关键词标注
- 通过对上下文智能语意识别,从用户输入的一句话或者几个词组中,抽取其中的核心词汇。
- 词性标注
- 通过对上下文智能语意识别,对输入词给出其词性。
- 支持的字符集
- 支持GB18030、BIG5、Unicode、UTF-8。
- 分词颗粒度
- 为不同的应用提供不同的分词颗粒度。
- 语义指纹
- 根据对內容的分析,对内容生成一串数字,通过该数字反映文章的语意特征。


