软件标签:
为您提供Friso(高性能中文分词器)下载,软件大小。支持运行平台所有微软平台/。
Friso是应用c语言开发的一款开源系统的性能卓越中文分词器,应用时兴的mmseg算法完成,彻底根据模块化和完成,能够很便捷的嵌入别的程序流程中,源代码不用改动就能在各种各样服务平台下编译程序应用!
【功能介绍】
Friso关键作用:
中文词性标注:mmseg算法 Friso 独创性的提升算法,四种分割模式。
关键词获取:根据textRank算法。
重要语句获取:根据textRank算法。
重要语句获取:根据textRank算法。
Friso中文词性标注:
四种分割模式:
简单模式:FMM 算法,合适速率规定场所。
繁杂模式- MMSEG 四种过虑算法,具备较高的岐义除去,词性标注准确度做到了98.41%。
检验模式:只回到词库中现有的百度词条,很合适一些运用场所。(1.6.1版本号刚开始)。
数最多模式:粗粒度分割,专为查找为之,除开中文解决外(不具有中文的姓名,数字识别等智能化作用)别的与繁杂模式一致(英语,组合词等)。
词性标注作用特点:
另外支持对 UTF-8/GBK 编号的分割,支持 php5 和 php7 拓展和 sphinx token 软件。
支持自定词库。在 dict 文件夹名称下,能够随意加上/删掉/变更词库和词库百度词条,而且对词库开展了归类。
简体/繁体字/简体混和支持, 能够便捷的对于简体,繁体字或是简繁体分割。另外还能够为此完成简繁体的互相查找。
支持英中/英中混和词的鉴别(维护保养词库能够鉴别一切一种组合)。比如:拉卡ok, 好看mm, c语言,IC卡,哆啦a梦。
很好的英文支持,英语标点符号组合词鉴别, 比如c , c#, 电子邮箱,网站地址,小数,百分比。
自定保存标点符号:你能自定保存在分割結果中的标点符号,那样能够鉴别出一些繁杂的组合,比如:c , kamp;r,code.google.com。
复杂英文分割的二次分割:默认设置 Friso 会保存数据和英文字母的原组合,打开此作用,能够开展二次分割提升 查找的准确率。比如:qq2013会被切分为:qq/ 2013/ qq2013。
支持阿拉伯数/小数基础一个字企业的鉴别,比如二0一二年,1.75米,5吨,一百二十斤,38.6℃。
自动英文圆弧/半角,英文大写/小写字母变换。
近义词搭配:全自动中文/英语近义词增加. (必须在 friso.ini 中打开 friso.add_syn 选择项)。
全自动中英终止词过虑。(必须在 friso.ini 中打开 friso.clr_stw 选择项)。
多配备支持, 安全性的运用于多进程/线程同步自然环境。