|
|
导航: |
论坛 -> DELPHI技术
斑竹:liumazi,sephil |
|
作者: |
|
2017/2/26 22:47:37 |
标题: |
求推荐适合DELPHI的中文分词工具 |
浏览:2304 |
|
加入我的收藏 |
楼主: |
准确率高、成熟稳定,方便使用 ,XE6以上环境使用。
----------------------------------------------
- |
作者: |
yzdbs (学无止境) |
★☆☆☆☆ |
-
|
盒子活跃会员 |
|
2017/2/27 9:48:35 |
1楼: |
中科院计算所的那个就不错
----------------------------------------------
┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻ ┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳ ┻┳┻┳┻┳learning stream media.┳┻┳┻┳┻ ┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳ ┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻ ┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳┻┳
|
作者: |
msfm (清洁工) |
★☆☆☆☆ |
-
|
盒子活跃会员 |
|
2017/2/27 9:57:58 |
2楼: |
我还真做过 中文分词
----------------------------------------------
-
|
作者: |
|
2017/2/27 10:26:20 |
3楼: |
十几年前做过,准确率95%以上,还卖了点钱,呵呵
----------------------------------------------
武稀松http://www.raysoftware.cn
|
作者: |
|
2017/2/28 10:26:33 |
5楼: |
同求。如果能支持sqlite更棒。
----------------------------------------------
-
|
作者: |
|
2017/2/28 10:30:46 |
6楼: |
如果找不到,另外提供一个思路 - 把 golang实现的中文分词移植: https://github.com/yanyiwu/gojieba 和 https://github.com/huichen/sego
改完记得分享出来啊!
----------------------------------------------
-
|
作者: |
|
2017/2/28 10:44:47 |
7楼: |
ok, 估计最快的方法是,把https://github.com/yanyiwu/cjieba 这个“结巴”的c语言版用bc++编译为obj文件,在delphi里面引用。
----------------------------------------------
-
|
作者: |
|
2017/2/28 11:17:25 |
8楼: |
中科院那个很不错。不过源码写的实在让人吃惊。 if xxx && aaa && bbb.......比如说有一个判断条件这个and 多达40个。
----------------------------------------------
是你上错了车,还是我下错了站?
|
作者: |
|
2017/2/28 11:27:29 |
9楼: |
@138soft 中科院的做法其实没错,本来语言就是有很大随意性,不是像计算机那样有规律。做出分词大框以后,要精细必须针对很多用法单独写
----------------------------------------------
武稀松http://www.raysoftware.cn
|
作者: |
|
2017/2/28 18:54:03 |
11楼: |
我记得以前波哥弄了一个。你可以找他问问,当然最好是能赞助一下qdac.
----------------------------------------------
-
|
作者: |
|
2017/3/3 10:58:45 |
12楼: |
基于AC自动机的,已开源, https://github.com/jinnblue/aho-corasick
----------------------------------------------
-
|
作者: |
|
2017/3/3 11:09:03 |
13楼: |
非常感谢楼上。 虽然下载了。 但是还没具体看。 就喜欢用新版本写的 代码。
不知道是否支持 移动平台。
----------------------------------------------
(C)(P)Flying Wang
|
作者: |
|
2017/3/3 12:48:11 |
14楼: |
之前看过武稀松的封装过SCWSDelphi版的,不过不知道为啥无法使用,后来我就重新编译了scws ,改了改武稀松的pas ,经过测试可以使用效率也还不错能添加扩展词库。
http://easy.msofficegear.com/Update/scws_Delphi.7z
----------------------------------------------
火鸟
|
作者: |
|
2017/3/3 14:55:20 |
15楼: |
@jinnblue, 感谢!看了一下,aho-corasick是不是只能分单个字?
@wac1104 (火鸟), 感谢!没试,词库挺大的。
----------------------------------------------
-
|
作者: |
|
2017/3/3 16:37:05 |
16楼: |
如果需要代码回头我可以贴一部分测试代码,看了代码就应该知道怎么用了
----------------------------------------------
火鸟
|
作者: |
|
2017/3/3 16:47:22 |
17楼: |
火鸟:肯定要请教了,谢谢代码
----------------------------------------------
-
|
作者: |
|
2017/3/3 18:53:31 |
18楼: |
可分词。 缺点是需要预处理,比如新加关键词后需要重建Fail表,耗时较长; 如果增加不频繁关系也不大。
----------------------------------------------
-
|
作者: |
|
2017/3/3 22:23:08 |
19楼: |
@jinnblue (jinnblue), 多谢回复。所以中文关键字字典要自己提供,对吗?因为我看了dictionary.txt里面好像只有英文单词。
----------------------------------------------
-
|
作者: |
|
2017/3/8 23:49:00 |
20楼: |
词组需要自己提供; 当时主要是拿来做脏词过滤的。
----------------------------------------------
-
|
作者: |
|
2017/3/9 8:05:25 |
21楼: |
代码里面有词库
----------------------------------------------
火鸟
|
作者: |
szlbz (秋风) |
★☆☆☆☆ |
-
|
盒子活跃会员 |
|
2018/1/15 12:52:17 |
22楼: |
@wac1104 (火鸟),http://easy.msofficegear.com/Update/scws_Delphi.7z下载不了,能发到q q邮 箱吗(315795176)?谢谢!
----------------------------------------------
-
|
作者: |
|
2018/1/15 14:52:58 |
23楼: |
中科院的那个dll,直接可以delphi 最新版调用的。 就是需要基于.h文件,写一个接口pas
----------------------------------------------
相信自己,若自己都不相信,那还有谁可信。
|
|