| 新闻 |
共有9项符合 中文分词 的查询结果,
以下是第 1 - 10 项。(搜索用时 6.00 秒)
|
中文分词搜索,asp拆词搜索,asp智能分词搜索 2008-4-21
ASP实例普通
| 图片头条| [22]
|
|
在做一个网站时,老板让实现像百度那样的搜索功能,以前asp实现的都是模糊搜索,匹配查询。没办法。到网上搜搜看,我发现网上提供的方法有这几种,一是建个词库,二是用分词组件,三就是我说的这种,自动分词技术,不过也不是智能的分词,只是隔两个词匹配。最好的是建个词库,根据用户的输入来扩充词库,但对于中小型网站,这可能不太需要。
这是我说的第三种分词搜索,代码如下:使用方法就不说了。
<% Function AutoKey(strKey) CONST lngSub... |
|
http://web.rdxx.com/ASP/ASP_Example/2008/4/2417422381465.shtml - 7.23K 2008-5-7 13:42:45 加入收藏
|
中文搜索引擎技术揭密:中文分词 2005-9-10
谷歌Google普通
| 图片头条| 未知| [103]
|
|
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世... |
|
http://mg.rdxx.com/SearchGuide/Google/2005-9/10/015620442.shtml - 9.46K 2008-1-18 12:01:08 加入收藏
|
编写简单的中文分词程序 2006-5-2 1:20:01
ASP.Net技巧普通
| 图片头条| 网络| 不详| [380]
|
|
几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.
一、词库
词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下:
地区 82重要 81新华社 80技术 80会议 80自己 ... |
|
http://web.rdxx.com/ASPNET/ASPNET_Skill/2006-5/2/012029065201202910344862.shtml - 8.00K 2008-4-24 20:21:24 加入收藏
|
编写简单的中文分词程序 2006-8-9 12:10:24
ASP.Net应用普通
| 图片头条| 网络| 未知| [129]
|
|
几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见. 一、词库 词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下: 地区 82 重要 81 新华社 80 技术 80 会议 80 自己 79 干部 78 职工 78 群众 77 没有 77 今天 76 同志 76 部门 75 加强 75 组织 75 第一列是词,第二列是权重.我写的这个分词算法目前并未利用权重. 二、设计思路 算法简... |
|
http://web.rdxx.com/ASPNET/ASPNET_Apply/2006-8/9/121108114.shtml - 9.18K 2008-4-24 20:22:37 加入收藏
|
中文分词和二元分词综合对比 2005-7-27 22:44:00
Java普通
| 图片头条| CSDN| 未知| [20]
|
|
中文分词和二元分词综合对比
为了测试中文分词和二元分词的差异,现将初步的测试数据做了对比。关于二元分词可以参考车东先生的相关文章。
采用中文分词每1M产生1.55M的索引文件,膨胀率1.55;每1M用时大约10秒;采用二元分词每1M产生2.21M的索引文件,膨胀率2.21;... |
|
http://dev.rdxx.com/Java/2005-07/27/103150237.shtml - 15.55K 2008-4-24 20:21:59 加入收藏
|
小叮咚中文分词在处理大量数据的时候碰到了内存泄漏的问题 2005-7-27 22:48:00
Java普通
| 图片头条| CSDN| 未知| [25]
|
|
小叮咚中文分词在处理大量数据的时候碰到了内存泄漏的问题
最近在测试小叮咚分词应用于weblucene搜索引擎的效果。我们使用的源数据XML格式文件大概1.2G。
创建完成后的索引文件对比如下:
源文件:1.2G小叮咚分词生成的索引文件:2217MB二元分词生成的索引文件:2618MB 两者相差:401M
更详细的对比可以查看:中文分词和二元分词综合对比下面是一份对索引文件的对比,可以看出主要的差别在于项(term)信息的差别。
索引文件列表
(1... |
|
http://dev.rdxx.com/Java/2005-07/27/102504944.shtml - 12.12K 2008-5-6 20:33:22 加入收藏
|
不同规则的中文分词对Lucene索引的影响 2005-7-27 22:05:00
Java普通
| 图片头条| CSDN| 未知| [38]
|
|
不同规则的中文分词对Lucene索引的影响
&nb... |
|
http://dev.rdxx.com/Java/2005-07/27/101705612.shtml - 16.74K 2007-11-8 11:17:13 加入收藏
|
机器人 小叮咚的 中文分词终于跨出了第一步 2004-11-12 12:12:00
Java普通
| 图片头条| Blog| 未知| [16]
|
|
机器人 小叮咚的中文分词终于跨出了第一步
机器人 小叮咚的帐号:QQ: 443803193Msn: xiaodingdong21@hotmail.com
主页: http://xiaodingdong.myshow.cn/index.asp网络上有很多算法,借鉴了一下,然后自己用最普通得方法做了一个分词现在还没有和小... |
|
http://dev.rdxx.com/Java/2004-11/12/100529680.shtml - 6.24K 2008-4-24 20:21:38 加入收藏
|
机器人小叮咚的中文分词终于跨出了第一步 2002-11-7 10:41:00
Java普通
| 图片头条| 互联网| accesine960| [18]
|
|
机器人 小叮咚的中文分词终于跨出了第一步
机器人 小叮咚的帐号:QQ: 443803193Msn: xiaodingdong21@hotmail.com
主页: http://xiaodingdong.myshow.cn/index.asp网络上有很多算法,借鉴了一下,然后自己用最普通得方法做了一个分词现在还没有和小... |
|
http://dev.rdxx.com/Java/2002-11/7/094037977.shtml - 6.24K 2008-4-24 20:22:12 加入收藏
|