搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
Solr|Nutch|Lucene|ES
›
实操演练
›
Solr如何加入中文分词
0
1
1
分享
Solr如何加入中文分词
yuwenge
2015-7-4 21:07:23
发表于
实操演练
[显示全部楼层]
阅读模式
关闭右栏
1
22047
Solr与中文分词的整合以mmseg为例:
第一步:
将我们下载的分词器中mmseg-solr.jar、mmseg-core.jar mmseg-analyzer.jar(或者mmseg-all.jar)拷到我们solr下server里面的\solr\WEB-INF\lib目录下
第二步:
找到我们下载分词器包中的README.txt文件,将里面的关于Fieldtype内容拷贝到home下Config文件夹里的schema.xml的typs下面
[mw_shl_code=xml,true]<fieldType name="textComplex" class="solr.TextField" >
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
</analyzer>
</fieldType>
<fieldType name="textMaxWord" class="solr.TextField" >
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
</analyzer>
</fieldType>
<fieldType name="textSimple" class="solr.TextField" >
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>
</analyzer>
</fieldType>[/mw_shl_code]
第三步:
在home目录下新建一个文件夹dic,然后将我们下载的mmseg中data里面的文件拷贝到该dic目录下
进入solr/admin选择analysis,在Field里面选择Type,然后textComplex,然后就可以进行测试。
关注公众号,获取大数据、人工智能20套、区块链资源5阶段等资源,随时更新,获取最新技术资源
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(1)人评论
电梯直达
正序浏览
iamltd
发表于 2015-8-6 09:35:10
solr该如何整合IK呢?尤其是cloudera的版本?
我把两个jar放到/var/lib/solr/tomcat-deployment/webapps/solr/WEB-INF/lib/,重启solr。
把配置xml和stopword.dic放到schema.xml的同个目录,然后solrctl instancedir --update collection1 ./solr_configs,再create collection1。
提示报错是org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:Error CREATEing SolrCore 'collection1_shard1_replica1': Unable to create core [collection1_shard1_replica1] Caused by: org.wltea.analyzer.lucene.IKAnalyzer
请问下该如何解决?
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
yuwenge
版主
关注
519
主题
766
帖子
59
粉丝
TA的主题
39天大数据学习第18天
2018-10-8
Java 11正式发布,新特性解读
2018-9-26
精通 TensorFlow 1.x
2018-9-13
39天大数据学习第五天
2018-9-13
39天大数据学习第四天
2018-9-12
24小时热文
Spark机器学习
Spark机器学习算法、源码及实战详解
《深度实践Spark机器学习(吴茂贵)》高清
《Spark机器学习第2版》高清中文PDF
像高手一样发言:七种常见工作场景的说话之
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈