搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
博客
群组
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
Solr|Nutch|Lucene|ES
›
实操演练
›
Solr如何加入中文分词
0
1
1
分享
Solr如何加入中文分词
yuwenge
2015-7-4 21:07:23
发表于
实操演练
[显示全部楼层]
阅读模式
关闭右栏
1
22053
Solr与中文分词的整合以mmseg为例:
第一步:
将我们下载的分词器中mmseg-solr.jar、mmseg-core.jar mmseg-analyzer.jar(或者mmseg-all.jar)拷到我们solr下server里面的\solr\WEB-INF\lib目录下
第二步:
找到我们下载分词器包中的README.txt文件,将里面的关于Fieldtype内容拷贝到home下Config文件夹里的schema.xml的typs下面
[mw_shl_code=xml,true]<fieldType name="textComplex" class="solr.TextField" >
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
</analyzer>
</fieldType>
<fieldType name="textMaxWord" class="solr.TextField" >
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
</analyzer>
</fieldType>
<fieldType name="textSimple" class="solr.TextField" >
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>
</analyzer>
</fieldType>[/mw_shl_code]
第三步:
在home目录下新建一个文件夹dic,然后将我们下载的mmseg中data里面的文件拷贝到该dic目录下
进入solr/admin选择analysis,在Field里面选择Type,然后textComplex,然后就可以进行测试。
关注公众号,获取大数据、人工智能20套、区块链资源5阶段等资源,随时更新,获取最新技术资源
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(1)人评论
电梯直达
正序浏览
iamltd
发表于 2015-8-6 09:35:10
solr该如何整合IK呢?尤其是cloudera的版本?
我把两个jar放到/var/lib/solr/tomcat-deployment/webapps/solr/WEB-INF/lib/,重启solr。
把配置xml和stopword.dic放到schema.xml的同个目录,然后solrctl instancedir --update collection1 ./solr_configs,再create collection1。
提示报错是org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:Error CREATEing SolrCore 'collection1_shard1_replica1': Unable to create core [collection1_shard1_replica1] Caused by: org.wltea.analyzer.lucene.IKAnalyzer
请问下该如何解决?
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
yuwenge
版主
关注
518
主题
766
帖子
59
粉丝
TA的主题
入门机器学习必了解的十大算法
2018-9-12
你会让人工智能为你做决定吗?
2018-6-27
yarn配置cgroup隔离cpu资源
2018-6-25
通俗易懂:彻底明白什么是神经网络
2018-6-20
Spark Summits 2018大会介绍及如何下载相关视频资料【附2018年6月AI ppt下载】
2018-6-19
24小时热文
哈佛通识教育红皮书 (北大高等教育文库·大
代码精进之路:从码农到工匠
为什么面试难!一文帮我们看透本质,拿捏of
程序员薪资排名,AI位居榜首,平均年薪277
Django实战:Python Web典型模块与项目开发
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈