本帖最后由 yuwenge 于 2015-5-19 15:17 编辑
任务设定: 目标是需要参赛者构建挖掘系统,可以针对任意给定的实体(表示为E),自动构建该实体的关系网络(首先需要挖掘出与核心实体有直接或间接关系的实体集合(表示为R(E)),关系类型为封闭集合,然后需要对R(E)进行候选关联实体集合的分层及每层内的实体排序和截断,最终形成关系网络)。
训练阶段: 实体列表:提供100个核心实体集合 实体圈子:针对每个核心实体,提供该实体关系网络的正确结果 包含实体的数据:针对每个核心实体,提供包含该实体或关联实体的文本/网页集合(已进行entity linking处理) 关系类型训练数据:提供20个关系类型及其训练数据
测试阶段: 给定50个核心实体列表,针对列表中每个核心实体,系统需要自动给出该实体的圈子数据(即与核心实体直接或间接关联的实体集合,例如给定一位女明星姓名,需要挖掘出该明星的丈夫是谁,以及丈夫的朋友等) 输入:核心实体,以及包含该实体及候选关联实体的句子/网页数据 输出:核心实体的圈子数据结果(与核心实体直接或间接关联的实体集合,形成关系网络)。格式为: Relation + \t + 实体S + \t + 实体O + \t + 实体S的ID + \t + 实体O的ID + 关系在网络的层数(核心实体到其直接关系为第一层, layer-one、layer-two、layer-three) 数据文件结构: ---train (训练数据文件夹) ---key_entities_list (核心实体列表文件) ---entity_tupu(实体圈子文件夹) ---entity_tupu.zhaowei (赵薇的圈子文件) ---entity_tupu.wangfei(王菲的圈子文件) ---entity_tupu.liudehua(刘德华的圈子文件) ……… ---entity_sentence(实体句子文件夹) ---entity_sentence.zhaowei(赵薇的圈子句子文件) ---entity_sentence.wangfei(王菲的圈子句子文件) ---entity_sentence.liudehua(刘德华的圈子句子文件) ---relation_train (关系训练数据文件夹) ---task1.trainSentence(全量训练集) ---entity_attribute(实体属性文件夹) --- attribute(实体属性文件) ---test(测试训练数据文件夹) ---test_key_entities_list (核心实体列表文件) ---test_entity_sentence(实体句子文件夹) ---test_entity_sentence.yunan(余男的圈子句子文件) ---test_entity_sentence.guangliang(光亮的圈子句子文件) …… 训练数据 1、实体列表 文件名:key_entities_list 内容 :200个核心实体名称及其id。 格式 :entity + ‘\t’ + id
2、实体圈子。 内容:针对100个核心实体,每个核心实体给出其关系网络数据,保存在一个以实体名为后缀的文件内 文件名:entity_tupu.实体名,例如:entity_tupu.zhaowei (赵薇的关系网络). 全部文件放在entity_typu 文件夹。 格式:关系 + \t + 实体S + \t + 实体O + \t + 实体S的id + \t+ 实体O的id + \t + 所在的层(核心实体与直接关系实体位于第一层,其余依次类推,共3层) entity_tupy.linyilian:林忆莲的关系网络第一层数据
3、实体句子。 内容 :针对每个核心实体,给出包含该实体或可能关联实体的句子集合,全部句子保存在一个以实体名为后缀的文件内 文件名:entity_sentence.实体名,例如:entity_sentence.zhaowei。 全部文件放在entity_sentence 文件夹。 格式:句子 + \t + 实体1名称 + \t + 实体1ID + \t + 实体2名称 + \t +实体2ID + ……(可能有多个实体)
entity_sentence.赵薇: 赵薇的关系网络第一层数据 4、关系类型训练数据 分为20种关系:"老师","儿子","队友","妻子","哥哥","旧爱","祖父","同学","姐姐","女婿","撞衫","撞脸","前妻","前女友","老乡","传闻不和","经纪人","绯闻女友","闺蜜","偶像" 训练评估集合:每个类型大约1500条语料,task1.trainSentence 关系名 \t 实体S \t 实体O \t 句子 \t 正负例(1正例/0负例) \t flag(train训练集、test测试集、实体S的id \t 实体S的url \t 实体O的id \t 实体O的url Id、url如果缺失用‘~’代替 5、实体kv:attribute 对于语料中出现的实体,会提供知识库相关属性信息,如:出生日期、性别等
随机id,实体id,属性名1,属性值1……属性名n,属性值n。 中间用tab分隔 测试数据 1、实体列表 文件名:test_key_entyties_list 内容 :50个核心实体名称及其id。 格式 :entity + ‘\t’ + id
2、实体句子。 内容 :针对50个核心实体,对于每个核心实体,给出包含该实体或可能关联实体的句子集合 文件名:test_entity_sentence.实体名,例如:test_entity_sentence.yunan 。 全部文件放在test_entity_sentence文件夹。 格式:句子 + \t + 实体1名称 + \t + 实体1ID + \t + 实体2名称 + \t +实体2ID + ……(可能有多个实体) 3. 实体kv:attribute 对于测试数据中出现的实体,会提供知识库相关属性信息,如:出生日期、性别等 参考解压缩命令:cat train.tar.bz.0*|tar -jx
################################### 大赛时间:2015年5月10日——2015年8月10日 报名时间:2015年5月10日——2015年8月10日24:00,参赛选手在大赛官网注册报名openresearch.baidu.com 比赛时间: 第一阶段: 提供训练数据集:2015年5月10日——2015年8月5日 第二阶段: 提供测试数据集:2015年8月6日——2015年8月20日 作品评选:2015年8月21日——2015年9月1日 获奖选手通知:2015年9月1日——2015年9月7日,对获胜选手进行通知,邀请获胜选手参加颁奖典礼 奖项说明及奖品: 一等奖,每队奖金20000元; 二等奖,每队奖金10000元; 三等奖,每队奖金5000元; 特别贡献奖:奖金100,000元
|