百度和西安交通大学大数据竞赛题目，测试下自己大数据

本帖最后由 yuwenge 于 2015-5-19 15:17 编辑

任务设定：

目标是需要参赛者构建挖掘系统，可以针对任意给定的实体(表示为E)，自动构建该实体的关系网络（首先需要挖掘出与核心实体有直接或间接关系的实体集合（表示为R(E)），关系类型为封闭集合,然后需要对R(E)进行候选关联实体集合的分层及每层内的实体排序和截断，最终形成关系网络）。

demo 结果见http://tupu.baidu.com/tupu/139401.html(赵薇的关系网络)。

训练阶段:

实体列表：提供100个核心实体集合

实体圈子：针对每个核心实体，提供该实体关系网络的正确结果

包含实体的数据：针对每个核心实体，提供包含该实体或关联实体的文本/网页集合（已进行entity linking处理）

关系类型训练数据：提供20个关系类型及其训练数据

测试阶段：

给定50个核心实体列表，针对列表中每个核心实体，系统需要自动给出该实体的圈子数据（即与核心实体直接或间接关联的实体集合，例如给定一位女明星姓名，需要挖掘出该明星的丈夫是谁，以及丈夫的朋友等）

输入：核心实体，以及包含该实体及候选关联实体的句子/网页数据

输出：核心实体的圈子数据结果（与核心实体直接或间接关联的实体集合，形成关系网络）。格式为：

Relation + \t + 实体S + \t + 实体O + \t + 实体S的ID + \t + 实体O的ID + 关系在网络的层数（核心实体到其直接关系为第一层， layer-one、layer-two、layer-three）

数据文件结构：

---train (训练数据文件夹)

---key_entities_list (核心实体列表文件)

---entity_tupu(实体圈子文件夹)

---entity_tupu.zhaowei (赵薇的圈子文件)

---entity_tupu.wangfei（王菲的圈子文件）

---entity_tupu.liudehua（刘德华的圈子文件）

………

---entity_sentence（实体句子文件夹）

---entity_sentence.zhaowei（赵薇的圈子句子文件）

---entity_sentence.wangfei（王菲的圈子句子文件）

---entity_sentence.liudehua(刘德华的圈子句子文件)

---relation_train (关系训练数据文件夹)

---task1.trainSentence（全量训练集）

---entity_attribute（实体属性文件夹）

--- attribute（实体属性文件）

---test（测试训练数据文件夹）

---test_key_entities_list (核心实体列表文件)

---test_entity_sentence(实体句子文件夹)

---test_entity_sentence.yunan(余男的圈子句子文件)

---test_entity_sentence.guangliang(光亮的圈子句子文件)

……

训练数据

1、实体列表

文件名：key_entities_list

内容：200个核心实体名称及其id。

格式：entity + ‘\t’ + id

2、实体圈子。

内容：针对100个核心实体，每个核心实体给出其关系网络数据，保存在一个以实体名为后缀的文件内

文件名：entity_tupu.实体名，例如：entity_tupu.zhaowei （赵薇的关系网络）. 全部文件放在entity_typu 文件夹。

格式：关系 + \t + 实体S + \t + 实体O + \t + 实体S的id + \t+ 实体O的id + \t + 所在的层（核心实体与直接关系实体位于第一层，其余依次类推，共3层）

entity_tupy.linyilian:林忆莲的关系网络第一层数据

3、实体句子。

内容：针对每个核心实体，给出包含该实体或可能关联实体的句子集合，全部句子保存在一个以实体名为后缀的文件内

文件名：entity_sentence.实体名，例如：entity_sentence.zhaowei。全部文件放在entity_sentence 文件夹。

格式：句子 + \t + 实体1名称 + \t + 实体1ID + \t + 实体2名称 + \t +实体2ID + ……(可能有多个实体)

entity_sentence.赵薇: 赵薇的关系网络第一层数据

4、关系类型训练数据

分为20种关系："老师","儿子","队友","妻子","哥哥","旧爱","祖父","同学","姐姐","女婿","撞衫","撞脸","前妻","前女友","老乡","传闻不和","经纪人","绯闻女友","闺蜜","偶像"

训练评估集合：每个类型大约1500条语料，task1.trainSentence

关系名 \t 实体S \t 实体O \t 句子 \t 正负例（1正例/0负例） \t flag（train训练集、test测试集、实体S的id \t 实体S的url \t 实体O的id \t 实体O的url

Id、url如果缺失用‘~’代替

5、实体kv：attribute

对于语料中出现的实体，会提供知识库相关属性信息，如：出生日期、性别等

随机id，实体id，属性名1，属性值1……属性名n，属性值n。

中间用tab分隔

测试数据

1、实体列表

文件名：test_key_entyties_list

内容：50个核心实体名称及其id。

格式：entity + ‘\t’ + id

2、实体句子。

内容：针对50个核心实体，对于每个核心实体，给出包含该实体或可能关联实体的句子集合

文件名：test_entity_sentence.实体名，例如：test_entity_sentence.yunan 。全部文件放在test_entity_sentence文件夹。

格式：句子 + \t + 实体1名称 + \t + 实体1ID + \t + 实体2名称 + \t +实体2ID + ……(可能有多个实体)

3. 实体kv：attribute

对于测试数据中出现的实体，会提供知识库相关属性信息，如：出生日期、性别等

在竞赛网站注册为参赛者后可致信openresearch@baidu.com获取百度网盘的下载地址,训练数据集在LINUX系统下解压缩。

参考解压缩命令：cat train.tar.bz.0*|tar -jx

###################################

大赛时间：2015年5月10日——2015年8月10日

报名时间：2015年5月10日——2015年8月10日24:00，参赛选手在大赛官网注册报名openresearch.baidu.com

比赛时间：

第一阶段：

提供训练数据集：2015年5月10日——2015年8月5日

第二阶段：

提供测试数据集：2015年8月6日——2015年8月20日

作品评选：2015年8月21日——2015年9月1日

获奖选手通知：2015年9月1日——2015年9月7日，对获胜选手进行通知，邀请获胜选手参加颁奖典礼

奖项说明及奖品:

一等奖，每队奖金20000元；

二等奖，每队奖金10000元；

三等奖，每队奖金5000元；

特别贡献奖：奖金100，000元

图文精华

百度和西安交通大学大数据竞赛题目，测试下自己大数据

推荐 /2