刚接触数据分析、机器学习领域,请教大侠分析思路和方法,多谢各位啦~~
现在手上有某旅游平台的训练样本(10000)和测试样本(4000),用于建模并预测各酒店未来0~7天的剩余客房数Y。
目前业务的三个分支ABC可以为模型的预测提供实时支持。
1. A分支提供单一A指标;
2. B分支提供十个指标:B1,…, B10
3. C分支也提供十个指标:C1,…, C10
训练数据集中含有因变量Y,即各酒店某日的剩余房间量;自变量除了以上21个外,还有酒店名称、日期、保留房剩余数(旅游平台会提前买断各酒店的部分房间,即保留房)等。
数值型变量均集中在(-10,10)区间,只有酒店名称、日期非数值型。
现在有以下问题:
1. 已知三个分支给提供的信息是相关的:任意两个部门提供的预测信息量等价于三个部门提供的信息量,请设计数据分析方法,并判断哪个分支所提供的指标可以忽略
我的思路是用Pearson相关性分析来判断,发现A与C1~C10在0.01水平上显著相关,AB/BC间相关性不明显,是不是就可以得出结论忽略A或C呢?不知思路是否正确?
2、建立对Y的预测模型。
请教一下各位的思路,最好可以讲得细一点。应该选用什么模型呢?怎么进行变量筛选呢?初步考虑用线性回归进行拟合,但是想不明白日期变量和酒店名称这样的非数据值型变量怎么处理呢?另外不同酒店的剩余房型量预期不同,假设各酒店样本量足够多,是不是要按酒店分开建模分析呢? |
|