about云2015年01月第三、四周经典回顾

大数据智能分析：外滩踩踏事故背后
http://www.aboutyun.com/thread-11355-1-1.html
1、如何理解大数据智能分析的应用？
2、如何使用大数据智能分析来建设智慧城市？
3、你如何理解大数据智能分析与我们的生活?

美团推荐算法实践
http://www.aboutyun.com/thread-11350-1-1.html
1、什么是推荐系统？
2、如何理解子策略融合？
3、simrank的计算使用什么方式？

Hadoop上的中文分词与词频统计实践
http://www.aboutyun.com/thread-11344-1-1.html

1.本文使用的是什么框架？

2.IKAnalyzer与中文分词方法有什么不同？

一个分布式服务器集群架构方案
http://www.aboutyun.com/thread-11340-1-1.html

1.分布式和集群是如何提升效率的？

2.HAProxy有哪些优点？

准确测量机器学习模型的误差
http://www.aboutyun.com/thread-11335-1-1.html
1、如何看待误差测量？
2、如何理解测试集？
3、随机森林与人工神经网络等模型均无法应用哪些方法？

数据建模相关介绍
http://www.aboutyun.com/thread-11330-1-1.html

Spark技术解析及其在百度最大单集群1300台的应用实践
http://www.aboutyun.com/thread-11317-1-1.html
1、如何理解Spark技术的运用？
2、百度开放云BMR有哪些技术运用？
3、如何看待Enhanced in-memory columnar storage？

Spark技术解析及其在百度最大单集群1300台的应用实践2
http://www.aboutyun.com/thread-11318-1-1.html
1、Spark技术有哪些热点？
2、如何更好的使用Tachyon？
3、Tachyon在百度实践中遭遇的挑战有哪些？

成为优秀高级程序员的10个要点
http://www.aboutyun.com/thread-11312-1-1.html
1.软件工程师的职业生涯要历经几个阶段？
2.作者觉得重构有何重要意义？

OpenStack云第一天
http://www.aboutyun.com/thread-11311-1-1.html

1.openstack哪个节点提供与管理网络虚拟机实例？

2.OpenStack有什么运用价值？

Java及Web程序调用hadoop2.6
http://www.aboutyun.com/thread-11307-1-1.html
1、配置过程中会遇到哪些问题，如何解决？
2、Java调用Hadoop2.6 ，运行MR程序需要做哪些配置？
3、如何通过Web程序调用Hadoop？

Spark初探
http://www.aboutyun.com/thread-11306-1-1.html
1、如何看待Spark生态系统？
2、为什么比MapReduce快呢？
3、如何走进弹性分布式数据集RDD？

淘宝联合新浪微博：大数据挖掘继续改善
http://www.aboutyun.com/thread-11303-1-1.html
1、如何利用淘宝资源做广告？
2、新浪微博利用淘宝资源做广告，失误在哪里？
3、大数据挖掘有哪些值得继续改善？

年轻程序员最需要学什么？自律！
http://www.aboutyun.com/thread-11301-1-1.html

1.文章中的自律具体体现在什么地方？

2.你觉得年轻程序员最需要学什么？

大数据入行新手如何进行机器学习？
http://www.aboutyun.com/thread-11300-1-1.html

1.为什么说机器学习是简单数据检索与存储的合理扩展？

2.Apache Mahout项目的目的是什么？

亿级用户下的新浪微博平台架构
http://www.aboutyun.com/thread-11298-1-1.html

1.微博平台的第三代技术体系是怎样的？

2.微博平台在服务层使用最为广泛的两个框架是什么？

程序员为什么值得写博客
http://www.aboutyun.com/thread-11287-1-1.html

Quora 问答：不懂算法却善于开发，如何去大公司工作呢？
http://www.aboutyun.com/thread-11285-1-1.html

1.你怎么看“行为艺术”般的面试题？

2.自我反省，你是否能有逻辑思维技巧去学习新的技术，去理解它们，并像曾经开发iOS和安卓应用那样的去制作漂亮的应用呢？

英国数据分析师讲故事：我是如何走上数据分析之路的？
http://www.aboutyun.com/thread-11284-1-1.html

1.什么是定量分析？

2.什么是SAS Enterprise Miner？

通过Mahout构建推荐系统--通过IDRescorer扩展评分规则
http://www.aboutyun.com/thread-11279-1-1.html
1.IDRescorer接口规定了哪些个必须实现的方法？
2.如何定义过滤规则？

spark RDD keyvalue操作
http://www.aboutyun.com/thread-11277-1-1.html
1、涉及shuffle的操作有哪些？
2、如何理解combineByKey的操作流程？
3、flatMapValues作用是什么？

Spark Streaming小结
http://www.aboutyun.com/thread-11276-1-1.html
1.Spark Streaming有哪些优势？
2.Discretized Stream在Spark中起到哪些作用？

一个简单的基于内容的推荐算法
http://www.aboutyun.com/thread-11257-1-1.html
1.基于内容的推荐算法原理大本文分了哪三步？
2.什么是“Item”？
3.什么是“Item Profiles”？

数据挖掘的知识类型
http://www.aboutyun.com/thread-11251-1-1.html
1、什么是关联模式挖掘？
2、数据挖掘中有哪些是非常重要的任务？
3、如何理解偏差检测？

hadoop安全机制汇总
http://www.aboutyun.com/thread-11246-1-1.html

Hadoop 2.0 (YARN)中的安全机制介绍
http://www.aboutyun.com/thread-11243-1-1.html
1.本文认为安装机制是有那两部分组成的？
2.Hadoop 2.0中的认证机制采用哪两种方案？

面试过程中经常被问道的问题记录
http://www.aboutyun.com/thread-11242-1-1.html

HBase随机宕机事件处理 & JVM GC回顾
http://www.aboutyun.com/thread-11240-1-1.html
1.JVM主要内存区域分为哪几部分？
2.Java可配置的垃圾收集器有哪几种类型？

阿里、京东、IBM大数据文档
http://www.aboutyun.com/thread-11233-1-1.html

技术篇：微博推荐引擎体系结构介绍
http://www.aboutyun.com/thread-11232-1-1.html
1.微博推荐本文分了几层？
2.通用推荐框架（CRF, common recommon framework）的作用是什么？
3.推荐计算层的职责是什么？

微博背后的大数据原理：微博推荐算法简述
http://www.aboutyun.com/thread-11231-1-1.html
1.为什么会产生推荐系统？
2.本文是如何将微博推荐的目标和需要解决的问题，抽样为一系列的数学问题的？
3.如何将微博内容转化为结构化向量，包括词语切分、词语信息标注、内容核心词/实体词提取、语义依存分析等?

微博背后用了哪些算法
http://www.aboutyun.com/thread-11225-1-1.html
1.如何衡量用户之间的相似度呢？
2.用户与好友的兴趣相似度都有哪些标准？
3.微博中用户影响力是如何计算的？

程序员应该关注的一些事儿
http://www.aboutyun.com/thread-11226-1-1.html

机器学习、大数据面试问题及答题思路
http://www.aboutyun.com/thread-11213-1-1.html

数据挖掘：Mahout推荐算法编程实践
http://www.aboutyun.com/thread-11212-1-1.html
1.创建好数据模型后，第二步为什么需要指定一种计算“距离”的方法？
2.Mahout推荐算法编程实现包含哪些步骤？

HBase 0.94之后Split策略
http://www.aboutyun.com/thread-11211-1-1.html
1.而在0.94版本之后，默认split策略修改为了什么？
2.这种策略有什么好处？

hbase存储结构介绍及hbase各种概念
http://www.aboutyun.com/thread-11204-1-1.html
1.HBase中的存储包含哪些存储概念?
2.HMaster及HRegionServer的作用是什么？

图说大数据，开启全新商业模式
http://www.aboutyun.com/thread-11193-1-1.html
1.本文是如何定义大数据？
2.大数据有哪4V？
3.本文讲了大数据哪些方面？

一道面试题的疑惑
http://www.aboutyun.com/thread-11185-1-1.html

值得关注的12大Hadoop厂商
http://www.aboutyun.com/thread-11199-1-1.html

2014年值得关注的十个Hadoop大数据创业公司
http://www.aboutyun.com/thread-11198-1-1.html

Flume-ng生产环境实践（一）Flume-ng生产环境编译
http://www.aboutyun.com/thread-11176-1-1.html
1.Flume-ng生产环境如何搭建？
2.flume-ng分布式日志是用来干什么的？

资源：
数据挖掘概念与技术第二版和第三版（包含课后答案）【英文】
http://www.aboutyun.com/thread-11275-1-1.html

hadoop及云计算介绍一套小教程
http://www.aboutyun.com/thread-11256-1-1.html

Apache Flume Distributed Log Collection for Hadoop（中文版）
http://www.aboutyun.com/thread-11234-1-1.html

问答：

关于分布式文件系统抽象块好处的疑问
http://www.aboutyun.com/thread-11341-1-1.html

求助，在cinder中添加云硬盘超过10G 添加失败
http://www.aboutyun.com/thread-11322-1-1.html

eclipse上运行简单hadoop2程序出错
http://www.aboutyun.com/thread-11321-1-1.html

hadoop2.6.0作业恢复问题
http://www.aboutyun.com/thread-11295-1-1.html

Hadoop-2.6.0在Eclipse中如何安装插件问题
http://www.aboutyun.com/thread-11288-1-1.html

Hadoop2.5集群安装成功，运行wordcount出错
http://www.aboutyun.com/thread-11272-1-1.html

有人解决过flume写hdfs不刷新的问题么？
http://www.aboutyun.com/thread-11250-1-1.html

求教，HBase中块缓存的作用？
http://www.aboutyun.com/thread-11247-1-1.html

【已解决】通过Dashboard启动云主机后无法连接
http://www.aboutyun.com/thread-11227-1-1.html

如何把Weka集成在Hadoop框架里？
http://www.aboutyun.com/thread-11223-1-1.html

【已解决】Tenant Virtual Router有一个口是DOWN的
http://www.aboutyun.com/thread-11210-1-1.html

HFileOutputFormat生成HFile后Region数量问题
http://www.aboutyun.com/thread-11209-1-1.html

Hbase写数据，存数据，读数据的详细过程
http://www.aboutyun.com/thread-11207-1-1.html

【已解决】启动云主机时，No valid host was found
http://www.aboutyun.com/thread-11203-1-1.html

【已解决】创建的云主机存到哪里了？
http://www.aboutyun.com/thread-11201-1-1.html

hive补丁文件如何使用
http://www.aboutyun.com/thread-11200-1-1.html

新手学docker遇到的几个问题
http://www.aboutyun.com/thread-11195-1-1.html

图文精华

about云2015年01月第三、四周经典回顾

活跃会员

热心会员

优秀版主

论坛元老

推荐 /2