分享

THU数据派

本帖最后由 yuwenge 于 2018-4-2 21:24 编辑
公众号:
THU数据派

功能介绍

发布全球大数据资讯


经典文章推荐:


数据管理和分析趋势正在改变世界



内容如下:

现在的数据世界正在发生什么,它将如何影响2018年的市场?比如这些头条新闻:人工智能无处不在,并将改变一切;企业继续将他们的基础设施和数据转移到云端;GDPR将使数据保护成为每个公司的首要任务。你知道这些,但也许会对这种夸大其词的说法有点怀疑。

那么到底发生了什么实质性的变化?在制定架构和采购策略并在这些领域做出决策时,你需要注意什么?接下来我们会讨论在分析领域发生的7个影响深远的变化,并将它们一一呈现。

Hadoop始终是根基

是的,那些大数据项目的失败率很高;并且Spark在某种程度上已经取代了Hadoop,越来越多的客户开始独立运行它,所以业界开始指责Hadoop…并且不再提到它的名字。所以你认为Hadoop一定已经过时了,对吧?


错!现在每个人都在谈论数据湖,很多时候,那只是Hadoop的代码。而且,虽然许多公司正在云存储中实现他们的数据湖,也经常使用Hadoop生态系统技术来分析这些数据。除此之外,当开始使用云存储来模拟HDFS、Hadoop的文件系统时,你就会意识到云数据湖和Hadoop数据湖并没有本质区别。

好消息是,今年Hadoop将会做它一直应该做的事情:低调地被很多企业接受,并将成为众多数据工具之一,发挥其战略作用。正是这些数据技术的结合,包括Hadoop、Spark、Business Intelligence (BI)和数据仓库,使得当前的分析市场如此令人兴奋。


再见!企业级商业智能栈

今年早些时候,作为一家企业级商业智能公司,MicroStrategy宣布向其前端竞争对手做出让步,引入他们的产品。MicroStrategy相信可以通过利用后端OLAP平台以及相关的数据处理来盈利。该公司似乎意识到了在数据可视化和仪表板方面的竞争是比较困难的,即使能够取得成功,也会带来收益递减。

那么后端是否足以维持企业收入并持续增长?我们拭目以待。但有一点是肯定的,单一的企业级商业智能堆栈已经开始解体,新的挑战即将开始。

数据分层

也许你熟悉数据分层的概念,比如数据存储与其访问频率的相关性。“热门”数据,即最常用的数据,有时访问请求会被路由到非常快的存储,比如固态硬盘,甚至是CPU缓存中;而冷门数据通常存储在更老的,但更便宜的旋转硬盘驱动器之中。

随着存储层次的完善,我们将在今年看到其他层次结构被逐渐认可。例如,分析涉及从与特定团队或业务单位相关的实验数据集到对整个企业都有用的高度结构化,审核和共识驱动的数据。 中间是结构化数据集,可能由于大小或清洁程度而被视为略低于生产水平。

实验数据集存储在数据湖中最好;逻辑上,高度审查的数据集最好存储在数据仓库中。中级数据集可能比较适合放在Hadoop或云存储中,但通常会使用IBM Big SQL,Microsoft PolyBase和Oracle Big Data SQL等SQL-on-Hadoop工具从关系型数据库中进行查询。


还有一种层次结构可能会根据数据是用于设计机器学习模型还是仅用于分析来对数据进行分层,其他的层次结构可能由数据源的可信度来定义。

层次结构之所以重要,是因为相应的工具和技术也存在分级,包括查询端的商业智能和大数据分析工具,以及存储库端的事务型数据库,NoSQL数据库,数据仓库和数据湖。虽然最终,层次结构可能会得到简化,技术可能会趋于整合,但是现在有了这么多的技术选择,我们就需要数据中的层次结构来规定我们在工具链部署中的最佳实践。

更多内容:
链接

零基础带你搞定python !(附代码)

什么是code

code就就是一种语言,一种计算机能读懂的语言。计算机是一个傻逼,他理解不了默认两可的任何东西。比如,你让你老公去买个西瓜,你老公会自己决定去哪里买,买几个,找个搞活动打折的买,总之,你给他钱,他就给你买回来让你吃到爽的西瓜。但是,你想让计算机买一个西瓜?你要告诉他:去门口的鲜丰水果店买,买沙瓤无子西瓜,若旁边的店打折,就去旁边的店买。总之,你不能让计算机做任何决定,你要清楚的告诉他所有情况下的所有的行为。而code,就是你和计算机交流的语言,或者说是对计算机的命令。

我们就把计算机理解为一个人,这个人很死板,只能按照你给他的详细命令进行工作。而这个人工作速度特别特别快,并且保证工作结果都是正确的。

编程语言其实不重要,重要的是要明白如何和计算机交流,明白了这个也就能看懂代码了。

编程 = 算法 + 数据结构

python就是一种和计算机交流的语言,这种语言单词(关键字)不多,规则也少。下面所有的内容都基于python。

1. 判断
当你命令计算机做一件事情的时候,这件事情可能分一些情况进行处理。
判断通常涉及到的关键字有:if , else, elseif, and, or,<, >,=,<=,>=,==
比如,你让计算机买西瓜,希望买到打折的西瓜,不打折的话你就不吃了。

  • if  水果店打折:
  •     买西瓜
  • else:
  •     不买了


通过这个命令,计算机变得更智能了一些,他可以根据情况执行你的命令。

水果店不打折你就吃不到西瓜,你不开心。那么,我们让计算机更智能一些。假如西瓜打折,就买西瓜;不打折的话让计算机跟老板讲价,老板同意打折,就买西瓜;不同意,不吃了;

  • if  水果店打折:
  •     买西瓜
  • else:
  •     与老板讲价
  •     if 讲价成功:
  •         买西瓜
  •     else:
  •         不吃了。


虽然和老板讲价一般都能讲成功,但是有的老板给力给打五折,有的老板只给打九折。你就想了,若老板打五折,我就买两个,今天吃一个,明天吃一个。若老板不给力,打折不到五折,就买一个,今天先吃,明天再说。

  • if  水果店打折:
  •     买西瓜
  • else:
  •     与老板讲价
  •     if 打折成功 and 打折力度<=5:
  •         买两个西瓜
  •     elseif 打折成功 and 打折力度 > 5:
  •         买一个西瓜
  •     else:
  •         不吃了。


此外,有没有发现,打着成功这段代码其实也可以写成:

  •     if 打折成功:
  •         if 打折力度<=5:
  •             买两个西瓜
  •         else:
  •             买一个西瓜
  •     else:
  •         不吃了。


由此可见,计算机也不是完全的一成不变,只要你给他的命令他能理解并且不会默认两可,他都可以完成工作。

and的意思代表且,or的意思代表或。and和or的顺序不同,结果也不同,可以通过括号来说明判断条件的优先级。

a==b是比较a和b是否相等的意思,而=代表赋值。赋值的含义,我在下面的变量章节介绍。

2. 循环
python中涉及到循环的关键字包括:for…in… ,while,break,continue
上面的例子我们已经让电脑成功的可以根据不同的情况去水果店买西瓜了,但是若老板不打折,你就吃不到西瓜了。这时,你就想了,咱们小区门口有三家水果店,分别是鲜丰水果、四季水果和路边摊,一家不打折不代表三家都不打折啊,所以你希望电脑可以去三家都去看看,挑一家打折的店买西瓜。

  • for 水果店 in (鲜丰水果、四季水果和路边摊):
  •     if 水果店 打折:
  •         买西瓜
  •         break(循环结束)
  •     else:
  •         啥都不做
  • 带西瓜回家


循环的意义在于,可以用电脑对不同的对象执行相同的命令。

介绍下break,break的意思就是结束循环。比如,这段代码中的break表示,我们一旦买了西瓜,那么就带西瓜回家。

3. 变量
现在是时候介绍'变量'这个重要的东西了。

我们依然把电脑理解为帮我们工作的一个人,那么作为一个人,他需要有记忆力,而我们就可以通过变量去控制、利用计算机的记忆力。

变量可以理解为计算机的一个记忆单元,计算机拥有极好的记忆力,所以,可以随心所欲的使用,用完了就扔,需要了就要。(当然,说随心所欲是不严谨的,但是你可以理解为随心所欲)

那为什么叫变量呢,就是因为可以改变。为什么要改变呢?比如我们都有自己的年龄,我今年18,明年就19了。所以,'年龄'在我的记忆里是每年改变的。

变量对应的一个东西叫常量,在我的记忆力,我的老婆是江江同学。而这个'老婆'这个记忆单元在我的脑子里是不会变的,她永远都是江江同学。常量你现在可以不用理解,我写主要是为了秀恩爱。

现在,计算机又要去买西瓜了。不过这次,你希望计算机可以在三个水果店中,找到一个打折力度最大的水果店去买水果。

  • 之前所有水果店的最大折扣 = None
  • 之前给最大折扣的水果店 = None
  • for 水果店 in (鲜丰水果、四季水果和路边摊):
  •     当前水果店折扣 = 老板给的折扣
  •     if 当前水果店折扣 < 之前所有水果店的最大折扣:#4折比5折力度大
  •         之前所有水果店的最大折扣 = 当前水果店折扣
  •         之前给最大折扣的水果店 = 水果店
  • 去 之前给最大折扣的水果店 买一个西瓜


以上有以下几个记忆单元:

  • 之前所有水果店的最大折扣
  • 之前给最大折扣的水果店
  • 当前水果店折扣
  • 水果店 注意,for a in b,a也是一个变量,他在每次执行的时候都是b中的当前执行的一个元素。

更多点击链接


深度学习究竟怎么入门?两位Google大神掀起剑气之争


作为一名深度学习新手,该先学会用框架快速搭出神经网络,用到实际问题中去,还是该先练习用Python基本徒手搭建模型,在小数据集上训练,了解它们的工作原理?

谷歌的两位研究员最近在Twitter上展开了一场旷日持久的争论,两派主要代表都是圈子里大名鼎鼎颇有建树的人物:

“气宗”代表 谷歌大脑的研究员David Ha(@hardmaru),SketchRNN的爸爸。


“剑宗”代表 谷歌研究员Fran&#231;ois Chollet(@fchollet),Keras的爸爸。


注: “气宗”“剑宗”无任何道德、派系等层面的影射,不要多心
剑气之争
这两位所争论的问题,正是 内力和剑法哪个更重要 深度学习新手的入门路径问题:了解模型的内部原理,和快速实现模型解决问题,哪个更重要呢?

小编越洋围观了这场辩论,觉得他们的观点很值得搬回来让大家了解、思考一下。
在David Ha看来,想搞好深度学习,当然要先打基础,“练气”很重要。他在一个月前抛出了这样一个观点:


从零开始(用纯Python、numpy、甚至JS)实现全连接网络、卷积神经网络、RNN、反向传播、SGD,然后用小训练集来训练这些模型是一种学习神经网络如何工作的好方法。在跳到框架上之前,应该花时间从这里收获宝贵的直觉力。

新手入门,难道不该用最简单的高层框架吗?Keras作者Chollet就更支持初学者们先“练剑”。他对David的反驳是这样的:


实现神经网络能教你怎样实现神经网络,让你从算法上理解它们的工作原理。

但这不能教会你它们是做什么的,或者说能否实现哪些功能。要学习这些,你应该把它们应用到一系列真实问题上去(而不是XOR、MNIST)。

更多内容链接


如何从零入门数据科学?



我相信近日90%的LinkedIn交流都包含以下术语之一:DS,ML或DL (数据科学,机器学习和深度学习的缩写)。不过要小心这个陈词滥调,因为“80%的统计都是现场搞的”。如果你不太了解这些缩略词,也许你需要谷歌一下再继续阅读本文其他部分。本文的目标有二,一是尝试让大家轻松学习数据科学,二是为入门者提供继续深入学习的指导。

这是一张我在网上偶然看到的图片:

1.png

相当让人不知所措有木有!!!!

从哪儿开始! 如何开始?

我于2017年10月初开始数据科学之旅。我先花了15天时间试着对“什么是数据科学”这个纯粹的问题给出一个令人满意的答案。我充分浏览了互联网上的各种资源,包括Quora、Medium、Springboard博客和电子书、Udacity博客、Forbes、datascience.com,KDnuggets,datasciencecentral.com,Analytics Vidhya和其他各种网页(不充分浏览是不够的,不要怪我没有警告你)。然后我得出结论:数据科学(通俗地说)是让计算机用数据绘制出漂亮的图表,并用它讲出一个漂亮的故事来解决商业问题。是的,就这么简单。你不信?但真是这样。好吧,其实数据科学有两大派别,我这里谈论的是商业数据科学。另一个派别的最终产品不是故事,而是数据驱动的产品。我们不要深究那个派别,因为那样我们就会离题到机器学习工程里去。通常谷歌、Facebook等都有数据驱动的性质,属于第二派别。大部分学术研究也属于第二派别。

回到第一派别,我再为它下一个更深层的定义。数据科学是基于历史数据来解决商业问题的过程,这一过程包括前期对历史数据的整理和分析、继而纳入一个(或一组)机器学习模型、以达到对未来可能出现的问题进行预测并提出解决措施的目的。天啊!这简直酷毙了!圆满解答入门问题之后,我立即就它的最佳学习路径展开了思考。

学习路径?!

接下来我花了一段时间查阅这个短语,并且搜集到了无数的建议。这次我得对其中一些进行尝试了。我有电子和通信工程专业的学士和硕士学位,而且拥有十年编程经验,比如C / C ++,Octave / Matlab,Verilog / SystemVerilog,Perl等语言。我从小最喜欢数学,而硕士期间钟爱概率论。对我而言,我的优势无疑是编程经验和概率论。

我有点畏惧“机器学习”这个术语,但我是个乐于直面恐惧的人,于是我参加了吴恩达教授的Coursera课程。第一次学习就收效良好,这让我感到十分欣慰。我这人怕蛇和Python(译者注:Python单词有蟒蛇的意思),所幸吴恩达的课程练习以Octave为基础。我尝试了Coursera、Udacity、Edx和Datacamp等平台学习Python编程基础,并最终选择了Coursera和Datacamp。对于数据科学初学者而言,我认为以R入门可能收效更好。然而当时我并不确定只走数据科学这条路,Python的通用性更好一些。我便在几个平台同时学习若干课程,尝试在Udacity学习机器学习入门、统计学、CS基础知识、数据科学入门等。我并没有学习很长时间,因为我不太愿意在大脑吸收新概念时被打断。



非数据科学的其他课程

这时,我学习各种课程已经有很长时间了。我发现了一个来自UC, San DiegoCoursera的很棒的课程,名为“学习如何学习”。学习完这个课程后,我再次确信我的学习技巧没有问题。此外,它还打消了我对不再年轻是否还能接受新事物的疑虑。近期研究表明某些行为,如锻炼、冥想或者仅仅在大自然中漫步(我的必修课)会在大脑中产生新的神经元并形成新的联系。里面提到的番茄工作法对我也非常有帮助。我还以此为契机开始学印度商学院的“幸福美满的一生”课程。该课程使我心无杂念地钻研数据科学,提醒我要为单纯的学习乐趣而学习,注重过程而非最终结果。我发现它们对于进行快速有效学习很有帮助,尽管这些都是非技术的东西。
线下活动/项目:

我在10月中旬参加了一次线下活动,该活动是由当地的数据科学咨询公司组织的,该公司同时也开展相关培训,但我不太认可他们的模式。他们用你的钱训练你,如果你表现优异,再招聘你为雇员。这次线下活动让我意识到:“MOOCs无助于你的求职,而实际项目、Kaggle比赛、开设自己的博客却很有帮助。取得知名研究所的硕士学位会非常重要,但同一研究所的MOOC证书却没有价值”。

我这样认为:“重要的不是你的学习路径如何,而是你是否具备做一个真正的数据科学项目的能力”。如果你能够在面试中证明你的能力,那你怎么会找不到工作?你不需要在bootcamps上支付数千美元的费用,也无需获得MOOC证书。但你需要具备一套数据科学家的素质/才能/技能:包括充分理解高中数学概率统计学基本知识,拥有强烈的好奇心、求知欲和学习新事物的态度,熟悉编程,懂得记录和呈现,最重要的是,你必须知道你拥有这些技能。[如果你怀疑自我,那你首先要做的是排除疑虑。]之后再学习其余部分(如机器学习)。各大公司对数据科学家的需求非常多,尤其是像我所处的小城镇的公司,他们正在想方设法聘请一位优秀的数据科学家。牢牢记住,重要的是你要做一些真正的数据科学项目,并通过报告/演示或 github repo将它们展示给未来的雇主。如果你不知道如何做一个真正的项目,你可以寻求一位导师(技术专家)的帮助,而后在求职过程中寻求更高职位。

所以…

总而言之,填补关键知识缺口的最佳途径是什么?没有捷径。尝试几个平台吧,看看最适合你的是什么。你可以从MOOC入手,再不断深入。一定要好好安排并详细记录你的过程。先学习一个你不擅长的领域。例如,如果你已了解C++,那就不要立即开始学习Python,要知道你最终可以学会它。你可以尝试学习机器学习,看看你是否喜欢,因为数据科学家与数据分析师或数据工程师的区别就在于此。如果你不想自学它们中的任何一个,那么即使你参加训练营也无济于事。数据科学是一个需要每天学习的领域:新工具,新概念/算法,新业务/领域,无穷无尽,只有脚踏实地,且永不止步才能实现。
链接


八大基础概念带你入门机器学习!(附学习资料)


准备好开始AI了吗?可能你已经开始了在机器学习领域的实践学习,但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题。

这些机器学习的专业术语能够简要地介绍最重要的机器学习概念—包括商业界和科技界都感兴趣的话题。在你遇到一位AI指导者之前,这是一份不详尽,但清楚易懂又方便在工作、面试前快速浏览的内容。

概览:

  • 自然语言处理
  • 数据库
  • 计算机视觉
  • 监督学习
  • 无监督学习
  • 强化学习
  • 神经网络
  • 过拟合


1. 自然语言处理

自然语言处理对于许多机器学习方法来说是一个常用的概念,它使得计算机理解并使用人所读或所写的语言来执行操作成为了可能。

2.png

自然语言处理最重要的最有用的实例:

  • 文本分类和排序


这项任务的目标是对一个文本进行预测标签(类别)或对列表中相关联的文本进行排序。它能够用于过滤垃圾邮件(预测一封电子邮件是否是垃圾邮件),或进行文本内容分类(从网络上筛选出那些与你的竞争者相关的文章)。

  • 情感分析


句子分析是为了确定一个人对某个主题的看法或情感反应,如正面或负面情绪,生气,讽刺等。它广泛应用于用户满意度调查(如对产品的评论进行分析)。

  • 文件摘要


文件摘要是用一些方法来得到长文本(如文档,研究论文)短且达意的描述。对自然语言处理方向感兴趣吗?请进一步阅读人工智能关于自然语言处理方向的文章:https://sigmoidal.io/boosting-your-solutions-with-nlp/

  • 命名实体识别


命名实体识别算法是用于处理一系列杂乱的文本并识别目标(实体)预定义的类别,如人,公司名称,日期,价格,标题等等。它能够将杂乱的文本信息转换成规则的类表的格式,来实现文本的快速分析。

  • 语音识别


语音识别技术是用于得到人所讲的一段语音信号的文本表达。你可能听说过Siri助手?这就是语音识别应用的一个最好的例子。

  • 自然语言的理解和生成


自然语言的理解是通过计算机,将人类生成的文本转换成更正式的表达。反过来,自然语言生成技术是将一些正式又有逻辑性的表达转换成类人的生成文本。如今,自然语言理解和生成主要用于聊天机器人和报告的自动生成。

从概念上来说,它与实体命名识别任务是相反的。

  • 机器翻译


机器翻译是将一段文本或语音自动从一种语言翻译成另一种语言的一项任务。请见:https://youtu.be/Io0VfObzntA

更多链接


已有(2)人评论

跳转到指定楼层
yuwenge 发表于 2018-4-2 21:23:13
20+案例教你可视化图表的设计方法


信息可视化包括了信息图形、知识、科学、数据等的可视化表现形式,以及视觉可视化设计方面的进步与发展。地图、表格、图形,甚至包括文本在内,都是信息的表现形式,无论它是动态的或是静态的,都可以让我们从中了解到我们想知道的内容,发现各式各样的关系,达到最终解决问题的目的。信息可视化的意义就是在于运用形象化方式把不易被理解的抽象信息直观地表现和传达出来。

我们用一个简单的例子来说明一下信息可视化:

上图所示是信任圈,一款基于Google+的信息可视化应用。Google+是一款类似于微博的社交软件,图中我们可以看到绿色为相互关注的人,黄色为你关注了他而对方没有关注你的人,红色为单方面关注你的人。这样一个信息图就可以清楚的反应出在Google+上,人与人之间的信任关系,这一抽象概念。

从上图看三位名人的信任圈就可以非常清楚明了的了解他们的交友状态这一更为抽象的概念。1为小甜甜布莱尼,2为英国著名音乐制作人,3为Facebook 马克。而图表呢?根据道格·纽瑟姆2004年定义,从表现形式的角度“信息图表”作为视觉工具应包括以下六类:图表、图解、图形、表格、地图、列表。

信息可视化图表则隶属于视觉传达的一种设计,是以凝练、直观和清晰的视觉语言,通过梳理数据构建图形、通过图形构建符号、通过符号构建信息,以视觉化的逻辑语言对信息进行剖析视觉传达方式。




一. 图表类型

信息可视化图表能使复杂问题简单化,能以直观方式传达抽象信息,使枯燥的数据转化为具有人性色彩的图表,从而抓住阅读群体的眼球。

设计的目的决定了图表设计的形式,按照形式特点我们常把图表分为关系流程图、叙事插图型、树型结构图、时间分布类及空间解构类五种类型。不管何种类型,都是运用列表、对照、图解、标注、连接等表述手段,使视觉语言最大化的融入信息之中,使信息的传达直观化、图像化、艺术化。

更多点击链接

GitHub最著名的20个Python机器学习项目!



我们分析了GitHub上的前20名Python机器学习项目,发现scikit-Learn,PyLearn2和NuPic是贡献最积极的项目。让我们一起在Github上探索这些流行的项目!

  • Scikit-learn:Scikit-learn 是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN。而且也设计出了Python numerical和scientific libraries Numpy and Scipy
  • Pylearn2:Pylearn是一个让机器学习研究简单化的基于Theano的库程序。


  • NuPIC:NuPIC是一个以HTM学习算法为工具的机器智能平台。HTM是皮层的精确计算方法。HTM的核心是基于时间的持续学习算法和储存和撤销的时空模式。NuPIC适合于各种各样的问题,尤其是检测异常和预测的流数据来源。


  • Nilearn:Nilearn 是一个能够快速统计学习神经影像数据的Python模块。它利用Python语言中的scikit-learn 工具箱和一些进行预测建模,分类,解码,连通性分析的应用程序来进行多元的统计。


  • PyBrain:Pybrain是基于Python语言强化学习,人工智能,神经网络库的简称。 它的目标是提供灵活、容易使用并且强大的机器学习算法和进行各种各样的预定义的环境中测试来比较你的算法。


  • Pattern:Pattern 是Python语言下的一个网络挖掘模块。它为数据挖掘,自然语言处理,网络分析和机器学习提供工具。它支持向量空间模型、聚类、支持向量机和感知机并且用KNN分类法进行分类。


  • Fuel:Fuel为你的机器学习模型提供数据。他有一个共享如MNIST, CIFAR-10 (图片数据集), Google's One Billion Words (文字)这类数据集的接口。你使用他来通过很多种的方式来替代自己的数据。


  • Bob:Bob是一个免费的信号处理和机器学习的工具。它的工具箱是用Python和C++语言共同编写的,它的设计目的是变得更加高效并且减少开发时间,它是由处理图像工具,音频和视频处理、机器学习和模式识别的大量软件包构成的。


  • Skdata:Skdata是机器学习和统计的数据集的库程序。这个模块对于玩具问题,流行的计算机视觉和自然语言的数据集提供标准的Python语言的使用。


  • MILK:MILK是Python语言下的机器学习工具包。它主要是在很多可得到的分类比如SVMS,K-NN,随机森林,决策树中使用监督分类法。 它还执行特征选择。 这些分类器在许多方面相结合,可以形成不同的例如无监督学习、密切关系金传播和由MILK支持的K-means聚类等分类系统。


  • IEPY:IEPY是一个专注于关系抽取的开源性信息抽取工具。它主要针对的是需要对大型数据集进行信息提取的用户和想要尝试新的算法的科学家。


  • Quepy:Quepy是通过改变自然语言问题从而在数据库查询语言中进行查询的一个Python框架。他可以简单的被定义为在自然语言和数据库查询中不同类型的问题。所以,你不用编码就可以建立你自己的一个用自然语言进入你的数据库的系统。现在Quepy提供对于Sparql和MQL查询语言的支持。并且计划将它延伸到其他的数据库查询语言。


  • Hebel:Hebel是在Python语言中对于神经网络的深度学习的一个库程序,它使用的是通过PyCUDA来进行GPU和CUDA的加速。它是最重要的神经网络模型的类型的工具而且能提供一些不同的活动函数的激活功能,例如动力,涅斯捷罗夫动力,信号丢失和停止法。


  • mlxtend:它是一个由有用的工具和日常数据科学任务的扩展组成的一个库程序。


  • nolearn:这个程序包容纳了大量能对你完成机器学习任务有帮助的实用程序模块。其中大量的模块和scikit-learn一起工作,其它的通常更有用。


  • Ramp:Ramp是一个在Python语言下制定机器学习中加快原型设计的解决方案的库程序。他是一个轻型的pandas-based机器学习中可插入的框架,它现存的Python语言下的机器学习和统计工具(比如scikit-learn,rpy2等)Ramp提供了一个简单的声明性语法探索功能从而能够快速有效地实施算法和转换。


  • Feature Forge:这一系列工具通过与scikit-learn兼容的API,来创建和测试机器学习功能。这个库程序提供了一组工具,它会让你在许多机器学习程序使用中很受用。当你使用scikit-learn这个工具时,你会感觉到受到了很大的帮助。(虽然这只能在你使用不同的算法时起作用。)


  • REP:REP是以一种和谐、可再生的方式为指挥数据移动驱动所提供的一种环境。它有一个统一的分类器包装来提供各种各样的操作,例如TMVA, Sklearn, XGBoost, uBoost等等。并且它可以在一个群体以平行的方式训练分类器。同时它也提供了一个交互式的情节。


  • Python 学习机器样本:用亚马逊的机器学习建造的简单软件收集。


  • Python-ELM:这是一个在Python语言下基于scikit-learn的极端学习机器的实现。



链接


零基础的我是这样开始写Python爬虫的(附代码)



刚开始接触爬虫的时候,简直惊为天人,十几行代码,就可以将无数网页的信息全部获取下来,自动选取网页元素,自动整理成结构化的文件。

利用这些数据,可以做很多领域的分析、市场调研,获得很多有价值的信息。这种技能不为我所用实在可惜,于是果断开始学习。

1. 并非开始都是最容易的

刚开始对爬虫不是很了解,又没有任何的计算机、编程基础,确实有点懵逼。从哪里开始,哪些是最开始应该学的,哪些应该等到有一定基础之后再学,也没个清晰的概念。

因为是 Python 爬虫嘛,Python 就是必备的咯,那先从 Python 开始吧。于是看了一些教程和书籍,了解基本的数据结构,然后是列表、字典、元组,各种函数和控制语句(条件语句、循环语句)。

学了一段时间,才发现自己还没接触到真正的爬虫呢,而且纯理论学习很快就忘了,回去复习又太浪费时间,简直不要太绝望。把 Python 的基础知识过了一遍之后,我竟然还没装一个可以敲代码的IDE,想想就哭笑不得。

2. 开始直接上手

转机出现在看过一篇爬虫的技术文章后,清晰的思路和通俗易懂的语言让我觉得,这才是我想学的爬虫。于是决定先配一个环境,试试看爬虫到底是怎么玩的。(当然你可以理解为这是浮躁,但确实每个小白都想去做直观、有反馈的事情)

因为怕出错,装了比较保险的 Anaconda,用自带的 Jupyter Notebook 作为IDE来写代码。看到很多人说因为配置环境出各种BUG,简直庆幸。很多时候打败你的,并不是事情本身,说的就是爬虫配置环境这事儿。

遇到的另一个问题是,Python 的爬虫可以用很多包或者框架来实现,应该选哪一种呢?我的原则就是是简单好用,写的代码少,对于一个小白来说,性能、效率什么的,统统被我 pass 了。于是开始接触 urllib、美丽汤(BeautifulSoup),因为听别人说很简单。

我上手的第一个案例是爬取豆瓣的电影,无数人都推荐把豆瓣作为新手上路的实例,因为页面简单且反爬虫不严。照着一些爬取豆瓣电影的入门级例子开始看,从这些例子里面,了解了一点点爬虫的基本原理:下载页面、解析页面、定位并抽取数据。

当然并没有去系统看 urllib 和 BeautifulSoup 了,我需要把眼前实例中的问题解决,比如下载、解析页面,基本都是固定的语句,直接用就行,我就先不去学习原理了。

用 urllib 下载和解析页面的固定句式

当然 BeautifulSoup 中的基本方法是不能忽略的,但也无非是 find、get_text() 之类,信息量很小。就这样,通过别人的思路和自己查找美丽汤的用法,完成了豆瓣电影的基本信息爬取。

用 BeautifulSoup 爬取豆瓣电影详情


更多链接


我们整理了2017年最新政府大数据应用案例!



政府在建设和应用大数据的过程中有独特的优势。政府部门不仅掌握着80%有价值的数据,而且能最大限度调动社会资源,能整合推动大数据发展的各方力量。政府作为大数据建设和应用的主导力量,积极应用大数据决定着能否发挥大数据隐含的战略价值,对行业来说具有引领性作用。以下笔者按部收集了一些大数据的应用案例:

1. 工商部门

  • 企业异常行为监测预警


重庆依托大数据资源,在全国率先探索建立注册登记监测预警机制,对市场准入中的外地异常投资、行业异常变动、设立异常集中等异常情形进行监控,对风险隐患提前介入、先行处置,有效遏制了虚假注册、非法集资等违法行为。

同时,积极推动法人数据库与地理空间数据库融合运用,建设市场主体分类监管平台,将市场主体精确定位到电子地图的监管网格上,并集成基本信息、监管信息和信用信息。平台根据数据模型,自动评定市场主体的监管等级,提示监管人员采取分类监管措施,有效提升了监管的针对性和科学性。

  • 中小企业大数据服务平台精准服务企业


山西省中小企业产业信息大数据应用服务平台依托大数据、云计算和垂直搜索引擎等技术,为全省中小企业提供产业动态、供需情报、会展情报、行业龙头、投资情报、专利情报、海关情报、招投标情报、行业研报、行业数据等基础性情报信息,还可以根据企业的不同需求提供包括消费者情报、竞争者情报、合作者情报、生产类情报、销售类情报等个性化定制情报,为中小微企业全面提升竞争力提供数据信息支持。

2. 规划部门

  • 运营商大数据助力城市规划


重庆市綦江区规划局委托上海复旦规划建筑设计研究院及重庆移动共同开展,利用重庆移动相关数据及綦江相关统计年鉴数据对綦江中心城区人口、住宅、商业、公共服务配套等进行大数据分析,量化綦江房地产库存,从城市建设角度提出改进策略,完善城市功能,促进城市健康发展。

据介绍,经过多次尝试,重庆移动率先将手机信令数据引入城市规划,通过建立人口迁移模型,提供2013-2015年期间綦江区人口的流入流出情况(包括国际、省际、市内流动),建立职住模型提供綦江区居住及工作人口的分布,通过监控道路周边基站人口流动情况,反应綦江区全天24小时道路人口流动情况,识别出各个时段道路堵点。

3. 交通部门

  • 大数据助力杭州“治堵”


2016年10月,杭州市政府联合阿里云公布了一项计划:为这座城市安装一个人工智能中枢——杭州城市数据大脑。城市大脑的内核将采用阿里云ET人工智能技术,可以对整个城市进行全局实时分析,自动调配公共资源,修正城市运行中的问题,并最终进化成为能够治理城市的超级人工智能。“缓解交通堵塞”是城市大脑的首个尝试,并已在萧山区市心路投入使用,部分路段车辆通行速度提升了11%。

4. 教育部门

  • 徐州市教育局利用大数据改善教学体验


徐州市教育局实施“教育大数据分析研究”,旨在应用数据挖掘和学习分析工具,在网络学习和面对面学习融合的混合式学习方式下,实现教育大数据的获取、存储、管理和分析,为教师教学方式构建全新的评价体系,改善教与学的体验。此项工作需要在前期工作的基础上,利用中央电化教育馆掌握的数据资料、指标体系和分析工具进行数据挖掘和分析,构建统一的教学行为数据仓库,对目前的教学行为趋势进行预测,为 “徐州市信息技术支持下的学讲课堂”提供高水平的服务,并能提供随教学改革发展一直跟进、持续更新完善的系统和应用服务。


更多链接


教你训练一个简单的音频识别网络(附代码)



你需要知道,真正的语音与音频识别系统要复杂的多,但就像图像识别领域的MNIST,它将让你对所涉及的技术有个基本了解。

完成本教程后,你将拥有一个模型,能够辨别一个1秒钟的音频片段是否是无声的、无法识别的词语,或者是“yes”、“no”、“up”、“down”、“left”、“right”、 “on”、“off”、“stop”、“go”。你还可以使用这个模型并在Android应用程序中运行它。

注:本文含有大量代码,需要代码原文的同学请参考文末来源地址中的内容。

准备工作

确保你已经安装了TensorFlow,由于脚本程序将下载超过1GB的训练数据,你需要畅通的网络连接,而且你的机器需要有足够的空余空间。训练过程本身可能需要几个小时,所以确保你有一台可以使用这么长时间的机器。

训练

开始训练前,在TensorFlow 源码树下运行:


这个脚本程序将开始下载“语音命令数据集”,包括65000条由不同的人说30个不同词语组成的WAVE音频文件。这份数据由Google收集,并在CC-BY协议许可下发行,你可以通过贡献自己五分钟的声音来帮助提升它。这份文件大小超过1GB,所以这部分可能需要一段的时间,但你应该看一下过程日志,一旦它被下载一次,你就不需要再进行这一步了。


这表明初始化进程已经完成,循环训练已经开始,你将看到每一次训练产生的输出信息。这里分别解释一下含义:



更多链接

回复

使用道具 举报

nice 发表于 2018-4-3 15:41:26
满满的干货,感谢的!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条