MapReduce 采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce 就是“任务的分解与结果的汇总”。

Hadoop 是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储。

本次实验基于Hadoop安装教程_伪分布式配置_CentOS6.4/Hadoop2.6.0官网教程,实现了在 Ubuntu 操作系统的主机上安装 Hadoop-3.3.0、并实现单机与伪分布式配置并运行实例.

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器或 Windows 机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。

无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时,计算的负荷会非常大。普通的模型无法有效处理这么多的特征,这时候我们需要神经网络。

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。

线性模型试图学得一个通过属性 \(\boldsymbol{w}\) 的线性组合来进行预测的函数,即:

\[ f(\boldsymbol{x})=\boldsymbol{w}^T\boldsymbol{x}+b \]

线性模型形式简单、易于建模,但却蕴含着机器学习中一些重要的基本思想。许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或高位映射而得。

标题

  1. 一级标题下,不能直接出现三级标题。
  2. 标题要避免孤立编号(即同级标题只有一个)。
  3. 下级标题不重复上一级标题的名字。
  4. 谨慎使用四级标题,尽量避免出现,保持层级的简单,防止出现过于复杂的章节。如果三级标题下有并列性的内容,建议只使用项目列表(Item list)。

TF-IDF(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术.TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,互联网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜索结果中出现的顺序。1