NLP自然语言之余弦相似度（一 Python代码实现）

2018-10-15 20:45:18

NLP

NLP, 余弦相似度

前言

如何计算两个句子的相似度度？一般来说，我们可以根据两个句子的用词越相似，它们的内容所表达的意思就应该越相似。即可以使用余弦相似度的方式来计算。

Hive Join 优化与 udf (python + java)自定义方法使用 & Java连接Hive(Thrift接口服务)

2018-10-13 22:56:23

Hive

前言

Hive提供类似Sql的查询语句，那么join在实际工作中可能是使用最多的地方，大多数业务都是关联查询的。下面将介绍john的优化，以及udf自定义函数配置使用。

Hive 安装配置 & 简单使用

2018-10-12 23:30:10

Hive

前言

Hive一个执行在Hadoop集群之上的Sql引擎工具，它提供类似Sql的编写方式进行对Hadoop HDFS上的文件进行查询统计。接下来我们将安装配置Hive及简单使用

MapReduce 执行过程原理（三）

2018-10-10 23:47:56

MapReduce

Hadoop, MapReduce

前言

Hadoop两大核心组件之一MapReduce的计算框架，它将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数：Map和Reduce，MapReduce它是属于并发计算框架。

以下我们将了解MapReduce运行原理及过程。

MapReduce Join 表连接 Python （二）

2018-10-08 23:30:06

MapReduce

Hadoop, MapReduce

前言

上一遍文章简单编写了MapReduce WordCount，如何通过MapReduce统计一个单词在一篇文章中出现的次数，但是如何来实现两个表连接类似sql 的join查询呢？下文将简单介绍如何实现。

MapReduce WordCount 入门 Python（一）

2018-10-07 22:32:21

MapReduce

Hadoop, Hadoop Streaming, MapReduce

前言

根据已经搭建好的Hadoop2.7.2集群，就可以在集群上跑任务了，一个简单的WordCount开始。使用Python脚本语言，它可以更快捷更方便咱们开发调试。

Hadoop2.7.2集群安装

2018-10-06 22:38:11

Hadoop

Hadoop, 虚拟机

前言

上一遍我们搭建了虚拟机集群环境，现在我们就开始搭建Hadoop集群环境，为后续的数据处理提供HDFS存储，MapReduce计算环境。

Centos虚拟机安装&NAT网络配置

2018-10-06 10:26:14

虚拟机

前言

大数据，机器学习必备的工具之一，也是咱们学习的运行环境。搭建虚拟机以及机器集群环境。

跳跃表(skip-list)

2018-09-30 23:12:45

数据结构&算法

数据结构, 算法

前言

最近看了一种数据结构叫做skipList，redis和levelDB都是用了它。Skip List是在有序链表的基础上进行了扩展，解决了有序链表结构查找特定值困难的问题，查找特定值的时间复杂度为O(logn)，他是一种可以代替平衡树的数据结构。

时间复杂度&空间复杂度

2018-09-29 22:57:10

数据结构&算法

前言

一个算法的好坏，我们该如何衡量呢？在算法领域是用时间与空间来衡量的。

我们通常根据算法的复杂度来衡量一个程序设计。复杂度分为时间复杂度、空间复杂度，接下来我们就讨论下什么怎么计算时间复杂度与空间复杂度。