NLP自然语言 之 余弦相似度 (一 Python代码实现)

前言

如何计算两个句子的相似度度?一般来说,我们可以根据两个句子的用词越相似,它们的内容所表达的意思就应该越相似。即可以使用余弦相似度的方式来计算。

查看更多

分享到 评论

Hive Join 优化 与 udf (python + java)自定义方法使用 & Java连接Hive(Thrift接口服务)

前言

Hive提供类似Sql的查询语句,那么join在实际工作中可能是使用最多的地方,大多数业务都是关联查询的。下面将介绍john的优化,以及udf自定义函数配置使用。

查看更多

分享到 评论

Hive 安装配置 & 简单使用

前言

Hive一个执行在Hadoop集群之上的Sql引擎工具,它提供类似Sql的编写方式进行对Hadoop HDFS上的文件进行查询统计。接下来我们将安装配置Hive及简单使用

查看更多

分享到 评论

MapReduce 执行过程原理(三)

前言

Hadoop两大核心组件之一MapReduce的计算框架,它将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce,MapReduce它是属于并发计算框架。

以下我们将了解MapReduce运行原理及过程。

查看更多

分享到 评论

MapReduce Join 表连接 Python (二)

前言

上一遍文章简单编写了MapReduce WordCount,如何通过MapReduce统计一个单词在一篇文章中出现的次数,但是如何来实现两个表连接类似sql 的join查询呢?下文将简单介绍如何实现。

查看更多

分享到 评论

MapReduce WordCount 入门 Python(一)

前言

根据已经搭建好的Hadoop2.7.2集群,就可以在集群上跑任务了,一个简单的WordCount开始。使用Python脚本语言,它可以更快捷更方便咱们开发调试。

查看更多

分享到 评论

Hadoop2.7.2集群安装

前言

上一遍我们搭建了虚拟机集群环境,现在我们就开始搭建Hadoop集群环境,为后续的数据处理提供HDFS存储,MapReduce计算环境。

查看更多

分享到 评论

Centos虚拟机安装&NAT网络配置

前言

大数据,机器学习必备的工具之一,也是咱们学习的运行环境。搭建虚拟机以及机器集群环境。

查看更多

分享到 评论

跳跃表(skip-list)

前言

最近看了一种数据结构叫做skipList,redis和levelDB都是用了它。Skip List是在有序链表的基础上进行了扩展,解决了有序链表结构查找特定值困难的问题,查找特定值的时间复杂度为O(logn),他是一种可以代替平衡树的数据结构。

查看更多

分享到 评论

时间复杂度&空间复杂度

前言

一个算法的好坏,我们该如何衡量呢?在算法领域是用时间与空间来衡量的。

我们通常根据算法的复杂度来衡量一个程序设计。复杂度分为时间复杂度、空间复杂度,接下来我们就讨论下什么怎么计算时间复杂度与空间复杂度。

查看更多

分享到 评论