NLP自然语言 之 余弦相似度 (一 Python代码实现) 2018-10-15 20:45:18 NLP NLP, 余弦相似度 前言如何计算两个句子的相似度度?一般来说,我们可以根据两个句子的用词越相似,它们的内容所表达的意思就应该越相似。即可以使用余弦相似度的方式来计算。 查看更多
Hive Join 优化 与 udf (python + java)自定义方法使用 & Java连接Hive(Thrift接口服务) 2018-10-13 22:56:23 Hive Hive 前言Hive提供类似Sql的查询语句,那么join在实际工作中可能是使用最多的地方,大多数业务都是关联查询的。下面将介绍john的优化,以及udf自定义函数配置使用。 查看更多
Hive 安装配置 & 简单使用 2018-10-12 23:30:10 Hive Hive 前言Hive一个执行在Hadoop集群之上的Sql引擎工具,它提供类似Sql的编写方式进行对Hadoop HDFS上的文件进行查询统计。接下来我们将安装配置Hive及简单使用 查看更多
MapReduce 执行过程原理(三) 2018-10-10 23:47:56 MapReduce Hadoop, MapReduce 前言Hadoop两大核心组件之一MapReduce的计算框架,它将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce,MapReduce它是属于并发计算框架。 以下我们将了解MapReduce运行原理及过程。 查看更多
MapReduce Join 表连接 Python (二) 2018-10-08 23:30:06 MapReduce Hadoop, MapReduce 前言上一遍文章简单编写了MapReduce WordCount,如何通过MapReduce统计一个单词在一篇文章中出现的次数,但是如何来实现两个表连接类似sql 的join查询呢?下文将简单介绍如何实现。 查看更多
MapReduce WordCount 入门 Python(一) 2018-10-07 22:32:21 MapReduce Hadoop, Hadoop Streaming, MapReduce 前言根据已经搭建好的Hadoop2.7.2集群,就可以在集群上跑任务了,一个简单的WordCount开始。使用Python脚本语言,它可以更快捷更方便咱们开发调试。 查看更多
Hadoop2.7.2集群安装 2018-10-06 22:38:11 Hadoop Hadoop, 虚拟机 前言上一遍我们搭建了虚拟机集群环境,现在我们就开始搭建Hadoop集群环境,为后续的数据处理提供HDFS存储,MapReduce计算环境。 查看更多
跳跃表(skip-list) 2018-09-30 23:12:45 数据结构&算法 数据结构, 算法 前言最近看了一种数据结构叫做skipList,redis和levelDB都是用了它。Skip List是在有序链表的基础上进行了扩展,解决了有序链表结构查找特定值困难的问题,查找特定值的时间复杂度为O(logn),他是一种可以代替平衡树的数据结构。 查看更多
时间复杂度&空间复杂度 2018-09-29 22:57:10 数据结构&算法 数据结构&算法 前言一个算法的好坏,我们该如何衡量呢?在算法领域是用时间与空间来衡量的。 我们通常根据算法的复杂度来衡量一个程序设计。复杂度分为时间复杂度、空间复杂度,接下来我们就讨论下什么怎么计算时间复杂度与空间复杂度。 查看更多