Webpy + jieba 搭建分词服务

前言

搭建一个webServer分词服务。使用开源框架webpy搭建webserver,使用jieba中文分词组件。

查看更多

分享到 评论

SparkSql操作Hive表数据(四)

前言

前面关于Spark的一些操作都是基于RDD操作,以下我们将通过SparkSql DataFrame操作Hive的数据库表,以及与RDD的操作做一些简单对比。

查看更多

分享到 评论

vue-cli 脚手架快速搭建Vue项目 与 jj-admin后台管理模板

前言

vue-cli 脚手架快速搭建Vue项目,完成一个简单的后台框架demo

查看更多

分享到 评论

Hadoop2.0资源调度框架Yarn基本概念与总体结构

前言

Hadoop1.0咱们讲他们的两个核心组件即MapReduce与HDFS,那么到了2.0之后它的核心应该就是Yarn与HDFS,当中的MapReduce就仅仅只是Hadoop当中的一个计算框架了,即MapReduce运行在Yarn(可以把它当做一个操作系统)上,同样其他的计算框架,包括storm,spark,flink,hive等都可以运行再Yarn之上。

查看更多

分享到 评论

Spark Scala 多字段二次排序(三)

前言

前面的文章我们已经使用了很多次sort方法进行排序了,但是如何通过两个字段排序呢?即如果第一个字段的值相同,如何通过另外一个字段排序呢?下面我们将通过一个demo演示如何实现。

查看更多

分享到 评论

Spark Scala 统计多个文件中的最大值与最小值 map自定义函数实现(二)

前言

上一章节我们了解到如何通过scala变成来统计一篇文章中的词频从而了解使用rdd当中函数使用,这篇我们进一步来学习熟练使用rdd函数,实现map自定义函数。

查看更多

分享到 评论

Spark Scala WrodCount 入门(一)

前言

通过WordCount简单实现一个Scala以及Spark程序,来了解Spark中的对RDD数据转换Transformation,动作Action。

查看更多

分享到 评论

Scala & Spark2.0.2集群安装

前言

Scala函数式变成语言,Spark的开发语言。下面将记录Scala安装与Spark的集群安装。

查看更多

分享到 评论

NLP自然语言 之 LCS最长公共子序列(Longest Common Subsequence)(三)

前言

前面我们知道了通过TF-IDF找出文章中的关键词,以及通过余弦相似度来判断两个句子或者文章的相似程度。那么我们还可以通过LCS即最长公共子序列(Longest Common Subsequence)的方式来比对两段文字之间的相似度。

查看更多

分享到 评论

NLP自然语言 之 TF-IDF(二)

前言

前面一篇文章我们了解到了如何基于余弦相似度的计算方式去评估两个句子或者文章的相似程度。那么本篇我们就从一篇文章中提取当中的关键词,来获取一篇文章所要表达的意思。即TF-IDF

查看更多

分享到 评论