Webpy + jieba 搭建分词服务

2018-11-03 23:09:46

Python

NLP, jieba, webpy, 分词

前言

搭建一个webServer分词服务。使用开源框架webpy搭建webserver，使用jieba中文分词组件。

SparkSql操作Hive表数据（四）

2018-10-25 23:33:46

Spark

Hive, Spark, SparkSql

前言

前面关于Spark的一些操作都是基于RDD操作，以下我们将通过SparkSql DataFrame操作Hive的数据库表，以及与RDD的操作做一些简单对比。

vue-cli 脚手架快速搭建Vue项目与 jj-admin后台管理模板

2018-10-24 16:43:14

vue

node.js, vue

前言

vue-cli 脚手架快速搭建Vue项目，完成一个简单的后台框架demo

Hadoop2.0资源调度框架Yarn基本概念与总体结构

2018-10-23 22:48:18

Hadoop

Hadoop, Yarn

前言

Hadoop1.0咱们讲他们的两个核心组件即MapReduce与HDFS，那么到了2.0之后它的核心应该就是Yarn与HDFS，当中的MapReduce就仅仅只是Hadoop当中的一个计算框架了，即MapReduce运行在Yarn（可以把它当做一个操作系统）上，同样其他的计算框架，包括storm，spark，flink，hive等都可以运行再Yarn之上。

Spark Scala 多字段二次排序（三）

2018-10-22 23:41:57

Spark

Scala, Spark

前言

前面的文章我们已经使用了很多次sort方法进行排序了，但是如何通过两个字段排序呢？即如果第一个字段的值相同，如何通过另外一个字段排序呢？下面我们将通过一个demo演示如何实现。

Spark Scala 统计多个文件中的最大值与最小值 map自定义函数实现（二）

2018-10-21 23:27:06

Spark

Scala, Spark

前言

上一章节我们了解到如何通过scala变成来统计一篇文章中的词频从而了解使用rdd当中函数使用，这篇我们进一步来学习熟练使用rdd函数，实现map自定义函数。

Spark Scala WrodCount 入门（一）

2018-10-21 22:22:10

Spark

Scala, Spark

前言

通过WordCount简单实现一个Scala以及Spark程序，来了解Spark中的对RDD数据转换Transformation，动作Action。

Scala & Spark2.0.2集群安装

2018-10-20 23:32:43

Spark

Spark

前言

Scala函数式变成语言，Spark的开发语言。下面将记录Scala安装与Spark的集群安装。

NLP自然语言之 LCS最长公共子序列（Longest Common Subsequence）（三）

2018-10-19 23:45:33

NLP

LCS, NLP

前言

前面我们知道了通过TF-IDF找出文章中的关键词，以及通过余弦相似度来判断两个句子或者文章的相似程度。那么我们还可以通过LCS即最长公共子序列（Longest Common Subsequence）的方式来比对两段文字之间的相似度。

NLP自然语言之 TF-IDF（二）

2018-10-18 22:09:11

NLP

NLP, TF-IDF

前言

前面一篇文章我们了解到了如何基于余弦相似度的计算方式去评估两个句子或者文章的相似程度。那么本篇我们就从一篇文章中提取当中的关键词，来获取一篇文章所要表达的意思。即TF-IDF