Python + Selenium + ChromeDriver 爬取微信文章 2018-11-26 17:24:56 Python ChromeDriver, Python , Selenium 前言Python爬取微信文章内容,使用Selenium自动化测试工具模拟浏览器访问微信文章内容,从而爬取微信文章内容,资源文件图片,音频,视频上传至七牛服务器 查看更多
阿里云Centos7.4安装vpn(pptp)服务器 2018-11-23 23:11:25 虚拟机 pptp, vpm, 虚拟机 前言vpn服务器搭建,由于调用的一些接口服务加入了白名单,本地ip是每天变化的,所以在服务器搭建了vpn服务器用于请求接口服务。以下记录下搭建流程。 查看更多
Zookeeper集群安装配置 2018-11-22 20:38:51 Zookeeper Zookeeper 前言Zookeeper分布式开源框架,它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 查看更多
机器学习向量数据之DenseVector &SparseVector 2018-11-18 21:51:53 机器学习 Scala, 机器学习 前言Spark机器学习所需要的数据结构比如逻辑回归,使用的数据结构都是向量数据,即类似[0,1,0,0,1,1,0,1]这么一个空间向量(在编程语言中也可称作为数组)。 查看更多
线性回归(一元) 2018-11-16 23:56:42 数据结构&算法 算法, 线性回归 前言线性回归是利用数理统计中回归分析,来确定两种或两种以上变量之间相互依赖的一种统计分析方法。根据以往的历史数据训练一个模型,并用此模型进行预测的这么一个算法。 查看更多
Flume 从安装到采集数据至 HDFS 2018-11-15 22:35:05 Flume Flume, HDFS 前言数据开发工作中最重要的工作之一便是数据采集,数据采集的正确性直接影响到后续的数据分析研究策略,而数据采集工作中Flume作为一个重要的组件之一。以下我们将从安装以及如何采集一个应用中的日志信息直接存储到HDFS的一个过程。 查看更多
Nginx 安装 & 代理个人网站服务 2018-11-11 18:35:05 Nginx Nginx 前言Nginx一款高性能反向代理服务器,而且支持负载均衡,包括权重策略,回话策略(Sticker),随机策略。 查看更多
Spark使用Jieba分词Hive数据生成新表(五) 2018-11-08 22:35:05 Spark Hive, Jieba, Spark 前言Spark集成Jieba分词处理Hive数据,根据处理后的结果数据生成新的Hive表数据集。Demo项目可以直接下载运行打包提交到Yarn集群运行验证测试 查看更多