Python + Selenium + ChromeDriver 爬取微信文章

前言

Python爬取微信文章内容,使用Selenium自动化测试工具模拟浏览器访问微信文章内容,从而爬取微信文章内容,资源文件图片,音频,视频上传至七牛服务器

查看更多

分享到 评论

阿里云Centos7.4安装vpn(pptp)服务器

前言

vpn服务器搭建,由于调用的一些接口服务加入了白名单,本地ip是每天变化的,所以在服务器搭建了vpn服务器用于请求接口服务。以下记录下搭建流程。

查看更多

分享到 评论

Zookeeper集群安装配置

前言

Zookeeper分布式开源框架,它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

查看更多

分享到 评论

机器学习向量数据之DenseVector &SparseVector

前言

Spark机器学习所需要的数据结构比如逻辑回归,使用的数据结构都是向量数据,即类似[0,1,0,0,1,1,0,1]这么一个空间向量(在编程语言中也可称作为数组)。

查看更多

分享到 评论

线性回归(一元)

前言

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量之间相互依赖的一种统计分析方法。根据以往的历史数据训练一个模型,并用此模型进行预测的这么一个算法。

查看更多

分享到 评论

MarkDown 数学符号

前言

MarkDown 数学符号。

查看更多

分享到 评论

Flume 从安装到采集数据至 HDFS

mark

前言

数据开发工作中最重要的工作之一便是数据采集,数据采集的正确性直接影响到后续的数据分析研究策略,而数据采集工作中Flume作为一个重要的组件之一。以下我们将从安装以及如何采集一个应用中的日志信息直接存储到HDFS的一个过程。

查看更多

分享到 评论

Nginx 安装 & 代理个人网站服务

前言

Nginx一款高性能反向代理服务器,而且支持负载均衡,包括权重策略,回话策略(Sticker),随机策略。

查看更多

分享到 评论

阿里云Centos7.4搭建git服务器

前言

阿里云Centos7.4搭建git服务器。

查看更多

分享到 评论

Spark使用Jieba分词Hive数据生成新表(五)

前言

Spark集成Jieba分词处理Hive数据,根据处理后的结果数据生成新的Hive表数据集。Demo项目可以直接下载运行打包提交到Yarn集群运行验证测试

查看更多

分享到 评论