R语言学习记录
更完了,累似了!
一、基本数学运算
1.%% 计算余数
2.%/% 计算所得的整数部分
3.** 或^ 次方根
4.abs() 绝对值
5.exp() e的x次
5.round() 四舍五入函数
round(98.562,digits=2)=98.56
round(1234,digits=-2)=1200
round(1778,digits=-3)=2000
6.signif(x,digits=k) 四舍五入,x为要处理的实数,k为有效数字个数
signif(79843.597,digits=6)=79843.6
signif(79843.597,6)=79843.6
signif(79843.597,digits=3)=79800
signif(79843.597,3)=79800
7.floor(x) 小于等于x的最近整数
8.ceiling(x) 大于等于x的最近整数
9.trunc(x) 直接取整数,抹去小数
10.factorial(x) 返回x的阶乘
11.Inf 无限大
12.is.infinite(x) 判断是否无限大,如果是则TRUE,不是 ...
数仓期末复习
有些内容后续完善
一、概念
1、Hive是一个Hadoop客户端,用于将HQL(Hive SQL)转化成MapReduce程序。
2、元数据包括:数据库(默认是default)、表名、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等。
3、默认存储在自带的derby数据库中,由于derby数据库只支持单客户端访问,生产环境中为了多人开发,推荐使用MySQL存储Metastore。
4、derby数据库的特点是同一时间只允许一个客户端访问。如果多个Hive客户端同时访问,就会报错。
5、初始化Hive元数据库,修改为采用MySQL存储元数据的命令是:$ bin/schematool -dbType mysql -initSchema -verbose
6、新版本的Hive启动的时候,默认申请的JVM堆内存大小为256M,建议设置更大的堆内存如2048M,避免执行复杂的SQL时经常会报错
7、SERDE是Serializer and Deserializer的简写。Hive使用SERDE序列化和反序列化每行数据。
8、DELIMITED关键字表示对文件中的每个字段 ...
Flume学习记录
1.Flume的下载与安装
本次学习在Ubuntu的Linux操作系统下进行,首先进入Ubuntu,输入指令
1wget https://archive.apache.org/dist/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz
下载完成后,在目录下输入指令进行解压
1tar -zxvf 压缩包的名称
2.netcat日志采集
2.1 配置文件
进入目录下的conf文件中,创建example.conf文件,输入以下内容:
123456789101112131415161718192021# 设置Agent上的各个组件名称a1.sources = r1 #可以定义多个,r1 r2 r3 …a1.sinks = k1a1.channels = c1 # 配置Sourcea1.sources.r1.type = netcata1.sources.r1.bind = localhosta1.sources.r1.port = 44444 # 配置Sinka1.sinks.k1.type = logger # 配置Channela1.channels. ...
Kafka学习记录
环境配置
前言
本文记录本人学习kafka的流程,采用的系统环境为Ubuntu.
(一)安装Java
配置Kafka前,首先配置Java环境,输入以下命令:
12sudo apt-get updatesudo apt-get install default-jdk
其中,第一行指令是指更新Ubuntu系统中的本地软件包索引,这个命令的作用是从互联网上的软件仓库(即存储软件包的服务器)下载最新的软件包信息,并将这些信息更新到本地系统的数据库中。这个命令执行后,你的系统会知道有哪些软件包可以安装或更新,以及它们的最新版本是什么。这是在进行软件安装或更新之前应该执行的操作,因为它确保了你能够访问到最新的软件版本和依赖关系信息。
(二)安装kafka
由于直接下载官方软件包太慢了,因此用清华镜像网站进行下载,此次下载的版本是3.7.0,这是下载命令,可根据想要下载的版本进行链接选择。
1wget https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/3.7.0/
下载完成后,对压缩包进行解压,并进入该目录下:
12tar -xzf kafka_2. ...
Hexo Butterfly 微博热搜侧边栏(无需搭建热搜api)教程
Butterfly博客微博热搜侧边栏教程(无需自建API版)
前言
众所周知,关于Butterfly博客的微博热搜侧边栏教程已经有例如Eurkon、Leonus等诸多大佬早些时间就发布过,由于跨域原因,weibo.js内容需要接入api,但是因为一些不可抗力因素,Vercel总是经常炸,国内的阿里云、腾讯云等部署起来又相对麻烦,因此我们直接利用https://api.aa1.cn/ 收录的,由 小小大佬发布的微博热搜API。
使用他的API,对我们来说省事方便,又较为稳定,但同时由于API返回的数据结构与上面几位大佬教程中的不同,因此本文章在此进行修改,使之适应新的API,实现微博热搜侧边栏的效果。
1.创建widget.yml文件
准备工作与上述几位大佬相同,首先创建/source/_data/widget.yml文件,在文件中加入以下代码:
1234567# 这里填top表示所有地方都显示,bottom表示只在非文章页面显示,如主页等等bottom: - class_name: id_name: weibo name: 微博热搜 icon: fa-brands ...
爬虫学习:爬取城市公交信息
Python教程:使用BeautifulSoup爬取城市公交信息
在这个Python教程中,我们将学习如何使用BeautifulSoup库爬取城市公交信息。我们将以杭州为例,但你可以将代码应用于其他城市。如果有什么错误或者值得改进的地方,欢迎大家在评论区指出!
首先,确保你已经安装了以下库:
BeautifulSoup
requests
pandas
如果没有,请使用以下命令安装:
1pip install beautifulsoup4 requests pandas
接下来,我们将编写代码。
1.导入所需的库:
123from bs4 import BeautifulSoup as BSimport requestsimport pandas as pd
2.设置城市名称和需要的参数:
3.创建一个空的DataFrame来存储公交信息:
1df = pd.DataFrame(columns=['线路名称', '运行时间', '参考票价', '出发线路', '总站数', '经 ...
Json数据的抓取和分析
1.关键库及函数
(1)关键库
12345import urllib.requestimport urllib.errorimport urllib.parseimport requestsimport json
(2)关键函数
通过url 获取信息:requests.get(GET模式)/request.post(POST模式)
结果转化为python的json对象:json.loads( )
Json对象的格式化输出:json.dumps(json对象, sort_keys=True, indent=2)
文件读写:
1234with open("data.txt","w") as f: f.writelines(data) 格式化输出:"{0:^6}{1:^10}{2:^10}{3}".format('序号','歌曲名','唱片集','播放连接' ...
爬虫:访问热搜榜并发送邮件
内容
访问微博热搜榜(https://s.weibo.com/top/summary)
获取微博热搜榜前50条热搜名称、链接及其实时热度,并将获取到的数据通过邮件的形式,每20秒发送一次到个人邮箱中。
导入库
123456import requestsfrom bs4 import BeautifulSoup as BSimport smtplibfrom email.mime.multipart import MIMEMultipartfrom email.mime.text import MIMETextimport time
定义获取微博热搜的函数
1234567891011121314def get_line(): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36", ...
爬虫:爬取影片详细信息
内容
访问豆瓣电影Top250(https://movie.douban.com/top250?start=0)
获取每部电影的导演、编剧、主演、类型、上映时间、片长、评分人数以及剧情简介等信息,并将获取到的信息保存至本地文件中。
导入库
12from bs4 import BeautifulSoup as BSimport requests
打开文件和设置请求头
1234fs = open("豆瓣.txt", 'w', encoding='utf-8')headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}
fs:打开(或创建)一个名为“豆瓣.txt”的文件,用于写入数据,文件编码设置为utf-8。
headers:设置HTTP请求头,模 ...
爬虫:显示影片基本信息
内容
访问豆瓣电影Top250(https://movie.douban.com/top250?start=0)
获取每部电影的中文片名、排名、评分及其对应的链接,按照“排名-中文片名-评分-链接”的格式显示在屏幕上。
代码编程
导入库
12from bs4 import BeautifulSoup as BSimport requests
初始化变量和设置
12345rank = 0fs = open("豆瓣.txt", 'w', encoding='utf-8')headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}
rank:初始化一个变量rank,用来记录电影的排名。
fs:打开(或创建)一个名为“豆瓣.txt”的文件,用于写入数据 ...
数据库加载中