公告
欢迎来到Ldyer的个人博客,这个网站记录了我的知识经验、生活分享以及日常吐槽,如有什么问题,请评论区留言哟~ 网页输入blog.ldyer.top即可访问。
手机端使用方式
手机端点击右上角可以打开博客菜单
文章右侧可以选择夜间模式与目录(现在夜间模式已删除)
评论方式
如果你想留言,那么直接在页面下输入你的邮箱就可回复,如果你想匿名回复,请再邮箱处直接输入"1@qq.com"即可。
数仓学习日志(环境准备篇)
1.编辑xcall脚本
编辑xcall脚本,可以查看所有虚拟机的进程情况,这对后续很重要。
123456#! /bin/bashfor i in 虚拟机① 虚拟机② 虚拟机③do echo --------- $i ---------- ssh $i "$*"done
编辑完成后,输入
1xcall jps
如果正常的话,会显示每个虚拟机的进程
2.配置Hadoop
2.1准备
本人的hadoop是3.1.3,因为后续需要用到flume1.10.1与hadoop3.1.31不适配,所以将它升级到hadoop-3.3.4,升级之前,请将虚拟机进行快照保存,防止升级的时候出错。
2.2 安装hadoop-3.3.4
首先,安装hadoop-3.3.4到与hadoop-3.1.3相同的目录下,然后,把hadoop3.1.3中etc/hadoop/里的core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、workers共五个文件与hadoop-3.3.4中相同文件进行替换。
替换完成后,输入以下命令, ...
数仓学习日志(数据建模篇)
1. 模拟数据准备
1.1 生成模拟数据
先将HDFS上/origin_data路径下之前的数据删除
1hadoop fs -rm -r /origin_data/*
启动采集通道
1cluster.sh start
停止Maxwell
1mxw.sh stop
修改虚拟机①的/opt/module/applog/application.yml文件,将mock.date,mock.clear,mock.clear.user,mock.new.user,mock.log.db.enable五个参数调整为如下的值(以"2022-06-04"为例)
12345678910#业务日期mock.date: "2022-06-04"#是否重置业务数据mock.clear.busi: 1#是否重置用户数据mock.clear.user: 1# 批量生成新用户数量mock.new.user: 100# 日志是否写入数据库一份 写入z_log表中mock.log.db.enable: 0
执行数据生成脚本,生成第一天2022-06-04的历史数据
1lg.sh
...
R语言学习记录
更完了,累似了!
一、基本数学运算
1.%% 计算余数
2.%/% 计算所得的整数部分
3.** 或^ 次方根
4.abs() 绝对值
5.exp() e的x次
5.round() 四舍五入函数
round(98.562,digits=2)=98.56
round(1234,digits=-2)=1200
round(1778,digits=-3)=2000
6.signif(x,digits=k) 四舍五入,x为要处理的实数,k为有效数字个数
signif(79843.597,digits=6)=79843.6
signif(79843.597,6)=79843.6
signif(79843.597,digits=3)=79800
signif(79843.597,3)=79800
7.floor(x) 小于等于x的最近整数
8.ceiling(x) 大于等于x的最近整数
9.trunc(x) 直接取整数,抹去小数
10.factorial(x) 返回x的阶乘
11.Inf 无限大
12.is.infinite(x) 判断是否无限大,如果是则TRUE,不是 ...
数仓期末复习
有些内容后续完善
一、概念
1、Hive是一个Hadoop客户端,用于将HQL(Hive SQL)转化成MapReduce程序。
2、元数据包括:数据库(默认是default)、表名、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等。
3、默认存储在自带的derby数据库中,由于derby数据库只支持单客户端访问,生产环境中为了多人开发,推荐使用MySQL存储Metastore。
4、derby数据库的特点是同一时间只允许一个客户端访问。如果多个Hive客户端同时访问,就会报错。
5、初始化Hive元数据库,修改为采用MySQL存储元数据的命令是:$ bin/schematool -dbType mysql -initSchema -verbose
6、新版本的Hive启动的时候,默认申请的JVM堆内存大小为256M,建议设置更大的堆内存如2048M,避免执行复杂的SQL时经常会报错
7、SERDE是Serializer and Deserializer的简写。Hive使用SERDE序列化和反序列化每行数据。
8、DELIMITED关键字表示对文件中的每个字段 ...
Flume学习记录
1.Flume的下载与安装
本次学习在Ubuntu的Linux操作系统下进行,首先进入Ubuntu,输入指令
1wget https://archive.apache.org/dist/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz
下载完成后,在目录下输入指令进行解压
1tar -zxvf 压缩包的名称
2.netcat日志采集
2.1 配置文件
进入目录下的conf文件中,创建example.conf文件,输入以下内容:
123456789101112131415161718192021# 设置Agent上的各个组件名称a1.sources = r1 #可以定义多个,r1 r2 r3 …a1.sinks = k1a1.channels = c1 # 配置Sourcea1.sources.r1.type = netcata1.sources.r1.bind = localhosta1.sources.r1.port = 44444 # 配置Sinka1.sinks.k1.type = logger # 配置Channela1.channels. ...
数据库加载中