Kafka学习记录
环境配置
前言
本文记录本人学习kafka的流程,采用的系统环境为Ubuntu.
(一)安装Java
配置Kafka前,首先配置Java环境,输入以下命令:
12sudo apt-get updatesudo apt-get install default-jdk
其中,第一行指令是指更新Ubuntu系统中的本地软件包索引,这个命令的作用是从互联网上的软件仓库(即存储软件包的服务器)下载最新的软件包信息,并将这些信息更新到本地系统的数据库中。这个命令执行后,你的系统会知道有哪些软件包可以安装或更新,以及它们的最新版本是什么。这是在进行软件安装或更新之前应该执行的操作,因为它确保了你能够访问到最新的软件版本和依赖关系信息。
(二)安装kafka
由于直接下载官方软件包太慢了,因此用清华镜像网站进行下载,此次下载的版本是3.7.0,这是下载命令,可根据想要下载的版本进行链接选择。
1wget https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/3.7.0/
下载完成后,对压缩包进行解压,并进入该目录下:
12tar -xzf kafka_2. ...
Hexo Butterfly 微博热搜侧边栏(无需搭建热搜api)教程
Butterfly博客微博热搜侧边栏教程(无需自建API版)
前言
众所周知,关于Butterfly博客的微博热搜侧边栏教程已经有例如Eurkon、Leonus等诸多大佬早些时间就发布过,由于跨域原因,weibo.js内容需要接入api,但是因为一些不可抗力因素,Vercel总是经常炸,国内的阿里云、腾讯云等部署起来又相对麻烦,因此我们直接利用https://api.aa1.cn/ 收录的,由 小小大佬发布的微博热搜API。
使用他的API,对我们来说省事方便,又较为稳定,但同时由于API返回的数据结构与上面几位大佬教程中的不同,因此本文章在此进行修改,使之适应新的API,实现微博热搜侧边栏的效果。
1.创建widget.yml文件
准备工作与上述几位大佬相同,首先创建/source/_data/widget.yml文件,在文件中加入以下代码:
1234567# 这里填top表示所有地方都显示,bottom表示只在非文章页面显示,如主页等等bottom: - class_name: id_name: weibo name: 微博热搜 icon: fa-brands ...
爬虫学习:爬取城市公交信息
Python教程:使用BeautifulSoup爬取城市公交信息
在这个Python教程中,我们将学习如何使用BeautifulSoup库爬取城市公交信息。我们将以杭州为例,但你可以将代码应用于其他城市。如果有什么错误或者值得改进的地方,欢迎大家在评论区指出!
首先,确保你已经安装了以下库:
BeautifulSoup
requests
pandas
如果没有,请使用以下命令安装:
1pip install beautifulsoup4 requests pandas
接下来,我们将编写代码。
1.导入所需的库:
123from bs4 import BeautifulSoup as BSimport requestsimport pandas as pd
2.设置城市名称和需要的参数:
3.创建一个空的DataFrame来存储公交信息:
1df = pd.DataFrame(columns=['线路名称', '运行时间', '参考票价', '出发线路', '总站数', '经 ...
Json数据的抓取和分析
1.关键库及函数
(1)关键库
12345import urllib.requestimport urllib.errorimport urllib.parseimport requestsimport json
(2)关键函数
通过url 获取信息:requests.get(GET模式)/request.post(POST模式)
结果转化为python的json对象:json.loads( )
Json对象的格式化输出:json.dumps(json对象, sort_keys=True, indent=2)
文件读写:
1234with open("data.txt","w") as f: f.writelines(data) 格式化输出:"{0:^6}{1:^10}{2:^10}{3}".format('序号','歌曲名','唱片集','播放连接' ...
网络爬虫实践-BeautifulSoup应用
(一)古诗爬取
访问古诗文网站名句主页(https://so.gushiwen.cn/mingjus/),爬取里面的名句和出处(包括链接)保存到一个文本文件poems.txt中去。每个名句占用一行,内容格式如下:
编号(从1开始,占3位做对齐):名句–出处(全诗链接)
空两格(诗句的译文注释和赏析)
123456789101112131415161718192021222324252627282930from bs4 import BeautifulSoup as BSimport requests#变量rank=0temp_line2=''fs = open("诗词.txt",'w',encoding='utf-8')soup=BS(requests.get("https://so.gushiwen.cn/mingjus/").content.decode("utf-8"),"lxml")content=soup.select('bod ...
期末考试算法笔记
用于期末考试的临时抱佛脚= w =
算法的基本概念
算法是求解问题的一系列计算步骤,用来将输入转换成输出结果。
算法的时间复杂度
算法所耗费的时间应是算法中每条语句的执行时间之和,而每条语句的执行时间就是该语句的执行次数(频度)与该语句执行一次所需时间的乘积。
渐进符号
O符号:渐进上界(最坏情况)。用O(g(n))表示,其中g(n)是算法运行时间的一个上界。例如,如果一个算法的时间复杂度是O(n),那么它的运行时间不会超过n的线性函数。
Ω符号:渐进下界。用Ω(g(n))表示,其中g(n)是算法运行时间的一个下界。如果一个算法的时间复杂度是Ω(n),那么它的运行时间至少是n的线性函数。
Θ符号:同阶。表示算法的平均情况时间复杂度。用Θ(g(n))表示,其中g(n)是算法运行时间的紧确界。如果一个算法的时间复杂度是Θ(n),那么它的运行时间在最坏情况和最好情况下都是n的线性函数。
Master方法
分而治之
(1)该问题的规模缩小到一定程度就可以解决。
(2)该问题可以分为若干个规模较小的相同问题,即该问题具有最优子结构性质。
(3)利用该问题分解出的子问题的解可以合并 ...
Hadoop基础理论问题
建议电脑端阅读
这是手机阅读教程 公告
1、集群部署规划主要修改那几个配置文件?
core-site.xml:指定NameNode的地址、指定Hadoop的存储目录、配置HDFS网页登录的静态用户名
hdfs-site.xml: nn Web访问地址、2nn Web访问地址
yarn-site.xml: 指定shuffle、指定ResourceManager的地址、继承环境变量
mapred-site.xml: 指定MapReduce程序运行在Yarn上、历史服务器端地址、历史服务器web端地址
2、集群部署规划有哪些注意事项?
NameNode和SecondaryNameNode不要安装在同一台服务器
ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。
3、集群配置常见错误及解决方案有哪些?
1)防火墙没关闭、或者没有启动YARN
INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032
2)主机名 ...
数据库加载中