Butterfly:为你的侧边栏加上翻转微信名片
超酷!Butterfly 博客侧边栏翻转微信名片教程来啦,无需 P 图,3 步配好悬停翻转效果,轻松展示联系方式!
贴吧每日自动签到脚本(基于DrissionPage)
懒人福音!基于 Python DrissionPage 编写、运行于 Github Action 的贴吧每日自动签到脚本,含准备工具、Fork 仓库、配置 Cookie 与 Server 酱通知等步骤,还解析源码原理,无需服务器与成本,可定时签到并微信推送结果。
Steam游戏测评爬虫
开源!两阶段 Steam 测评爬虫超实用,自动爬评测 + 用户信息存 MySQL,附详细配置,轻松搞定数据采集!
“协和4+4”事件的舆情数据采集与可视化
1. 事件起因 关于协和医学院“4+4”培养模式与争议的总结(由DeepSeek-R1生成) 1.1 事件背景 “4+4”培养模式: 北京协和医学院于2018年启动“临床医学专业培养模式改革试点班”(简称“4+4”),旨在通过“4年非医学本科教育+4年医学教育”培养多学科背景的医学人才。该模式模仿美国医学教育体系,但国内选拔标准模糊,引发争议。 董袭莹事件: 当事人董袭莹本科就读哥伦比亚大学巴纳德学院经济学专业,通过“4+4”项目进入协和医学院,仅用4年完成医学博士学业,并快速晋升为中日友好医院胸外科医生。其跨专业背景、论文篇幅过短(仅30页)、临床能力不足(如心电图误判率23%)等问题被曝光,且家庭背景与院士导师邱贵兴的潜在关联引发特权质疑。 1.2 争议焦点 选拔机制不透明: “4+4”要求报考者来自“国内外顶尖高校”,但实际操作中被质疑为特权通道。例如,董袭莹的本科院校巴纳德学院QS排名未达协和招生简章标准,部分学生通过海外“野鸡大学”学历绕过国内高考竞争。 传统医学生需经历高考、硕士/博士考试及规培,而“4+4”学生通过推荐制入学,缺乏公开考试和公平竞争。 ...
微博评论爬取
1. 项目简介✍🏻 本项目👀是基于Python开发的微博评论采集工具,支持深度获取微博评论数据及多维用户画像。通过逆向解析微博URL参数,实现短链到博文ID的精准转换,采用递归算法抓取多级嵌套评论(含二级回复)。 系统整合微博开放接口,可提取30+用户属性,涵盖基础信息(性别👩、年龄、星座⛎️)、社交行为(粉丝量、互动量)、认证状态(黄V/企业认证)、信用等级、IP属地及教育职业背景🎓 等维度。 数据以结构化CSV格式存储,包含评论内容、点赞数、用户粉丝等级等字段,适用于舆情分析、用户行为研究等场景。通过Cookie认证机制保障请求合法性,内置0.5秒/次的请求间隔防止反爬,为社交媒体数据挖掘提供高效合规的解决方案。 🐨Github项目地址:weibo-comment-crawler 🐒CSDN项目地址:基于Request爬取微博所有评论(一二级评论、楼中楼)和用户信息(IP地址、简介、粉丝牌、微博认证、年龄、星座、学历、公司、注册日期、点赞、关注、评论、转发数等)附带源码与教程 🐼个人博客教程地址:基于Request的微博评论爬取教程 相关爬虫🦊:B站评论爬...
B站评论爬取(IP地址、内容、大会员、性别等等)教程
前言🐈 用于爬取Bilibili(B站)视频评论的爬虫,支持爬取一级评论及二级回复,并将数据导出为CSV文件。通过输入视频的BV号,脚本会自动获取视频信息并抓取相关评论,包含用户基本信息、评论内容、IP属地、头像、会员、等级等字段。🦄🦄 🐨Github项目地址:bilibili-comment-crawler 🐒CSDN项目地址:利用Request通过bv号爬取B站指定视频下所有评论(IP地址、大会员、等级、一二级评论等等),附带源码和教程 🐼博客教程地址:B站评论爬取(IP地址、内容、大会员、性别等等)教程 1. 数据样例🤪 2. 功能特性 多级评论爬取:支持爬取一级评论及二级回复。 用户信息采集:包括用户ID、用户名、等级、性别、IP属地、大会员状态等。 自动分页处理:自动遍历所有评论页,无需手动分页。 反爬机制处理:使用时间戳和MD5加密生成请求参数,降低被封禁风险。 数据导出:结果保存为CSV文件,兼容Excel和数据分析工具。 3. 快速开始 步骤1:配置Cookie 登录B站,然后按F12打开开发者模式,点击网络,在搜索框中搜...
实现微博话题趋势查询接口
简介 本教程介绍如何使用 Node.js 搭建一个简单的 HTTP 服务,基于 Express 和 Axios 提供一个可以查询微博话题趋势的接口。用户可以通过 GET 请求指定关键词(search)和时间范围(time)获取相关数据。 功能概述 技术栈:Express.js(搭建服务器)、Axios(发起 HTTP 请求) 核心功能:实现一个 GET 接口 /search,通过 search 参数指定查询话题,通过 time 参数控制时间范围(如 1小时、1天、7天、30天)。 API 源地址:接口将数据请求重定向到微博的 AJAX 接口 https://m.s.weibo.com/ajax_topic/trend。 代码结构 导入模块 12const express = require('express'); // Express.js 用于搭建 Web 服务器const axios = require('axios'); // Axios 用于发起 HTTP 请求 配置服务器 1.创建 Express 实例 2.定义服务...
复制栏
Github 推送复制模版 在 GitHub 新建空仓库 登录 GitHub → New repository → 取一个名字,如 myproject → 直接点击 Create repository,(不要勾选 README、License)。页面会给出两段提示,保留备用。 进入本地项目目录并初始化 1cd /path/to/myproject 初始化本地仓库、把当前目录所有文件加入暂存区、提交到本地仓库 1git init 1git add . 1git commit -m "first commit" 关联远程并推送 将下面命令中的 YOUR_USERNAME 和 myproject 换成自己的。 把默认分支重命名为 main(GitHub 默认) 1git branch -M main 1git remote add origin url 1git push -u origin main 后续的推送 拉取并自动尝试合并 12345git pull origin main``` **如...
Hbase学习笔记
一、HBase 简介 HBase 是一个分布式、可扩展的列式存储数据库,基于 Google 的 Bigtable 设计构建。它是 Hadoop 生态系统的一部分,主要用于处理海量的结构化数据。与传统的关系型数据库不同,HBase 采用列存储而不是行存储,这使得它非常适合处理大量的稀疏数据,并且支持快速随机访问。 1.1 HBase 的特点: 分布式架构:HBase 运行在集群模式下,数据被分布在多个节点上,实现了高可用性和容错能力。 横向扩展性:可以根据需求增加节点,扩展存储和计算能力。 列式存储:数据按照列而非行进行存储,这对某些特定应用(如大规模分析、实时数据访问)非常有利。 高并发写入:适合高吞吐量的数据写入和实时数据处理。 无模式(Schema-less):在 HBase 中,不同的行可以有不同的列,可以灵活地存储结构化或半结构化数据。 1.2 HBase 的用途: 大数据存储:当需要存储大量的数据并能够进行高效的快速查询时,HBase 是理想的选择。例如,可以用于存储日志数据、传感器数据、社交媒体数据等。 实时数据分析:HBase 支持快速的随机读写,适合需要实时...
数仓学习日志(环境准备篇)
1.编辑xcall脚本 编辑xcall脚本,可以查看所有虚拟机的进程情况,这对后续很重要。 123456#! /bin/bashfor i in 虚拟机① 虚拟机② 虚拟机③do echo --------- $i ---------- ssh $i "$*"done 编辑完成后,输入 1xcall jps 如果正常的话,会显示每个虚拟机的进程 2.配置Hadoop 2.1准备 本人的hadoop是3.1.3,因为后续需要用到flume1.10.1与hadoop3.1.31不适配,所以将它升级到hadoop-3.3.4,升级之前,请将虚拟机进行快照保存,防止升级的时候出错。 2.2 安装hadoop-3.3.4 首先,安装hadoop-3.3.4到与hadoop-3.1.3相同的目录下,然后,把hadoop3.1.3中etc/hadoop/里的core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、workers共五个文件与hadoop-3.3.4中相同文件进行替换。 替换完成后,输入以下...

翻转卡片~
查看我的联系方式
如有事情
请扫一扫🔎
添加微信好友

数据加载中