Ldyer正在加载中~

爬虫：古诗爬取

发表于2024-03-29|更新于2025-11-17|爬虫

|总字数:364|阅读时长:1分钟|浏览量:

内容

访问古诗文网站名句主页（https://so.gushiwen.cn/mingjus/）
爬取里面的名句和出处（包括链接）保存到一个文本文件poems.txt中去。每个名句占用一行，内容格式如下：

编号(从1开始，占3位做对齐)：名句--出处(全诗链接)
空两格（诗句的译文注释和赏析）

环境准备

确保已经安装了以下Python库：

requests
beautifulsoup4

可以使用以下命令安装：

1	pip install requests beautifulsoup4

代码

from bs4 import BeautifulSoup as BS
import requests

# 变量
rank = 0
temp_line2 = ''
fs = open("诗词.txt", 'w', encoding='utf-8')

# 获取名句页面内容
soup = BS(requests.get("https://so.gushiwen.cn/mingjus/").content.decode("utf-8"), "lxml")
content = soup.select('body > div.main3 > div.left > div.sons > div.cont')

for i in content:
    # 诗词出处、网址
    str = i.find_all('a')
    url = 'https://so.gushiwen.cn' + i.find('a')['href']
    temp_soup = BS(requests.get(url).content.decode("utf-8"), "lxml")
    
    # 诗词翻译内容
    temp_content = temp_soup.select('#sonsyuanwen > div.cont > div.contson')
    for x in temp_content:
        temp_line1 = x.text.split('\n')
        for z in temp_line1:
            temp_line2 += "  " + z + '\n'
    
    line2 = temp_line2[:-1]  # 去掉最后一个换行符
    temp_line2 = ''
    poem = str[0].text
    if len(str) == 1:
        poet = "没有出处"
    else:
        poet = "出自" + str[1].text
    
    rank += 1
    line1 = f"{rank}: {poem}--{poet}({url})"
    
    fs.write('{0:>3}'.format(line1) + '\n')
    fs.write(line2)

fs.close()

结果展示

原创爬虫：古诗爬取

文章作者: Ldyer

文章链接: https://ldyer.top/2024/03/29/%E5%8F%A4%E8%AF%97%E7%88%AC%E5%8F%96/

版权声明: 转载前请认真阅读本站版权协议，文章采用 CC BY-NC-SA 4.0 许可协议

🧧赞助

微信打赏
支付宝打赏

相关推荐

【扩展发布】爬取任意B站评论区所有评论！

适用于Edge的浏览器扩展，一键获取B站评论区内所有数据，包括IP地址、用户等级、大会员状态等等，无需编程环境，上手即用。

B站评论爬取(IP地址、内容、大会员、性别等等)教程

2025年9月24日更新：目前B站对爬取速度进行了进一步的限制，各位如果遇到了反爬干扰，建议加入IP池或者适当降低爬取速度，如果你只是想获取评论数据，可以参考本人新发布的Edge插件，无需代码环境，直接在浏览器上对评论进行爬取与导出，而且基本上不会受到反爬机制的干扰： ✅来自本站，本站可确保其安全性，请放心点击跳转【扩展发布】一键导出B站评论区所有评论！ ldyer 前言🐈 用于爬取Bilibili（B站）视频评论的爬虫，支持爬取一级评论及二级回复，并将数据导出为CSV文件。通过输入视频的BV号，脚本会自动获取视频信息并抓取相关评论，包含用户基本信息、评论内容、IP属地、头像、会员、等级等字段。🦄🦄 🐨Github项目地址：bilibili-comment-crawler 🐒CSDN项目地址：利用Request通过bv号爬取B站指定视频下所有评论（IP地址、大会员、等级、一二级评论等等)，附带源码和教程 🐼博...

Steam游戏测评爬虫

开源！两阶段 Steam 测评爬虫超实用，自动爬评测 + 用户信息存 MySQL，附详细配置，轻松搞定数据采集！

【扩展发布】一键导出小红书任意笔记/视频下的一级评论

适用于Edge的浏览器扩展，一键获取小红书笔记下所有的一级评论，内容包括用户公开的（用户ID、用户名、性别、年龄、星座、发表日期、主页IP、评论IP、评论内容、点赞数量、回复数量、用户简介、关注、粉丝、获赞与收藏、笔记数量）

【扩展发布】一键导出微博下所有评论信息！

“一键导出所有微博评论”浏览器扩展的安装与使用流程：在 Edge 商店安装后，登录微博并进入目标微博详情页，点击扩展面板即可逐条抓取全部评论，支持暂停、继续与 CSV 下载，文件名含博主昵称和日期。作者解释了 Chrome 未上架原因、限速防封机制及评论数偏差的平台因素，并强调工具仅限博主本人或获授权者用于自助分析与学术研究，必须对数据脱敏，禁止骚扰、商用或训练 AI，违者自负法律责任。

微博评论爬取

现已推出Edge微博评论爬取扩展，无需编程环境，就可直接在浏览器中一键爬取微博评论：【Edge扩展发布】无需代码环境，一键导出微博下所有评论信息！ 1. 项目简介✍🏻 本项目👀是基于Python开发的微博评论采集工具，支持深度获取微博评论数据及多维用户画像。通过逆向解析微博URL参数，实现短链到博文ID的精准转换，采用递归算法抓取多级嵌套评论（含二级回复）。系统整合微博开放接口，可提取30+用户属性，涵盖基础信息（性别👩、年龄、星座⛎️）、社交行为（粉丝量、互动量）、认证状态（黄V/企业认证）、信用等级、IP属地及教育职业背景🎓 等维度。数据以结构化CSV格式存储，包含评论内容、点赞数、用户粉丝等级等字段，适用于舆情分析、用户行为研究等场景。通过Cookie认证机制保障请求合法性，内置0.5秒/次的请求间隔防止反爬，为社交媒体数据挖掘提供高效合规的解决方案。 🐨Github项目地址：weibo-comment-crawler 🐒CSDN项目地址：基于Request爬取微博所有评论（一二级评论、楼中楼）和用户信息（IP地址、简介、粉丝牌、微博认证、年龄、星座、学历...

💬评论

微信图标

翻转卡片~

查看我的联系方式

如有事情

请扫一扫🔎

添加微信好友

二维码

数据加载中