CSDN文章导出md并迁移至博客园

🕗 发布于 2024-09-26 07:51

一、获取所有文章地址

1.进csdn首页，点击自己的头像

2.在个人主页界面，按F12打开控制台，并找到network，找到get-business开头的请求，右键copy他的url

3.选择console,输入一下代码，其中fetch里面的url是你刚才复制的地址，并把里面的size改为100(这个是返回的文章内容数，上限为100)，page是页码数，如果你的文章数大于100，那么后面的请求需要将page=1改为2,3,4...一直到你请求完所有的文章，这里以page=1,size=100请求的数据来进行处理：

fetch('https://blog.csdn.net/community/home-api/v1/get-business-list?page=1&size=100&businessType=blog&orderby=&noMore=false&year=&month=&username=qq_35204012')  
  .then(response => {  
    if (!response.ok) {  
      throw new Error('Network response was not ok');  
    }  
    return response.json(); // 假设服务器响应的是JSON格式的数据  
  })  
  .then(data => {  
    console.log(data); // 处理并显示响应的数据  
  })  
  .catch(error => {  
    console.error('There has been a problem with your fetch operation:', error);  
  });

执行后的结果：

可以看到，这里打印了一百篇博文数据

4.将鼠标放在list上并右键copy object

5.将内容去掉[]后复制到脚本的data里面，data是一个列表，里面包含若干字典，注意格式(需要将所有的false替换为False,true替换为True),根据自己的博文数量，修改page的值，找到所有的文章信息复制到脚本的data数据里面

二、使用脚本进行采集

注意：需要将所有文章全部开放，不能有付费或者VIP文章，需要将data里面的内容替换为你自己的，记得在脚本目录创建一个md文件夹用来放md文件

import pandas as pd
import requests

import html2text

data = [
{
        "articleId": 139602661,
        "title": "微信AI机器人使用说明-2024本地部署版(非wechaty)",
        "description": "微信机器人实现的功能，先看视频的演示效果：2024年最新稳定的本地部署AI微信机器人使用方法演示可以对话可以语音可以绘画支持主账号管理好友权限管理。",
        "url": "https://blog.csdn.net/qq_35204012/article/details/139602661",
        "type": 1,
        "top": True,
        "forcePlan": False,
        "viewCount": 1581,
        "commentCount": 0,
        "editUrl": "https://mp.csdn.net/console/editor/html/139602661",
        "postTime": "2024-06-11 16:31:56",
        "diggCount": 34,
        "formatTime": "2024.06.11",
        "picList": [
            "https://img-blog.csdnimg.cn/img_convert/cf52fbe57e404f30babcdda6f1ef2c08.png"
        ],
        "collectCount": 6
    }
]


def html_to_md(html_content, output_file):
    """
    将HTML内容转换为Markdown，并保存到指定的文件。

    :param html_content: str, 要转换的HTML内容
    :param output_file: str, 输出的Markdown文件名(包括路径)
    """
    # 创建一个html2text转换器对象
    h = html2text.HTML2Text()
    # 使用转换器的handle方法将HTML转换为Markdown
    md_content = h.handle(html_content)

    # 将转换后的Markdown内容写入文件
    with open(output_file, 'w', encoding='utf-8') as f:
        f.write(md_content)


if __name__ == '__main__':

    url_list = [{'url': item['url'], 'title': item['title']} for item in data]
    # 解析地址
    base_url = 'https://www.helloworld.net/getUrlHtml?url='
    # 解析错误的url
    err_list = []
    for item in url_list:
        try:
            print(item['url'])
            res = requests.get(base_url + item['url'])
            content = res.json().get('html')
            title = item['title']
            print(title+'已完成')
            # 调用函数，将HTML转换为Markdown并保存为文件
            html_to_md(content, os.path.join('md', f'{title}.md')

) except Exception as e: print(e) err_list.append(item['url']) if err_list: print(err_list) df = pd.DataFrame([{'name': err_list}]) df.to_csv('err.csv', index=False)

导出的结果如下：

三、博客园上传文章

1.选择导入文章，也可以在随笔里面上传md

2.选择自己的markdown文件

3.编辑随笔或文章

4.拉取图片，许多文章他是有图片的，图片如果有防盗链的话就没办法显示，所以需要手动拉取一下图片

5.拉取成功后，发布即可！

原文地址：https://blog.csdn.net/qq_35204012/article/details/142504118

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Python的Pandas库学习指南
下一篇：react crash course 2024(2) 创建项目及vscode插件

[SDX35]SDX35 dtsi配置GPIO_108不生效问题分析及解决方案
SDX35设备是一种多模调制解调器芯片,支持 4G/5G sub-6 技术。它是一个4nm芯片专为实现卓越的性能和能效而设计。它包括一个 1.9 GHz Cortex-A7 应用处理器。
阅读更多2024-11-06
MFC图形函数学习06——画椭圆弧线函数
绘制椭圆弧线函数是MFC基本绘图函数，这个函数需要的参数比较多，共四对坐标点。前两对坐标点确定椭圆的位置与大小，后两对坐标确定椭圆弧线的起点与终点。
阅读更多2024-11-06
数据分析的基本过程
数据分析是一个复杂但极具潜力的过程。通过明确分析目标、有效采集和处理数据、利用可视化技术探索数据，并通过科学的建模方法分析数据，企业可以从中获得关键的商业洞察。在这过程中，获得行业认可的认证如CDA（
阅读更多2024-11-06
前端根据模版生成PPT
前端开源生成PPT的工具：PptxGenJS。
阅读更多2024-11-06
C#实现傅里叶变换算法
在C#中实现傅里叶变换（Fourier Transform）算法，通常有两种主要的方法：自己编写实现代码，或者利用现有的数学和信号处理库。由于傅里叶变换算法涉及复杂的数学运算，特别是快速傅里叶变换（F
阅读更多2024-11-06
STM32G4 拉高boot0后usb无法进入dfu模式
在一次使用网页通过dfu输入固件时出现异常，拔掉板子后再次按下boot按键再也无法进入dfu模式，另外一块板子一切正常，通过st-link将正常板子中flash的应用程序全部读出后写入有问题的板子中，
阅读更多2024-11-06
【51单片机】DS1302实时时钟
【51单片机】DS1302实时时钟
阅读更多2024-11-06
青训1_1105_02 DNA序列编辑距离(动态规划_不好理解)
左->右，只有增加、删除、替换。
阅读更多2024-11-06
(一)＜江科大STM32＞——软件环境搭建+新建工程步骤
江科大stm32入门教程资料/固件库/STM32F10x_StdPeriph_Lib_V3.5.0/Libraries/CMSIS/CM3/Devicesupport/ST/STM32F10X/sta
阅读更多2024-11-06
python基础学习笔记
注意: 和C/C++ 等语言不同, Python 变量的类型不需要显式指定, 而是在赋值的时候确定的.a = 101. = 为赋值运算符, 表示把 = 右侧的数据放到 = 左侧的空间中.2. a 为变
阅读更多2024-11-06

CSDN文章导出md并迁移至博客园

相关文章