MediaCrawler多平台自媒体爬虫开源项目分享
MediaCrawler 是一款开源自媒体数据采集爬虫项目,项目开源地址:https://github.com/NanmiCoder/MediaCrawler,能够一站式抓取各大自媒体平台公开内容,适合技术人员学习爬虫开发、内容数据分析使用。

一、项目基础介绍
该爬虫工具适配市面上主流自媒体、社区平台,覆盖小红书、抖音、快手、B站、微博、百度贴吧、知乎,可批量抓取平台公开帖子、创作者主页、评论、搜索结果等公开数据,全程不用复杂接口逆向开发,上手门槛低。
二、底层实现技术原理
核心依赖框架
项目底层采用 Playwright 浏览器自动化框架,模拟真人浏览器登录账号,并持久化保存登录会话状态,复用登录缓存避免重复扫码登录。
免JS逆向核心方案
工具依托已登录完成的浏览器上下文,直接执行JS表达式提取接口所需签名、加密参数,不用手动逆向各平台复杂加密算法,大幅降低爬虫开发与维护成本。
技术核心优势
省去繁琐的加密逆向、签名算法解析工作,新手也能快速搭建可用爬虫;浏览器模拟真人访问,相比纯接口请求,风控拦截概率更低。
三、开源版全平台功能对照表
| 平台名称 | 关键词搜索 | 指定帖子ID抓取 | 二级评论抓取 | 创作者主页批量爬取 | 登录状态缓存 | IPdai理池对接 | 评论词云生成 |
| 小红书 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 |
| 抖音 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 |
| 快手 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 |
| B站 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 |
| 微博 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 |
| 百度贴吧 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 |
| 知乎 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 |
四、MediaCrawlerPro 专业增强版核心升级
项目除免费开源版本外,同步推出 MediaCrawlerPro 付费增强版本,不仅采集能力全面升级,代码架构规范化,非常适合学习企业级爬虫项目设计思路。
1、核心采集功能升级
新增自媒体内容拆解智能Agent,自动化解析帖子图文、标签、互动数据
支持断点续爬,中断任务可恢复进度,不用重新从头抓取
完善多账号轮换机制,搭配IPdai理池降低账号封禁风险
移除 Playwright 浏览器依赖,部署、运行流程更轻量化
完整适配Linux服务器生产环境,可长期后台稳定运行
2、整体架构优化
代码全面重构,JS签名逻辑解耦分层,可读性、维护性大幅提升
遵循企业级编码规范,代码标准化,可在此基础上扩展大型采集系统
模块化分层架构,拓展新平台、新增采集逻辑成本极低,源码学习价值高
3、附加拓展配套功能
配套桌面端自媒体视频下载工具,可学习前后端全栈开发逻辑
新增各平台首页推荐信息流(HomeFeed)数据抓取能力
兼容AI自动化采集Agent:OpenClaw、Claude Code、Cursor一键接入,AI自动执行爬取任务
评论情感分析类AI Agent正在开发迭代中
五、适用学习与使用场景
1、爬虫技术学习:无需逆向加密,快速掌握浏览器自动化采集、dai理池、多账号调度、数据可视化(词云)整套流程;
2、自媒体数据分析:批量采集创作者内容、评论数据,做舆情、用户喜好、关键词分析;
3、企业级项目参考:Pro版本架构规范,适合借鉴搭建商用、大规模数据采集系统;
4、全栈项目练习:配套桌面端下载工具,可同时学习前端桌面应用+后端爬虫完整开发链路。
温馨提示
该项目仅可用于个人技术学习、公开数据学术研究,抓取平台内容请遵守各平台用户协议与网络相关法律法规,禁止批量爬取用于商用盈利、恶意爬虫干扰平台正常服务。
总结
MediaCrawler 开源爬虫覆盖主流短视频、图文社区平台,依托 Playwright 免逆向的方案降低采集开发门槛,基础采集需求开源版完全够用;如果需要服务器长期稳定采集、断点续爬、多账号调度、企业规范架构,可选择 MediaCrawlerPro 增强版本,不管是日常数据采集还是代码架构学习都具备很高实用价值。
