源码可以连续爬取一个或多个新浪微博用户(如胡歌、迪丽热巴、郭碧婷)的数据,并将结果信息写入文件或数据库。写入信息几乎包括了用户微博的所有数据,主要有用户信息和微博信息两大类,前者包含用户昵称、关注数、粉丝数、微博数等等;后者包含微博正文、发布时间、发布工具、评论数等等,因为内容太多,这里不再赘述,详细内容见输出部分。
6 {" c( R$ o5 p* e具体的写入文件类型如下:
+ u+ c# Q7 e+ x t0 Z8 i1)写入txt文件(默认)
( {9 \) \6 ?% X) c. q2)写入csv文件(默认)
1 D7 { ?& \9 o, G7 M3 o8 g: y3)写入json文件(可选)
. z( ]" C' s4 d5 S6 ^7 l/ |0 K3 h4)写入MySQL数据库(可选)
/ ]8 H |: H$ G. m: f5)写入MongoDB数据库(可选)5 h- v- P# p' V2 O6 z- G# j
6)下载用户原创微博中的原始图片(可选)- I& Z0 m" a/ ~6 ?
7)下载用户转发微博中的原始图片(免cookie版特有)
( m( J% o6 z0 a" k! k4 k# Y& f8)下载用户原创微博中的视频(可选)' x) |( U d; Y' p. \, P4 l
9)下载用户转发微博中的视频(免cookie版特有)( N+ I3 ?7 d) t
10)下载用户原创微博Live Photo中的视频(免cookie版特有) [' E0 a+ P8 B! l/ N( C5 Z
11)下载用户转发微博Live Photo中的视频(免cookie版特有)' ^, K$ `# y+ d9 r9 [% s
本程序分为设置用户cookie和免cookie两个版本,二者功能类似,免cookie版获取的信息更多,用法更简单,而且不需要cookie。下面以需要设置用户cookie的版本来介绍使用方法,免cookie版使用方法除了第1项,其他基本相同。
/ K) U; }0 s8 X6 K/ M i& p" f1、打开 https://m.weibo.cn/ 登录你的微博账号获取headers的 cookie ,依此点击Chrome开发者工具中的Network->Name中的weibo.cn->Headers->Request Headers,"Cookie:"后的值即为我们要找的cookie值,复制即可,如图所示:+ b' v# }! x! ~2 O
" t3 A6 Q9 }+ ?5 J2 G' u
2、下载代码到本地,修改配置文件config.json,这里说明下,user_id_list填你要分析的微博账号uid,可以填多个,如:"user_id_list": ["1223178222", "1669879400", "1729370543"],。filter为1表示分析原创微博,如果分析所有微博填0即可。since_date为从哪天的微博开始分析,然后就是把上面复制的cookie填到对应位置,免cookie版本不用填。* Y7 `8 n! `3 H6 ^# S
{
"user_id_list": ["1669879400"],
"filter": 1,
"since_date": "2018-01-01",
"write_mode": ["csv", "txt"],
"pic_download": 1,
"video_download": 1,
"cookie": "your cookie",
"mysql_config": {
"host": "localhost",
"port": 3306,
"user": "root",
"password": "123456",
"charset": "utf8mb4"
}
} 3、接着执行pip install -r requirements.txt安装以下依赖包,当然你也可以单独安装。1 i! J" [+ R& A5 R. d
requests==2.22.0
|1 u& z0 S! E7 A& E3 njieba==0.42.17 b% N6 [$ V7 d& H$ V/ e( l
wordcloud==1.6.0
3 ^$ y, N( v C' q5 E+ I V/ ^scipy==1.2.1: t. e/ T. J$ A& Y5 ?
seaborn==0.10.0
T! r7 ~6 @- V" I+ [4 wpandas8 |$ Y# y1 `8 H. Y! S6 ?3 t. K T
lxml- q* @& K0 `; J
tqdm
# ?- T6 e1 A7 v# o4、输入命令$ python weibo.py执行脚本。
1 P1 a& j3 P$ P8 X* c
/ J) n/ X8 R8 X% [, D! w2 d5、爬取的csv结果文件内容如下,其他文件类型可以在这里就不再截图。
" z) ^& q7 ~9 F! ?9 E
% \# x0 C6 q. H! c6 }0 g# J6 ]
点击下载cookie版代码 点击下载免cookie版代码# d$ o7 I( b4 V" E4 }+ \6 \
2 u8 h$ i- p9 A
|