微博数据整理

数据说明

整理了千万级的微博数据,可以做各种微博预料分析,字段非常丰富

数据最终是一个json文件,每一行都是一个小的json

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
{
"_id": {
"$oid": "5a6c0686ac7eef81e560e719"
},
"reposts_num2": "60436093",
"reposts_num1": "0",
"level1": "普通用户",
"level2": "黄V",
"zan_num2": "701237",
"zan_num1": "0",
"is_repost": "1",
"phone2": "iPhone客户端",
"address1": "",
"address2": "",
"phone1": "小虎牙iPhone 6s Plus",
"name2": "TFBOYS-王俊凯",
"name1": "可口俊凯",
"content1": "最讨厌却要表面的人",
"content2": "今天我十五岁了,#我的十五岁#有那么多的你们陪伴我,谢谢这几年来你们的一直陪伴,《给十五岁的自己》不仅是给自己的生日歌,也是送给所有支持我的你们[心][心]今天的我有你们很快乐[呵呵]王俊凯《继续》",
"comments_num1": "0",
"comments_num2": "2945980"
}

字段说明:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
_id 唯一的id号
is_repost: 是否是转发的微博
reposts_num1 : 这条微博的转发量
reposts_num2 : 原始微博的转发量
level1 : 这条微博用户的等级
level2 : 原始微博用户的等级
zan_num1 : 这条微博的赞数
zan_num2 : 原始微博的赞数
phone1 : 这条微博的手机
phone2 : 原始微博的手机
address1 : 这条微博的定位
address2 : 原始微博的定位
name1 : 这条微博用户的昵称
name1 : 原始微博用户的昵称
content1 : 这条微博的内容
content2 : 原始微博的内容
comments_num1 : 这条微博的评论数
comments_num2 : 原始微博的评论数

如果这条微博不是转发的微博,只有这条微博的相关字段,如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
{
"_id": {
"$oid": "5a6c0686ac7eef81e560e723"
},
"reposts_num2": "0",
"reposts_num1": "1",
"level1": "蓝V",
"level2": "",
"zan_num2": "0",
"zan_num1": "1",
"is_repost": "0",
"phone2": "",
"address1": "",
"address2": "",
"phone1": "微博 weibo.com",
"name2": "",
"name1": "HelloOffer",
"content1": "【#上海实习# | 雅诗兰黛集团旗下M.A.C魅可招收多岗位实习生】这是两份干货满满的实习,你不仅能够了解最前沿的美妆资讯,能享受内买等各种福利,十月中旬入职还能参与上海时装周!请尽快投递!",
"content2": "",
"comments_num1": "6",
"comments_num2": "0"
}

数据获取

数据总量有差不多2000w条

如果需要可以通过邮箱跟我联系
nghuyong@163.com