微博最嘴臭的博主,把网友彻底喷破防了
评论罗伯特这个回复机器人,其实也是微博通过爬取自家用户发布的公开内容,经过大模型训练后推出的。而微博的内容质量,经常冲浪的机友估计比我更清楚。不能说它没有高质量内容。但咱们平时确实能看到,有不少阴阳怪气的内容和抽象语录被发到微博。导致网友们看到可爱的微博表情,都会觉得有阴阳怪气的味儿。而用着...
巴以冲突,百万微博网友怎么看?
利用Python爬取巴勒斯坦国驻华大使馆微博评论,时间跨度为2023年10月7日至2023年11月30日,获得16308条有效评论。用同样方法获取以色列驻华大使馆微博评论数排名前十及点赞数排名前十的17365条评论,利用“微词云”进行分词处理和词频分析,删去无用词后制作出词云和热词Top30排行榜。通过对巴勒斯坦驻华大使馆和以色列驻...
年轻人的苦,寺庙都清楚
我们将三条热门微博下的一级评论爬取下来,经过筛选,最终得到关于“年轻人为什么爱上寺庙游”的有效回答共1126条。通过归纳,总结出这届年轻人去寺庙的动机有:寻求精神寄托、生活不顺、求佛、寻求清净、观光、缓解压力、热爱寺庙文化、宗教信仰、经济实惠、跟风、疫情放开。图6年轻人钟爱寺庙的原因李梦(化名):“做...
老乡鸡公开20万字菜品溯源报告,彻底“开源”看完你还敢吃吗?
2023年6月19日21时10分,用户“飞燕走壁”发布一则抖音视频,内容为“头一次见吵胖东来的人”据胖东来调查报告描述,视频长度为54秒,内容显示是在时代超市称重台,顾客全程大声呵斥一名男员工,言辞激烈,包含伤人话语以及手部直指动作。期间员工有简短话语回复、被值班班长劝阻,只是低头没有发声,旁边有几名其他员工进...
我们开发了一个“微博评论脱水器”,给各位明星挤挤水
为了观察和研究微博上的“注水评论”,DATAMUSE选择了一些微博账号,爬取了他们各自微博下的10000条用户评论,计算出了他们每个人整体的微博评论“注水量”。你可以看到各类微博账号的“注水量”排名这里有流量明星,也有“正常”大V作为对比参考。相较于普通的微博账号,流量明星的评论区确实具有庞大的“注水量”...
Python轻松爬取微博热门话题,揭秘文章背后!
微博话题是由用户发起或参与的关于某个主题的讨论(www.e993.com)2024年11月17日。一个话题通常由一个或多个关键词组成,在微博平台上以“#”符号为前缀和后缀表示。例如,“#世界杯#”就是一个常见的微博话题。二、为什么要爬取微博话题文章爬取微博话题文章可以帮助我们了解当前热门话题下用户的观点和情感倾向,掌握公众舆论动向,收集有用信息...
分析30万条微博评论,看毕业生与翟天临的爱恨情仇
上述第二阶段中的评论用户,既不是来吃瓜的,也不是看到热搜来凑热闹的,他们是真正被论文困扰而来宣泄怒火的。因此我们爬取了他们在个人主页中填写的学校信息,发现以下学校的学生吐槽频次较高,这些学校很有可能调整了查重率或者提高了其他通过标准。我们随机搜索了其中几个大学,发现也确实有该学校的学生在吐槽论文难...
极端天气对大众能源意识的影响——以微博数据为例
1.数据爬取根据我们的实际观察以及采访讨论发现,微博用户进行意见发表的途径分为原创微博和评论微博两种,且后者的比例略高于前者,因此为了更全面的研究大众的意见看法,我们计划获取微博博文和微博评论两种类型的有关数据以覆盖所有意见渠道。在微博博文方面,我们需要的数据主要是网络用户关于近期由于极端天气而引发的...
基于微博大数据语义分析的情绪地图构建研究——以深圳市为例
通过高德地图建立覆盖深圳市10个研究区的数据采集点坐标库,参考过往研究确定边长为1km的公里网络即可保证在较为合理的计算量上获取全市微博。本研究以2km为空间搜索半径,利用网络爬虫技术对移动端的用户ID、用户名、发布时间、签到经纬度、POI地址以及微博文本进行爬取,时间为2017年12月1日——31日,获得初始实验数...
已经厌倦了微博公众号?教你玩转经典的RSS订阅
其实这反而是RSSHubRadar的价值所在。RSSHubRadar之所以叫这个名字,是因为它支持“RSSHub”这个项目,RSSHub通过一些爬取规则,可以为不支持RSS的网站也生成RSS订阅内容。只要RSSHub上有人提供了某个网站的规则,那么这个网站即使本身不支持RSS,也可以生成RSS源,非常给力。