巴以冲突,百万微博网友怎么看?
通过对微博评论区的留言进行词频和情感倾向分析,我们或许可以找到一些答案。2.词频分析利用Python爬取巴勒斯坦国驻华大使馆微博评论,时间跨度为2023年10月7日至2023年11月30日,获得16308条有效评论。用同样方法获取以色列驻华大使馆微博评论数排名前十及点赞数排名前十的17365条评论,利用“微词云”进行分词处理和词...
Python轻松爬取微博热门话题,揭秘文章背后!
根据获取到的话题ID,可以通过微博API接口或者爬虫程序获取该话题下的微博列表。可以设置查询时间、数量等参数,获取指定时间段内的微博列表。3.解析微博内容对于每条微博,需要解析其内容、发布时间、点赞数、评论数、转发数等信息。可以使用Python的BeautifulSoup或者正则表达式进行解析。4.情感分析通过对...
我们开发了一个“微博评论脱水器”,给各位明星挤挤水
这些大量充斥在评论区的模式化表白内容,虽然营造了一片和谐的评论场面,却将网友真实的观点淹没,丧失了正常评论所能展现的真实感与多样性。我们可以将此理解为流量明星“数据注水”行为的一部分。为了观察和研究微博上的“注水评论”,DATAMUSE选择了一些微博账号,爬取了他们各自微博下的10000条用户评论,计算出了他们每...
没有红毯但有400万次线上讨论:数据解读这届上海电影节的特别气质
无数影迷梦想着再次回到哈利波特的魔法世界,有网友评论:“我的2001-2011魔法记忆全部回来了!”。而“国际”和“疫情”也是热度较高的关键词。作为2020年首个A类国际电影节,本届上影节意味着中国电影市场走出漫长寒冬的开始,“疫情时期的电影价值”也是热议的话题。此外,还有展映、红毯、大师等高频词,体现了网友们...
对知乎16W+问题进行文本挖掘,发现了这些秘密
在知乎上,如果说话题属于宏观层次,能反映某一领域大的架构和总体趋势,那么,问题则属于相对微观的层次,能够从用户群中挖掘更为具体、粒度更细的兴趣或需求(点击下方图片即可放大)。在这里,笔者抛出一个假设:各个话题下的热门问题会对其关注用户产生认知上的影响,挖掘热门内容就能预判用户群感兴趣的内容倾向。要理解...
“原生家庭”成热词:变迁中的个体与家庭关系再思考|特别策划
为了研究社交媒体用户对原生家庭的态度,我们爬取了“原生家庭能决定一生吗”话题下的12条高评热门微博(具体微博详见文末注)的两万多条评论(包含表情包),并做成了词云图(www.e993.com)2024年11月17日。挑选时去除了仅以“原生家庭”作为由头、关联不大的微博。微博的发布者有主流媒体,如人民日报、新京报等,有新浪新闻官方微博帐号“头条新闻”,...
爬虫最爱扒的50家网站:一份赤裸裸的《中国焦虑图鉴》
(以上数据不一定和现实吻合,只是展现一个逻辑。具体操作也会更复杂。)还有更骚的么?有的。你家爱豆不是经常在微博上发红包么?好的,我率十万僵尸粉去抢。凭本事抢来的红包,就问你有什么不妥吗?3、排名第三的是电商你回忆一下,有几种东西叫做“比价平台”“聚合电商”和“返利平台”。他们大体都是一...
数据爬虫、眼动追踪、脑电测量、认知神经传播学丨这些名词GET!
案例:微博热点话题的数据挖掘1研究方法和对象(1)抓取方法:网络爬虫+API+滚雪球抓取采用爬虫技术通过新浪微博API(ApplicationProgrammingInterface)接口进行数据抓取,从新浪微博“名人堂”的各个子栏目中,随机选取10个用户作为种子用户,加入爬虫工作列表;然后,取随机采样策略,从“朋友”列表中随机选择50名用户...