您好,欢迎来到抵帆知识网。
搜索
您的当前位置:首页基于Python的新浪微博爬虫研究

基于Python的新浪微博爬虫研究

来源:抵帆知识网
第6期 2015年3月 N0.6 无线互联科技·计算机世界 MarCh,2015 息的语言,用于在xml文档中通过元素的属性进行导航,利用 词是“的”“是”“在”这一类词,这些词叫做“停用词”,对结 XPath可以方便在html文档中定位感兴趣的节点。 果没有帮助,需要过滤掉。 仔细观察可以发现,每条微博都以<div class=’WB 过滤掉之后,可能会有多个词出现的次数一样多,但这并 cardwrap…>作为起始,而其中的<a class=”W texta 不意味着这些词的关键性是一样的。因此,还需要一个重要 w—fb”…>节点含有昵称,<p class=”comment txt”>节点 性调整系数来衡量一个词是不是常见词。如果某个词比较少 含有微博内容,以此类推可以得到时间,转发数,评论数等 见,但是它在其中多次出现,那么它就可能就是我们需要的关 信息。 对于获取微博用户个人的信息,也是使用与此相类似 的方法。通过分析用户个人主页的源代码,可以得 ̄IJUID,和 Page—id。Page—id用于构建指向用户个^信息的URL地址,其 格式为:’http://weibo.com/p/’+page—id+’/info’。此即为 要进行分析的URL地址。 对于获取用户发表的微博这块,有一个难点。在使用浏 览器浏览用户发表的微博时,一开始不会将一页上的所有微 博都显示出来,而是当滚动到底部时自动加载,如此滚动加 键词。用统计学语言表达,就是在词频的基础上,要对每个词 分配一个 重要性 权重。最常见的词给予最小的权重,较常 见的词给予较小的权重,较少见的词给予较大的权重。这个 权重叫做 逆文档频率 (IDF),它的大小与一个词的常见程 度成反比。知道了 词频 (TF)和 逆文档频率 (IDF)以后, 将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章 的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几 个词,就是关键词。 根据这一算法思想,爬虫程序可以根据爬取的一系列微 载两次才能把一页上的微博都显示出来。获取得到的网页源 博条目,获得这些条目的关键词。引 代码同样也是不完整的,只含有每页的前十条左右,必须进行 5 结语 手动滚动才能显示完整。因此,可以采用发送HTTP请求的GET 文章分析了新浪API的一些认证,新版的API需要被 方法,构建相应的URL来模拟这一滚动过程。 搜索用户提供相应的授权,因此采用传统爬虫的方式。然后 4关键词的提取 模拟登陆、网页分析、关键词提取等三个方面介绍了如何爬取 这个爬虫程序还有一个可以对爬取到的微博内容进行分 新浪微博信息,研究用户登陆微博的过程,从网页源代码中 析,提取关键词的功能。使用TF-IDF算法来实现。TF-IDF算法 构造利于分析的DOM树并提取所需信息,运用TF—IDF算法获 的思想如下:为了提取关键词,一个容易想到的思路就是找到 取微博集中的关键词,最终实现了一个基于Python的新浪微 出现次数最多的词。如果某个词很重要,它应该在其中多次 博爬虫程序。 出现,于是,进行“词频”(TF)统计。但是,出现次数最多的 【参考文献】 【1]郭晓云.基于Python和Selenium的新浪微博数据访问【J].电脑编程技巧与维护,2012. [2]齐鹏,李隐峰,宋玉伟.基于Python的web数据采集技术[J].电子科技,2012. [3阮二峰 3]TF_IDF与余弦相似性的应用【EB/OL】.(2013-03-15).http://www.ruanyifeng.com/blog/2013/03/tf-idf.html Sina Micro blog Crawler Based on Python WU Jianlan (Jiangsu Police Institute,Nanjing 210031,China) Abstract:The advantages and disadvantages of obtaining micro-blog contrast Sina provides API and traditional crawler style,using simulated landing and Webpage analysis technology,the information stored in the database and analysis.The design and implementation of Python based on the Sina micro-blog crawler,can obtain micro-blog content and Hser information corresponding to the specified keyword. Key words:Sina micro—blog;Python;Crawler 一94— 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- dfix.cn 版权所有 湘ICP备2024080961号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务