资源介绍
微博情感分析和爬虫
微博是中国最具影响力的社交网站之一,拥有大量的中国用户。 它的功能类似于Twitter,当我爬网时,我什至发现微博程序员也使用了Twitter的一些变量名。 因此,如果您不懂中文,则可以查看此存储库的模型设计,而无需检查已爬网的内容(推文,推文主题等) 。 进行情感分析可以将用户分类为各种类别,并将相应的广告推送给他们。 我选择进行的情绪分析是将用户分为真实用户和机器人。 根据有关微博机器人检测的大多数论文,他们使用的方法是通过对用户的各种指标(关注度,粉丝数,平均推文时间等)进行逻辑回归对用户进行分类。 我认为这种方法的准确性不高,并且对于不同的测试集不稳定。 此类任务需要NLP模型的帮助,因为bot和真实人之间的最大区别是他们编写推文的行为和习惯。
请看一下这些colab笔记本:
以及
模型输入输出的结构
Input
│── User information me
- 上一篇: 非常实用的 java 多线程 网络 爬虫 (非常适合正学习网络爬虫的初学者)
- 下一篇: 简单网络爬虫