分享

大数据和抓取如何帮助评估新闻准确性【过滤假新闻、谣言】



1.png

近年来,关于假新闻的报道很多。在大流行病和俄乌战争等事件的推动下,这个话题的重要性达到了令人难以置信的程度。随着公开可用的大型语言模型的出现,假新闻的制作时间可能会减少,从而使这个问题更加紧迫。

不幸的是,手动检测假新闻需要对手头的主题有一定的专业知识,因此对于大多数人来说,识别不准确和误导性的内容是不可能的。不可能每个人都成为任何方面的专家——我们或许能够很好地理解地缘政治,但同一个人不太可能在医学方面具有同样的资格,反之亦然。

然而,定义假新闻将是一个很好的起点。有几项研究表明,即使在学术研究中,也没有就单一定义达成一致。然而,在我们的案例中,我们可以将假新闻定义为伪装成信誉良好但真实性低且在呈现特定叙述时具有高度欺骗意图的报告。

另一个鲜为人知的话题是新闻偏见。一些报道本身可能不是假新闻,但可能提供了对事件的高度具体的解释,这与事实不准确非常接近。虽然这些可能没有那么有害,但在很长一段时间内,它们可能以过于消极或积极的方式代表重要事件,并以某种方式扭曲公众的看法。

这两个问题都可以通过使用网络抓取和机器学习来部分解决。前者可以让我们从新闻来源收集到数量惊人的信息,而后者可以对内容的真实性和情感进行评估。

开始假设
我认为,当我们考虑新闻倾向及其真实性时,情绪分析很重要,原因有几个。首先,报道纯粹的事实被认为是无聊的,而且虽然真实,但通常不会引起大量关注。我们可以看到,即使在信誉良好的新闻来源中,标题中的点击诱饵仍然非常多。

因此,大多数新闻来源,无论是否有信誉,都倾向于通过在标题中加入各种情绪化的词语来建立引人注目的标题。然而,大多数时候,假新闻或那些有强烈意图对事件提供特定解释的人会使用明显更情绪化的语言来引起关注和点击。

此外,我们通常可以将新闻倾向定义为过度使用情感语言来对事件进行特定的解释。例如,有政治倾向的媒体通常会报道一些以负面的眼光描绘反对党的新闻,并带有一些额外的情感色彩。

还有一个主题我不会涉及,因为它在技术上有些复杂。一些新闻来源完全不发布具体新闻,无论是真假,这样做会扭曲受众的世界观。绝对可以使用网络抓取和机器学习来发现错过特定事件的网点,但是,这是一个完全不同的问题,需要不同的方法。

最后,在创建高级模型时可以做出一个重要的区分——区分有意和无意的假新闻。例如,最近的土耳其地震很可能有一些与事实不符的报道,这在很大程度上是由于该事件造成的震惊、恐怖和巨大的痛苦。此类报告大多是无意的,虽然并非完全无害,但它们并不是恶意的,因为其目的不是欺骗。

然而,最令人感兴趣的是故意的假新闻,其中某些一方别有用心地散布错误信息。这样的新闻对社会确实是有害的。

如果我们想要非常准确地区分这些类型的假新闻可能会很困难,但是,创可贴解决方案可能是过滤掉最近发生的事件(例如,不到一周前的事件),因为大多数无意的报道会在某事发生后不久出现发生。

通过机器学习寻找新闻倾向
当我们想要发现新闻文章中的倾向时,情感分析是必经之路。在开始之前,应该收集大量文章,主要来自信誉良好的来源,以便为常规文章中的情绪建立一个体面的基线。

这样做是必要的步骤,因为任何新闻来源,无论多么客观,都可以在没有某种情感的情况下创建文章。几乎不可能写出引人入胜的新闻报道并避免使用任何表达某种情绪的语言。

此外,一些事件自然会把作家拉向特定的词语选择。例如,死亡几乎总是以一种避免对该人产生负面情绪的方式来书写,因为这样做通常被认为是一种礼貌。

因此,为了做出正确的预测,建立基线是必要的。幸运的是,有许多公开可用的数据集,例如EmoBank或WASSA-2017。然而,应该注意的是,这些主要用于较小的文本片段,例如推文。

但是,没有必要为情绪构建内部机器学习模型。事实上,有许多很棒的选项可以为您完成所有繁重的工作,例如Google Cloud Natural Language API。此外,他们的机器学习模型的准确性令人惊叹,因此可以依赖任何情绪分析。

对于数据解释,任何远远超出既定基线的文章都应该引起怀疑。可能存在误报,但是,更有可能的是提供了对事件的特定解释,这可能并不完全真实。

检测假新闻
仅靠情绪并不能提供足够的数据来决定某些报道是否真实,因为还必须评估新闻文章及其来源的更多方面。当试图在互连数据点的复杂网络上做出决策时,机器学习非常有用。它具有明显的优势,即我们不必定义区分合法新闻和假新闻的具体因素。机器学习模型只是简单地获取数据并学习其中的模式。

因此,网络抓取可用于从各种网站收集大量数据,然后相应地对其进行标记。虽然有针对此类用例的预定义数据集,但它们非常有限,并且可能不像人们预期的那样与新闻周期保持同步。

此外,由于新闻文章主要是基于文本的,因此从中提取足够的数据不会成为问题。然而,标记数据可能会稍微复杂一些。我们必须清楚自己的偏见才能提供客观的评估。所有数据集都应该由其他人仔细检查,因为简单的错误或偏见可能会产生有偏见的模型。

可以再次使用情绪分析来消除任何错误。正如我们之前假设的那样,假新闻将更多地使用高度感伤的语言,因此,在标记数据集之前,可以通过 NLP 工具运行文章并考虑结果。

最后,准备好数据集后,需要做的就是通过机器学习模型运行它。正确执行此操作的一个关键部分是选择正确的分类器,因为并非所有分类器都表现得同样好。幸运的是,出于完全相同的目的,已经在该领域进行了学术研究。

简而言之,研究作者建议选择 SVM 或逻辑回归,前者的结果稍好,但在统计上并不显着。尽管应该注意的是,除了随机梯度分类器之外,大多数表现几乎一样好。

结论
假新闻分类器通常被归为学术练习,因为为合适的模型收集足够多的文章非常困难,因此许多人转向公开可用的数据集。然而,网络抓取可以完全解决这个问题,使假新闻分类器在实践中更加真实。

因此,这里简要介绍了如何使用网络抓取来检测假新闻:

假新闻可能更情绪化,涉及紧迫的话题,并且具有高度的欺骗意图。情绪和情绪是最重要的部分,因为这通常是提供事件解释的方式。
一篇文章的情感价值可以通过情感分析来评估,使用谷歌 NLP 等广泛可用的工具,或者通过使用 Emobank 等数据集创建机器学习模型。
需要考虑的重要一点是事件的新近度,因为这些事件可能在没有特别欺骗意图的情况下报告不准确。
经过训练的模型可用于评估上述所有因素,并比较媒体渠道中性质相似的文章以评估准确性。





------------------我的底线------------------------
中文版ChatGPT
https://chat.aboutyun.com/

加微信赠送Chat GPT教程:





获取更多资源:
领取100本书+1T资源
http://www.aboutyun.com/forum.php?mod=viewthread&tid=26480

大数据5个项目视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=25235

名企资源、名企面试题、最新BAT面试题、专题面试题等资源汇总
https://www.aboutyun.com/forum.php?mod=viewthread&tid=27732


没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条