教程

推文地理空间元数据

Twitter 的客户经常构建需要使用推文位置或推文发布用户位置的产品。例如,客户可能对某个特定地区的医疗保健立法的公众意见感兴趣,或者希望跟踪不同区域的客户满意度。或者,他们可能想要研究极端天气事件期间的社交媒体通信。

希望在其产品中使用或集成位置数据的客户在确定最适合其用途的数据类型方面面临着挑战。影响此决定的因素包括针对不同类型的数据提供的精度和准确度级别,以及在筛选不同类型的数据方面的易用性。

推文附带了哪种地理空间元数据?

Twitter 为用户提供了在发布推文时对推文“进行地理标记”的选项。此地理标记可以基于一个精确位置和/或分配有一个 Twitter 地点(请参阅此处此处了解详细信息)。Twitter 地点可被视为街区级别,它提供了一个“边界框”,其中包含定义位置区域的纬度和经度坐标。此类地理元数据被称为“推文位置”,可提供最高精度级别。推文位置无需语言分析/处理即可访问地理信息。依赖推文位置的主要缺点是,只有 1-2% 的推文使用了地理标记。此外,如果目标为非常大的区域(例如整个州或省),则需要使用大量 PowerTrack 规则来捕获整个区域。但使用 place_country:运算符便可轻松筛选特定国家/地区。此外,地点还提供了一些不错的选项,包括按国家代码或地名筛选。

地理空间元数据的第二个来源是推文内容中对位置的提及。此类“提及的位置”元数据要求分析推文消息中感兴趣的位置名称,包括别称。一篇推文可能提及曼哈顿,而另一篇则可能提及大苹果(纽约的别称)。如果你知道 Twitter 上的人如何称呼你所关心的地方,那么这些类型的推文具有相当高的易用性。你可以简单地实现关键词或短语来查找这些词语。另一方面,由于它是用户精确位置的一个不太可靠的指标,因此准确度可能较低。

最后,每项 Twitter 个人资料都有一个可由账号所有者填写的“位置”设置。这些“个人资料位置”提供了地理空间元数据的最大来源。并非每个人都提供了此信息,并且此信息可包含用户想要使用的任何短语。一个 Twitter 账号可以将其位置设置为“居住在科罗拉多山麓”,而其他账号则可以设置为不太有用的“我父母的地下室”。 这类参考具有折中的精度级别 - 它不是通过 GPS 验证的确切地理位置,而是由用户指定的位置,这额外提高了可靠性的预期。用于筛选此类数据的选项非常多,下面将对此进行讨论。

总之,地理参考推文具有三个元数据来源:

  1. 推文位置:使用精确位置或 Twitter 地点进行地理位置标记的推文。
    • 包含经度/纬度坐标的精确位置:-85.7629、38.2267
    • 包含一个名称(“路易斯维尔中心”)的 Twitter 地点和定义了“边界框”的四对经纬度坐标。
  2. 提及的位置:分析推文消息中的地理空间位置。
    • “如果你在路易斯维尔,去看看主街附近的披萨店”
    • “我在路易斯维尔,这里正下着倾盆大雨”
  3. 个人资料位置:分析账号级别的位置,以获取感兴趣的位置。
    • “我住在路易斯维尔的德比之家!”
    • “我住在路易斯维尔,它位于美丽的科罗拉多。”

有关演示如何在推文负载中提供此元数据的示例 JSON,以及如何筛选这些元数据的详细信息,请参阅这篇文章

如何使用此元数据筛选地理参考推文?

Twitter PowerTrack 提供了多种方法来筛选这些类型的地理空间元数据。这些筛选条件或规则使用 50 多个 PowerTrack 运算符构建而成(请在此处参阅完整列表)。

请参阅我们的按位置筛选 Twitter 一文,了解可用于筛选推文位置和个人资料位置的 PowerTrack 运算符。由于目前个人资料位置是 Twitter 地理元数据的最大来源,因此 Twitter 提供了个人资料地理这一增强功能。

由于个人资料地理极大地增加了地理数据量,因此,此增强功能得到了广泛采用。有关 Twitter 个人资料地理数据增强功能的简介,请参阅此处的文档。

准备好构建你的解决方案了吗?

阅读文件,然后开始吧