使用开源情报技术调查数据泄漏事件
本文将概述如何在调查中使用数据泄露和漏洞,如何找到它们,如何搜索它们以及围绕它们构建的一些便捷工具。
其中一些技术是基于Michael Bazzell的书籍“开源情报技术”的内容变化而来
在这篇文章中,我不会包含任何截图或示例,因为它们总是包含我不允许分享的个人数据。您可以使用自己的样本数据重现所有步骤以学习技术。
数据泄露是什么:
数据泄露指的是公司、网站、论坛或其他实体丢失数据,这些数据往往最终会出现在互联网上。如果一家公司意外地将用户信息数据库公开到互联网上,我们称之为泄漏;
如果黑客入侵并窃取数据库进行销售,则称其为违规。
您应该了解这些术语,因为如果您不知道,许多人都会感到沮丧。您可以通过阅读此博客(https://blog.f-secure.com/data-breach-and-data-leak-whats-the-difference/)来自我学习。对于本文的其余部分而言,这些概念并不重要。
在这篇文章中,我们主要讨论包含个人数据(如电子邮件、电话号码和密码)的泄漏和违规事件,但它们可能还包含更多有价值的数据,例如IP地址、物理地址、社会安全号码、驾照和护照扫描等。
下载地址:
现在有许多在线服务可以搜索泄漏和违规数据(稍后会讨论),但是拥有这些数据集的离线副本始终是一个优势,因为它将为您提供完整的数据而无需付费,并使您独立于那些服务。但请注意,存储它们可能很快就会消耗大量磁盘空间。
免责声明:我不是法律专家。此内容仅用于教育目的。拥有此类数据可能非法或违反公司或其他政策。在复制任何步骤之前,请阅读相关法律或联系律师。您自行承担风险。
当你搜索任何这样的数据时,它将被潜在罪犯出售。请永远不要购买这样的数据,否则你会被欺诈或者鼓励非法活动并且没有必要。当搜索此类数据时,请使用适当的OPSEC(虚拟机、VPN、加固浏览器)。毫无疑问.exe文件可能不是正确的文件
我不会指向任何链接,但以下事情可能潜在地引导您找到一些相当棒的东西:
- 像Nulled、CrackingX等某些论坛,如果你在其中搜索,它们会免费提供一些数据集。大多数情况下,你需要一个用户账户,请使用临时邮箱。正如已经提到的,请不要购买这些数据集。
- 如果一家公司发生了新的数据泄露事件,仅通过谷歌搜索通常只会得到新闻报道。相反,请尝试使用“公司名称”filetype:zip或尝试“公司名称”ext:zip进行搜索。请将此方法与多个常见文件扩展名一起使用,例如.rar、.7z、.sql、.gz和.txt。
- 这样的数据通常会在Pastebin上共享,因此值得搜索“你要查找的内容”site:pastebin.com。
- 如果某个网站给出了很多错误的结果,请使用site:annoying.com排除它。
- 在谷歌上搜索“LIUsers.7z”将会带您进入一个数据集,我们稍后会使用它。该数据集包含LinkedIn用户的用户ID和相应的电子邮件地址。
- 搜索“SnapChat.7z”将会显示一个类似的数据集,其中包含Snapchat用户名和电话号码。
- 在crackingx.com网站上搜索Gravatar,可能会出现后面讨论的被抓取的Gravatar数据库。
- 2021年,一份超过200GB的电子邮件和密码列表被编制出来。在谷歌上搜索“CompilationOfManyBreaches.7z”或“CompilationOfManyBreaches.7z” 18.65可能会有所帮助。第一个搜索结果中的h8mail帖子可能很有用(该工具将在后面讨论)。
- 现在勒索软件团伙会公开那些不愿意支付赎金的公司数据。这篇文章和相关播客已经详细介绍了此事:https://inteltechniques.com/blog/2021/07/23/personal-ransomware-exposure/。
- 公司可能会因为未对其MongoDB或ElasticSearch数据库进行任何安全保护而意外泄露数据。欲了解更多信息,请阅读https://habr.com/en/post/443132/或https://inteltechniques.com/blog/2019/05/24/the-privacy-security-osint-show-episode-123/。
正如您所看到的,Google Fu通常可以解决问题。
在获取此类数据集时,您应始终通过与各种在线来源或您或其他人的帐户进行交叉检查来验证它们是否正确。如果您继续下载所有可用的泄漏文件,则很快就会耗尽磁盘空间,因此请考虑对数据集进行清理或将其存储在统一数据库中。由于我不幸有着处理这种数据方面非常糟糕的习惯,并且这是一个完全不同的话题,因此我建议您进行一些调查并找出适合自己的方法。
如果你继续下载所有可用的数据泄露,很快你就会没有磁盘空间了,因此考虑对数据集进行清理或将它们存储在统一的数据库中。由于我在存储这种类型的数据方面有非常糟糕的习惯,这是一个完全不同的话题,我建议你做一些调查并找出适合自己的方法。
如果您有兴趣收集泄露数据,则可以听听以下内容:https://inteltechniques.com/blog/2023/04/28/the-privacy-security-osint-show-episode-295/。
泄露和被攻击数据的在线来源:
虽然将所有这些数据离线存储具有优点,但是获取每个数据集实际上是不切实际的。因此,我现在将向您展示一些在线来源,让您可以使用此类数据。
HaveIBeenPwned:
可能是寻找数据泄露和漏洞中暴露的电子邮件、电话号码和密码最常见的来源。该网站永远不会提供任何明文密码,但它将向您显示曝光源。如果你正在处理组合列表或想要验证获得的数据集,这非常有用。它还将帮助您查看目标包含在哪些数据集中,并从那里定位并下载它们。虽然这个工具的主要目的是检查自己是否受到曝光并改善OPSEC。
Breachdirectory:
这个工具类似于HIBP,但它会显示部分密码和有时甚至是完整的哈希值,对于验证目的来说更好。
Dehashed:
一个付费的资源,汇集了数据泄露和漏洞,并使其完全可搜索。虽然不是我最喜欢的方式,因为我不想花钱,但这可能是访问此类数据最简单的方法。
Snusbase:
另一个我从未使用过的付费服务,但我会留在这里供参考。
IntelX
这个数据聚合器不仅可以用于泄露和违规数据,还能提供其中包含的大量数据。免费试用账户将向您展示来源,因此有助于为离线收集寻找其他数据集。
PSBDMP
这个网站收集了Pastebin数据并使其可搜索。但是要查看它,您必须使用Google帐户注册,并且大部分功能都是通过使用IntelX实现的。
illicit services
可能是所有服务中最惊人的一个。这个服务非常棒,我希望它能一直存在下去。它允许使用多种搜索选项,如电子邮件、名字、电话号码、ASN等等。除此之外,它还可以让你完全访问到获取的所有数据,并且数据量非常大。
使用它们:
现在,您可能在设备上拥有数千GB的数据泄露和漏洞,并且还有更多在线查找它们的来源,因此让我们好好利用它们。我的大部分经验都是处理名称、电子邮件和密码等数据,因此这里的大多数示例将重点介绍这些内容,但请记住,它们通常包含更多可用于调查的有价值信息。
在处理下载下来的所有数据时,您可能希望处于Linux环境中,因为它提供了必要的工具来处理大量数据。几乎任何基于GUI 的编辑器都会崩溃,并且需要花费很长时间才能完成任何任务。这就是为什么您必须使用VM或WSL才能真正发挥其全部价值。
ripgrep:
这是一个快速可靠的工具,用于在目录中使用正则表达式搜索文件。请参阅上面的链接以获取文档,但大多数情况下您将使用 rg -a -F -i -N 您的术语。
h8mail
H8mail是一个非常棒的工具,可以与许多API集成以搜索泄漏数据。但它也包括了搜索本地文件的功能。例如,在这篇文章中有详细介绍:https://khast3x.club/posts/2021-02-17-h8mail-with-COMB/。
多次违规的编译:
创建者包含了一个脚本,可以以记录速度搜索编译中的电子邮件地址。请注意,如果您正在寻找电子邮件地址的开头(例如“peter.example”),则可以使用该脚本搜索部分电子邮件。文件夹结构类似于被盗电子邮件地址的第一个字母。
获取初始立足点:
在许多情况下,我们可以利用泄漏和违规行为的数据来获得对目标的初始立足点。例如:
- 在像Gravatar数据集这样的数据集中搜索名字和姓氏的组合,以获取有关电子邮件地址、用户帐户和密码的信息。从那里你可以找到他们的其他账户。
- 从 LinkedIn 账户中获取用户 ID(检查个人资料的源代码,搜索“member:”。目前它是倒数第二个结果。这是在其他个人资料上执行此操作时会更改的那一个),并从数据集中检索相应的电子邮件地址。
- 与上述相同,只是针对 Snapchat 用户和电话号码。
扩大范围:
- 这种数据可以帮助我们找到目标的额外攻击面。