📁 Поиск конфиденциальных данных в PDF-файлах в большом масштабе

При анализе целей часто встречается большое количество PDF-документов, которые могут содержать конфиденциальные данные. Ручной просмотр всей этой информации требует много времени, поэтому можно попытаться автоматизировать этот процесс.

1️⃣ Используем инструмент gau для сбора конечных точек из wayback, urlscan и других источников.

2️⃣ Фильтруем конечные точки, оставляя только те, у которых расширение .pdf, с помощью Grep.

3️⃣ Проверяем живость URL-ов с использованием httpx и убеждаемся, что они возвращают код 200 OK.

4️⃣ С помощью curl просматриваем все активные PDF-файлы.

5️⃣ Преобразуем PDF в текст с использованием утилиты pdftotext, которая легко устанавливается командой: sudo apt install poppler-utils

6️⃣ Применяем Grep для поиска чувствительных слов, таких как "internal use only" или "confidential".

В результате получаем следующую команду:

for i in $(echo "gov.uk" | gau --subs --threads 16 | grep -E -o 'https?://[^[:space:]]+\.pdf' | httpx -silent -mc 200); do if curl -k -s $i | pdftotext -q - - | grep -Eaiq 'confidential|internal use only'; then echo $i | tee output.txt; fi; done

Эта команда сканирует веб-сайт "gov.uk" и его поддомены для поиска URL-ов с PDF-файлами. Затем она проверяет каждый PDF-файл на наличие строк "confidential" или "internal use only", записывая эти URL-ы в файл "output.txt".

Вы можете воспользоваться своим творческим подходом, например, использовать katana вместо gau, проверять наличие других чувствительных слов, использовать другие расширения и т.д. Используйте свою креативность для максимальной эффективности!

Форма для связи