25 апреля, 2024

hleb

Находите все последние статьи и смотрите телешоу, репортажи и подкасты, связанные с Россией.

Визуальное сравнение файлов PDF |  хаккадей

Визуальное сравнение файлов PDF | хаккадей

Иногда проблема кажется сложной, но правильное понимание может облегчить ее. Если бы вас попросили написать программу для сравнения двух PDF-файлов и показать различия, насколько, по вашему мнению, это было бы сложно? Если ты [serhack]ты достигнешь успеха намного легче чем вы можете себе представить.

Конечно, иногда упрощение чего-то зависит от упрощения предположений. Если вы ожидаете утилиту, похожую на различия, которая отображает вставки и удаления, это не то, что здесь происходит. Вместо этого вы увидите изображение PDF с изменениями, отмеченными красным прямоугольником. Это легко, потому что программа использует доступные утилиты для отображения файлов PDF в виде изображений, а затем просто сравнивает пиксели в полученных изображениях, рисуя красные прямоугольники над несовпадающими частями.

Это, очевидно, лучше всего подходит для файлов PDF, которые имеют некоторые изменения. Например, вставка абзаца делает вывод бесполезным. Итак, вы можете рассмотреть возможность извлечения текста из PDF-файла с помощью чего-то вроде pdf2text (который использует ту же базовую библиотеку, что и для создания изображений).

Программа показывает много сообщений об отсутствующих файлах, но, похоже, все равно выполняет свою работу. Вот результат сравнения двух версий домашней страницы Hackaday, снятых в формате PDF с интервалом в несколько минут:

Однако вы можете видеть, что если будет опубликована новая статья и все проскочит на одну, у вас будет только гигантский красный самородок.

Все же умная идея. Удивительно, но для этого доступно довольно много инструментов, хотя мы Найдите несколько других. Есть, конечно, много Инструменты Linux для обработки файлов PDF. многие из них Смешивание других инструментов как это.