Tutorial: Extrair a Primeira Página de Ficheiros PDF e Convertê-la em JPG no Ubuntu

Este tutorial explica, passo a passo, como instalar as ferramentas necessárias, extrair a primeira página de todos os ficheiros PDF de uma pasta e convertê-las em imagens JPG no Ubuntu.

Passo 1: Atualizar os Repositórios

Abra o terminal e execute o comando abaixo para garantir que os repositórios estão atualizados:

sudo apt update

Passo 2: Instalar o `pdftk`

O pdftk é utilizado para manipular ficheiros PDF, como extrair páginas. Para instalá-lo, use:

sudo apt install pdftk

Se estiver numa versão mais recente do Ubuntu (20.04 ou superior) e o comando acima não funcionar, pode instalar o pdftk-java:

sudo apt install pdftk-java
sudo ln -s /usr/bin/pdftk-java /usr/bin/pdftk

Passo 3: Instalar o ImageMagick

O ImageMagick será usado para converter os PDFs extraídos em imagens JPG. Instale-o com:

sudo apt install imagemagick

Passo 4: Extrair a Primeira Página de Cada PDF

Na pasta onde estão os ficheiros PDF, execute o comando abaixo para extrair a primeira página de cada ficheiro:

for file in *.pdf ; do 
    pdftk "$file" cat 1 output "${file%.pdf}-page1.pdf"
done

Este comando percorre todos os ficheiros PDF na pasta.
Cria novos ficheiros com o nome original seguido de -page1.pdf, contendo apenas a primeira página.

Passo 5: Converter as Primeiras Páginas para JPG

Após extrair as primeiras páginas, execute o comando abaixo para convertê-las em imagens JPG:

for file in *-page1.pdf ; do 
    convert -density 300 "$file" "${file%.pdf}.jpg"
done

-density 300: Define a qualidade da imagem em 300 DPI.
As imagens JPG terão o mesmo nome que os PDFs extraídos, mas com a extensão .jpg.

Passo 6: Verificar os Resultados

No final, a pasta conterá:

Os ficheiros originais em PDF.
Os ficheiros PDF com a primeira página extraída (exemplo: documento-page1.pdf).
As imagens JPG das primeiras páginas (exemplo: documento-page1.jpg).

Nota Final

Se quiser, pode apagar os ficheiros intermediários (-page1.pdf) para poupar espaço:

rm *-page1.pdf

Tutorial Atualizado: Fazer Tudo Num Só Comando

Neste tutorial atualizado, além de explicar os passos detalhados, incluiremos um único comando para realizar todas as etapas: extrair a primeira página dos PDFs, convertê-la para JPG e eliminar os ficheiros PDF intermediários.

Passo 1 a 5: Instalar as Ferramentas e Configurar o Ambiente

Atualizar os repositórios:

   sudo apt update

Instalar o pdftk:

   sudo apt install pdftk

Para Ubuntu 20.04 ou superior:

   sudo apt install pdftk-java
   sudo ln -s /usr/bin/pdftk-java /usr/bin/pdftk

Instalar o ImageMagick:

   sudo apt install imagemagick

Passo 6: Fazer Tudo com um Único Comando

No terminal, na pasta onde estão os PDFs, execute este comando para:

Extrair a primeira página de cada PDF.
Convertê-la em JPG.
Eliminar os ficheiros intermediários (-page1.pdf).

for file in *.pdf; do 
    pdftk "$file" cat 1 output "${file%.pdf}-page1.pdf" && \
    convert -density 300 "${file%.pdf}-page1.pdf" "${file%.pdf}-page1.jpg" && \
    rm "${file%.pdf}-page1.pdf"
done

Explicação do Comando

for file in *.pdf; do: Percorre todos os ficheiros PDF na pasta.
pdftk "$file" cat 1 output "${file%.pdf}-page1.pdf": Extrai a primeira página e cria um novo ficheiro PDF.
convert -density 300 "${file%.pdf}-page1.pdf" "${file%.pdf}-page1.jpg": Converte o ficheiro PDF extraído para JPG com resolução de 300 DPI.
rm "${file%.pdf}-page1.pdf": Elimina o ficheiro intermediário (-page1.pdf).
done: Finaliza o ciclo.

Resultado Final

Após executar o comando:

Todos os PDFs originais permanecem intactos.
As imagens JPG das primeiras páginas serão criadas (exemplo: documento-page1.jpg).
Os ficheiros PDF intermediários serão apagados automaticamente.