Tutorial: Extrair a Primeira Página de Ficheiros PDF e Convertê-la em JPG no Ubuntu

Este tutorial explica, passo a passo, como instalar as ferramentas necessárias, extrair a primeira página de todos os ficheiros PDF de uma pasta e convertê-las em imagens JPG no Ubuntu.


Passo 1: Atualizar os Repositórios

Abra o terminal e execute o comando abaixo para garantir que os repositórios estão atualizados:

sudo apt update

Passo 2: Instalar o pdftk

O pdftk é utilizado para manipular ficheiros PDF, como extrair páginas. Para instalá-lo, use:

sudo apt install pdftk

Se estiver numa versão mais recente do Ubuntu (20.04 ou superior) e o comando acima não funcionar, pode instalar o pdftk-java:

sudo apt install pdftk-java
sudo ln -s /usr/bin/pdftk-java /usr/bin/pdftk

Passo 3: Instalar o ImageMagick

O ImageMagick será usado para converter os PDFs extraídos em imagens JPG. Instale-o com:

sudo apt install imagemagick

Passo 4: Extrair a Primeira Página de Cada PDF

Na pasta onde estão os ficheiros PDF, execute o comando abaixo para extrair a primeira página de cada ficheiro:

for file in *.pdf ; do 
    pdftk "$file" cat 1 output "${file%.pdf}-page1.pdf"
done
  • Este comando percorre todos os ficheiros PDF na pasta.
  • Cria novos ficheiros com o nome original seguido de -page1.pdf, contendo apenas a primeira página.

Passo 5: Converter as Primeiras Páginas para JPG

Após extrair as primeiras páginas, execute o comando abaixo para convertê-las em imagens JPG:

for file in *-page1.pdf ; do 
    convert -density 300 "$file" "${file%.pdf}.jpg"
done
  • -density 300: Define a qualidade da imagem em 300 DPI.
  • As imagens JPG terão o mesmo nome que os PDFs extraídos, mas com a extensão .jpg.

Passo 6: Verificar os Resultados

No final, a pasta conterá:

  • Os ficheiros originais em PDF.
  • Os ficheiros PDF com a primeira página extraída (exemplo: documento-page1.pdf).
  • As imagens JPG das primeiras páginas (exemplo: documento-page1.jpg).

Nota Final

Se quiser, pode apagar os ficheiros intermediários (-page1.pdf) para poupar espaço:

rm *-page1.pdf

Tutorial Atualizado: Fazer Tudo Num Só Comando

Neste tutorial atualizado, além de explicar os passos detalhados, incluiremos um único comando para realizar todas as etapas: extrair a primeira página dos PDFs, convertê-la para JPG e eliminar os ficheiros PDF intermediários.


Passo 1 a 5: Instalar as Ferramentas e Configurar o Ambiente

  1. Atualizar os repositórios:
   sudo apt update
  1. Instalar o pdftk:
   sudo apt install pdftk

Para Ubuntu 20.04 ou superior:

   sudo apt install pdftk-java
   sudo ln -s /usr/bin/pdftk-java /usr/bin/pdftk
  1. Instalar o ImageMagick:
   sudo apt install imagemagick

Passo 6: Fazer Tudo com um Único Comando

No terminal, na pasta onde estão os PDFs, execute este comando para:

  1. Extrair a primeira página de cada PDF.
  2. Convertê-la em JPG.
  3. Eliminar os ficheiros intermediários (-page1.pdf).
for file in *.pdf; do 
    pdftk "$file" cat 1 output "${file%.pdf}-page1.pdf" && \
    convert -density 300 "${file%.pdf}-page1.pdf" "${file%.pdf}-page1.jpg" && \
    rm "${file%.pdf}-page1.pdf"
done

Explicação do Comando

  1. for file in *.pdf; do: Percorre todos os ficheiros PDF na pasta.
  2. pdftk "$file" cat 1 output "${file%.pdf}-page1.pdf": Extrai a primeira página e cria um novo ficheiro PDF.
  3. convert -density 300 "${file%.pdf}-page1.pdf" "${file%.pdf}-page1.jpg": Converte o ficheiro PDF extraído para JPG com resolução de 300 DPI.
  4. rm "${file%.pdf}-page1.pdf": Elimina o ficheiro intermediário (-page1.pdf).
  5. done: Finaliza o ciclo.

Resultado Final

Após executar o comando:

  • Todos os PDFs originais permanecem intactos.
  • As imagens JPG das primeiras páginas serão criadas (exemplo: documento-page1.jpg).
  • Os ficheiros PDF intermediários serão apagados automaticamente.

Leave a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *