Este tutorial explica, passo a passo, como instalar as ferramentas necessárias, extrair a primeira página de todos os ficheiros PDF de uma pasta e convertê-las em imagens JPG no Ubuntu.
Passo 1: Atualizar os Repositórios
Abra o terminal e execute o comando abaixo para garantir que os repositórios estão atualizados:
sudo apt updatePasso 2: Instalar o pdftk
O pdftk é utilizado para manipular ficheiros PDF, como extrair páginas. Para instalá-lo, use:
sudo apt install pdftkSe estiver numa versão mais recente do Ubuntu (20.04 ou superior) e o comando acima não funcionar, pode instalar o pdftk-java:
sudo apt install pdftk-java
sudo ln -s /usr/bin/pdftk-java /usr/bin/pdftkPasso 3: Instalar o ImageMagick
O ImageMagick será usado para converter os PDFs extraídos em imagens JPG. Instale-o com:
sudo apt install imagemagickPasso 4: Extrair a Primeira Página de Cada PDF
Na pasta onde estão os ficheiros PDF, execute o comando abaixo para extrair a primeira página de cada ficheiro:
for file in *.pdf ; do
pdftk "$file" cat 1 output "${file%.pdf}-page1.pdf"
done- Este comando percorre todos os ficheiros PDF na pasta.
- Cria novos ficheiros com o nome original seguido de
-page1.pdf, contendo apenas a primeira página.
Passo 5: Converter as Primeiras Páginas para JPG
Após extrair as primeiras páginas, execute o comando abaixo para convertê-las em imagens JPG:
for file in *-page1.pdf ; do
convert -density 300 "$file" "${file%.pdf}.jpg"
done-density 300: Define a qualidade da imagem em 300 DPI.- As imagens JPG terão o mesmo nome que os PDFs extraídos, mas com a extensão
.jpg.
Passo 6: Verificar os Resultados
No final, a pasta conterá:
- Os ficheiros originais em PDF.
- Os ficheiros PDF com a primeira página extraída (exemplo:
documento-page1.pdf). - As imagens JPG das primeiras páginas (exemplo:
documento-page1.jpg).
Nota Final
Se quiser, pode apagar os ficheiros intermediários (-page1.pdf) para poupar espaço:
rm *-page1.pdfTutorial Atualizado: Fazer Tudo Num Só Comando
Neste tutorial atualizado, além de explicar os passos detalhados, incluiremos um único comando para realizar todas as etapas: extrair a primeira página dos PDFs, convertê-la para JPG e eliminar os ficheiros PDF intermediários.
Passo 1 a 5: Instalar as Ferramentas e Configurar o Ambiente
- Atualizar os repositórios:
sudo apt update- Instalar o
pdftk:
sudo apt install pdftkPara Ubuntu 20.04 ou superior:
sudo apt install pdftk-java
sudo ln -s /usr/bin/pdftk-java /usr/bin/pdftk- Instalar o
ImageMagick:
sudo apt install imagemagickPasso 6: Fazer Tudo com um Único Comando
No terminal, na pasta onde estão os PDFs, execute este comando para:
- Extrair a primeira página de cada PDF.
- Convertê-la em JPG.
- Eliminar os ficheiros intermediários (
-page1.pdf).
for file in *.pdf; do
pdftk "$file" cat 1 output "${file%.pdf}-page1.pdf" && \
convert -density 300 "${file%.pdf}-page1.pdf" "${file%.pdf}-page1.jpg" && \
rm "${file%.pdf}-page1.pdf"
doneExplicação do Comando
for file in *.pdf; do: Percorre todos os ficheiros PDF na pasta.pdftk "$file" cat 1 output "${file%.pdf}-page1.pdf": Extrai a primeira página e cria um novo ficheiro PDF.convert -density 300 "${file%.pdf}-page1.pdf" "${file%.pdf}-page1.jpg": Converte o ficheiro PDF extraído para JPG com resolução de 300 DPI.rm "${file%.pdf}-page1.pdf": Elimina o ficheiro intermediário (-page1.pdf).done: Finaliza o ciclo.
Resultado Final
Após executar o comando:
- Todos os PDFs originais permanecem intactos.
- As imagens JPG das primeiras páginas serão criadas (exemplo:
documento-page1.jpg). - Os ficheiros PDF intermediários serão apagados automaticamente.