요즘은 이와 관련된 웹서비스가 많이 있어서 별도로 프로그램을 설치할 필요 없이 쉽게 이용 가능하다. 다만 업로드할 수 있는 용량에 제한이 있는 경우가 많아서 로컬에서 사용할 수 있는 방법을 찾아봤다.
PDF 파일의 정보를 확인하거나 추출하기 위해서 pdffonts
를 사용할 수 있는데 과거엔 xpdf 라이브러리에 포함되어 있다가 현재에는 poppler
라이브러리를 설치해 사용할 수 있다. 이 라이브러리는 homebrew
를 통해 쉽게 설치할 수 있다.
brew install poppler
폰트 정보를 알아내기 위해서는 다음과 같이 사용할 수 있다.
pdffonts <파일명>
이미지를 추출할 때는 다음과 같이 쓸 수 있다.
pdfimages <파일명> <추출 경로>
추출된 이미지가 ppm인 경우는 일반적으로 사용 가능한 포맷인 jpg로 변경해 사용 가능하다. 이 경우엔 imagemagick
라이브러리에 포함되어 있는 convert
를 사용할 수 있다.
해당 라이브러리가 설치되어 있지 않다면 역시 brew
를 통해 설치할 수 있다.
brew install imagemagick
설치가 완료되었으면 다음과 같은 명령어로 일괄 변환할 수 있다.
convert *.ppm image%d.jpg
여기서 사용된 라이브러리들은 리눅스 패키지 매니저에서도 설치 가능하다.