Loading
2015. 10. 1. 19:05

pdf파일 텍스트 추출 방법



요즘 대부분의 문서의 경우 pdf 파일 형식으로 저장하는 사례가 많으실 겁니다. 이유야 제각각 다양하겠지만, 아마 보안상의 이유나 임의 문서 변환 방지, 기존 문서의 형식을 가장 잘 보존해 준다는 점 등의 pdf 파일 만의 장점으로 인해 그러실텐데요. 간혹, pdf파일 텍스트 추출이 필요할 때가 있습니다.



그럴 경우, 간단한 방법으로 pdf파일 텍스트 추출이 가능한데요. 단, 저작권자가 복사를 허용했을 경우에만 가능하답니다. 만약, 저작권자가 문서의 보호를 위해 복사를 금지 해놨다면 아래에서 알아 볼 방법은 소용이 없다는 점. 미리 참고해 주세요^^



물론, 프로그램을 이용한다면 pdf파일에 복사 금지를 해놨더라도 텍스트 추출이 가능하다고 하긴 하는데요. 불법적인 방법은 사용하지 않는 것이 서로를 위해 좋겠죠?


pdf파일 텍스트 추출 간단하게 해보자



먼저, pdf파일이 있어야 겠죠? 저는 임의로 A라는 문서를 만들었답니다. 기본적으로 pdf파일은 읽기전용으로 수정이나 복사가 되지 않습니다. 단, txt 형식으로 저장 했을 경우 파일의 텍스트 추출이 가능한데요.



텍스트 추출을 위해 좌측 상단의 파일 > 다른 형식으로 저장 > 텍스트의 경로로 저장을 해주도록 할게요.



다음, 텍스트 경로로 저장 한 파일을 열어 보면 ▲ 그림과 같이 텍스트 추출이 완료 된 것을 확인 하실 수 있습니다. pdf파일 텍스트 추출 어렵지 않죠? 하지만, 처음 언급했덨바와 같이 문서의 저작권자가 복사 금지를 해놓은 상태라면 위와 같은 방식으로는 텍스트 추출이 되지 않는 다는 점. 참고 하시길 바랄게요.