PDF 및 이미지 파일에서 텍스트 추출


모든 텍스트를 추출 할 PDF 문서가 있습니까? 편집 가능한 텍스트로 변환하려는 스캔 한 문서의 이미지 파일은 어떻게됩니까? 이것들은 내가 파일에서 작업 할 때 직장에서 보았던 가장 일반적인 쟁점들 중 일부입니다.

이 기사에서는 PDF에서 텍스트 추출을 시도 할 수있는 몇 가지 방법에 대해 이야기하겠습니다. 또는 이미지에서. 추출 결과는 PDF 또는 이미지의 텍스트 유형 및 품질에 따라 다릅니다. 또한 사용하는 도구에 따라 결과가 달라질 수 있으므로 최상의 결과를 얻으려면 가능한 한 아래의 옵션을 시도해 보는 것이 가장 좋습니다.

이미지 또는 PDF에서 텍스트 추출

가장 쉽고 빠른 방법은 온라인 PDF 텍스트 추출기 서비스를 사용하는 것입니다. 이들은 일반적으로 무료이며 컴퓨터에 아무 것도 설치할 필요없이 찾고있는 것을 정확하게 제공 할 수 있습니다. 다음은 두 가지를 사용하여 우수한 결과를 얻었습니다.

ExtractPDF

extractpdf

1 는 PDF 파일에서 이미지, 텍스트 및 글꼴을 가져올 수있는 무료 도구입니다. 유일한 제한은 PDF 파일의 최대 크기가 10MB라는 것입니다. 그것은 조금 작습니다. 그래서 더 큰 파일을 가지고 있다면 아래의 다른 방법들을 시도해보십시오. 파일을 선택한 다음 파일 보내기버튼을 클릭하십시오. 결과는 일반적으로 매우 빠르며 텍스트 탭을 클릭하면 텍스트 미리보기가 나타납니다.

download text

PDF 파일에서 이미지를 추출하는 이점이 있습니다. 전반적으로 온라인 도구는 훌륭하게 작동하지만 재미있는 결과물을 제공하는 몇 가지 PDF 문서를 실행했습니다. 텍스트는 잘 추출되지만, 어떤 이유로 각 단어 다음에 줄 바꿈이 표시됩니다. 짧은 PDF 파일에는 큰 문제가 아니지만 많은 텍스트가있는 파일에 대해서는 확실히 문제입니다. 그럴 경우 다음 도구를 사용해보십시오.

온라인 OCR

온라인 OCR 은 대개 ExtractPDF로 제대로 변환하지 않은 문서 , 어떤 서비스가 더 나은 결과를 제공하는지 알아보기 위해 두 서비스를 모두 시도하는 것이 좋습니다. 온라인 OCR에는 전체 문서가 아닌 몇 페이지의 텍스트 만 변환해야하는 대형 PDF 파일을 가진 사람이라면 누구나 편리하게 사용할 수있는 몇 가지 유용한 기능이 있습니다.

앞으로 무료 계정을 만드십시오. 약간 짜증나지만 무료 계정을 만들지 않으면 전체 문서가 아닌 부분적으로 PDF 만 변환됩니다. 또한 5MB 문서 만 업로드하는 대신 계정으로 파일 당 최대 100MB를 업로드 할 수 있습니다.

online ocr

, 언어를 선택한 다음 변환 된 파일에 대해 원하는 출력 형식 유형을 선택하십시오. 몇 가지 옵션이 있으며 원하는 경우 둘 이상을 선택할 수 있습니다. 페이지 수에서 페이지 번호를 선택한 다음 변환 할 페이지 만 선택할 수 있습니다. 그런 다음 파일을 선택하고 변환을 클릭하십시오!

전환 후에는 사용 가능한 무료 페이지의 수를 볼 수있는 문서 섹션 (로그인 한 경우)으로 이동합니다.

online ocr docs 변환 된 파일을 다운로드 할 수있는 링크. 하루에 25 페이지 만 무료로 사용하는 것처럼 보입니다. 그 이상이 필요할 경우 조금 기다려야하거나 더 많은 페이지를 구매해야합니다.

온라인 OCR은 내 PDF는 텍스트의 실제 레이아웃을 유지할 수 있었기 때문에 내 테스트에서, 나는 글 머리 기호, 다른 글꼴 크기 등을 사용하는 Word 문서를 가져 와서 PDF로 변환했다. 그런 다음 온라인 OCR을 사용하여 Word 형식으로 다시 변환했으며 원본과 거의 같은 95 %였습니다. 그것은 나를 위해 꽤 인상적입니다.

또한 이미지를 텍스트로 변환하려는 경우 온라인 OCR은 PDF 파일에서 텍스트를 추출하는 것만 큼 쉽게 할 수 있습니다.

무료 온라인 OCR

OCR 텍스트에 대해 이야기 한 이래로 이미지에서 실제로 잘 작동하는 또 다른 좋은 웹 사이트를 언급하겠습니다. Free 온라인 OCR 은 테스트 이미지에서 텍스트를 추출 할 때 매우 정확하고 매우 정확했습니다. 나는 책, 팜플렛 등의 아이폰 페이지에서 두 장의 사진을 찍었고 텍스트를 얼마나 잘 변환했는지에 놀랐다.

free online ocr

파일을 선택한 다음 업로드 버튼을 클릭하십시오. 다음 화면에는 몇 가지 옵션과 이미지 미리보기가 있습니다. 모든 것을 OCR하고 싶지 않으면자를 수 있습니다. 그런 다음 OCR 버튼을 클릭하면 변환 된 텍스트가 이미지 미리보기 아래에 나타납니다. 그것은 또한 정말 좋은 어떤 제한도 없습니다.

온라인 서비스 외에도 수행 할 컴퓨터에서 로컬로 실행되는 소프트웨어가 필요한 경우를 대비하여 두 가지 프리웨어 PDF 변환기가 있습니다 전환. 온라인 서비스를 사용하면 항상 인터넷 연결이 필요하며 모든 사람에게 가능하지는 않습니다. 그러나 프리웨어 프로그램의 전환 품질은 웹 사이트의 전환율보다 훨씬 더 좋았습니다.

A-PDF 텍스트 추출기

- PDF 텍스트 추출기 는 PDF 파일에서 텍스트를 추출하는 꽤 좋은 일을하는 프리웨어입니다. 일단 다운로드하여 설치하면 열기 버튼을 클릭하여 PDF 파일을 선택하십시오. 그런 다음 텍스트 추출을 클릭하여 프로세스를 시작하십시오.

apdf extractor

텍스트 출력 파일을 저장할 위치를 묻고 추출을 시작합니다 . 옵션버튼을 클릭하여 추출 할 특정 페이지와 추출 유형 만 선택할 수도 있습니다. 두 번째 옵션은 다른 레이아웃의 텍스트를 추출하기 때문에 흥미 롭습니다. 어떤 레이아웃을 사용하면 가장 좋은 결과를 얻을 수 있는지 알아볼 가치가 있습니다.

PDF2 텍스트 파일럿

PDF2 텍스트 파일럿 는 텍스트를 추출하는 일을 잘합니다. 옵션이 없습니다. 당신은 파일이나 폴더를 추가하고, 변환하고, 최선을 희망합니다.

파일 추가를 클릭 한 다음 >변환을 선택하십시오. 변환이 완료되면 찾아보기를 클릭하여 파일을 엽니 다. 마일리지는이 프로그램을 통해 달라 지므로 많이 기대하지 마십시오.

또한 회사 환경에 있거나 직장에서 Adobe Acrobat 사본을 손에 넣을 수 있다면 훨씬 더 나은 결과를 얻을 수 있습니다. Acrobat은 분명 무료가 아니지만 Word, Excel 및 HTML 형식으로 PDF를 변환하는 옵션이 있습니다. 또한 원본 문서의 구조를 유지하고 복잡한 텍스트를 변환하는 것이 가장 좋습니다.

[PDF OCR] 스캔한 이미지 PDF파일을 워드파일로 변환

관련 게시물:


13.11.2014