Онлайнда PDF файлындагы текстти таануу

Pin
Send
Share
Send


Жөнөкөй көчүрүү менен PDF файлынан текстти чыгаруу ар дайым мүмкүн эмес. Көбүнчө мындай документтердин баракчаларында алардын кагаздык нускаларынын мазмунун сканерлешет. Мындай файлдарды толук оңдоого боло турган тексттик маалыматка айландыруу үчүн Оптикалык белгилерди таануу (OCR) функциясы бар атайын программалар колдонулат.

Мындай чечимдерди аткаруу өтө кыйын, демек, көп акча кетет. Эгерде сиз PDF форматындагы текстти дайыма таанып турушуңуз керек болсо, анда сизге ылайыктуу программаны сатып алуу сунушталат. Сейрек учурларда, окшош функциялары бар интернет кызматтарынын бирин колдонуу логикалуу болот.

Онлайн режиминдеги текстти кантип таанууга болот

Албетте, толук кандуу иштелип чыккан чечимдерге салыштырмалуу OCR онлайн кызматтарынын өзгөчөлүктөрү кыйла чектелүү. Бирок сиз ошондой ресурстар менен акысыз же номиналдык төлөө менен иштесеңиз болот. Эң негизгиси, алардын негизги милдети, атап айтканда текстти таануу менен, тийиштүү веб-тиркемелердин жардамы менен.

1-ыкма: ABBYY FineReader Online

Сервисти иштеп чыгуу компаниясы оптикалык документ таануу жаатындагы лидерлердин бири. Windows жана Mac үчүн ABBYY FineReader бул PDFти текстке которуу жана аны менен андан ары иштөө үчүн күчтүү чечим.

Программанын веб-аналогу, албетте, функционалдык жагынан андан төмөн. Ошентсе да, кызмат 190дан ашык тилдеги сканерлерден жана сүрөттөрдөн тексттерди тааный алат. PDF файлдарын Word, Excel форматына өзгөртүү ж.б. документтер колдоого алынат.

ABBYY FineReader Online Онлайн кызматы

  1. Курал менен иштөөнү баштоодон мурун, сайтта каттоо эсебин түзүңүз же Facebook, Google же Microsoft каттоо жазууңуз менен кириңиз.

    Авторизация терезесине баруу үчүн, баскычты чыкылдатыңыз "Кирүү" жогорку меню тилкесинде.
  2. Киргенден кийин, баскычты колдонуп, каалаган PDF документти FineReaderге импорттоңуз "Файлдарды жүктөө".

    Андан кийин чыкылдатыңыз "Бет номерлерин тандоо" текстти таануу үчүн керектүү интервалды белгилеңиз.
  3. Андан кийин, документтеги тилдерди, пайда болгон файлдын форматын тандап, баскычты чыкылдатыңыз "Таануу".
  4. Иштеп чыккандан кийин, иштөө мөөнөтү толугу менен документтин көлөмүнө байланыштуу, анын атын чыкылдатып, тексттик маалымат менен кошо жүктөп алсаңыз болот.

    Же болбосо, аны жеткиликтүү булут кызматтарынын бирине экспорттоңуз.

Кызмат сүрөттөрдү жана PDF файлдарын тексттерди таануу алгоритмдери менен айырмаланат. Бирок, тилекке каршы, аны акысыз колдонуу айына беш барак иштелип чыгат. Көлөмдүү документтер менен иштөө үчүн сиз жылдык жазылууну сатып алышыңыз керек.

Бирок, эгерде OCR сейрек керек болсо, анда ABBYY FineReader Online чакан PDF файлдарынан тексттерди чыгарып алуунун сонун жолу.

2-ыкма: Акысыз онлайн OCR

Текстти санариптөө үчүн жөнөкөй жана ыңгайлуу кызмат. Ресурс катталбастан, саатына 15 толук PDF баракты таанууга мүмкүнчүлүк берет. Акысыз Online OCR 46 тилдеги документтер менен толук иштейт жана авторизациясыз тексттин үч форматын - DOCX, XLSX жана TXT колдойт.

Каттоодо колдонуучу көп беттен турган документтерди иштеп чыгууга мүмкүнчүлүк алат, бирок ушул эле баракчалардын акысыз саны 50 бирдик менен чектелген.

Акысыз Online OCR Online кызматы

  1. Ресурста уруксатсыз PDF форматындагы текстти "конок" катары таануу үчүн, сайттын башкы бетиндеги тийиштүү форманы колдонуңуз.

    Баскычты колдонуп керектүү документти тандаңыз "File", тексттин негизги тилин, чыгаруунун форматын белгилеңиз, андан кийин файл жүктөлүп, чыкылдатып күтүңүз "Convert".
  2. Санариптештирүү жараянын аягында чыкылдатыңыз "Чыгып алынган файлды жүктөп алуу" компьютерде текстти сактоо менен бүткөн документти сактоо.

Уруксат берилген колдонуучулар үчүн иш-аракеттердин ырааттуулугу бир аз башкача.

  1. Баскычты колдонуңуз "Каттоо" же "Кирүү" тиешелүү меню тилкесинде, Free Online OCR каттоо эсебин түзүү же ага кирүү.
  2. Таануу панелинен уруксат алгандан кийин, баскычты басып туруңуз "CTRL"Берилген тизмеден баштапкы документтин эки тилин тандаңыз.
  3. PDFтен текстти чыгарып алуунун кошумча жолдорун белгилеп, чыкылдатыңыз Файл тандоо кызматты документ жүктөө үчүн.

    Андан кийин, таанууну баштоо үчүн, чыкылдатыңыз "Convert".
  4. Документти иштеп чыгуунун аягында, тиешелүү графада чыккан файлдын аталышы менен шилтемени чыкылдатыңыз.

    Таануу натыйжасы дароо эле компьютериңиздин эсинде сакталат.

Эгерде сизге кичинекей PDF документинен текстти алып салуу керек болсо, анда жогоруда аталган куралды колдонуп, коопсуз шартта кайрыла аласыз. Көлөмдүү файлдар менен иштөө үчүн, Free Online OCR-тен кошумча белгилерди сатып алышыңыз же башка чечим колдонушуңуз керек.

3-ыкма: NewOCR

Толугу менен акысыз OCR кызматы, бул DjVu жана PDF сыяктуу дээрлик бардык графикалык жана электрондук документтерден тексттерди алууга мүмкүндүк берет. Ресурс таанылган файлдардын көлөмүнө жана санына чектөө киргизбейт, каттоону талап кылбайт жана байланыштуу функциялардын кеңири спектрин сунуш кылат.

NewOCR 106 тилди колдойт жана сапатсыз документ сканерлөөнү да туура иштете алат. Файл бетинен текстти таануу чөйрөсүн кол менен тандоо мүмкүн.

NewOCR Online кызматы

  1. Ошентип, керексиз иш-аракеттерди жасабай эле, дароо ресурс менен иштей баштасаңыз болот.

    Документтин сайтка импорттолгон формасы бар. NewOCRге файл жүктөө үчүн, баскычты колдонуңуз "Файл тандоо" бөлүмүндө "Файлыңызды тандаңыз". Андан кийин талаада "Таануу тили (лери)" баштапкы документтин бир же бир нече тилин белгилеп, чыкылдатыңыз "Жүктөө + OCR".
  2. Артыкчылыктуу таануу жөндөөлөрүңүздү орнотуп, текстти чыгаргыңыз келген баракчаны тандап, баскычты чыкылдатыңыз "OCR".
  3. Баракты бир аз ылдый жылдырып, баскычты табыңыз "Download".

    Аны басып, ачылуучу тизмеде жүктөө үчүн керектүү документ форматын тандаңыз. Андан кийин, алынган текст камтылган файл компьютериңизге жүктөлөт.

Курал ыңгайлуу жана кыйла жогорку сапаттагы бардык белгилерди тааныйт. Бирок импорттолгон PDF документинин ар бир барагын өз алдынча иштетүү керек жана ал өзүнчө файлда көрсөтүлөт. Албетте, таануу натыйжаларын дароо буферге көчүрүп, аларды башкалар менен айкалыштыра аласыз.

Ошого карабастан, жогоруда сүрөттөлгөн нюансты эске алганда, NewOCR колдонуп, чоң көлөмдөгү текстти алуу кыйынга турат. Кичинекей файлдар менен, кызмат жарылууну жеңилдетет.

4-ыкма: OCR.Space

Текстти санариптөө үчүн жөнөкөй жана түшүнүктүү ресурс, ал PDF документтерин таанып, натыйжасын TXT файлына чыгарууга мүмкүндүк берет. Барактардын санына эч кандай чектөөлөр каралган эмес. Бирден-бир чектөө - кирүүчү документтин көлөмү 5 мегабайттан ашпашы керек.

OCR.Space Online кызматы

  1. Курал менен иштөө үчүн каттоонун кереги жок.

    Жогорудагы шилтемени басып, баскычты колдонуп, PDF документин веб-сайтка жүктөңүз "Файл тандоо" же тармактан - маалымдама боюнча.
  2. Ачылуучу тизмеде "OCR тилин тандоо" Импорттолуучу документтин тилин тандаңыз.

    Андан кийин баскычты чыкылдатып текст таануу жараянын баштаңыз "OCR башта!".
  3. Файлдарды иштетүүнүн аягында, талаадагы натыйжаны окуп чыгыңыз OCR'ed Натыйжасы жана чыкылдатыңыз "Download"аяктаган TXT документин жүктөө үчүн.

Эгерде сизге текстти PDF-тен алып салуу керек болсо, ошол эле учурда анын акыркы форматташы анчалык деле маанилүү эмес, OCR.Space - бул жакшы тандоо. Жалгыз нерсе, документ "бир тектүү" болушу керек, анткени кызматта бир эле учурда эки же андан көп тилди таануу каралган эмес.

Ошондой эле караңыз: FineReaderдин акысыз аналогдору

Макалада келтирилген он-лайн куралдарга баа берип, ABBYY компаниясынан FineReader Online OCR функциясын эң так жана натыйжалуу аткаргандыгын белгилей кетүү керек. Эгер текстти таануунун максималдуу тактыгы сиз үчүн маанилүү болсо, анда бул вариантты атайын карап чыккан жакшы. Бирок, кыязы, ал үчүн дагы акча төлөшүңүз керек болот.

Эгерде сиз кичинекей документтерди санариптештирсеңиз жана кызматта каталарды өз алдынча оңдоого даяр болсоңуз, анда NewOCR, OCR.Space же Free Online OCRти колдонуу сунушталат.

Pin
Send
Share
Send