Tesseract OCR logosu

Tesseract OCR

v5.5.0~40 MBAçık Kaynak Linux macOS Windows
Güvenli Türkçe Açık Kaynak
Resmi Site GitHub

Tesseract OCR, Google tarafından desteklenen açık kaynaklı bir optik karakter tanıma (OCR) motorudur. Başlangıçta HP tarafından geliştirilen Tesseract, 2006’dan itibaren Google tarafından desteklenmekte ve LSTM derin öğrenme motoru (v4+) ile yüksek doğrulukta metin tanıma sunmaktadır. 100’den fazla dili ve Türkçeyi destekler. Linux, macOS ve Windows üzerinde komut satırı aracı olarak çalışır; tamamen ücretsiz ve açık kaynaklıdır (Apache 2.0).

Temel Özellikler

  • 100+ dil desteği; Türkçe dahil (tur dil paketi)
  • LSTM (Long Short-Term Memory) derin öğrenme motoru (Tesseract 4+)
  • Çoklu giriş formatı: PNG, JPEG, TIFF, BMP, PDF
  • Çıktı formatları: düz metin, PDF (aranabilir), hOCR (HTML), TSV
  • Birden fazla dili aynı anda tanıma (çoklu dil modu)
  • Sayfa düzeni analizi (PSM modları) ile tek satır, tek kelime veya tam sayfa tanıma
  • Python’da pytesseract wrapper; diğer diller için resmi API
  • GPU hızlandırma desteği (CUDA ile)

Tesseract OCR görüntüdeki metni nasıl tanır?

Terminali açın ve görüntüden metin çıkarmak için: tesseract goruntu.png cikti.txt komutunu çalıştırın. Sonuç cikti.txt.txt dosyasına kaydedilir. Türkçe metin için dil paketini belirtin: tesseract goruntu.png cikti.txt -l tur. Aranabilir PDF oluşturmak için: tesseract goruntu.png cikti.pdf pdf. Tek satırlı metin tanıma için PSM modunu belirtin: tesseract goruntu.png cikti.txt --psm 7. Görüntü kalitesi tanıma başarısını doğrudan etkiler; düşük çözünürlüklü görüntüleri 300 DPI’a yükseltmek faydalıdır.

Tesseract OCR Python ile nasıl kullanılır?

Önce Tesseract’ı sisteminize kurun ve ardından pip install pytesseract pillow komutuyla Python paketlerini yükleyin. Temel kullanım: import pytesseract, from PIL import Image, text = pytesseract.image_to_string(Image.open("goruntu.png"), lang="tur"). Tesseract Windows’ta genellikle C:Program FilesTesseract-OCR dizinine kurulur; pytesseract’a yolu belirtmek gerekebilir: pytesseract.pytesseract.tesseract_cmd = r"C:Program FilesTesseract-OCRtesseract.exe". Daha iyi sonuç için OpenCV ile görüntüyü önce gri tona çevirip eşik uygulayın.

Tesseract OCR tanıma doğruluğu düşük veya Türkçe karakter hatası veriyorsa ne yapmalı?

Türkçe dil paketinin kurulu olduğunu doğrulayın: tesseract --list-langs çıktısında “tur” görünmeli. Yoksa işletim sistemine göre dil paketini ekleyin (örn. Ubuntu: sudo apt install tesseract-ocr-tur). Görüntü kalitesini artırın: 300+ DPI, siyah-beyaz veya gri ton, gürültüsüz. PSM modunu deneyin: karışık metin için --psm 3 (otomatik), tek sütun için --psm 4. OEM modunu LSTM’ye zorlamak için --oem 1 ekleyin.

Tesseract OCR alternatifleri

Umi-OCR, Tesseract yerine PaddleOCR motoru kullanan; kullanıcı dostu grafiksel arayüz sunan ve Türkçe dahil çok dilli OCR yapan bir alternatiftir.
FreeOCR, Tesseract motorunu grafiksel arayüzle sunan Windows aracıdır; komut satırı kullanmak istemeyenler için uygun bir seçenektir.
Text Grab, Windows ekranında görünen metni OCR ile tanıyan ve panoya kopyalayan hafif bir Windows aracıdır.

Artılar
  • Yüksek doğruluk oranı
  • Türkçe dahil 100+ dil
  • Açık kaynak (Apache-2.0)
  • Geniş entegrasyon desteği
  • Google tarafından geliştiriliyor
Eksiler
  • CLI tabanlı, GUI yok
  • Teknik bilgi gerektirir
  • GUI için ek araç gerektirir

İşletim Sistemi: Windows 7/10/11, macOS, Linux
RAM: 512 MB
Disk: 200 MB

Değerlendirmeler

Değerlendirme Yaz

İndirme hazırlanıyor...

5

İndirme 5 saniye içinde başlayacak...