VietOCR - Phần mềm nhận dạng ký tự OCR tiếng Việt miễn phí

| Tin tức
8909
VietOCR - Phần mềm nhận dạng ký tự OCR tiếng Việt miễn phí
VietOCR là giải pháp nhận dạng ký tự quang học (OCR) tập trung vào cải thiện độ chính xác cho việc nhận dạng ký tự Tiếng Việt. Phát triển dựa trên lõi OCR Tesseract (Tesseract là công cụ OCR mã nguồn mở được tài trợ bởi Google, được xem là một trong nhưng công cụ OCR tốt nhất hiện nay). VietOCR phù hợp với việc nhận diện tài liệu tiếng Việt số lượng ít, tại văn phòng hoặc người dùng cá nhân.
  • Hỗ trợ tất cả các ngôn ngữ do Tesseract cung cấp, cho phép người dùng tải xuống tự động và cài đặt các gói ngôn ngữ.
  • Hỗ trợ định dạng: PDF, TIFF, JPEG, GIF, PNG, BMP.
  • Hỗ trợ các công cụ xử lý ảnh: Chỉnh nghiêng, xóa đường kẻ, tách trang...
  • Khả năng xử lý hàng loạt.
☼ Tải về: VietOCR

VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,… VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.

1. Nhận dạng tài liệu ảnh

VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg, bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.

Trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn Vietnamese. Sau đó, nhấn nút OCR để bắt đầu quá trình biên dịch nội dung.

VietOCR tích hợp bộ gõ tiếng Việt (hoạt động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode được tích hợp sẵn.

Trường hợp chỉ muốn nhận dạng riêng một khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.

☼ Tham khảo: ABBYY FineReader 15 - OCR Tiếng Việt cho tất cả các máy scan

2. Cài đặt máy quét

Nếu nhu cầu của bạn là xử lý các tài liệu bên ngoài thông qua hệ thống quét của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép file WIAAut.dll (C:\Program Files\VietUnicode\VietOCR.NET) vào thư mục C:\Windows\System32.

Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:\Windows\System32\WIAAut.dll để đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu tiến trình xử lý văn bản như trên.

Lưu ý:

– Trong quá trình sử dụng, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or write protected memory. Một trong những nguyên nhân gây ra lỗi này là do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate vài lần cho đúng hướng là xong.
– Nếu không có máy quét và bạn vẫn muốn “trải nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language, chọn Vietnamese.

Tài liệu quét sẽ được chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1. Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực hiện này cũng xảy ra với các định dạng khác.

Để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.

3. Xử lý tài liệu PDF

VietOCR có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường hợp hai).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn thời gian chỉnh sửa nhiều.
----------------------

VIETBIS cung cấp giải pháp số hoá tài liệu chuyên nghiệp

  • Cho thuê máy scan kèm phần mềm bản quyền chuẩn số hoá: OCR tiếng Việt, PDF/A, PDF Searchable;
  • Phần mềm scan bản quyền (hỗ trợ OCR tiếng Việt) cho các dòng máy scan Fujitsu, Panasonic, Kodak, Plustek (phục vụ các dự án số hoá);
  • Phần mềm ABBYY FineReader PDF 15 cho văn phòng (hỗ trợ OCR tiếng Việt).

☼ Hotline tư vấn: 024 7303 1068 - 089 6688 636

VietOCR

Bình luận