.png?raw=true)
Enhanced OCR to LaTeX v8.1 (PDF to LaTeX)
Công cụ chuyển đổi PDF sang LaTeX tự động — dành cho giáo viên, giảng viên và người soạn đề thi
Mô tả chi tiết
📋 Mô tả sản phẩm
Enhanced OCR to LaTeX v8.1 là ứng dụng web giúp chuyển đổi file PDF thành mã LaTeX một cách tự động, nhanh chóng và chính xác — đặc biệt phù hợp cho giáo viên, giảng viên và người soạn đề thi môn Toán.
Thay vì phải gõ tay từng công thức toán học vào LaTeX — vốn rất tốn thời gian và dễ sai — người dùng chỉ cần tải file PDF lên, hệ thống sẽ tự động nhận dạng toàn bộ nội dung, chuyển đổi sang cú pháp LaTeX chuẩn và xuất ra file hoàn chỉnh sẵn sàng để in ấn hoặc biên dịch.
Sản phẩm xử lý tốt các nội dung đặc thù của đề thi Việt Nam như câu trắc nghiệm, câu đúng/sai, câu trả lời ngắn và tự luận, đồng thời nhận diện chính xác các ký hiệu toán học phức tạp như phân số, vector, tích phân và ma trận. Hình ảnh trong PDF cũng được trích xuất tự động và đính kèm trong file kết quả.
✨ Tính năng chính
- OCR thông minh — Nhận dạng văn bản từ PDF bằng Mistral OCR, hỗ trợ cả file scan chất lượng thấp
- Chuyển đổi LaTeX tự động — Dùng Google Gemini 2.0 Flash để hiểu nội dung và sinh ra cú pháp LaTeX đúng chuẩn
- Phân loại câu hỏi — Tự động nhận diện 4 dạng câu: trắc nghiệm, đúng/sai, trả lời ngắn, tự luận
- Xử lý bảng biểu — Chuyển đổi bảng trong PDF sang môi trường
tabularcủa LaTeX - Trích xuất hình ảnh — Tách ảnh nhúng trong PDF, đặt đúng vị trí trong file LaTeX
- Syntax highlighting — Tô màu cú pháp LaTeX ngay trên giao diện web để dễ kiểm tra
- Xuất file ZIP — Đóng gói file
.texvà thư mụcImages/sẵn sàng để biên dịch - Sao chép nhanh — Copy toàn bộ mã LaTeX vào clipboard chỉ với một cú nhấp
🛠️ Hướng dẫn cài đặt
Yêu cầu
- Tài khoản Google
- API key của Mistral OCR
- API key của Google Gemini
Các bước cài đặt
Bước 1 — Tạo Google Apps Script project
Truy cập script.google.com → Nhấn New project → Đặt tên project (ví dụ: OCR to LaTeX).
Bước 2 — Thêm code vào project
- Trong file
Code.gsmặc định, dán toàn bộ nội dung filecode_(gs)-pdf_to_latex.txt - Tạo thêm file HTML: nhấn dấu + → chọn HTML → đặt tên
index-latex→ dán nội dung fileindex-latex_(html)_-PDF_to_latex.txt
Bước 3 — Cấu hình API key
Mở Code.gs, tìm phần ENHANCED_LATEX_CONFIG ở đầu file và thay thế:
MISTRAL: {
API_KEY: 'API OCR PDF', // ← Thay bằng API key Mistral của bạn
...
},
GEMINI: {
API_KEY: 'GEMINI API THẬT', // ← Thay bằng API key Gemini của bạn
...
}
Bước 4 — Deploy ứng dụng
Nhấn Deploy → New deployment → Chọn loại Web app → Cấu hình:
- Execute as:
Me - Who has access:
Anyone(hoặc giới hạn theo nhu cầu)
Nhấn Deploy → Cấp quyền → Copy URL được cấp.
Bước 5 — Sử dụng
Mở URL vừa copy trên trình duyệt → Tải PDF lên → Nhấn Convert → Chờ xử lý → Tải file ZIP về.
📖 Hướng dẫn sử dụng
- Mở ứng dụng trên trình duyệt
- Kéo thả hoặc nhấn để tải file PDF lên (tối đa 50MB)
- Nhấn nút Convert để bắt đầu xử lý
- Theo dõi tiến trình qua thanh log phía dưới
- Khi hoàn tất, xem kết quả LaTeX ngay trên giao diện
- Nhấn Copy để sao chép mã hoặc Download ZIP để tải về toàn bộ file
❓ FAQ
Ứng dụng hỗ trợ loại file nào?
Chỉ hỗ trợ file PDF. Hình ảnh nhúng trong PDF (PNG, JPG, JPEG) sẽ được tự động trích xuất và đưa vào thư mục Images/ trong file ZIP xuất ra.
Kết quả LaTeX có dùng được ngay không?
Gần như ngay lập tức — file .tex đã có đầy đủ \documentclass, các package cần thiết (amsmath, graphicx, geometry…) và nội dung đã được format. Bạn chỉ cần mở bằng Overleaf hoặc biên dịch bằng MiKTeX/TeX Live.
Tại sao cần đến 2 API (Mistral + Gemini)? Mistral OCR chuyên nhận dạng văn bản từ PDF, đặc biệt chính xác với tài liệu scan. Gemini đảm nhiệm việc hiểu nội dung và chuyển đổi sang cú pháp LaTeX đúng chuẩn. Hai bước này bổ sung cho nhau để cho kết quả tốt nhất.
Mất bao lâu để xử lý một file? Tùy độ dài và độ phức tạp của PDF, thường từ 30 giây đến vài phút. Hệ thống tự động thử lại tối đa 3 lần nếu gặp lỗi kết nối API.
Công thức toán học có được chuyển đúng không?
Hệ thống được tối ưu cho toán học — hỗ trợ phân số (\frac), vector (\overrightarrow), tích phân (\int), ma trận và các ký hiệu AMS. Tuy nhiên, các công thức trong PDF scan chất lượng thấp vẫn có thể cần chỉnh sửa thủ công sau khi chuyển đổi.
File PDF của tôi có được lưu lại không? Không. Ứng dụng xử lý file trực tiếp trong phiên làm việc và không lưu trữ bất kỳ dữ liệu nào lên server hay database.
Tôi gặp lỗi "OCR failed" phải làm gì? Kiểm tra lại API key Mistral đã được nhập đúng chưa, đảm bảo tài khoản Mistral còn quota, và file PDF không bị mã hóa hoặc bảo vệ bằng mật khẩu.
🔧 Thông tin kỹ thuật
| Thành phần | Công nghệ |
|---|---|
| Nền tảng | Google Apps Script |
| OCR Engine | Mistral OCR (mistral-ocr-latest) |
| AI Conversion | Google Gemini 2.0 Flash |
| Frontend | HTML + Bootstrap 5 + Font Awesome |
| Xuất file | ZIP (.tex + Images/) |
| File tối đa | 50 MB |
Đánh giá (0)
Chưa có bình luận đánh giá chi tiết nào.