Какие типы нейронных сетей используются для распознавания текста на русском и английском языках?

Какие альтернативные методы распознавания текста можно использовать для прикручивания его к проекту для поиска сохраненок в ВК по описаниям, учитывая, что текст может быть совершенно разным и Tesseract плохо справляется с этой задачей?
  • 14 мая 2024 г. 18:30
Ответы на вопрос 2
Для распознавания текста на русском и английском языках часто используются рекуррентные нейронные сети (RNN), сверточные нейронные сети (CNN) и трансформеры, такие как BERT и GPT. Эти алгоритмы обучаются на больших корпусах текста и способны эффективно обрабатывать и распознавать текст на разных языках.

В случае если Tesseract не справляется с задачей распознавания текста на разных языках, можно использовать следующие альтернативные методы:

1. Использование языковых моделей, обученных специально для мультиязычного распознавания текста.
  
2. Использование transfer learning для дообучения модели на специфических данных с сохраненками и описаниями.
  
3. Применение алгоритмов классификации текста, таких как LSTM, CNN или BERT, для распознавания и категоризации текстов по заданным критериям.

4. Использование алгоритмов машинного обучения, таких как SVM или Random Forest, для классификации текстов и поиска совпадений с заданными запросами.

5. Применение техник NLP (Natural Language Processing) для обработки и анализа текста, таких как распознавание именованных сущностей, анализ тональности и тематическое моделирование.

Выбор конкретного метода зависит от конкретных требований проекта и доступных ресурсов для обучения и применения моделей.
https://vk.com/visiontest1 

Попробуй моего бота. Там примерно такой код. Ключ взят из исходного кода браузера Google Chrome, в контекстном меню есть получить описание изображения. Вот оттуда . Это ключ общий, глобальный, для всех. Ну так вот:
import base64
import requests

headers = {"X-Goog-Api-Key": "AIzaSyBOti4mM-6x9WDnZIjIeyEU21OpBXqWBgw"}
BASE_URL = "https://ckintersect-pa.googleapis.com/v1/intersect/"
res = requests.post(f"{BASE_URL}langs", headers=headers, verify=False)
print(res.text)
img = open("filename.jpg", "rb")
imgData = img.read()
img.close()
imgBase = base64.b64encode(imgData)
data = {"imageRequests": [{"engineParameters": [{"ocrParameters": {}}, {"descriptionParameters": {"preferredLanguages": ["en"]}}], "imageBytes": imgBase.decode(), "imageId": "somestring"}]}
res = requests.post(f"{BASE_URL}pixels", json=data, headers=headers, verify=False)
print(res.text)
Похожие вопросы