Какие альтернативные методы распознавания текста можно использовать для прикручивания его к проекту для поиска сохраненок в ВК по описаниям, учитывая, что текст может быть совершенно разным и Tesseract плохо справляется с этой задачей?
Для распознавания текста на русском и английском языках часто используются рекуррентные нейронные сети (RNN), сверточные нейронные сети (CNN) и трансформеры, такие как BERT и GPT. Эти алгоритмы обучаются на больших корпусах текста и способны эффективно обрабатывать и распознавать текст на разных языках. В случае если Tesseract не справляется с задачей распознавания текста на разных языках, можно использовать следующие альтернативные методы: 1. Использование языковых моделей, обученных специально для мультиязычного распознавания текста. 2. Использование transfer learning для дообучения модели на специфических данных с сохраненками и описаниями. 3. Применение алгоритмов классификации текста, таких как LSTM, CNN или BERT, для распознавания и категоризации текстов по заданным критериям. 4. Использование алгоритмов машинного обучения, таких как SVM или Random Forest, для классификации текстов и поиска совпадений с заданными запросами. 5. Применение техник NLP (Natural Language Processing) для обработки и анализа текста, таких как распознавание именованных сущностей, анализ тональности и тематическое моделирование. Выбор конкретного метода зависит от конкретных требований проекта и доступных ресурсов для обучения и применения моделей.
https://vk.com/visiontest1
Попробуй моего бота. Там примерно такой код. Ключ взят из исходного кода браузера Google Chrome, в контекстном меню есть получить описание изображения. Вот оттуда . Это ключ общий, глобальный, для всех. Ну так вот:
import base64 import requests headers = {"X-Goog-Api-Key": "AIzaSyBOti4mM-6x9WDnZIjIeyEU21OpBXqWBgw"} BASE_URL = "https://ckintersect-pa.googleapis.com/v1/intersect/" res = requests.post(f"{BASE_URL}langs", headers=headers, verify=False) print(res.text) img = open("filename.jpg", "rb") imgData = img.read() img.close() imgBase = base64.b64encode(imgData) data = {"imageRequests": [{"engineParameters": [{"ocrParameters": {}}, {"descriptionParameters": {"preferredLanguages": ["en"]}}], "imageBytes": imgBase.decode(), "imageId": "somestring"}]} res = requests.post(f"{BASE_URL}pixels", json=data, headers=headers, verify=False) print(res.text)