Как установить дефолтную рубрику для мусорных описаний книг в датасете?

Как можно автоматизировать присвоение дефолтной рубрики для описаний книг в датасете размером 70 000 строк, которые нельзя однозначно определить по словам, используя код для обучения модели предсказывать рубрику книги по ее описанию?
  • 29 сентября 2023 г. 5:47
Ответы на вопрос 2
Если вы не можете однозначно определить рубрику книги по описанию, и у вас нет доступа к рубрикационной информации или внешним источникам данных, то установка дефолтной рубрики может быть достаточным решением.

Для установки дефолтной рубрики для мусорных описаний книг в датасете, вы можете использовать следующий код на языке Python:

```python
import pandas as pd

# Загрузка датасета
df = pd.read_csv('dataset.csv')

# Установка дефолтной рубрики
default_category = 'Мусорная рубрика'
df['category'] = default_category

# Сохранение измененного датасета
df.to_csv('updated_dataset.csv', index=False)
```

Вышеуказанный код загружает датасет из файла 'dataset.csv', устанавливает дефолтную рубрику 'Мусорная рубрика' для всех описаний книг и сохраняет измененный датасет в файл 'updated_dataset.csv'. Вам необходимо заменить 'dataset.csv' и 'updated_dataset.csv' на соответствующие имена файлов.

Обратите внимание, что это простой пример, который устанавливает одну и ту же дефолтную рубрику для всех описаний книг в датасете. Если вам нужно более сложное решение, вы можете применить алгоритм классификации или обучить модель машинного обучения для предсказания рубрик на основе описаний книг.
1. Если у тебя есть список с описаниями и категориями, и одна из категорий не заполнена, то замени пропущенные значения на дефолтную категорию, если такая есть. Если значения отсутствуют в сете категорий, то замени их на дефолтную категорию.

2. Посмотри эту статью, которая может быть полезной для разметки неизвестных категорий: [ссылка]

3. Примени кластерный анализ и присвой каждому кластеру свою категорию.

4. Иногда введение меток категорий происходит вручную даже в компаниях, занимающихся разработкой больших технологий. Например, объявления о найме людей для просмотра видео и классификации их по определенным категориям. Участие людей может быть необходимо при подготовке обучающих наборов данных.

Важно помнить, что в машинном обучении нельзя предсказать детерминированное поведение. Функция активации на последнем слое преобразует значения в интервале от 0 до 1, при этом ноль и единица не включены в это значение. Эти значения используются как вероятности для классификации. У тебя будет вектор, длина которого равна количеству категорий, и его сумма равна 1 (100%). Например, значение 0.3 для второй категории означает вероятность 30%. Программа выберет индекс с максимальным значением вектора и присвоит эту категорию. Однако никогда не будет значений на 100% или 0%. То есть, категории, которые невозможно классифицировать, она иногда ошибочно классифицирует.
Похожие вопросы