Какой эмпирический тест лучше всего подходит для оценки силы бота, играющего в реверси?

Я разработал программу для игры в реверси на языке Python и постепенно повышаю её уровень сложности, не увеличивая при этом глубину поиска. В этой игре сражаются два бота. 

Результаты их партии фиксируются следующим образом: 
1. Сначала я подсчитываю общее количество выигрышей и проигрышей, в итоге получаю 2243 выигрыша и 826 проигрышей. 
2. Затем выигрыши и проигрыши учитываются только по уникальным партиям, которые ранее не происходили. Если играется партия с ходами, которые уже были использованы, этот результат не учитывается. В этом случае результаты составляют 786 выигрышей и 284 проигрыша. Таким образом, общее количество учитываемых результатов значительно меньше, чем в первом случае.
  • 2 марта 2025 г. 19:24
Ответы на вопрос 2
Для оценки силы бота, играющего в реверси, можно использовать несколько подходов, однако одним из наиболее подходящих эмпирических тестов является **статистический тест для сравнения двух пропорций**, так как вы имеете дело с количеством выигрышей и проигрышей.

1. **Сравнение пропорций**: Используйте статистический тест (например, Z-тест для пропорций) для сравнения выигрышной пропорции вашего бота с другим ботом или с предыдущими версиями вашего бота. Это поможет вам понять, есть ли статистически значимые различия в уровне игры между разными версиями ваших ботов.

2. **Тестирование на уникальных партиях**: Так как вы также учитываете только уникальные партии, оцените, изменяется ли результат в зависимости от использования только уникальных ходов. Это может быть сделано с использованием тех же тестов для пропорций.

3. **Использование контрольной группы**: Запустите игру вашего бота против других, уже проверенных ботов с известной силой и проанализируйте результаты. Это обеспечит более объективную оценку вашей программы, поскольку вы будете сравнивать её производительность с предварительно оцененными соперниками.

4. **Измерение статистической значимости**: При анализе результатов используйте уровень значимости (обычно 0.05) для оценки того, являются ли наблюдаемые различия в wynkach случайными или указывают на истинное улучшение в игре бота.

5. **Анализ ELO-рейтинга**: Также рассмотрите возможность использовать ELO-рейтиг для оценки силы бота. Вы можете изменить систему оценок факторов, которые влияют на результат, и яснее понять, как изменяется сила бота со временем.

Таким образом, комбинируйте статистические методы с сравнением с другими ботами, чтобы получить наиболее полное представление о силе вашего бота в реверси.
Может оценивать не только победу/поражение, но и оценку последей позиции? 
Условно бот победил с перевесом в n фишек и этот n учитывать в оценке.
Похожие вопросы