Для оценки решений участников предлагается использовать две метрики: генеративную и классификационную метрику.
Качество ответов на вопросы с выбором варианта ответа (из предложенных вариантов) предлагается оценивать с помощью классификационной метрики Accuracy (доля правильных ответов), которая основывается на внутренней оценке уверенности модели в вариантах ответа на вопрос по видеозаписи. Участникам предлагается, в рамках вычисления данной метрики, рассчитать численные значение перплексии модели в ответ на входные варианты ответа на вопрос. Затем, на основе данных значений осуществить выбор наиболее вероятного, с точки зрения оцениваемой модели, варианта ответа. На выходе решение участника должно выдать номер выбранного варианта ответа. Финальным значением метрики будет доля правильно отвеченных вопросов (выбранный вариант ответа совпадает с правильным) относительно общего числа вопросов (Accuracy).
Качество ответов на вопросы без выбора варианта ответа (открытая генерация) или вопросы, направленные на описание видео, оценивается с помощью генеративной метрики METEOR.
Финальный результат участника и распределение мест будет оцениваться в соответствии с интегральной метрикой.
Accuracy — классификационная метрика для оценки качества ответов на вопросы с выбором ответа из данных вариантов. Она основывается на внутренней оценке уверенности модели в каждом из ответов. Участникам предлагается, в рамках вычисления данной метрики, рассчитать численные значения перплексии модели в ответ на входные варианты ответа на вопрос. Затем выбрать наиболее вероятный, с точки зрения вычисленных значений перплексии, вариант ответа из предложенных. В качестве итогового ответа для расчета Accuracy участник должен передать только номер выбранного варианта ответа.
Перплексия в языковой модели — определяется как эскпонента от усредненной функции отрицательного правдоподобия (negative log-likelihood) последовательности токенов.
Таким образом, если мы имеем некоторую токенизированную последовательность X=(x0,x1,…,xt), тогда значение перплексии для последовательности X вычисляется как:
где - это правдоподобие i-ого токена при условии всех x<i токенов, в соотвествии с предсказаниями модели.
Кроме того, показатель перплексии - это ни что иное как экспонента кросс-энтропийного критерия качества между предсказаниями модели и целевыми ответами.
Классификационная метрика будет вычисляться по файлу acc_output.json и принимать значения от 0 до 1, где 0 – наихудшее значение, 1 – наилучшее.
Метрику оценки генерации ответов модели предлагается рассчитывать с применением METEOR.
METEOR – метрика, основанная на анализе n-грамм и ориентированная на использование статистической и точной оценки исходного текста. Данная метрика использует функции сопоставления синонимов вместе с точным соответствием слов.
Алгоритм сначала проводит выравнивание текста между двумя предложениями – строкой эталонного перевода и строкой входного текста для оценивания. Затем используется несколько этапов установления соответствия между словами машинного перевода и эталонного перевода для сопоставления двух строк:
- Точное установление соответствия — определяются строки, которые являются идентичными в эталонном и машинном переводе.
- Установление соответствия основ — проводится стемминг (выделение основы слова), и определяются слова с одинаковым корнем в эталонном и машинном переводе.
- Установление соответствия синонимов — определяются слова, которые являются синонимами.
Выравнивание — это множество соответствий между n-граммами. На соответствие налагается следующее ограничение: каждый n-грамм в предложении-кандидате должен соответствовать одному или ни одному n-грамму в эталонном предложении. Если есть два выравнивания с тем же количеством совпадений, то выбирается то, которое имеет наименьшее количество пересечений для совпадений. Этапы сравнения с эталонными переводами выполняются последовательно, и на каждом из них ко множеству соответствий добавляются только те n-граммы, которые не имели соответствия на предыдущих этапах. Как только будет пройден последний этап, окончательное значение точности (precision) n-грамм вычисляется по следующей формуле:
где
Значение полноты (recall) n-грамм (общий n-грамм для эталонных переводов) вычисляется по следующей формуле:
где
В результате METEOR рассчитывается как комбинация точности и полноты, используя формулу гармонического среднего, в которой вес полноты в 9 раз больше веса точности:
Генеративная метрика будет вычисляться по файлу gen_output.json и принимать значения от 0 до 1, где 0 – наихудшее значение, 1 – наилучшее.
Метрики вычисляются по каждому типу вопросов и агрегируются с соответствующими весовыми коэффициентами. Таким образом, интегральная метрика вычисляется по следующей формуле:
где и — число вопросов каждого типа, с выбором ответа (multiple-choice) и открытые (open-ended) соответственно;
и — значения метрики METEOR, вычисленной для j-го вопроса, и Accuracy, соответственно;