METRICS.md

Метрики

Для оценки решений участников предлагается использовать две метрики: генеративную и классификационную метрику.

Качество ответов на вопросы с выбором варианта ответа (из предложенных вариантов) предлагается оценивать с помощью классификационной метрики Accuracy (доля правильных ответов), которая основывается на внутренней оценке уверенности модели в вариантах ответа на вопрос по видеозаписи. Участникам предлагается, в рамках вычисления данной метрики, рассчитать численные значение перплексии модели в ответ на входные варианты ответа на вопрос. Затем, на основе данных значений осуществить выбор наиболее вероятного, с точки зрения оцениваемой модели, варианта ответа. На выходе решение участника должно выдать номер выбранного варианта ответа. Финальным значением метрики будет доля правильно отвеченных вопросов (выбранный вариант ответа совпадает с правильным) относительно общего числа вопросов (Accuracy).

Качество ответов на вопросы без выбора варианта ответа (открытая генерация) или вопросы, направленные на описание видео, оценивается с помощью генеративной метрики METEOR.

Финальный результат участника и распределение мест будет оцениваться в соответствии с интегральной метрикой.

Классификационная метрика

Accuracy — классификационная метрика для оценки качества ответов на вопросы с выбором ответа из данных вариантов. Она основывается на внутренней оценке уверенности модели в каждом из ответов. Участникам предлагается, в рамках вычисления данной метрики, рассчитать численные значения перплексии модели в ответ на входные варианты ответа на вопрос. Затем выбрать наиболее вероятный, с точки зрения вычисленных значений перплексии, вариант ответа из предложенных. В качестве итогового ответа для расчета Accuracy участник должен передать только номер выбранного варианта ответа.

Перплексия в языковой модели — определяется как эскпонента от усредненной функции отрицательного правдоподобия (negative log-likelihood) последовательности токенов.

Таким образом, если мы имеем некоторую токенизированную последовательность X=(x0,x1,…,xt), тогда значение перплексии для последовательности X вычисляется как:

где - это правдоподобие i-ого токена при условии всех x<i токенов, в соотвествии с предсказаниями модели.

Кроме того, показатель перплексии - это ни что иное как экспонента кросс-энтропийного критерия качества между предсказаниями модели и целевыми ответами.

Классификационная метрика будет вычисляться по файлу acc_output.json и принимать значения от 0 до 1, где 0 – наихудшее значение, 1 – наилучшее.

Генеративная метрика

Метрику оценки генерации ответов модели предлагается рассчитывать с применением METEOR.

METEOR – метрика, основанная на анализе n-грамм и ориентированная на использование статистической и точной оценки исходного текста. Данная метрика использует функции сопоставления синонимов вместе с точным соответствием слов.

Алгоритм сначала проводит выравнивание текста между двумя предложениями – строкой эталонного перевода и строкой входного текста для оценивания. Затем используется несколько этапов установления соответствия между словами машинного перевода и эталонного перевода для сопоставления двух строк:

Точное установление соответствия — определяются строки, которые являются идентичными в эталонном и машинном переводе.
Установление соответствия основ — проводится стемминг (выделение основы слова), и определяются слова с одинаковым корнем в эталонном и машинном переводе.
Установление соответствия синонимов — определяются слова, которые являются синонимами.

Выравнивание — это множество соответствий между n-граммами. На соответствие налагается следующее ограничение: каждый n-грамм в предложении-кандидате должен соответствовать одному или ни одному n-грамму в эталонном предложении. Если есть два выравнивания с тем же количеством совпадений, то выбирается то, которое имеет наименьшее количество пересечений для совпадений. Этапы сравнения с эталонными переводами выполняются последовательно, и на каждом из них ко множеству соответствий добавляются только те n-граммы, которые не имели соответствия на предыдущих этапах. Как только будет пройден последний этап, окончательное значение точности (precision) n-грамм вычисляется по следующей формуле:

где $m$ - количество n-грамм в машинном переводе, которые также были найдены в эталонном переводе, $w_t$ — количество n-грамм в машинном переводе.

Значение полноты (recall) n-грамм (общий n-грамм для эталонных переводов) вычисляется по следующей формуле:

где $w_r$ — количество n-грамм в эталонном переводе.

В результате METEOR рассчитывается как комбинация точности и полноты, используя формулу гармонического среднего, в которой вес полноты в 9 раз больше веса точности:

Генеративная метрика будет вычисляться по файлу gen_output.json и принимать значения от 0 до 1, где 0 – наихудшее значение, 1 – наилучшее.

Интегральная метрика

Метрики вычисляются по каждому типу вопросов и агрегируются с соответствующими весовыми коэффициентами. Таким образом, интегральная метрика вычисляется по следующей формуле:

где и — число вопросов каждого типа, с выбором ответа (multiple-choice) и открытые (open-ended) соответственно;

и — значения метрики METEOR, вычисленной для j-го вопроса, и Accuracy, соответственно;

и — вес метрики METEOR и Accuracy, соответственно.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

METRICS.md

METRICS.md

Метрики

Классификационная метрика

Генеративная метрика

Интегральная метрика

Files

METRICS.md

Latest commit

History

METRICS.md

File metadata and controls

Метрики

Классификационная метрика

Генеративная метрика

Интегральная метрика