Skip to content

Latest commit

 

History

History
71 lines (39 loc) · 10.4 KB

METRICS.md

File metadata and controls

71 lines (39 loc) · 10.4 KB

Метрики

Для оценки решений участников предлагается использовать две метрики: генеративную и классификационную метрику.

Качество ответов на вопросы с выбором варианта ответа (из предложенных вариантов) предлагается оценивать с помощью классификационной метрики Accuracy (доля правильных ответов), которая основывается на внутренней оценке уверенности модели в вариантах ответа на вопрос по видеозаписи. Участникам предлагается, в рамках вычисления данной метрики, рассчитать численные значение перплексии модели в ответ на входные варианты ответа на вопрос. Затем, на основе данных значений осуществить выбор наиболее вероятного, с точки зрения оцениваемой модели, варианта ответа. На выходе решение участника должно выдать номер выбранного варианта ответа. Финальным значением метрики будет доля правильно отвеченных вопросов (выбранный вариант ответа совпадает с правильным) относительно общего числа вопросов (Accuracy).

Качество ответов на вопросы без выбора варианта ответа (открытая генерация) или вопросы, направленные на описание видео, оценивается с помощью генеративной метрики METEOR.

Финальный результат участника и распределение мест будет оцениваться в соответствии с интегральной метрикой.

Классификационная метрика

Accuracy — классификационная метрика для оценки качества ответов на вопросы с выбором ответа из данных вариантов. Она основывается на внутренней оценке уверенности модели в каждом из ответов. Участникам предлагается, в рамках вычисления данной метрики, рассчитать численные значения перплексии модели в ответ на входные варианты ответа на вопрос. Затем выбрать наиболее вероятный, с точки зрения вычисленных значений перплексии, вариант ответа из предложенных. В качестве итогового ответа для расчета Accuracy участник должен передать только номер выбранного варианта ответа.

Перплексия в языковой модели — определяется как эскпонента от усредненной функции отрицательного правдоподобия (negative log-likelihood) последовательности токенов.

Таким образом, если мы имеем некоторую токенизированную последовательность X=(x0,x1,…,xt), тогда значение перплексии для последовательности X вычисляется как:

image

где image - это правдоподобие i-ого токена при условии всех x<i токенов, в соотвествии с предсказаниями модели.

Кроме того, показатель перплексии - это ни что иное как экспонента кросс-энтропийного критерия качества между предсказаниями модели и целевыми ответами.

Классификационная метрика будет вычисляться по файлу acc_output.json и принимать значения от 0 до 1, где 0 – наихудшее значение, 1 – наилучшее.

Генеративная метрика

Метрику оценки генерации ответов модели предлагается рассчитывать с применением METEOR.

METEOR – метрика, основанная на анализе n-грамм и ориентированная на использование статистической и точной оценки исходного текста. Данная метрика использует функции сопоставления синонимов вместе с точным соответствием слов.

Алгоритм сначала проводит выравнивание текста между двумя предложениями – строкой эталонного перевода и строкой входного текста для оценивания. Затем используется несколько этапов установления соответствия между словами машинного перевода и эталонного перевода для сопоставления двух строк:

  1. Точное установление соответствия — определяются строки, которые являются идентичными в эталонном и машинном переводе.
  2. Установление соответствия основ — проводится стемминг (выделение основы слова), и определяются слова с одинаковым корнем в эталонном и машинном переводе.
  3. Установление соответствия синонимов — определяются слова, которые являются синонимами.

Выравнивание — это множество соответствий между n-граммами. На соответствие налагается следующее ограничение: каждый n-грамм в предложении-кандидате должен соответствовать одному или ни одному n-грамму в эталонном предложении. Если есть два выравнивания с тем же количеством совпадений, то выбирается то, которое имеет наименьшее количество пересечений для совпадений. Этапы сравнения с эталонными переводами выполняются последовательно, и на каждом из них ко множеству соответствий добавляются только те n-граммы, которые не имели соответствия на предыдущих этапах. Как только будет пройден последний этап, окончательное значение точности (precision) n-грамм вычисляется по следующей формуле:

image

где $m$ - количество n-грамм в машинном переводе, которые также были найдены в эталонном переводе, $w_t$ — количество n-грамм в машинном переводе.

Значение полноты (recall) n-грамм (общий n-грамм для эталонных переводов) вычисляется по следующей формуле:

image

где $w_r$ — количество n-грамм в эталонном переводе.

В результате METEOR рассчитывается как комбинация точности и полноты, используя формулу гармонического среднего, в которой вес полноты в 9 раз больше веса точности:

image

Генеративная метрика будет вычисляться по файлу gen_output.json и принимать значения от 0 до 1, где 0 – наихудшее значение, 1 – наилучшее.

Интегральная метрика

Метрики вычисляются по каждому типу вопросов и агрегируются с соответствующими весовыми коэффициентами. Таким образом, интегральная метрика вычисляется по следующей формуле:

image

где image и image — число вопросов каждого типа, с выбором ответа (multiple-choice) и открытые (open-ended) соответственно;

image и image — значения метрики METEOR, вычисленной для j-го вопроса, и Accuracy, соответственно;

image и image — вес метрики METEOR и Accuracy, соответственно.