Великі мовні моделі: перевірте свої знання

Скільки 2-грам (біграм) міститься у фразі:

they visited New York last week

3

4

5

6

Які атрибути великих мовних моделей допомагають їм робити кращі прогнози, ніж ті, які видають інші типи мовних моделей? (Виберіть усі варіанти, які підходять.)

Виберіть потрібну кількість відповідей.

Великі мовні моделі містять набагато більше параметрів.

Великі мовні моделі отримують більше контексту.

Великі мовні моделі не обов’язково навчати на великій кількості даних.

Великі мовні моделі ніколи не мають "галюцинацій".

Істина чи хиба: повний трансформер складається з кодера й декодера.

Істина

Хиба

Велика мовна модель навчається на великому масиві даних, у якому є такий приклад:

My cousin's new fashion line is so cool!

Який механізм допомагає великій мовній моделі дізнатися, що в цьому реченні cool (англ. прохолодний, чудовий), швидше за все, означає "чудовий", а не стосується температури?

Інженерія запитів

Декодер

Дистиляція

Самоувага

Яке з тверджень щодо тонкого налаштування й дистиляції, наведених нижче, істинне?

Тонке налаштування збільшує кількість параметрів, яку має модель, тоді як дистиляція зменшує її.

Зазвичай тонке налаштування підвищує якість прогнозів моделі, тоді як дистиляція знижує її.

Тонке налаштування виконується на текстових моделях, тоді як дистиляція – на моделях зображень.

Усі твердження, наведені вище, істинні.