ac- func

Тайна постоянно растущего числа функций активации

ac-func-gif-функция-активации

В чем секрет выбора функции активации?Несмотря на все её недостатки ReLU долгое время была выдающейся. Тем не менее было предложено 10, если не 100 альтернатив. Ни одна другая функция активации не могла взять верх над ReLU. Google опубликовала свою статью “Searching for activation functions” в 2017 году и заявила, что они провели исчерпывающее исследование и нашли эффективный вариант или сигмоиду под названием Swish. Цифры утверждали, что Swish выиграла гонку у ReLU и аналогичных функциях активации в задачах компьютерного зрения.

Вот только статья OpenAI GPT2 показала, что они использовали функцию активации GELU (Gaussian Error Linear Units), похожую на Swish, но намного более быструю. Далее приводится общая схема: во многих статьях по НЛП использовался GELU, а в задачах компьютерного зрения использовался Swish (или его модификации). Недавно по тем же причинам в центре внимания оказался ReLU6.

Так в чем же секрет? Неподтвержденные данные практикующих специалистов свидетельствуют о том, что ReLU по-прежнему является “приемлемым” выбором для подавляющего числа дискриминантных задач, и проблема умирающих нейронов по счастливой случайности решается дропаутом (dropout). Вам нужно беспокоиться о сложных функциях активации только тогда, когда вы имеете дело с предварительным обучением или имеете дело с генеративными задачами.

Статья Google SWISH: https://arxiv.org/pdf/1710.05941.pdf
Статья GELU: https://arxiv.org/pdf/1606.08415.pdf

0
    0
    Ваша корзина
    Ваша корзина пустаВернуться к курсам