DevGang
Авторизоваться

Потрясающий Talon

В наше время очень популярная тема для обсуждения - задача голосового управления, это очень простая вещь: положите руки по бокам и используйте только свой голос для выполнения повседневных задач. По сути, делая это, вы знакомитесь с тем, каково это людям, которым приходится ежедневно полагаться на эти технологии.

Для многих из вас, читающих этот пост, это всего лишь мысленный эксперимент. Это то, что вы пробуете один или два раза, а затем возвращаетесь к нормальной жизни. Это может расстраивать, ни одно из ваших приложений не будет работать корректно. Выбор некоторых элементов пользовательского интерфейса может быть затруднен или даже невозможен.

Один из способов взглянуть на подобную проблему - помочь вам развить эмпатию к тем, кто вынужден полагаться на эту технологию. это может заставить вас почувствовать себя беспомощным. Это чувство, которое мы, технологи, редко испытываем.

То, что мы действительно чувствуем, иллюстрирует сложность задачи голосового управления, так это управление текстовым редактором. Текстовые редакторы требуют произвольного ввода с клавиатуры. Они требуют нажатия странных привязок клавиш. Сделать это с помощью голосового управления на Mac или iPad может быть сложно или даже невозможно.

Однако подобная диктовка действительно отлично подходит для написания больших блоков текста. Максимальная скорость человеческой речи составляет около двухсот слов в минуту, и именно в этом большинство систем диктовки могут по-настоящему блистать.

Но мы технологи. Для многих людей умения писать базовые электронные письма и послания более чем достаточно. По статистике, если вы читаете этот блог, вам, вероятно, нужно сделать больше. Намного больше. Нам регулярно приходится говорить на тайных символах иностранных языков, чтобы заставить автоматы выполнять нашу волю. Если вдуматься, программирование на самом деле очень похоже на колдовство, за исключением того, что мы по какой-то причине не называем себя ведьмами.

Во время своего путешествия по вспомогательным технологиям мы нашли программу под названием Talon. Talon — это программное обеспечение, которое позволяет вам управлять компьютером с помощью голоса, но вы можете использовать его для программирования, и оно программируемое. Несколько громоздкий процесс создания собственных команд голосового управления на Mac или iPhone исчезает. Вы можете писать команды на чем-то, что отдаленно похоже на Python, или на самом Python:

evil normal:
    key(esc)

Это создает новую команду, которая нажимает клавишу escape, когда вы говорите "evil normal". Вы можете заменить эту команду чем угодно, чем захотите. Вы не ограничены простым нажатием отдельных клавиш, вы можете делать практически все, что только можете себе представить. Вы можете вставлять произвольные строки текста, запускать функции python, использовать Google Chrome или практически все, что вы можете делать с помощью программирования.

Весь этот пост был написан с помощью Talon. Даже очертания. Даже этот HTML-тег. Люди на Discord могут подтвердить это.

Представим, что вам по чистой случайности действительно удалось пообщаться с человеком, стоящим за Talon и имеющим с ним дело. После использования программного обеспечения в течение примерно недели вы убедитесь, что Talon буквально оказывает положительное влияние на эту планету. Эта программа является инструментом расширения прав и возможностей. Изначально он был написан для того, чтобы человек мог продолжать кодировать, не испытывая сильной боли в руках, но он также полезен для людей, которые вообще не могут пользоваться своими руками.

Talon

После того, как мы разобрались, как все настроить и использовать, можно уверенно сказать, что Talon является революционным. С легкостью можно оставить руки свободными и продолжать кодировать. Вы можете смотреть на экран или смотреть вдаль, тем самым позволить словам литься рекой. В конечном итоге возникает уникальное ощущение, когда вы действительно хорошо разбираетесь в vim и других текстовых редакторах, все барьеры начинают исчезать, и вы действительно начинаете думать о сути того, что вы делаете, а не о точных движениях рук. Такое чувство может вызвать Talon.  Все детали уплывают, и мы действительно можем просто сосредоточиться на своей ментальной модели того, что происходит, где мы находимся и куда хотим попасть. Как только вы выучите команды для того, чтобы взаимодействовать с вещами, это просто станет легким делом.

Одна из самых интересных особенностей Talon заключается в том, что он действует как vim. Талон может находиться в нескольких различных режимах:

  1. спящий режим - в этом режиме Талон не слушает команды;
  2. командный режим — в этом режиме Talon слушает команды и выполняет их в том порядке, в котором они произносятся;
  3. режим диктовки — в этом режиме Talon прослушивает большие блоки текста и печатает их по мере того, как вы их произносите.

Это очень похоже на обычный режим vim и режим добавления. Многие команды также функционируют аналогично движениям vim. Многие из них представляют собой простые инструкции, которые могут принимать аргументы, очень похожие на движения vim. Объедините это с необязательными повторами и другими суффиксами, и это действительно станет балетом языка и команд вместе взятых. Например, вот небольшой код go и эквивалентные ему движения Talon:

func add(x int, y int) int {
    return x + y
}

Этот код станет следующими движениями когтя:

word funk delete cap space word add args plex sit near trap comma
space yank space sit near trap go right space sit near trap space
brack slap
space fourth word return space plex plus yank slap
r brack

Это может показаться непонятным, но позвольте нам разделить это на отдельные команды и объяснить, что они делают:

Команда Значение
word funk введите слово "funk"
delete нажмите клавишу возврата
cap введите букву "с"
space нажмите пробел
args введите обе скобки и нажмите клавишу со стрелкой влево, чтобы перейти внутрь них
plex введите букву "х"
sit введите букву "i"
near введите букву "n"
trap введите букву "t"
yank введите букву "у"
go right нажмите клавишу со стрелкой вправо
brack введите левую фигурную скобку "{"
slap нажмите клавишу enter
space fourth нажмите четыре раза
plus введите знак плюса "+"
r brack введите правую фигурную скобку "}"

В целом, это все команды, которые вы выполняете вручную с клавиатуры. Это просто выглядит немного более неуклюже, но это то, что происходит, когда вы пытаетесь убрать символы из своего голоса.

Все движения Talon странно полезны. Такое ощущение, что они были созданы намеренно и с целью помочь вам выполнять вашу работу. Некоторые из них на законных основаниях работают быстрее, чем набор текста вручную, например, форматировщики текста:

  • all cap - ЭТО ВСЕ ЗАГЛАВНЫЕ БУКВЫ
  • camel - ВерблюжийРегистр, или ГорбатыйРегистр
  • dotted - эти.разделены.периодами. 
  • dub string - "это строка в кавычках"
  • hammer - ЭтоЭкспортированноеИмяGo;
  • kebab - какой-нибудь-шашлык-был бы-вкусным-на-ужин
  •  packed - работа::с::ржавчиной::ящиками::никогда::не становилась::проще
  • slasher - /каталог/пути/есть/легко/сейчас
  • smash -  иногданужноперепутатьслова 
  • snake - что-то_ насчет_анаконды_мы_думаем
  •  title - Это Причудливый Способ Печатать

Нечто интересное в использовании голоса этим способом, что вы не ограничены количеством клавиш на клавиатуре или программируемостью клавиатуры в целом. Человеческий голос — гораздо более гибкий инструмент, чем мы думаем. Это позволяет нам создавать команды, которые могут делать что угодно, практически с любым звуком для их запуска.

Еще одна вещь, которой мы не ожидали обладать, - это интуитивное знание того, сколько букв состоит в каждом слове. Просто глядя на слова, мы можем определить, на сколько символов отличаются вещи от других символов. Это очень важно, когда вам нужно указать, сколько раз вам нужно перемещать клавишу со стрелкой.

У нас может возникнуть своего рода интуитивное понимание движений vim. Также никогда не было особой необходимости учиться тому, как их произносить или что они все делают. Произнесение их вслух заставляет нас понять, что мы говорим с помощью движений vim, и в результате можем мыслить в них намного яснее. Многие вещи приобретают гораздо больше смысла, когда вам приходится многократно произносить их вслух. Переключение режимов становится еще более интуитивно понятным. Прыгать с различными движениями становится еще проще. И движение за удаление просто начинает приобретать гораздо больше смысла в целом.

Честно говоря, это заставляет нас отклонять свой мозг назад. Однако большая часть программ, которые мы делали с Talon, в конечном итоге звучат так, будто у нас инсульт или что-то в этом роде. В vim основной командой для сохранения файла является :w<enter>. Это означает, что в конечном итоге вы часто говорите "colon whale slap". Люди не знают, как на это реагировать.

Думаем, именно поэтому мы называем их нажатиями клавиш. Кто-то в Discord может спросить, почему вы так много шлепали китов, когда мы пытались написать какой-то код с Talon во время голосового вызова. А мы сохраняли файл. Этот человек не смотрел трансляцию и не имел никакого контекста. Мы не моем винить их за то, что они запутались.

Можно испытывать бесконечное уважение ко всем, кому приходится ежедневно использовать этот тип программного обеспечения. это очень полезное программное обеспечение, но поначалу оно может сильно расстраивать. Борьба с использованием таких приложений, как Discord или Slack, с использованием этой технологии должна стать обязательной для всех, кто разрабатывает в них пользовательский интерфейс. Это сделало бы людей намного более скромными и чуткими к потребностям пользователей.

Это действительно технология, в которой каждый может извлечь выгоду из ее улучшения. Улучшение программного обеспечения для распознавания голоса означает, что автоматические субтитры для таких вещей, как YouTube, становятся лучше. Люди с параличом или даже параличом нижних конечностей могут начать жить нормальной жизнью, несмотря на свою инвалидность.

У людей, которым приходится ежедневно полагаться на эту технологию, и без того достаточно тяжелая жизнь. Как человек, работающий в области, которая глубоко неэтична, это одна из величайших вещей, которые мы можем сделать, чтобы помочь действительно обеспечить справедливые результаты.

Если вы пишете приложения, регулярно тестируйте их с помощью программного обеспечения для голосового управления. Особенно, если это в браузере. Немногие компании делают это, так что есть явное преимущество на рынке в том, чтобы сделать вещи более доступными.

Нашим рукам становится легче, и можно предположить, что использование Talon в будущем продолжится, даже после того, как они полностью восстановятся. Это один из немногих используемых нами движков для диктовки, который способен соответствовать любому темпу речи. Каждый использует его для большинства своих сообщений в чате в течение последней недели или около того, и легко могу представить, что буду использовать его для сообщений в чате в будущем. В голову приходит мысль о том, что можно впустую потратить время на обучение быстро печатать, когда мы могли бы использовать диктовку.

Если у вас есть немного дополнительных денег, пожалуйста, пожертвуйте создателям Talon на Patreon. Они заслуживают этого за то, что создают программное обеспечение, которое дает такие возможности людям, как это.

Комментарии
Чтобы оставить комментарий, необходимо авторизоваться

Присоединяйся в тусовку

В этом месте могла бы быть ваша реклама

Разместить рекламу