Первая статья этой рубрики была для меня экспериментом. Я не знал, какой будет реакция. Я просто выплеснул на страницу то, что накопилось за годы — свой ответ на бесконечный вопрос «А как ты понимаешь, что у тебя чисто?». И, судя по отклику, я попал в точку. Спасибо всем, кто прочитал, и поддержал. Вы подтвердили: эта тема важна и интересна не только мне.
А значит, мы продолжаем. Я снова открываю свой `FAQ` и перехожу к следующему по популярности тикету. К вопросу, который обычно задают с усмешкой, почти как загадку с подвохом. К вопросу, который, на первый взгляд, звучит как абсурд.
«Постой, но ты же не фотографируешь, правда? Зачем тебе это?»
Это отличный вопрос. Потому что он бьет в самую суть разницы наших миров. Для вас, зрячих, фотография — это на 99% визуальное искусство. Это композиция, свет, цвет, пойманный взгляд. Это картинка, которую вы создаете и которой наслаждаетесь глазами.
Давайте я сразу проясню: я не фотографирую закаты. Я не делаю селфи. Не люблю я это дело. Не знаю, почему, кстати. Возможно, потому что для меня в этом нет информации. Нет решаемой задачи. Для меня камера — это не кисть художника. Это — сканер. Это инструмент для извлечения данных из враждебной, построенной на визуальных кодах, реальности.
Я фотографирую постоянно. Но не для красоты. А для дела. Потому что для меня фотография — это не картинка. Это — данные. Это способ захватить и сохранить фрагмент реальности, который я не могу воспринять напрямую. Это документ. Это лог-файл. Это дамп памяти момента.
И сегодня я хочу рассказать вам не столько о фотографии, сколько о технологической и человеческой революции, которая произошла на моих глазах. О том, как я прошел путь от «бородатых времен» до сегодняшнего дня.
Глава I. Бородатые времена: Эпоха цифровых «костылей» (примерно 2015 год)
Давайте отмотаем пленку назад, в 2015 год. Мне 14 лет, и у меня появляется мой первый полноценный Android-смартфон. Это было время надежд и жестоких разочарований. Технологии для незрячих уже существовали, но они были похожи на самодельные инструменты из гаража — каждый для своей узкой задачи, и все работали криво.
Я помню, как впервые увидел у одноклассницы на айфоне приложение, которое что-то там распознавало. Это казалось магией. Для Android тогда выбор был скудным. Кажется, уже тогда были какие-то программы для распознавания денег, по крайней мере для айфонов, но я боюсь наврать. Память — штука ненадежная, так что если я ошибаюсь в деталях, поправьте меня в комментариях. Но я точно помню, что на моем первом Андроиде, если что-то и было, то работало оно, мягко говоря, не очень.
Были примитивные OCR-приложения для чтения текста. Чтобы распознать абзац на письме, нужно было сделать несколько снимков, и результат часто был похож на шифровку. Все это было медленно, ненадежно и требовало идеальных условий.
Любая нестандартная задача ставила в тупик. Сфотографировать что-то осмысленное было игрой в рулетку. Ты наводил телефон в сторону звука, делал снимок и надеялся на лучшее. А потом показывал зрячему другу и слышал вердикт: «Отличный снимок потолка, очень концептуально».
Это было время постоянной зависимости. Ты был привязан к доброте и свободному времени окружающих. Любая мелочь требовала посредника. Ты не мог действовать здесь и сейчас. Ты должен был ждать.
Глава II. Революция №1: Be My Eyes и API к человечеству (2017 год)
Как сейчас помню, это был 2017 год. Кто-то подсказал мне попробовать приложение Be My Eyes. Идея его была гениальна в своей простоте: соединить незрячего пользователя с гигантской сетью зрячих волонтеров по всему миру через видеозвонок. Это был не просто еще один «костыль». Это был прорыв. Это был прямой, защищенный `API call` к самому мощному и гибкому распознавателю образов на планете — к человеческому мозгу.
Я никогда не забуду свой первый серьезный опыт. Мой друг попросил меня помочь ему установить Windows. В те бородатые времена установщик Windows не озвучивался. Вообще. Ты должен был видеть экран, чтобы нажимать «Далее». Для меня одного это была непреодолимая стена. Но теперь у меня был инструмент. Я нажал кнопку вызова. Через несколько секунд мне ответил мужской голос. Судя по дикому акценту, человек был откуда-то из Европы, но говорил по-русски. Я объяснил ситуацию. И следующие полчаса этот незнакомец на другом конце планеты был моими глазами. Я направлял телефон на монитор, а он руководил моими руками: «Так, сейчас стрелку два раза вниз. Enter. Теперь влево. Снова Enter». Мы втроем — я, мой друг и анонимный волонтер — провели эту цифровую операцию на сердце. И мы победили. Windows была установлена.
А в 2021-м случился личный ад для любого линуксоида. Моя система на ноутбуке после очередного обновления перестала говорить. Совсем. Окно авторизации было немым. Я по памяти ввел логин и пароль, потому что знаю, где они. Рабочий стол загрузился, но `speech-dispatcher` — речевой движок — не запустился. Компьютер молчал. Для меня это равносильно тому, как если бы у вас погас монитор. Полная слепота. Я снова позвонил в Be My Eyes. Мне ответил другой волонтер. И мы вместе, по телефону, чинили мой Linux. Я диктовал ему команды, которые вслепую набирал в терминале, а он читал мне ответ с экрана. Мы были как два сапера, разминирующие бомбу по рации. И когда после очередной команды мой компьютер, наконец, заговорил, я был безмерно благодарен этому невидимому человеку.
Это было невероятно. Это дало мне независимость в решении сложных, нетривиальных задач. Но для мелочей — прочитать письмо, узнать срок годности — каждый раз дергать живого человека было не всегда удобно.
Глава III. Революция №2: Нейросеть и мгновенная информация (наши дни)
И вот, кажется, в прошлом году, все снова изменилось. В Be My Eyes встроили AI-ассистента на базе GPT. И это стало вторым прорывом, сопоставимым с первым.
Теперь у меня есть выбор. Для рутинных, информационных задач я больше не беспокою людей. Я использую нейросеть. Это мой личный, мгновенный, анонимный `localhost` для распознавания.
- Документы: Раньше я пользовался другими приложениями для чтения писем, но это было кривовато. Сейчас я могу быстро сфотографировать любую квитанцию или инструкцию, и через три секунды AI прочитает мне весь текст. Как мне кажется, это работает гораздо лучше. Ну, или просто руки у меня стали прямее, ха-ха-ха.
- Описание чего угодно: Я могу сфотографировать полку в магазине и получить отчет: «На полке стоят три бутылки красного вина и две банки консервированных ананасов».
- Скриншоты: И вот это — настоящий game changer для айтишника. Коллеги постоянно кидают в чат скриншоты с ошибками, графиками, настройками. Раньше для меня это был просто «файл.jpg». Теперь я отправляю этот скриншот в «Be My AI» и получаю его полное текстовое описание: «На скриншоте изображен терминал с красным текстом ошибки: Connection refused. Порт 8080». Стена между моим рабочим процессом и визуальным миром коллег рухнула.
Нейросеть взяла на себя 90% рутины. Быстро, эффективно, без необходимости с кем-то говорить. Но она не заменила людей. Она их освободила.
Эпилог. Гибридная реальность
Сегодня моя система взаимодействия с визуальным миром — гибридная. AI — для скорости и информации. Живые люди — для сложных задач, где нужен не просто анализ, а интеллект и душа. Когда нужно не просто прочитать, что написано на коробке с лекарством, а убедиться, что я взял именно ту коробку. Когда нужно не просто описать, что на экране, а помочь мне сориентироваться в незнакомом графическом интерфейсе.
Это — вторая глава моего `FAQ`. Ответ на вопрос, который казался шуткой. Да, я фотографирую. Но не для красоты, а для дела. Да, я читаю свои письма и разбираю скриншоты с ошибками. Потому что у меня есть доступ к самой невероятной гибридной нейросети — к мгновенной мощи искусственного интеллекта и безграничной доброте интеллекта человеческого.
А теперь — снова к вам. Какой еще вопрос, который кажется вам неразрешимым, мы разберем в следующий раз? Приносите свои идеи. Будем продолжать строить эту базу знаний вместе.
