В начало » ЖЖ

КУХНЯ СПИЧКИ КЕРОСИН

26 марта 2012 118 views Нет комментариев

Мой прошлый пост http://rogovsky.livejournal.com/331816.html  вызвал шквал комментариев, в которых меня обвинили в обмане сетевых хомячков, и привели кучу доводов, по которым следует, что ничего не пишется. И еще я получил кучу писем от оппозиционеров, которые рассказывали, как их после произнесения в трубку «ПУТИН БОМБА ГЕРОИН» расстреливали люди в черном. Я предлагаю на минуту отвлечься от «все подряд записывают» (ну записывают, ну и что? просто не обсуждайте по телефону поставки героина, делов–то) и немного подумать над неоднократно повторенными историями про автоматическое отслеживание ключевых слов, после которых отключают телефон, приходят в кожаных плащах и ведут на расстрел. Я эти истории слышу последние десять лет. Заебало. Возьмем уже упомянутый теоретический город Питер всего с двадцатью миллионами минут звонков в день. Предположим, что в течение суток звонки эти распределяются не по двумя характерным дневным пикам и ночному провалу, а идеально равномерно. Ergo, в минуту нам требуется анализировать чуть меньше четырнадцати тысяч звонков. Риалтайм. В реальности на пиках нам придется анализировать намного больше.

Допустим, что гэбешный софт для этих целей написан не как всегда, а эффективно и качественно, с высочайшей степенью параллелизма, поэтому один современный процессор обрабатывает сто звонков одновременно. С одной стороны, конечно, сейчас это всего лишь полсотни тридцатидвухядерных серверов (с учетом пиков и реальной эффективности софта минимум на порядок больше, ну да ладно), с другой же — истории про 1993 год, Москву и «танки» приобретают новый увлекательный оттенок. Тысячи, десятки тысяч шкафов на советской элементной базе, спрятанные в бесконечных подвалах Лубянки! Ну хорошо, пусть все железяки стоят прямо на АТС.

Представьте себе классическую такую трехэтажную советскую АТС со шкафами–коммуникаторами, которая обрабатывает до тысячи звонков в минуту, а на ее пяти сикретни подземных этажах… Дальше. Говоря про эффективный риалтайм софт мы подразумеваем, что это не разбор слов на фонемы, а непрерывный поиск грубо совпадающих вейвформ из небольшого словарика. Система должна быть натренирована на несколько базовых вариантов произношения указанного слова, каждый несколькими базовыми голосами, с учетом всех различающихся склонений и единственного множественного числа. Поэтому любой разумный словарик не может содержать больше нескольких десятков ключевых слов.

Вы можете придумать словарик на полсотни существительных, по которому будут легко вычисляться интересные ГБ люди? Ок, скорее всего вы его составите, и это подводит нас к следующей проблеме: (фанфары, аплодисменты) Ложные срабатывания! Да, да, старое доброе правило: если мы настроим фильтр слишком жестко, он начнет регулярно отсеивать и то, что мы ищем. Если мы настроим его так, чтобы он не пропускал ничего важного, фильтр начнет выдавать ложные позитивные срабатывания и на просто похоже звучащих словах. Даже наш высокоразвитый мозг, заточенный под распознавание речи, регулярно дает сбои, путая тапки и бабки. Широко настроенный фильтр будет ошибаться непрерывно, благо в телефонных разговорах люди не стремятся четко и раздельно выговаривать слова для удобства роботов.

Добавим сюда неизбежные срабатывания на разговорах вроде: «Ну я вчера снайпернул в клубе такую охуенно термоядерную телку, реально бомба, буфера как танки. Ловлю, типа, шахида…» Предположим, что ложное срабатывание будет всего (всего!) одно на сто разговоров (разговор — это много слов, от десятков до тысяч). Для сравнения штатовские военные разработчики до сих пор бьются над порогом в 95% четкого распознавания команд пилота. Таким образом, в минуту потребуется обрабатывать сто сорок (опять же, с учетом пиков — в пару–тройку раз больше) разговоров. Живыми людьми.

Которые работают по восемь часов в день, имеют отпуска, больничные, обед и выходные. То есть в одном лишь теоретическом городе Питере 600–700 (а реалистичнее — две тысячи) гэбистов заняты исключительно прослушиванием телефонных разговоров. Население теоретического Питера составляет примерно одну тридцатую населения теоретической страны Россия. Численность же всех сотрудников теоретической ФСБ за вычетом погранцов оценивается в 100–150 тысяч человек. Теперь мы знаем, чем заняты все эти люди! Наконец, представьте себе страшного чеченского террориста или расхитителя ядерных материалов, который по обычному телефону обсуждает с подельниками планы кошмарного теракта, называя ядерную боеголовку ядерной боеголовкой. И в то же время я знаю, что такая система ручной прослушки есть и работает. Только слушает она заранее определенные сегменты номеров, вплоть до индивидуально выбранных интересных целей, а ловит не танки с банками, но узкий список имен, кличек и географических локаций.

P.S. ВВП России выросло с 90-ых, а уровень жизни россиян… упал! http://ru-antiftiz.livejournal.com/5696.html?thread=4160#t4160

 

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Загрузка...

Оставьте комментарий!

Оставьте ваш комментарий или trackback со своего сайта. Вы можете подписаться на новые комментарии через RSS.

Придерживайтесь темы записи. Никакого спама!

Вы можете использовать следующие тэги:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>