Захват, обработка и хранение
видео с использованием ПК
Сегодня всем известны преимущества цифровых способов передачи
и хранения информации в сравнении с аналоговыми. Это и возможность
создать абсолютно точную копию, и возможность достоверно знать
о сбоях при передаче информации, и возможность использовать долговечные
носители (CD и DVD могут иметь срок архивного хранения в десятки
лет).
В этой работе будет рассмотрена задача преобразования видеозаписи
на каком–либо аналоговом носителе (ТВ трансляция, видеокассета
VHS, S–VHS и т.п.) или на ненадёжном цифровом (цифровая видеокассета)
в набор файлов на жёстком диске компьютера, которые потом можно
записать на CD или DVD. При этом во главу угла будет ставиться
простота технологии, дешевизна необходимой аппаратуры, а лишь
потом качество результата и скорость выполнения процесса. Рассматриваемая
методика подготовлена для непрофессионального использования. Такие
методы как «обработка видео в реальном времени» не обязательны
в рамках поставленной задачи, потому рассматриваться не будут.
Предполагается что читатель не знаком с технологиями обработки
видео. Здесь описан очень широкий круг проблем, которые могут
возникнуть при построении домашней студии для обработки видео,
предложены варианты решения проблем.
На сегодняшний день существует множество статей, посвящённых
оцифровке
видео, его кодированию
и обработке, в том числе на
русском языке. Тем не менее, мне не известно ни одно
полное руководство, которое бы охватывало все аспекты рассматриваемой
задачи. Ближе всего к идеалу подошёл сайт Обсерватория,
однако у меня существует ряд претензий к авторам статей на этом
сайте: например, отсутствие здорового консерватизма при выборе
кодера видео (за последний год у них сменилось три «любимых» кодера,
которые все не совместимы друг с другом). Плюс я хотел бы донести
до публики некоторое количество собственных наработок.
В определённом смысле материал этой статьи повторяет FAQ
по оцифровке видео с минимальными затратами, с той
поправкой, что описанные здесь методы обеспечивают более высокое
качество видео, используют более новые программы и аппаратуру.
Также статья охватывает более широкий круг вопросов, которые могут
возникнуть у читателей.
Укажу несколько статей, которые описывают более дорогие варианты
оцифровки и захвата видео: Цифровой
видеоархив для дома и FAQ по
созданию и редактированию цифрового видео. В них описывается
технология с использованием карт захвата с аппаратным сжатием
видео и хранением оцифрованного видео в формате MPEG–2, DV или
MJPEG (это позволяет записывать лишь 15—20 минут видео на
один CD, потому предпочтительным вариантом хранения оцифрованного
видео в таких случаях являются записываемые DVD). Наиболее полно
такая методика описана на сайте М. Афанасенкова.
Другая крайность — подготовка записей к сжатию в форматы с относительно
низким качеством VCD/SVCD — описана в статье Как
и из чего делать VCD/SVCD. Сайт TV
& FM тюнеры содержит описания множества моделей
карт захвата и различных программ, которые используются для просмотра
ТВ программ, прослушивания радио, захвата видео, управления
компьютером при помощи пульта дистанционного управления. Автор
сайта постоянно отслеживает новости в мире карт приёма ТВ передач
и карт оцифровки видео, в том числе появление новых моделей устройств
и новых версий программ. Уровень изложения материала по технологии
оцифровки оставляет желать лучшего и существенно проигрывает Обсерватории.
С другой стороны, если эта статья показалась вам слишком сложной
— читайте статьи на сайте TV
& FM тюнеры: там всё проще и примитивнее.
В настоящее время вычислительная техника развивается бурными
темпами: всем известен закон Мура, согласно которому вычислительная
мощность компьютеров удваивается каждые полтора года. Большие
вычислительные мощности позволяют обрабатывать всё новые и новые
типы данных на самых обычных компьютерах. Десять лет тому назад
сложно было представить себе хранение звуковой информации на персональном
компьютере — разве что на компакт–дисках. Жёсткие диски того времени
не превосходили объёма одного CD, а мощность процессора не позволяла
производить достаточно сложных вычислений по распаковке звука
в реальном времени. В каком–то виде звук и видео на компьютерах были
— в первую очередь в компьютерных играх — однако их качество
оставляло желать много лучшего.
Ситуация кардинально изменилась 6—7 лет назад с повсеместным
распространением процессоров поколения Pentium. Такого процессора
достаточно для нормального воспроизведения звука, сжатого в формате
mp3 (MPEG–1 Layer 3) — этот формат позволяет достигнуть хорошего
качества звучания при потоке в 1 Мбайт/мин и практически
идеального при вдвое большем потоке (сравните с 10 Мбайт/мин
на аудио CD). Жёсткие диски того времени уже измерялись единицами
гигабайт. Так началось повсеместное распространение mp3 и его
альтернатив, которое продолжается по сей день. Современный компьютер
расходует примерно 1—2% своей вычислительной мощности на декодирование
mp3: с той поры мощность процессоров выросла на два порядка.
Примерно в то же время цифровое видео делает первые шаги на персональных
компьютерах. В силу упомянутых выше ограничений по объёмам обрабатываемой
информации и мощности процессоров, тогдашнее видео выглядело ужасно:
«танец квадратиков» привлекал лишь компьютерных энтузиастов. И
снова ситуация изменилась кардинальным образом, когда компьютерная
техника достигла определённого уровня. Лет 5 тому назад,
когда винчестеры перешагнули порог в 10 Гбайт, записывающие
приводы CD–R начали широко распространяться, а процессоры подобрались
к рубежу в 500 МГц и обзавелись мультимедийными инструкциями
MMX, 3DNow и SSE, компьютеры «доросли» до стандарта сжатия видео
MPEG–4. Предыдущие версии стандарта сжатия видео MPEG обладали
существенно меньшим потенциалом для использования на ПК.
Так, MPEG–1 обеспечивает относительно небольшую степень сжатия
видео и звука; его реализация в стандарте Video CD предлагала
разрешение картинки до 352 на 288 пикселей (что, безусловно,
очень мало для качественного видео) и позволяла записать лишь
около часа видео на один CD. Из преимуществ его можно назвать
относительную вычислительную простоту декодирования, соответственно
невысокие требования к компьютеру (133 МГц). Video CD
так и не завоевали популярности у издателей видеопродукции (кинофильмов
и проч.). Однако использование дешёвых CD в качестве носителя,
и полная поддержка абсолютно всеми аппаратными бытовыми проигрывателями
VCD/DVD, сделали этот формат весьма популярным для записи домашнего
видео. Правда, качество записи получается очень невысоким.
Стандарт MPEG–2 предлагает чуть более совершенное сжатие, его
наиболее распространённая реализация в стандарте DVD обеспечивает
разрешения вплоть до 720 на 576 и позволяет записать
до 3—4 часов видео на один диск. Проблема в том, что диск
— это не обычный CD, а DVD. Соответственно более ёмкий, но и более дорогой, менее распространённый и
требующий дополнительной аппаратуры (DVD–привод). Даже невысокие
требования к мощности процессора (266 МГц) не спасали: размер
2–слойного DVD составляет 8,5 Гбайт, что делало невозможным
их копирование в эпоху жёстких дисков до 10 Гбайт. Видео DVD
стали промышленным стандартом для записи домашнего видео: кинофильмов,
концертов и т. п. Распространение DVD в качестве носителя
для любительского видео мы видим лишь сегодня, когда объём жёстких
дисков перевалил за 100 Гбайт, читающие DVD приводы стали
не многим дороже CD, всё большую популярность получают
записываемые DVD. Этот же формат сжатия видео
широко используется в цифровом телевизионном вещании, в том числе
спутниковом телевидении.
Также был разработан промежуточный между VCD и видео DVD
формат: Super Video CD, SVCD (использует CD в качестве носителя
и MPEG–2 в качестве формата сжатия видео, разрешение — 480x576,
позволяет записать около 70 минут на один диск) — его качества
сжатия для любительского видео вполне хватает. Основная проблема
SVCD — совместимость, не все аппаратные проигрыватели способны
воспроизводить диски в таком формате.
Идеальным компромиссом между степенью сжатия (размером сжатого
видео) и вычислительной сложностью декодирования видео (требования
к мощности процессора) стал стандарт сжатия видео MPEG–4 (точнее
подраздел этого стандарта ‘MPEG–4 video compression, advanced
simple profile’). Для воспроизведения видео достаточно процессора
в 300—400 МГц (или больше — зависит от разрешения видео),
а неплохое качество обеспечивается при сжатии 2—2,5 часов
на один CD (или отличное качество при сжатии 1 часа
на CD). Первой ласточкой в этой области стали кодеки Microsoft
MPEG–4 v.1, v.2 и v.3. На основе последнего из них был создан
кодек DivX 3 — именно с его появлением
MPEG–4 видео начало своё повсеместное распространение. После этого
началась разработка множества различных кодеров для сжатия видео.
На сегодня стандарт MPEG–4 — самый распространённый способ хранения
цифрового видео на компьютерах. MPEG–4 обеспечивает степень сжатия
примерно в 2—4 раза больше,
чем MPEG–2. MPEG–4 поддерживает ряд т. н.
профилей (profile): simple profile (SP, разрешение
до 384x288), advanced simple profile (ASP, разрешение до 720x576),
advanced video coding (AVC, разрешения вплоть до 1920x1080).
Всё большее количество аппаратных проигрывателей получает поддержку
декодирования видео в формате MPEG–4 ASP. Появляются
первые реализации кодеков стандарта MPEG–4 advanced video
coding (MPEG–4 AVC, или H.264), которые обеспечивают
ещё большую степень сжатия видео. Правда,
для для воспроизведения записей в MPEG–4 AVC требуются процессор
с более чем 1,5 ГГц. Скорее всего, именно MPEG–4 AVC
сменит MPEG–2 в отрасли бытового видео (домашние кинотеатры и
цифровое вещание) — он включён в стандарт видео высокой чёткости
(HD–видео) как один из базовых форматов сжатия видео (на ряду
с MPEG–2 и WMV). Таким образом, можно смело утверждать,
что завтрашний день сжатия видео — за MPEG–4.
Нужно отметить, что процесс работы с цифровым видеоисточником
имеет существенное отличие: вместо этапа оцифровки необходим этап
копирования цифровых данных (на сленге это часто называют сливом
видео). Для решения этих двух задач используется различная
аппаратура.
Для того чтобы заниматься захватом аналогового видео на компьютере
необходимы источник видеосигнала (телевизор, видеомагнитофон,
видеокамера), кабель, карта оцифровки и захвата видео
или видеокарта с возможностью оцифровки видео, звуковая
карта, быстрый и ёмкий жёсткий диск.
В случае, если у вас есть цифровая видео камера, то вам не нужна
карта для оцифровки и захвата видео и звуковая карта, но необходимо
наличие IEEE 1394 (FireWire) интерфейса.
Также, безусловно, требуется соответствие остальных компонентов
компьютера некоторому уровню.
Требования к компьютеру
В этом разделе приведены минимальные требования к компьютеру
для оцифровки видео.
Процессор
Для захвата видео без сжатия мощный процессор не нужен, с другой
стороны объём записываемых данных в таком случае будет огромным.
Для сжатия видео «на лету» во время захвата нужен процессор
по крайней мере 500 МГц, лучше 900 МГц. Чем более
быстрым процессором вы располагаете, тем более сложные виды сжатия
видео вы сможете применять «на лету» — непосредственно во время
оцифровки.
Дальнейшая обработка видео будет происходить тем быстрее, чем
быстрее работает ваш процессор. Поскольку задача обработки видео
чисто вычислительная, именно от скорости процессора зависит скорость
её выполнения: объём памяти, скорость её работы, скорость жёсткого
диска и прочих компонентов оказывают существенно меньшее влияние. Технологию HyperThreading
современные MPEG–4 кодеры не поддерживают (см. сравнительное
тестирование скорости кодирования видео разными процессорами).
Оперативная память
Захват видео не предъявляет существенных требований к памяти
компьютера: вполне достаточно, чтобы ваша операционная система
«чувствовала себя комфортно» и хватало памяти для программы захвата
видео, кодека для сжатия видео «на лету» — это порядка 40 Мбайт
для компактных утилит. Таким образом, условно минимумом можно
считать 64 Мбайта оперативной памяти для Windows 98
и ME, 96 для Windows 2000 и 128 для Windows XP.
Если вы планируете выполнять ещё какие–то задачи во время оцифровки
видео, то вам понадобится больше памяти для запуска ваших программ.
Не желательно, чтобы система останавливалась для обращения к файлу
подкачки: в таком случае может быть не обеспечена непрерывная
запись потока данных с карты захвата, поэтому рекомендуется иметь
выделенный винчестер для видео (см. ниже).
Жёсткий диск
При оцифровке и захвате видео с разрешением 768x576 пикселей
без сжатия от карты оцифровки видео поступает поток данных примерно
в 22 Мбайт/сек (76 Гбайт/час). Очевидно, чтобы записать
такой поток данных на жёсткий диск, требуется во–первых уйма свободного
места, а во–вторых жёсткий диск с достаточной скоростью
записи. Различные методы сжатия видео «на лету» этот поток
уменьшают, но дополнительно нагружают процессор и могут снижать
качество материала. На практике используется компромиссный вариант
с небольшим сжатием: данных приходится записывать всё ж таки меньше,
а качество изображения снижается незначительно (иногда разница
даже не заметна глазом). Таким образом, для захвата видео
понадобится большой жёсткий диск, который в состоянии записывать
данные с высокой скоростью.
Выбор и подключение жёсткого диска
Важно, что для захвата должен использоваться отдельный жёсткий
диск (IDE или Serial ATA) — операционная система должна находиться
на другом винчестере, т.к. ей время от времени нужно
считать или записать какие–то данные на «свой» жёсткий диск:
если этот диск будет занят записью оцифровываемого видео, он может
просто не успеть записать поступающий поток данных. Также
важно, что системный жёсткий диск и диск для записи видео должны
находиться на разных IDE каналах: два IDE устройства
на одном канале не могут работать одновременно. Если у вас
есть другие жёсткие диски, CD или DVD приводы и вы хотите
использовать их во время оцифровки видео, то оптимальным решением
проблемы будет купить дополнительный IDE контроллер (около
$15) и подключить жёсткий диск для захвата видео к отдельному
IDE каналу. Стабильную скорость записи информации в 25 Мбайт/сек
по всей своей поверхности диска способны обеспечивать относительно
новые жёсткие диски, условно говоря это модели, выпущенные начиная
со второй половины 2002 года.
Объём кэш–памяти жёсткого диска не имеет никакого значения
при захвате видео: 2 Мбайта или 8 Мбайт — всё равно
за секунду на диск записывается куда как больший объём информации.
Жёсткий диск для захвата видео должен быть подключён в режиме
Ultra DMA.
Влияние скорости жёсткого диска на скорость
обработки видео
Скорость жёсткого диска также влияет на скорость обработки
видео. Однако при обычном процессе очистки видео от шумов скорость
обработки видео очень невысока и составляет всего несколько кадров
в секунду: с такой нагрузкой легко справится любой винчестер.
Скорость чтения информации с жёсткого диска становится ограничивающим
фактором лишь при обработке видео, которое не требует сложных
вычислений: например сохранить звуковую дорожку в отдельный
файл. Исходный файл после захвата видео может занимать десятки
гигабайт, для извлечения звука весь файл должен быть прочитан
— оказывается, что в таких задачах именно скорость работы жёсткого
диска становится определяющим фактором.
Файловая система
При оцифровке видео приходится иметь дело с файлами размером
в десятки гигабайт. Файловая система FAT32 мало пригодна для захвата
видео, так имеет ограничение на размер файла: 4 Гбайта. Некоторые
программы поддерживают работу с т.н. сегментированным
видео — видеозапись разбивается на несколько пронумерованных
файлов. Однако процесс закрытия одного файла, создания нового,
перевод записи потока данных в новый файл, во время захвата видео
создают дополнительную нагрузку: на стыке файлов часто возникают
выпавшие кадры, рассинхронизация звука и видео. Также Windows
не позволяет создавать разделы с файловой системой FAT32 объёмом
больше 32 Гбайт (хотя специальными программами
можно создать раздел большего размера). Также «в народе»
бытует мнение, что файтовая система FAT32 работает быстрее NTFS:
это на самом деле так, но выигрыш по скорости невелик и составляет
всего–то 1—2%.
Всех этих проблем можно избежать, используя файловую систему
NTFS: её поддерживают версии Windows начиная с 2000. Более
того, NTFS имеет ряд дополнительных преимуществ по работе с большим
количеством файлов и большими потоками данных. Таким образом,
используя файловую систему NTFS, вы получаете возможность удобно
работать с файлами большого объёма и спокойно выполнять во время
оцифровки видео различные задачи (в том числе и работать с жёстким
диском, на который производится запись оцифрованного видео).
Специальные аппаратные решения
Широко распространено заблуждение, что для работы с видео обязательны
специальные аппаратные решения: RAID контроллеры, SCSI контроллеры,
SCSI жёсткие диски. Безусловно, аппаратный RAID контроллер и пара
винчестеров в режиме чередующейся записи будут работать быстрее,
чем винчестер в одиночку. Жёсткие диски SCSI обычно быстрее жёстких
дисков IDE (плюс намного дороже и требуют специального SCSI контроллера).
Однако скорость современного жёсткого диска IDE вполне достаточна
для записи потока данных оцифрованного видео.
Операционная система
Платформа
Признаюсь, я не интересовался этим вопросом специально, но я
слышал только про одну программу под Linux, которая работает с
платой захвата видео и ТВ приёмником. Я уже не помню,
позволяет она смотреть ТВ передачи, или с её помощью также
возможно захватывать видео. В любом случае, одна программа — а
пускай их даже существует ещё пара–тройка — не идут ни в какое
сравнение с тем обилием программ под платформу Windows.
Второй аргумент: производители современных карт захвата выпускают
полнофункциональные драйверы только под Windows. Единичные исключения
(например, ATI) лишь подтверждают общее правило.
Таким образом, выбор платформы для оцифровки видео более чем
очевиден — это самая популярная и распространённая на сегодня
мультимедийная операционная система: Windows.
Какую Windows выбрать?
Современное многообразие операционных систем Windows состоит
из двух основных групп: Windows 98 (вторая редакция) и Windows МЕ
— так называемые Windows 9x; и Windows 2000, Windows XP,
Windows 2003. Более ранние версии Windows не удовлетворяют
современным требованиям программ захвата видео и драйверов карт
захвата видео — их практически невозможно использовать.
Линейка Windows 9x построена на старом ядре Windows 95,
которое достаточно плохо реализует распределение вычислительных
ресурсов. Поэтому работа за компьютером во время захвата видео
будет чревата сбоями по малейшему поводу: чтение дискеты, ошибка
чтения CD, запуск большой программы. На практике во время
захвата видео на компьютере под управлением операционной системы
семейства Windows 9x не стоит делать абсолютно
ничего: сбои захвата чересчур вероятны. Также линейка Windows 9x
не поддерживает работу с новой файловой системой NTFS, это порождает
целый ряд проблем (см. раздел Файловая система). Единственное
преимущество операционных систем семейства Windows 9x: более
скромные требования к оперативной памяти компьютера. В случае
если вы ограничены объёмом памяти в 64 Мбайта — Windows 9x
для вас будет единственным доступным выбором.
Крайне не рекомендуется использовать операционную систему из
семейства Windows 9x для захвата видео. Какую из более новых
операционных систем Windows вам выбрать — с точки зрения захвата
видео совершенно всё равно. Выбор остаётся за вами, согласно вашим
личным предпочтениям.
Дополнительные компоненты операционной системы
Компания Microsoft разработала подсистему Windows для работы
с мультимедиа данными, в том числе звуком и видео: она носит название
DirectX. Многие программы для захвата видео работают с использованием
DirectShow — одна из частей DirectX. Драйверы многих карт захвата
видео поддерживают захват только с использованием DirectShow.
Microsoft постоянно дополняет и совершенствует DirectX: оптимизирует
работу существующих подсистем, исправляет ошибки. Последнюю версию
DirectX всегда можно скачать с сайта
Microsoft. Актуальная версия на момент написания статьи:
DirectX 9c (поставка Windows 2000 включает в себя DirectX
всего лишь 7–й версии, Windows XP — 8й).
Драйверы устройств
Драйвер — это специальная программа, которая обеспечивает взаимодействие
конкретной аппаратуры с операционной системой. В результате программы,
использующие эту аппаратуру, могут получить доступ к ней посредством
стандартных интерфейсов, не вдаваясь в особенности её аппаратной
реализации. Драйвер карты захвата видео работает постоянно во
время процесса захвата. От производительности, стабильности и
надёжности драйвера в большой степени зависит производительность
и надёжность всего процесса захвата видео. Как правило, более
именитые производители аппаратуры продают больше своей продукции
и могут себе позволить вкладывать больше ресурсов в разработку
драйверов. Так, драйверы карт захвата от Aver отличаются очень
высокой надёжностью — особенно по сравнению с конкурентами от
K–World.
В силу того, что драйвер постоянно исправляется и совершенствуется
производителем аппаратуры, рекомендуется использовать последнюю
версию драйверов — их можно скачать с сайта производителя. ATI
выпускает обновления драйверов к своим видеокартам едва ли не
каждый месяц.
Случается, что для некоторых распространённых устройств группами
программистов–любителей создаются альтернативные драйверы, которые
часто имеют лучшую функциональность, производительность и надёжность,
чем драйвера от производителя аппаратуры. Например, для семейства
звуковых карт Creative Live! и Creative Audigy существуют
драйверы kX Project.
Для карт захвата видео на базе чипа Conexant bt848/878 (см. Отдельные карты оцифровки видео)
также существуют альтернативные драйверы,
написанные Иваном Усковым, и вариант драйверов, в которых
реализована возможность захвата полного кадра через VfW: от Eduardo José Tagle.
При работе с такими картами захвата видео настоятельно рекомендуется
использовать именно эти драйверы.
Источник видео сигнала и кабели
для подключения
Источник
аналогового видео сигнала
Источником аналогового видео сигнала может быть телевизор, видеомагнитофон,
видеокамера.
Кабели
Источник сигнала соединяется при помощи кабеля с картой оцифровки.
Общая рекомендация при выборе кабеля для аналогового сигнала:
использовать качественные коаксиальные кабели. Очень часто бытовая
аппаратура и компьютерная периферия комплектуется дешёвыми тонкими
кабелями, которые в значительной степени подвержены наводкам.
Их использование существенно ухудшает качество передаваемого сигнала.
Простой признак более–менее качественного коаксиального кабеля
— это его толщина, которая должна быть не меньше 6—7 мм.
Для передачи аналогового видео сигнала используются композитный
(composite) или S–video кабель. В первом случае по одному
кабелю передаётся как яркостная, так и цветовая компоненты видео
сигнала. В случае S–video, яркостная и цветовые компоненты передаются
по двум разным кабелям, что позволяет достигнуть большей чёткости
изображения. (Кабель S–Video также иногда называют S–VHS, потому
что впервые они появились в видеомагнитофонах стандарта S–VHS.)
Предпочтение следует отдавать S–video подключению — подключение
через композитный выход ухудшит качество обрабатываемого видео.
Подавляюще большинство карт захвата видео имеют возможность подключения
S–video кабеля. С бытовой аппаратурой дело обстоит не так радужно:
лишь более дорогие модели имеют S–video выход.
Разъёмы
Для подключения S–video кабеля в картах захвата используется
разъём S–video (он немного похож на PS/2 разъём для клавиатуры
или мыши). Для подключения композитного кабеля применяется разъём
RCA «тюльпан». В бытовой аппаратуре — особенно телевизорах
и дорогих видеомагнитофонах — наряду с такими же разъёмами может
также использоваться разъём SCART: широкий пятиугольный
разъём со множеством плоских контактов.
За подробной и точной информацией о видео входах на вашей карте
оцифровки видео, а также о видео выходах на вашем источнике видеосигнала,
обращайтесь к документации на соответствующие устройства.
Переходники
Мне приходилось встречаться с переходниками с S–video на RCA
(«тюльпан»), которые преобразуют S–video сигнал в композитный.
Причём таких переходников существует два вида — один из них даёт
чёрно–белое изображение (только яркостная составляющая), второй
— нормальное цветное.
Коммутация звука
Звуковой сигнал при подключении источника аналогового видео передаётся
по отдельным кабелям. Карты захвата обычно имеют разъём 1/4 дюйма
(mini jack; такой же, как и разъём для наушников в звуковой
карте). Оцифровкой звука в процессе захвата почти всегда занимается
звуковая карта компьютера.
Звуковые выходы на источниках видео сигнала выполнены в подавляющем
большинстве случаев в виде разъёма RCA «тюльпан»: один для моно
звука или 2 для стерео. Соответственно для коммутации звукового
сопровождения видео вам будет нужен соответствующий кабель, или
же кабель RCA на RCA и переходник с RCA на mini jack.
Источник цифрового видео сигнала
Как источники цифровых видео сигналов будем рассматривать только
цифровые видео камеры. Другие источники цифрового видео — диски
Video CD и DVD — несложно считать при помощи соответствующих
приводов в компьютере (CD или DVD).
Все цифровые камеры форматов DV/Digital8/MicroMV имеют интерфейс
IEEE 1394 (FireWire), при помощи которого они подключаются
к компьютеру. Современные материнские платы имеют интегрированный
контроллер IEEE 1394, также не сложно купить отдельную интерфейсную
карту (сейчас они стоят $15—20). Кабель для подключения камеры
вам обойдётся ещё в $2—3 (совершенно не нужно покупать дорогой
«фирменный» кабель за $20—30: всё равно информация передаётся
в цифровом виде без потерь). Учтите, что существует несколько
видов разъёма IEEE 1394, потому будьте внимательны при покупке
кабеля.
Звук в записи цифровой камеры также закодирован в цифровом виде
и передаётся вместе с видео: в том же потоке данных по тому же
цифровому подключению.
Конечно, можно подключить цифровую камеру и через аналоговый
интерфейс, но двойное преобразование сигнала «цифра–аналог–цифра»
не пойдёт на пользу качеству изображения.
В настоящее время покупателю доступен широкий ряд устройств,
позволяющий оцифровывать аналоговое видео. Среди них можно выделить
несколько основных групп. Самые дорогие — карты захвата с аппаратным
сжатием видео. Такая карта способна оцифровывать аналоговое видео
и «на лету» сжимать его, обычно в формат MPEG–2 или DV.
Популярный представитель такого класса карт: Canopus ACEDVio.
Существуют и внешние решения такого рода — конвертеры для подключения
по USB/FireWire, например, Pinnacle MovieBox USB. Следующий класс
устройств — это карты захвата видео без аппаратного сжатия. Очень
часто такие карты также комплектуются ТВ приёмником. Подавляющее
большинство таких карт раньше собирались на основе чипа оцифровки
видео Conexant bt848 и его наследника bt878 (как и мой Aver
TV–studio 203). В последнее время получают распространение
чипы для оцифровки на базе новых чипов: Conexant cx2388x
и Philips SAA713x, которые обеспечивают более высокое качество
оцифровки (Philips особенно хорош для записей в стандарте
SECAM, который используется на телевидении на территории
бывшего СССР). Так, новые карты захвата Aver TV 301/305/307
содержат чип оцифровки видео Philips. Подробнее о разных картах
захвата и оцифровки видео (в том числе с ТВ приёмниками)
вы можете прочесть в соответствующих разделах сайта iXBT:
Цифровое видео
и TV–out
и TV–тюнеры, а также на сайте TV
& FM тюнеры.
Следующий класс устройств — это видеокарты с возможностью оцифровки
видео. Эти устройства собираются на основе тех же чипов оцифровки
видео, что и отдельные ТВ–тюнеры. Видеокарты с возможностью оцифровки
видео выпускают самые разные производители видеокарт (nVidia,
ATI). Среди таких видеокарт существует два больших класса: с ТВ приёмником
(напр. линейка ATI All-in-Wonder) и без ТВ приёмника
(напр. линейка ATI VIVO — video in, video out).
Подробнее о разных видеокартах с функциями захвата и оцифровки
видео (в том числе с ТВ приёмниками) вы можете прочесть в
соответствующем
разделе сайта iXBT.
Выбор карты оцифровки видео
При выборе типа карты для оцифровки видео вам нужно ответить
на такие вопросы: есть ли у вас уже видеокарта и собираетесь ли
вы её заменить? Собираетесь ли вы менять видеокарту в будущем?
Обычно видеокарты часто меняют те, кто играет в компьютерные игры:
именно в этой области современные видеокарты эволюционируют очень
быстро.
Если вы выбираете карту с ТВ–приёмником, то вам необходимо учитывать,
что выбранная вами карта должна поддерживать стандарт телевизионного
вещания вашей страны. Подробнее см. Телевизионные стандарты.
Если у вас есть видеокарта, и вы не собираетесь её менять; или
наоборот — вы собираетесь менять свою видеокарту каждые полгода–год,
то вам удобнее будет купить отдельную карту для захвата видео.
На сегодня на рынке представлен широкий спектр таких карт по ценам
от $30 до $80: разница в цене обусловлена функциональностью
(наличие ТВ и радио приёмника, пульта дистанционного управления,
поддержка стерео звука), использованным чипом оцифровки видео
и именем производителя карты (именитый Aver дороже менее известного
K–World). Чип Philips обеспечивает более высокое качество оцифровки
видео, чем Conexant bt8x8, особенно для видео в стандарте
SECAM. Новый чип Conexant cx2388x очень хорош
для PAL и NTSC записей, но уступает чипам Philips на видео в стандарте
SECAM. Что до производителя карты оцифровки, то тут многое
зависит от личных предпочтений. Карты от Aver выполнены аккуратнее,
комплект поставки богаче, в драйверах к ним меньше ошибок, работают
они надёжнее и, в силу своей распространённости, они обладают
большей совместимостью с различными программами.
Если вы покупаете новый компьютер или как раз собирались поменять
видеокарту, то вам удобнее купить видеокарту с возможностью оцифровки
видео. Видеокарты с чипом оцифровки видео стоят на $5—10 дороже,
чем их аналоги: цена в большой степени определяется ценой самой
видеокарты. Если вам не нужен ТВ приёмник, то это будет оптимальным
вариантом. На такие видеокарты как правило
устанавливают такие же чипы, как и на отдельные карты оцифровки,
оговорка про качество оцифровки чипами Philips и Conexant bt8x8
справедлива и здесь. Кроме того, на свои видеокарты ATI часто
устанавливает чип собственной разработки Rage Teathre, который
получше Conexant bt8x8, но явно хуже чипов следующего поколения.
Видеокарты с чипом оцифровки и ТВ приёмником — как правило
самая дорогая и функциональная модель в линейке видеокарт, она
дополнительно комплектуется набором игр, комплектом программного
обеспечения, пультом дистанционного управления и прочими мало
полезными вещами. Возможно, вам будет дешевле купить обычную видеокарту
и отдельную карту захвата видео с ТВ приёмником.
Оцифровка при помощи цифровой камеры
Также нужно упомянуть о возможности оцифровки видео при помощи
цифровой видео камеры. Вы подключаете свой аналоговый источник
видео к камере и либо включаете оцифровку через меню (у новых
моделей), либо записываете видео на кассету, а при воспроизведении
получите оцифрованный видео сигнал (см. также Источник цифрового видео
сигнала). Не все видео камеры поддерживают такой режим:
некоторые видеокамеры требуют доработки, так как такой режим в
них умышленно заблокирован производителем. Многие дешёвые камеры
последнего поколения вообще лишены возможности оцифровывать аналоговый
сигнал. Также помните, что не существует камер, способных работать
с видеосигналом в стандарте SECAM (см. Телевизионные стандарты).
Видеокамеры Sony Digital 8 могут также оцифровывать
видеокассеты формата Video 8 и Hi 8: вы вставляете кассету,
ставите на воспроизведение, а с цифрового выхода камеры снимаете
оцифрованный видео сигнал. Однако в начальных моделях последней
линейки Digital 8 такая возможность исчезла.
Качество оцифровки видео также сильно разнится от камеры к камере.
Цифровые видео камеры достаточно дороги (не меньше $500), потому
вряд ли кто–то станет покупать цифровую камеру ради оцифровки
видео. Но если у вас есть такая камера, то почему бы не воспользоваться
такими её возможностями? Ответ на вопрос «Чем
лучше оцифровывать видео — цифровой видеокамерой или компьютерной
платой оцифровки?» проще получить экспериментально: слишком велико
многообразие как видеокамер, так и карт захвата видео.
Вам необходимо обеспечить совместимость карты захвата с источником
видеосигнала по используемому способу передачи видео.
В большинстве стран мира принят один из вещательных телевизионных
стандартов: NTSC (Америка и Япония), PAL (Европа) или SECAM (Франция
и бывший СССР). В каждой стране продаётся видео техника,
способная работать с принятым в этой стране телевизионным стандартом.
Если вы используете приобретённую в другой стране технику, обязательно
проверьте в документации к вашему оборудованию, что ваш источник
видео сигнала и карта захвата способны работать в едином телевизионном
стандарте.
Существуют также подтипы ТВ стандартов, как то: PAL–B, PAL–D,
PAL–G и так далее. Они отличаются не собственно способом кодирования
сигнала, а его параметрами (частотами и ширинами поддиапазонов).
Карты захвата обычно способны работать с любым подтипом стандарта,
нужно только указать его при настройке карты: либо указывается
собственно название подтипа стандарта, либо название страны, где
такой подтип стандарта принят для телевизионного вещания.
Ввиду того, что стандарты PAL и SECAM очень похожи: оба передают
25 кадров в секунду и одинаково кодируют яркостную составляющую
сигнала (чёрно–белое изображение), подавляющее большинство распространённой
у нас видео техники способно работать с обеими стандартами — PAL
и SECAM. По этой же причине видеокамеры на нашем рынке работают
в стандарте PAL: рынок в бывшем СССР не такой уж большой,
чтобы разрабатывать специальную SECAM версию; а раз все наши телевизоры
и видеомагнитофоны поддерживают PAL, то это и не нужно.
NTSC использует другой способ кодирования видеосигнала, в частности
передаёт 30 кадров в секунду (точнее, 29,97 — хотя существует аппаратура, работающая с
частотой кадров ровно 30,00 к/сек). Большинство используемой
у нас видеотехники не способно работать с NTSC. Часто выпускаются
две версии карт захвата: для работы с PAL/SECAM и отдельно
для NTSC. Обязательно проверьте, что ваша карта захвата способна
работать с вашим источником видеосигнала.
Низкочастотные блоки всех карт захвата универсальны и способны
оцифровать поданный на видеовход видеосигнал любого стандарта:
вам лишь нужно указать в настройках правильное значение частоты
кадров (25 или 30 для NTSC). Высокочастотные блоки — ТВ–приёмники
— наоборот, специфичны для каждого ТВ–стандарта. Потому ваша карта
захвата сможет записывать видео из ТВ–эфира только в том стандарте
(одном или нескольких), на который она рассчитана. У нас продают
карты с ТВ приёмниками стандарта PAL–D/SECAM–D, который принят
в странах бывшего СССР.
Вам не нужно беспокоиться, если вы используете цифровой источник
видео: цифровая камера сделает всё за вас. Единственная разница
будет в том, что видео оцифрованное с NTSC сигнала будет содержать
30 кадров в секунду вместо 25.
Далее по тексту я для простоты буду считать, что в нашем видео
сигнале 25 кадров в секунду. В случае, если в вашем видео
30 кадров в секунду, вам лишь необходимо заменить соответствующие
цифры «25» на «30», а также «50» на «60» — остальная информация
остаётся в силе.
За более подробной информацией обратитесь к другим статьям, например
Телевизионные
стандарты: описания, характеристика.
Следует различать понятия разрешение — которое является
характеристикой хранилища видео сигнала в цифровом виде — и чёткость,
которое описывает свойства собственно видео сигнала.
Рассмотрим такой пример: нарисуем в графическом редакторе картинку,
состоящую из чередующихся белых и чёрных строк.
|
Пусть её размер по вертикали будет 10 строк. Мы можем
сохранить это изображение в графический файл, имеющий 10 пикселей
по вертикали. |
|
Также мы можем сохранить это изображение в файл с 20 пикселей
по вертикали,… |
|
25 пикселей — и в каждом из них мы сможем увидеть лишь
10 линий: 5 белых и 5 чёрных. |
|
Если мы сохраним наше изображение в файл с 8 пикселей
по вертикали, то мы сможем рассмотреть не 10 строк,
а только 6: 3 белые и 3 чёрные. |
|
Если использовать 9 пикселей по вертикали, то останется
только 8 строк (4 белые и 4 чёрные). |
Таким образом, на рассмотренном выше примере мы видим, что чёткость
изображения (измеряется в количестве линий) не зависит от разрешения
файла (измеряется в количестве пикселей), в который это изображение
записано, если только разрешение не меньше чёткости изображения.
Сохранение изображения в файл с разрешением меньшим, чем чёткость
изображения, приводит к уменьшению чёткости. Отсюда следуют два
простых правила: с одной стороны разрешение оцифрованного видео
должно быть не ниже, чем чёткость исходного видео; с другой стороны
не имеет смысл хранить видео с очень высоким разрешением: чёткости
это не добавит, а занимать дополнительную память будет.
Чёткость видео в бытовой аппаратуре
Максимальную чёткость, которую способна обеспечить видеоаппаратура,
можно измерить при помощи специальных источников сигнала: тестовых
таблиц. Приблизительные значения чёткости изображения по горизонтали,
которые обеспечивает бытовая аппаратура, примерно равны следующим
значениям: видеомагнитофоны и камеры формата VHS: 210—220 линий.
Новые качественные камеры и магнитофоны формата VHS, в том числе
с 4 или более считывающими головками в состоянии обеспечить
чёткость изображения до 240—260 линий. Видеокамеры формата
Video8 в состоянии обеспечить до 270—280 линий.
Аппаратура форматов Hi8 и S–VHS может обеспечить чёткость до 420—440 линий.
Видеокамеры формата DV и DVD в состоянии обеспечить до 540 линий.
Количество видимых строк в стандартах PAL и NTSC фиксировано и
составляет соответственно 576 и 480.
Пояснение: эти самые линии по горизонтали считаются не
на всей длине строки, а на её части, равной высоте экрана, т.е.
в квадрате. Таким образом и подсчитан теоретический максимум для
DV при нормальном соотношении сторон экрана 4 на 3:
720 пикселей * 3/4 = 540 линий.
Посмотрите, как падает чёткость изображения DVD качества после
записи его на обычный бытовой видеомагнитофон формата VHS и последующем
захвате видео:
Нет необходимости подписывать картинки — настолько разительна
разница в чёткости. В этом примере горизонтальная чёткость уменьшилась
больше чем вдвое.
Резкость — чёткость границ
Очень часто термин «чёткость» в области обработки изображений
(или видео) можно также услышать применительно к операции повышения
чёткости границ (sharpen) — резкости изображения. Я призываю вас
не путать эти понятия, так как чёткость изображения по вертикали
или по горизонтали не имеет ничего общего с резкостью. Операции
sharpen и blur увеличивают и уменьшают контрастность изображения
вблизи границ объектов, тем самым резкие переходы на изображении
подчёркиваются или скрадываются. Это приводит к тому, что объекты
на рисунке воспринимаются человеком как более чёткие или более
смазанные. Эффект проявляется в силу особенностей зрительного
восприятия: мозг в первую очередь пытается выделить на изображении
отдельные объекты. Резкость не имеет никакой количественной абсолютной
характеристики.
Кадры, поля и чересстрочное изображение
Чересстрочное и прогрессивное
видео
В настоящее время применяется два способа передачи видео: устаревший
чересстрочный и более новый прогрессивный. Вещательный
телевизионный сигнал по историческим причинам использует чересстрочный
способ. Это означает, что кадр (frame) передаётся
не целиком, а из двух половинок: сначала передаётся первый полукадр
(или поле — field), который отображается в нечётные строки
кадра, а потом — второй полукадр, соответственно он отображается
в чётные строки.
Прогрессивный кадр содержит все строки: чётные, и нечётные.
Компьютерная техника отображает изображение в прогрессивном формате.
Прогрессивный кадр лишь недавно стал применяться в видеотехнике,
например новые видео DVD содержат кинофильмы записанные с
прогрессивной развёрткой. Телевещание и подавляющее большинство
современных видеокамер используют чересстрочную развёртку. Видеокамеры
с прогрессивной развёрткой завоёвывают всё большую популярность,
однако пока на рынке их достаточно мало.
Очевидно, вертикальное разрешение каждого
полукадра (количество строк) вдвое меньше разрешения полного кадра.
Особенности чересстрочного видео
Следует понимать, что в ТВ сигнале или при съёмке камерой
каждый полукадр содержит изображение, отснятое на 1/50 секунды
позже: то есть между первым и вторым полукадром проходит 20 мс.
За это время объекты, находящиеся в кадре, могут сместиться. С
другой стороны поля — элементы полного кадра, то есть 2–я строка
(принадлежащая второму полю) расположена ниже 1–й строки
(принадлежащей первому полю), 4–я (2–е поле) — ниже 3–й (1–е поле)
и так далее. Таким образом, чётные полукадры находятся ниже нечётных.
В силу этой особенности полукадры часто называют верхними
(top) и нижними (bottom).
Всё сказанное выше справедливо также и для стандарта NTSC, с
той только разницей что количество кадров в секунду составляет
30 (точнее, 29,97), соответственно полей в секунду — 60 (59,94).
Также различается и порядок следования полей: в PAL верхние поля
следуют после (позже) нижних, а в NTSC — наоборот.
Захват чересстрочного видео
При захвате видео компьютеру передаётся набор полных кадров с
частотой 25 к/сек, чётные строки кадра содержат одно поле,
нечётные — другое. Порядок полей не оговорен стандартами и зависит
от аппаратуры: первым может быть как верхнее, так и нижнее поле.
Этот метод имеет как свои преимущества, так и ряд недостатков
— подробнее про них рассказано в следующем разделе.
Очень важно, чтобы при захвате чересстрочного видео использовалось
полное разрешение по вертикали (576 строк для PAL и SEACM,
480 строк для NTSC). В противном случае из–за уменьшения
размера по вертикали часть строк будет потеряна; будет нарушено
правило «одно поле в чётных строках, другое — в нечётных». Полученную
видеозапись никакой алгоритм deinterlace не сможет исправить.
Уменьшение размера по вертикали нужно обязательно делать не при
захвате, а при обработке видео: после применения deinterlace или
же каким–то другим методом, который не нарушит структуры полей
(см. следующий раздел).
Отображение чересстрочного видео
на компьютере
Описанная выше структура чересстрочного видео нормально воспринимается
при воспроизведении на телевизоре — он имеет невысокое разрешение
по вертикали, потому чётные и нечётные строки выводятся практически
одна поверх другой. Мы видим все 50 фаз движения в секунду,
полукадры всегда отображаются последовательно, один за другим.
Иначе обстоит дело, когда мы пытаемся воспроизвести чересстрочное
видео на прогрессивном устройстве, каким является монитор компьютера.
Существует ряд способов, как показать на компьютере чересстрочное
видео:
- показывать только чётные или только нечётные поля, получим
25 кадров в секунду;
- показывать все поля по очереди, получим 50 кадров в секунду;
- составить полный кадр из двух полей и показывать 25 кадров
в секунду.
Оставляем только половину полей
Недостатки первого способа очевидны: мы теряем половину информации
из исходного видео. Получаем картинку с половинным разрешением
по вертикали и теряем половину фаз движения (половинное разрешение
по времени). Этот способ исключительно прост, потому он достаточно
распространён. Для восстановления исходных пропорций изображения
обычно уменьшается вдвое разрешение по горизонтали, что ещё больше
снижает чёткость оцифрованного видео. Безусловно, несложно программно
увеличить вдвое разрешение по вертикали, что, конечно же, не добавит
чёткости по вертикали (см. Разрешение и чёткость изображения).
Сохраняем 50 кадров в секунду
Из 50 полей в секунду можно получить 50 кадров в секунду
двумя способами: оставить разрешение кадра равным разрешению поля,
то есть половине разрешения кадра; или увеличить разрешение по
вертикали вдвое. Первый вариант не так хорош, как кажется: поскольку
одно из полей находится ниже другого, то при выводе полукадров
последовательно на экран прогрессивного устройства (монитор компьютера)
мы увидим мелкое дрожание изображения вверх–вниз (тремор).
Второй вариант позволит сохранить вертикальную чёткость только
в том случае, если при увеличении разрешения будет использоваться
информация из двух полей (интерполяция), при этом вдвое вырастет
время обработки видео и требуемый для хранения объём. Более чем
вдвое возрастают требования к мощности компьютера для воспроизведения
такого видео.
Реальная необходимость сохранять 50 фаз движения в секунду
имеет смысл для записей ТВ трансляций спортивных передач: часто
их просматривают в замедленном виде или же вообще покадрово. Также
желательно сохранить 50 кадров в секунду для плохо снятых
любительских записей видео камерой, когда камера у «оператора»
постоянно дрожит.
Подробнее о работе с оцифрованным видео с сохранением 50 фаз
движения в секунду вы можете прочесть в статье Виктора Томилова
50 кадров
в секунду.
Формируем 25 кадров в секунду
— deinterlace
Самый распространённый способ представления оцифрованного видео
на компьютере — это составление полного кадра из двух полукадров:
в нечётные строки записывается содержимое одного поля, в чётные
— другого. Необходимо учитывать то, что разные полукадры могут
относиться к разным моментам времени. За 20 мс, которые
разделяют два полукадра, объекты в кадре могут сместиться.
При выводе прогрессивного видео с частотой 25 кадров в секунду
будут заметны дефекты изображения (артефакты), которые
очень часто за характерную форму называют «гребёнкой» или
«расчёской». Посмотрите, на этом примере автомобили движутся
влево:
«Гребёнка» чересстрочного видео.
Для сравнения — прогрессивный кадр:
Вы видите, что контуры всех объектов, которые
сместились за 20 мс, «двоятся»: в одном полукадре (который
расположен в нечётных строках) мы видим одно положение объектов,
в другом полукадре (чётные строки) — другое положение. Очевидно,
что чем быстрее движется объект в кадре, тем больше несоответствие
позиций объектов в полукадрах — и тем заметнее артефакты:
Пока правый автомобиль был далеко от камеры, разница его положений
составляла всего пару пикселей.
Когда автомобиль приблизился к камере, разница его положений стала
заметно больше.
На необычных видеоэффектах артефакты чересстрочности
приобретают ещё более причудливые формы:
Надпись увеличивается.
Нужно добавить, что «гребёнка» содержит множество мелких деталей,
а это чрезмерно усложняет процесс последующего сжатия видео.
Для устранения эффекта чересстрочности применяются специальные
меры, которые называются deinterlace (произносится как
«деинтерлейс»). Существует несколько методов deinterlace. Bob
deinterlace применяется для вывода 50 фаз движения на
прогрессивном устройстве: растягиваем первое поле вдвое по вертикали
и при помощи интерполяции смещаем изображение на половину пикселя
вниз, растягиваем второе поле вдвое по вертикали и при помощи
интерполяции смещаем изображение на половину пикселя вверх. Field
deinterlace строит один кадр из двух полукадров, результат
обработки имеет 25 кадров в секунду. Способов устранения
артефактов чересстрочности несколько: от простого усреднения содержимого
двух полей, до сложных алгоритмов детектирования движения в кадре
и построения результирующего прогрессивного кадра при помощи интерполяции.
В результате применения таких методов несколько снижается чёткость
изображения: у готового прогрессивного кадра чёткость практически
равна чёткости исходного видеосигнала в статичных сценах, в динамичных
сценах она несколько меньше.
Восстановление прогрессивного
видео
Иногда прогрессивное видео передаётся посредством чересстрочного
сигнала — например кинофильм транслируется по ТВ. В таком
случае верхний и нижний полукадры могут попадать в поля одного
чересстрочного кадра (…[1в 1н] [2в 2н] [3в 3н] [4в 4н]…),
но возможен такой вариант: …[1н 2в] [2н 3в] [3н 4в]…
— то есть полукадры смещены на один. При просмотре кадра такого
видео будет заметна «гребёнка», характерная для чересстрочного
видео. В результате применения deinterlace мы получим гало — полупрозрачную
дымку — вокруг всех движущихся объектов, будем видеть два полупрозрачных
контура движущихся объектов.
Для того чтобы реконструировать исходное прогрессивное видео
нам необходимо сдвинуть поля видеосигнала таким образом, чтобы
восстановить их исходный порядок. Необходимыми возможностями обладают
наиболее универсальные фильтры для проведения deinterlace.
Восстановление чересстрочного
видео
В силу различных причин, описанная выше для прогрессивного видео
ситуация может возникнуть и для чересстрочного видео. Алгоритму
deinterlace это не помешает, если будет сохранён правильный порядок
полей. Но часть аппаратуры по работе с видео (в том числе и некоторые
карты захвата видео) грешит тем, что переставляет поля в пределах
кадра, реже — ещё как–либо меняет порядок полей или кадров. В
случае, если после deinterlace вы получаете гало вокруг движущихся
объектов — порядок полей в исходном видео сигнале перепутан.
Чтобы нормально обработать такую видеозапись вам необходимо переставить
поля или кадры так, чтобы восстановить исходный порядок полей.
Необходимыми возможностями обладают наиболее универсальные фильтры
для проведения deinterlace. Комбинацию настроек, скорее всего,
вам придётся подбирать экспериментально. Подробнее об этом написано
в 4–м разделе статьи Виктора Томилова Захват
и обработка аналогового видео с максимальным качеством для сжатия
в MPEG–4.
К счастью, описанные выше проблемы появляются не часто:
в подавляющем большинстве случаев чересстрочное видео имеет правильный
порядок полей.
Сохраняем чересстрочное видео
Не смотря на то, что монитор компьютера выводит прогрессивное
видео, мы можем сохранить наше чересстрочное видео в исходном
виде. Потом нам нужно будет или производить deinterlace во время
воспроизведения на компьютере, или выводить изображение на телевизор
или видеомагнитофон (где артефакты чересстрочного видео не видны).
Проблем при этом подходе несколько. Во–первых на 20—30% вырастают
требования к размеру сжатого видео. Вторая проблема — как организовать
вывод с компьютера на ТВ «честного» чересстрочного видео: с правильным
порядком полей, которые бы сменялись 50 раз в секунду.
Некоторые видеокарты с ТВ выходом позволяют это делать (например,
ATI Radeon или Matrox), другие — нет.
Описанную выше проблему можно обойти, записав видео в доступном
для аппаратных проигрывателей формате. До недавнего времени таким
форматом был только MPEG–2 — его сможет воспроизвести любой DVD
проигрыватель. Для качественного сжатия видео в формат MPEG–2
необходимы огромные объёмы данных (25—30 минут на CD) — видео
в формате MPEG–2 удобно записывать только на DVD. Такой вариант
решения на сегодня несколько дороже, хотя он и обладает рядом
неоспоримых преимуществ: видео DVD могут быть воспроизведены
любым аппаратным DVD–проигрывателем (включая поддержку нескольких
звуковых дорожек, субтитров и меню), использование более ёмких
дисков позволяет использовать потоки данных большей ширины,
чересстрочное видео просто сохраняется в исходном виде (сохраняется
исходное разрешение по оси времени). Лично мне не доводилось работать
с такой технологией, за подробностями рекомендую обратиться к
сайту М. Афанасенкова
или к FAQ по
созданию и редактированию цифрового видео.
В последнее время начали появляться DVD проигрыватели с возможностью
декодирования видео в формате MPEG–4. Последние версии кодеров
DivX и XviD имеют режимы для сохранения чересстрочного видео.
Но эти режимы пока мало протестированы, даже
сами авторы кодеров не рекомендуют их использовать. Сегодняшние
версии программных декодеров не позволяют качественно воспроизвести
чересстрочное видео на компьютере: DivX производит во время воспроизведения
некий вариант field deinterlace, что приводит к «размазыванию»
краёв движущихся объектов. Лучше доверить deinterlace более сложному
алгоритму на этапе обработки видео, там он не будет стеснён жёсткими
временными рамками «40 мс на кадр» и в состоянии обеспечить
более высокое качество. Также вы можете использовать аппаратные
проигрыватели с возможностью декодирования MPEG–4, например проигрыватель
Xoro в состоянии воспроизводить чересстрочное видео, закодированное
DivX.
Также видео можно хранить непосредственно в формате DV.
Такой вариант позволяет избежать дополнительных потерь при обработке
и сжатии видео, с другой стороны — видео в формате DV занимает
много места: 13 Гбайт/час. Вы можете хранить DV–записи на DV–кассетах,
однако такой вариант достаточно дорог; кроме того кассеты подвержены
механическому износу и не обеспечивают быстрого
доступа к любому месту записи (в отличие от дисковых носителей).
Цифровое видео
В этом разделе описаны базовые факты из области цифровой обработки
видеоинформации, которые нужны для понимания дальнейшего материала.
Кодирование цвета
Карты захвата видео предоставляют возможность сохранить поток
данных в таком же виде, в каком они выходят с чипа оцифровки видео.
Эти чипы выдают информацию не в привычном для компьютера формате
в виде набора цветовых компонент RGB (red, green, blue),
а в виде яркостной и двух цветовых составляющих (YUV). Причём
для группы из двух последовательно идущих пикселей сохраняется
два значения яркости и по одному значению цветовых компонент,
то есть получается 4 байта (32 бита) на 2 пикселя
или 16 бит на пиксель. Такой метод называют chroma
subsampling, а способ записи называют кодированием цвета YUV2
(или YUYV, или 4:2:2). Из–за особенностей человеческого зрения
разницу с обычным RGB представлением увидеть практически
невозможно: глаз более чувствителен к яркости, чем к цвету (точнее
разрешающая способность глаза по яркости выше, чем по цвету —
за счёт разной концентрации колбочек и палочек на сетчатке). Очевидно,
такой нехитрый метод позволяет существенно снизить объём информации
для оцифрованного видео: если сохранять привычные 24 бита
на пиксель вместо 16, то потребуется в 1,5 раза больше места.
Поскольку информация с карты захвата поступает уже в YUV2, нет
абсолютно никакого смысла записывать на диск RGB.
Также распространён метод кодирования YUV12 (YV12) — в нём общие
значения цветовых компонент имеют группы из 4 пикселей (2x2 для PAL или 4x1 для NTSC;
метод также называется 4:2:0, либо 4:1:1, соответственно).
Для 4 пикселей сохраняется 4 байта яркости, 1 байт
цветности U и 1 байт цветности V, в среднем получается
12 бит на пиксель — отсюда название. Подробнее про способы
кодирования цвета см. напр. FAQ
по оцифровке видео с минимальными затратами. Для нас
важно то, что такие способы представления видео информации является
традиционным для цифрового видео, они используется практически
всеми кодерами видео.
Поток данных (bitrate)
Важно понимать, что означает термин «поток данных» (bitrate,
часто используют русскую транскрипцию: битрейт). Поток данных
— это количество информации в сжатом виде, приходящееся на единицу
времени для какой–либо записи. Существует два способа сжатия информации:
с постоянным потоком данных (CBR, constant bitrate) и с переменным
потоком данных (VBR, variable bitrate). В первом варианте каждый
блок данных сжатого файла (который имеет определённую длительность
при воспроизведении) имеет постоянный размер — соответственно
поток данных не меняется на протяжении всего файла. В случае переменного
потока данных, каждый блок по выбору кодера может иметь больший
или меньший размер. Поскольку реальные сигналы имеют постоянно
изменяющуюся сложность, метод кодирования с переменным потоком
данных оказался существенно эффективнее. Очевидно, чтобы так же
качественно закодировать информацию с постоянным потоком данных
необходимо всегда использовать максимальный возможный размер блока,
что приведёт к перерасходу битов на несложных участках.
Когда поток данных не постоянен, то говоря о ширине потока данных
подразумевают среднюю величину потока данных. Усреднение традиционно
проводится в течении всей записи.
С точки зрения изменения сложности для сжатия, видеоинформация
существенно сложнее, чем звуковая. Статичные сцены, где из кадра
в кадр меняется лишь малая часть изображения, сменяются динамичными,
где во время взрывов и погонь сложно найти два одинаковых кадра.
Первые реализации MPEG кодеров использовали сжатие видео с постоянным
потоком данных (в частности — стандарт Video CD, MPEG–1 сжатие).
Однако это даёт настолько неудовлетворительные результаты, что
сжатие видео с постоянным потоком данных на сегодня не используется
нигде. Есть, правда, два исключения: совместимость со старыми
стандартами (например Video CD) и цифровое вещание (network
broadcasting). Мы же всегда будем использовать сжатие видео с
переменным потоком данных.
Ширина потока данных измеряется в битах в секунду или байтах
в секунду. Потоки данных при работе с видео достаточно велики,
потому чаще встречаются килобиты и мегабиты. Напомню, байт содержит
8 битов, килобайт содержит 1 024 байта, мегабайт
равен 1 024 килобайтам, то есть 1 048 576 байтам.
С битами не всё так просто: DivX Networks внесли
изрядную путаницу, используя соотношение 1 кбит = 1 000 бит
в своём кодере.
Устройство алгоритмов сжатия видео
Типы кадров
Поток данных в формате MPEG (1, 2 и 4) может содержать три
типа кадров: ключевые кадры (keyframe, intra–frame, I–frame),
промежуточные (predictable, forward predictable, P–frame) и двунаправленные
(backward predictable, bi–directional, BiDir, B–frame).
Ключевой кадр содержит всю информацию об изображении в кадре
и никак не зависит от других кадров.
Промежуточный кадр может ссылаться на блоки изображения в предыдущем
ключевом или предыдущих промежуточных кадрах. Это позволяет делать
промежуточные кадры по размеру меньше ключевых: в них записано
меньше информации об изображении. Для того чтобы полностью отобразить
промежуточный кадр, необходимо взять ближайший перед ним ключевой
кадр, а потом последовательно декодировать промежуточные кадры.
Очевидно, что такой способ хорош при воспроизведении видео (когда
все кадры отображаются последовательно: декодеру нужно лишь сохранять
в памяти нужные предыдущие кадры). При монтаже такой способ хранения
информации куда как менее удобен: во–первых возрастает среднее
время декодирования одного кадра (для декодирования промежуточного
кадра нужно декодировать не один, а несколько кадров), во–вторых
разрезать и склеивать видеоряд возможно только так, чтобы первый
кадр в отрезанном куске видеоряда был ключевым.
Двунаправленный кадр также содержит не всё изображение. Но в
отличие от промежуточного кадра, он может ссылаться и на следующий
за ним промежутоный кадр: отсюда и происходит его название. Двунаправленные
кадры занимают ещё меньше места, чем промежуточные. Способ декодирования
двунаправленного кадра ещё сложнее, чем декодирование промежуточного
кадра: сначала по описанной выше схеме декодируется следующий
за двунаправленным промежуточный кадр; потом, используя информацию
о соседних кадрах, декодируется двунаправленный кадр.
Из сказанного выше следует, что чем чаще в видеозаписи расположены
ключевые кадры, тем быстрее осуществляется перемотка и доступ
к произвольному кадру. Но, поскольку ключевые кадры занимают наибольший
размер, тем хуже будет сжатие видеозаписи.
Группы кадров
Группой кадров (GOP, Group Of Pictures) называют последовательность
между двумя ключевыми кадрами. Подгруппой кадров (Sub GOP)
называют последовательность между двумя промежуточными кадрами.
Традиционно у MPEG–1 и MPEG–2 кодеров задаётся длина групп и подгрупп
кадров. Типичные параметры для MPEG–кодеров: 15 и 3, что соответствует
последовательности кадров I BB P BB P BB P BB P BB I …
Простые MPEG–1/2 кодеры используют эти параметры как руководство
к действию, более сложные — как рекомендацию.
Очевидно, что когда в видеоряде сменилась сцена — новый кадр
содержит абсолютно не похожее на предыдущий кадр изображение —
имеет смысл начать новую сцену с ключевого кадра. Алгоритм, который
вставляет ключевой кадр в начале новой сцены, называется «определением
смены сцены» (scene change detection), он реализован во всех современных
MPEG–4 кодерах. Несложные MPEG–1 и MPEG–2 кодеры, которые содержатся
в программах для захвата видео, лишены его.
Ввиду особенностей развития MPEG–4 кодеров, поддержка двунаправленных
кадров была реализована не сразу. DivX и XviD имеют настройки,
которые позволяют включать и выключать использование двунаправленных
кадров. В DivX можно ограничить последовательность двунаправленных
кадров одним (последовательность кадров вида …IBPBPB…) или двумя
(последовательность вида …IBBPBBP…), XviD также позволяет указать
допустимое количество идущих подряд В–frame (по умолчанию — 2).
И DivX, и XviD содержат параметр, который ограничивает максимальную
длину группы кадров — максимальное расстояние между ключевыми
кадрами. Поскольку все MPEG–4 кодеры содержат алгоритм обнаружения
смены сцены, этот параметр традиционно достаточно велик и равен
по умолчанию примерно 10 секундам (240—300 кадров).
Ключевые кадры добавляются кодером в случае необходимости, а ограничение
длины группы кадров больше нужно для оббеспечения быстрой перемотки.
В случае если вы хотите использовать MPEG сжатие в качестве
промежуточного, то вам крайне желательно отключить использование
двунаправленных кадров, укоротить длину группы кадров. Это позволит
повысить скорость доступа к произвольному кадру вашей видеозаписи,
также снизится вычислительная сложность кодирования видео. С другой
стороны такой способ сжатия потребует больше места. В идеале
нужно заставить кодер сохранять последовательность из одних ключевых
кадров, что сделает его подобным методу сжатия MJPEG.
Развитие MPEG–4 кодеров
За последние несколько лет мы наблюдаем бурное развитие кодеров
видео. Сегодня различными разработчиками развивается множество
программ, которые позволяют сжимать видео — большая часть основана
на технологиях MPEG–4. Обратите внимание, что
не все рассматриваемые кодеры совместимы со стандартом ISO MPEG–4:
- DivX 4, DivX 5, XviD, 3ivX, Nero Digital,
ffDShow и Mpegable создают видео, полностью соответствующее
стандарту MPEG–4 ASP (advanced simple profile);
- DivX 3, Microsoft MPEG–4, WMV, VP6 и RealVideo
не совместимы со стандартом ISO MPEG–4 — декодировать такие
записи можно только специальными декодерами.
3ivX
разработала набор кодеров: видео, звук (MPEG–4 AAC) и инструменты
для поддержки контейнера MP4. Ahead Software для своего пакета
записи и копирования CD и DVD дисков создала MPEG–4 кодер Nero Digital
(также в комплекте с кодером AAC и поддержкой контейнера MP4).
Microsoft продолжает выпускать новые версии кодеров Windows Media Video
(WMV), которые также основаны на MPEG–4. Mpegable
выпустила свой MPEG–4 кодер, особенно неплохой при небольших потоках
данных (см. статью Хорошие
и плохие стороны кодека Mpegable MPEG–4, рекомендации и советы
по использованию). On2
выпустила очень необычный и многообещающий кодек VP6 (см. статью
On2
VP6 6.2 (VP62) — 10 тысяч метров, полет нормальный).
Последние версии формата RealVideo
— 9–я и 10–я — также основаны на MPEG–4. DivX Networks
продолжает развитие своего кодера DivX — пожалуй самого успешного
и популярного. Альтернативная разработка, основанная на исходных
кодах старого–доброго OpenDivX — XviD
— продолжает развиваться и уже достигла стабильного состояния.
XviD на сегодня обеспечивает лучшее качество сжатия видео (см. напр.
сравнение
кодеров видео на сайте Doom9) и полную совместимость
со стандартом MPEG–4. В среде Unix разрабатывается и
используется библиотека с открытыми исходными кодами libavcodec
— в частности она поддерживает кодирование MPEG–4 видео.
Существует реализация этого кодера под Windows: ffDShow.
В последнее время на рынке появляется всё больше реализаций кодеров
MPEG–4 AVC (H.264) — однако на сегодня они ещё находятся
в состоянии бурного развития и пока не рекомендуются к использованию.
Множество пользователей использует разные MPEG–4 кодеры видео,
в интернете можно найти множество информации по этому
вопросу (см. напр. Информация
о MPEG–4 (включая AVC/H.264)). Проводятся тестирования
и сравнения — по качеству изображения, скорости работы
и т.п. Самый известный на сегодня любительский сайт
в области технологий сжатия видео — это Doom9. На этом
сайте также действует форум, очень популярный в кругах энтузиастов
от цифрового видео. Хозяин и автор сайта, Doom9, регулярно проводит
сравнения
разных кодеров видео, последнее из них он закончил
к Новому 2004 году. Это тестирование выявляет явных аутсайдеров
с точки зрения сохранения качества изображения (Windows Media 9,
3ivX, libavcodec, Nero Digital 4.1.4 — последний, правда,
исключительно быстрый).
Выбор MPEG–4 кодера
Оставшиеся кодеры — RealVideo 9, VP6.0, DivX и XviD — представляют
группу лидеров. RealVideo обеспечивает самую мягкую и смазанную
картинку, XviD — самую чёткую, VP6 чуть–чуть хуже XviD. DivX занимает
промежуточное место между VP6 и RealVideo 9.
Необходимо отметить, что RealVideo использует свой формат сжатия
звука и свой контейнер (с поддержкой субтитров и закладок; в принципе
возможно поместить RealVideo в контейнер Матрёшка, см. подробнее
Формат контейнера видеозаписи).
Мало какая программа по работе с видео в состоянии работать с
RealVideo. Видео, сжатое On2 VP6, хранится в файлах AVI, однако
этот формат сжатия не совместим со стандартом MPEG–4. То есть
для воспроизведения RealVideo или VP6 вам понадобятся соответствующие
декодеры. Декодеры эти есть далеко не у всех: если вы перепишите
свои записи знакомым, не забудьте захватить соответствующий
декодер. Про воспроизведение на аппаратном MPEG–4 проигрывателе
вы можете забыть. Как известно, в Китае сейчас раскручивается
стандарт EVD (Enhanced Video Disk) который использует обычный
DVD в качестве носителя и VP6 в качестве формата сжатия видео.
Соответственно, на рынке появляются аппаратные проигрыватели с
поддержкой EVD, а значит и VP6. Однако дальнейшее распространение
этого стандарта и его поддержки среди аппаратных проигрывателей
вне китайского рынка находится под большим вопросом, тогда как
поддержка MPEG–4 уже состоялась «в железе» и будет развиваться
дальше.
И ещё одна существенная проблема есть как у RealVideo
9, так и у VP6: очень неточный механизм контроля за шириной потока
данных. При сжатии видео исходя из желаемого размера сжатой видеозаписи
задаётся ширина потока данных. DivX и XviD обеспечивают очень
высокую точность контроля за шириной потока: разница между желаемым
размером и действительным очень мала (не более 1 Мбайта на 1 час
видео). RealVideo 9 стабильно делает файлы меньшего размера, иногда
по 5—6 Мбайт на 1 час видео — правда, с этим ещё можно мириться.
VP6 создаёт файлы существенно большего размера, иногда по 15 Мбайт
на 1 час видео. Очевидно, что такое поведение кодера неудовлетворительно:
если мы заказали размер сжатого видео в 1 CD, а получили результат
на 15 Мбайт больше, то записать полученную видеозапись на CD мы
не сможем.
Преимуществом (впрочем, спорным) кодера RealVideo
является алгоритм, который эффективно разделяет сцену на объекты
переднего плана (которые кодируются достаточно детально) и фон
(который достаточно сильно размывается, «замыливается»).
Единственный плюс кодера VP6: специфическая форма артефактов сжатия,
которые гораздо менее заметны, чем квадраты DivX или XviD. Это
позволяет использовать VP6 и RealVideo
при очень малых потоках данных (2 часа записи на 1 CD:
менее 800 кбит/сек).
Новые версии упомянутых кодеров — RealVideo 10,
VP6.2 — обеспечивают чуть более высокое качество сжатия видео,
однако не решают тех существенных проблем этих форматов, которые
были описаны выше.
С точки зрения совместимости с аппаратными проигрывателями
наилучшим является кодер DivX: производитель кодера DivX Networks
организовала специальную программу сертификации аппаратных MPEG–4
проигрывателей на совместимость с DivX видео. Однако
XviD также способен выдавать поток данных в строгом соответствии
со стандартом MPEG–4 — аппаратные проигрыватели также в состоянии
воспроизводить и его файлы.
Возможно, кому–то настолько по душе мягкая картинка RealVideo
или чёткая картинка VP6, что он согласен мириться с:
- необходимостью использовать специальные программы видеомонтажа
(для RealVideo)
- необходимостью использовать специальный декодер
- отсутствием поддержки распространёнными аппаратными проигрывателями
- использованием закрытых нестандартных форматов (Подумайте,
что случится с вашими записями в VP6, после того как некий софтверный
гигант купит On2 с потрохами и остановит проект с целью устранения
конкурента: вы не сможете найти декодер, совместимый с Windows 2010!
Так, сейчас невозможно под Windows 2000/XP воспроизвести
файлы в формате VIV, популярном лет 8—10 тому назад)
Однако мне кажется совершенно очевидным, что выбирать сегодня
MPEG–4 кодер имеет смысл только между DivX и XviD.
Легенда про DivX 3
DivX 3 — это взломанный вариант экспериментальной версии
MPEG–4 кодера от Microsoft. Оригинальные версии кодера (их
было 3: Microsoft MPEG 4.1, 4.2 и 4.3) имели существенное
ограничение: они поддерживали только контейнер ASF (Advanced Streaming
Format, позже этот формат был переименован в Windows Media; кстати,
современные варианты кодеров MPEG 4.1, 4.2, 4.3 и их последователя
WMV вполне можно использовать для кодирования видео, хранящегося
в AVI контейнере). Jérôme Rota (известный также
под кличкой ‘Gej’) поработал над тем, чтобы новый метод сжатия
видео можно было использовать в привычных AVI файлах: тогда MPEG–4
сжатие станет доступно любой программе по работе с видео.
То, что получилось в результате, было названо DivX. При помощи
DivX можно было сжать целый фильм с видео DVD до размеров CD
— в таком виде его можно передать через интернет. С появлением
DivX начался бум пиратского копирования видео продукции, в первую
очередь кинофильмов и видеоклипов. Это, в свою очередь, повлекло
за собой с одной стороны широчайшее распространение DivX кодека,
а с другой — бурю протеста, как со стороны Microsoft (по поводу
нелегального использования их программы), так и со стороны издателей
кинофильмов (особенно усердствует MPAA,
Motion Picture Association of America, Американская ассоциация
кинопроизводителей). Но самое главное — это было в далёком 1999
году!
За прошедшие годы многое произошло: Jérôme Rota основал
компанию DivX Networks, которая занялась разработкой «лицензионно
чистого» программного обеспечения для сжатия видео. Получив немалые
инвестиции, в 2000—2001 годах компания организовала проект OpenDivX
— разработка MPEG–4 кодера видео с открытыми исходными кодами.
Позже, когда DivX Networks собрала коллектив разработчиков и доказала, что всё начато «с чистого листа»,
исходные коды проекта были закрыты: дальше проект развивался силами
компании. На основе тех же исходных кодов OpenDivX возник проект
с открытыми исходными кодами XviD, он развивался параллельно с
DivX 4—5. Возникла довольно необычная ситуация: параллельно
развивались два проекта, коммерческий и некоммерческий, с закрытыми
и открытыми исходными кодами; причём оба являются продолжением
OpenDivX. Такая конкуренция способствовала развитию обоих проектов:
DivX и XviD сегодня — самые лучшие и распространённые MPEG–4 кодеки
видео.
Microsoft также не сидела сложа руки: она выпустила две версии
кодера Windows Media Video. Напомню, что даже последняя версия
обеспечивает худшее качество, чем DivX или XviD.
В последние несколько лет только DivX 3 никак не развивался
после окончательного варианта 3.11, который выпустил Gej. Это
закономерно: исходных кодов кодера у сторонних разработчиков не
было, сделать что–либо существенное можно было только снаружи
кодека. Так, в начале 2000 года была выпущена дополненная
версия — 3.20. Она содержала реализацию алгоритма определения
смены сцены: версия 3.11 вставляла ключевые кадры только
через заданные интервалы. Версия 3.20 содержала код по детектированию
начала новой сцены и называлась VKI (variable keyframe interval,
переменный интервал между ключевыми кадрами). Все версии кодера
DivX 3 поддерживали только однопроходное сжатие с заданным
средним битрейтом.
NanDub
Существенным прогрессом в развитии DivX 3 стало создание
варианта программы VirtualDub, которая заставляла работать кодер
DivX 3.11 в режиме двухпроходного сжатия: NanDub (по имени
автора этого варианта — Nando). В таком виде DivX 3.11 позволял
добиваться намного лучших результатов, чем в режиме однопроходного
сжатия. Долгое время DivX 3.11 в двухпроходном режиме был
эталоном качества для MPEG–4 кодеров видео. Программа NanDub содержит
уйму настроек — разобраться в них достаточно сложно, очень немногие
смогли освоить эту программу на уровне гуру. Развитие NanDub было
прекращено к лету 2001 года. Специалисты по двухпроходному
сжатию всё больше обращали свои взоры в сторону DivX и многообещающего
и быстро развивающегося XviD: например Koepi , автор
руководства по использованию NanDub’а и соавтор некоторых модулей,
сейчас принимает активное участие в развитии XviD.
Развитие всех программ, которые касаются DivX 3 было прекращено
в 2001 году. За это время DivX и XviD прошли долгий путь и однозначно
превзошли DivX 3 по качеству изображения (см. последнее
сравнение видео кодеков Doom9). Тем не менее, до сих
пор жива легенда о том, что, дескать, DivX 3 — лучший. Это
следствие нескольких факторов: традиция (когда–то DivX 3
был действительно лучшим), лень (тем, кто овладел в какой–то степени
NanDub’ом, просто лень переучиваться) и обычная человеческая осторожность
ко всему новому.
Сегодня я всех призываю: похороните
DivX 3! Его время уже прошло. Поскольку многие кодеки способны
воспроизводить сжатое DivX 3 видео, удалите
из своей системы кодек DivX 3 и NanDub. Меня удивляет количество
новых видеозаписей, которые до сих пор сжимают при помощи DivX 3.
А ведь DivX 3 содержит ошибку, которая приводит к появлению
«выпавших» квадратных блоков при кодировании контрастных краёв
(например, титров) — см. картинку. Только DivX 3 содержит
ошибку, в результате которой некоторые текстуры ошибочно присваиваются
движущемуся объекту: в результате часть изображения вдоль контура
подвижного объекта уплывает в сторону — т.н. «плывун». На
сегодня не осталось ни единого аргумента «за» DivX 3 — только
лень его использующих. И ещё: видеозаписи в формате DivX 3
не вполне совместимы со стандартом MPEG–4 и не всегда корректно
воспроизводятся аппаратными проигрывателями.
DivX 4, DivX 5
Первая публично изданная версия кодера DivX 4 не поддерживала
расширения стандарта MPEG–4 advanced simple profile: например,
не позволяла создавать двунаправленные кадры. Также DivX 4
не содержал никаких дополнительных инструментов по работе с видеозаписью,
только кодек. Ещё во времена DivX 4 компания DivX Networks
заложила традиции нумерации версий: версия 4.0 содержала
море ошибок. Некоторые из ошибок приводили к созданию некачественного
сжатого видео, другие — к зависаниям программ по работе с видео.
Ряд последующих версий содержал исправления ошибок и оптимизации,
постепенно кодер достиг своего стабильного и работоспособного
состояния (последняя версия: 4.12).
Кодек DivX 5 — это продолжение развития кодека DivX 4.
Принципиальное отличие от кодера DivX 4 в том, что новая
версия кодера содержит дополнительные возможности, совместимые
со стандартом MPEG–4 advanced simple profile: двунаправленные
кадры, компенсация движения (GMC, Global Motion Compensation),
четвертьпиксельная точность алгоритмов прогнозирования движения
блоков в кадре (Quarter pixel motion estimation, Qpel motion);
а также содержит дополнительно ряд простейших инструментов по
обработке видео: обрезание краёв, изменение разрешения, фильтр
шумов и deinterlace. Такие дополнения весьма быстры, но удобнее
использовать соответствующие фильтры в программе по обработке
видео, так как это позволяет:
- использовать фильтры в любом порядке, а не непосредственно
перед DivX сжатием;
- использовать более качественные фильтры (например: встроенный
фильтр шумоподавления DivX имеет тенденцию к созданию колебаний
яркости на тёмных зашумленных сценах и множества других разнообразных
артефактов);
- иметь возможность настраивать каждый из фильтров «по месту»
с возможностью предварительного просмотра результата.
Дополнительные возможности кодера
Использование двунаправленных кадров позволяет существенно
повысить эффективность сжатия: до 20—30%. Правда, кодер DivX
ограничен в своих возможностях: в режиме обеспечения совместимости
с профилями DivX Certified Profile он не способен генерировать
более одного двунаправленного кадра подряд. Если использовать
больше одного двунаправленного кадра поряд (XviD, DivX 5.2),
то повысить эффективность сжатия можно ещё больше: до 30—40%.
Использование двунаправленных кадров увеличивает потребление вычислительных
ресурсов примерно на 25% во время сжатия и на 10%
во время воспроизведения видео.
Глобальная компенсация движения призвана уменьшить поток
данных в тех сценах, где большая часть изображения перемещается
в сторону: панорама, прокручивающиеся титры и т.п. В поток
сжатого видео записывается не само изображение кадра за кадром,
а исходное изображение, и направление его перемещения. Очевидно,
что для реализации этой возможности в декодере, нужен большой
объём памяти для сохранения большой части изображения. По этой
причине подавляющее большинство современных аппаратных декодеров
MPEG–4 видео не поддерживают эту возможность. Также кодер имеет
некоторые проблемы с отделением статичных объектов от перемещающихся
частей изображения: например если в вашем видео прокручиваются
титры, а в углу экрана находится статичный полупрозрачный
логотип, то есть шанс, что в закодированном видео логотип будет
«прыгать». Использование глобальной компенсации движения увеличивает
потребление вычислительных ресурсов примерно на 10% как во время
сжатия, так и во время воспроизведения видео.
Четвертьпиксельная точность при расчёте векторов движения
блоков изображения позволяет более точно позиционировать движущиеся
объекты в кадре, это в результате выражается в более
плавных перемещениях мелких или далёких объектов. Применение этой
возможности примерно на 10—15% ухудшает сжимаемость видео.
Использование четвертьпиксельной точности увеличивает потребление
вычислительных ресурсов примерно на 30—40% как во время
сжатия, так и во время воспроизведения видео. По этой причине
подавляющее большинство современных аппаратных декодеров MPEG–4
видео не поддерживают эту возможность. Также учтите, что процессора
в 500 МГц будет недостаточно для воспроизведения видеозаписей,
сжатых с использованием четвертьпиксельной точности — понадобится
процессор не менее 800 МГц (и более, зависит от разрешения
видео).
Психовизуальные
улучшения
Также в 5–й версии кодера DivX впервые реализована
экспериментальная система, получившая название психовизуальные
улучшения. Задача этой системы — обнаруживать те части изображения,
в которых дефекты изображения будут наименее заметны человеческим
глазом: например, очень тёмные или светлые области. Кодер сжимает
соответствующую часть изображения с более низким качеством. Таким
образом объём результирующего файла при заданном среднем уровне
качества может заметно уменьшиться. Кодирование с использованием
психовизуальных улучшений замедляет процесс кодирования на 5—25%.
Система психовизуальных улучшений — экспериментальная разработка,
которая постоянно совершенствуется и изменяется, потому этот режим
не рекомендовался к использованию. В версии 5.1 она была полностью
обновлена. Её использование сейчас вполне оправданно.
По традиции версия 5.0 содержала множество ошибок и практически
непригодна для использования, ошибки были исправлены в версии
5.0.2.
DivX 5.0.Х
Следующим существенным шагом (версия 5.0.3) было внедрение механизма
контроля за шириной потока данных (rate control) — это особенно
важно для аппаратных проигрывателей, вычислительная мощность которых
ограничена. DivX Networks разработала ряд профилей, которые
содержат набор требований к производительности декодера и ограничения
для потока данных. Если вы планируете воспроизводить ваши видеозаписи
только при помощи компьютера — вам имеет смысл отключить использование
профилей. Так вы снимете дополнительные ограничения с кодека,
что позволит ему шире варьировать свои возможности с целью создания
более качественного сжатого видео. Также отказ от использования
профилей увеличит скорость кодирования видео примерно на 1%,
даст возможность использовать однопроходный режим с постоянным
качеством (см. ниже), несколько двунаправленных кадров подряд
и MPEG матрицу квантования. Полученное видео как–то будет
воспроизводиться на аппаратных проигрывателях, но качественное
воспроизведение всей видеозаписи не гарантируется. С другой
стороны, использование профиля при кодировании позволит гарантированно
воспроизводить видеозапись на определённом классе аппаратных MPEG–4
проигрывателей. Рекомендуемый профиль: Home theatre, он соответствует
бытовым проигрывателям видео (максимальное разрешение видеозаписи
равно разрешению видео DVD).
Также DivX обрёл поддержку чересстрочного видео, режим многопроходного
сжатия, небольшое повышение производительности и изменение интерфейса
настройки кодера. Стабильная версия с исправленными ошибками —
5.0.5.
Поддержка чересстрочного видео реализована в соответствии со
стандартом MPEG–4: решение использовать ли обычное (прогрессивное)
кодирование или чересстрочное принимается на уровне блока изображения.
Чересстрочное видео требует несколько больше места для хранения,
чем прогрессивное. Некоторые подсистемы кодера DivX (например,
психовизуальные улучшения) до сих пор не умеют работать с чересстрочным
видео. Декодер DivX, который производит deinterlace «на лету»
при воспроизведении, делает это далеко не лучшим образом. С другой
стороны, аппаратные декодеры MPEG–4 позволяют корректно отображать
чересстрочное видео.
DivX 5.1
Версия 5.1, кроме традиционных небольших улучшений почти
всех подсистем кодера и очередного изменения интерфейса, содержит
новый интеллектуальный алгоритм для выбора варианта кодирования
изображения (RD или rate/distortion алгоритм, оптимизирует
параметр размер/искажения). Предположим для примера, что блок
изображения можно закодировать такими способами: А (размер: 10,
качество: 10), Б (размер: 5, качество: 8)
и В (размер: 4, качество: 5). Обычный алгоритм
выберет вариант с максимальным качеством (в нашем случае —
А), интеллектуальный алгоритм выберет вариант с лучшим соотношением
«качество/размер» (в нашем случае — Б). Такой выбор приведёт
к тому, что при сохранении высокого качества будет израсходовано
меньше битов, что позволит сжать другие сцены с более высоким
качеством: общее качество сжатия видеозаписи окажется выше. Поскольку
кодеру необходимо отрабатывать несколько вариантов сжатия изображения,
скорость кодирования падает почти в 6 раз. В Официальном
руководстве по DivX 5.2 советуют использовать
интеллектуальный алгоритм только на последнем проходе, но
даже в таком случае 2–проходное сжатие производится более
чем втрое дольше, чем при использовании обычного алгоритма. Его
использование оправдано при малых потоках данных (менее 700 кбит/сек),
иначе его влияние практически незаметно на глаз.
Кодер DivX 5.1 содержит два варианта реализации интеллектуального
алгоритма сжатия: Slow (ориентирован на максимальную скорость)
и Slowest (ориентирован на максимальное качество) — однако
разница в скорости их работы практически незаметна на фоне шестикратного
уменьшения производительности по сравнению с алгоритмом
Standard. Кодер версии 5.2 содержит только один вариант интеллектуального
алгоритма: Slow.
По традиции версия 5.1 содержала ряд ошибок, большинство
было исправлено в версии 5.1.1 (однако кодер всё ещё изредка
производит дефекты изображения, подробнее см. сравнение
MPEG–4 кодеров Doom9 — эта проблема была исправлена
лишь в версии 5.2).
DivX 5.2
Версия 5.2 выпущена в 4 языковых вариантах: английский,
немецкий, французский и японский; на эти же языки переведён
сайт DivX Networks.
Из–за этого размер установки получился огромным: 8 Мбайт.
Бесплатный вариант Pro–версии кодека больше не содержит Ad–ware
программы и не будет показывать рекламу — теперь у кодера
есть пробный период в 180 дней. Появился новый режим: Fast,
который работает быстрее Standard, но обеспечивает почти такой
же уровень качества сжатия видео — его рекомендуют использовать
при сжатии видео «на лету» при захвате видео. Добавлен
встроенный в интерфейс кодера bitrate calculator (который,
правда, уступает калькулятору XviD’а по функциональности).
Код был оптимизирован под Intel SSE3 (Prescott), что
обеспечивает 15% прирост производительности.
Наконец–то стало возможным использовать более чем один двунаправленный
кадр подряд и использовать не только H.263 матрицу квантования
(что приводит к некоторому замыливанию картинки), но также MPEG–2
матрицу (кодер XviD давно предоставляет такие возможности). Правда,
обе возможности становятся доступными лишь после отключения соответствия
профилю кодирования DivX Certified Profile.
Использование более чем одного двунаправленного кадра подряд
позволяет повысить эффективность сжатия видео на 10—15% при
сохранении субъективно того же уровня качества. Использование
разных матриц квантования определяет тенденцию кодера к сохранению
чёткости изображения (MPEG–матрица) или же наоборот — размыванию
мелких деталей (H.263). Соответственно, MPEG–матрицу нужно использовать
только при достаточно больших потоках данных (более 1 Мбит/сек).
Для достижения субъективно одинакового уровня качества при использовании
разных матриц квантования и прочих равных условиях, MPEG–матрица
потребует средний битрейт на 100—200 кбит/сек больше,
чем H.263. Все эти рассуждения справедливы для любого MPEG–4
кодера (в частности для DivX и XviD).
Как обычно, версия DivX 5.2 содержала целый ряд
ошибок, потому не рекомендуется её использовать. Последняя версия
— 5.2.1 — достаточно стабильна и вполне пригодна к использованию.
DivX Q
В дальнейших планах DivX Networks
— выпуск новой версии DivX Q в середине 2005 года,
которая будет включать в себя не только сжатие видео, но и формат
для сжатия звука и формат контейнера (подробнее см. интервью).
Дополнительная информация
Интересующихся вопросами обратной совместимости линейки кодеров
DivX, отсылаю к статье DivX:
особенности сжатия видео в домашних условиях.
На сайте DivX вы можете найти множество документации
(на английском языке), особо стоит выделить Официальное
руководство по DivX 5.2 — это 120–страничный
отлично оформленный документ (в формате Adobe Acrobat, размер:
8 МБ, на английском, немецком, французском и японском языках),
который содержит подробнейшее описание настроек кодера и декодера
DivX, советы по использованию кодера, множество информации по
современным технологиям сжатия видео на базовом уровне — для упрощения
понимания механизма работы кодека DivX. Этот документ рекомендуется
к прочтению всем, кто интересуется современными технологиями сжатия
видео. Также на сайте DivX действует форум, в
котором специалисты и энтузиасты делятся опытом.
XviD
Кодек XviD является результатом разработки MPEG–4 кодера с открытыми
исходными кодами: сначала в рамках проекта OpenDivX, а после того,
как компания DivX Networks начала разработку закрытого кодера
DivX, — как самостоятельный проект.
В период бурного развития новые версии XviD выходили едва ли
не каждую неделю — как у подавляющего большинства проектов
с открытыми исходными кодами. Часто они содержали существенные
ошибки, которые приводят к появлению искажений в сжатом видео,
или зависаниям программы для обработки видео. Эти версии тестируются
сотнями энтузиастов, ошибки находят и исправляют. Примерно раз
в полгода выпускается т.н. стабильная (stable) версия,
которая тестируется на протяжении длительного времени и в которой
не было обнаружено ошибок. Стабильные версии кодера выходят достаточно
редко, а различные нововведения присутствуют только в регулярно
выходящих альфа– и бета– версиях. Желание применять новейшие технологии
подталкивает многих на использование этих тестовых версий для
сжатия архивных видеозаписей. Конечно, даже тестовая версия имеет
шанс сжать видео верно и без дефектов, но в случае с XviD известны
случаи, когда сжатое видео невозможно было корректно воспроизвести
никаким декодером, даже более новым декодером XviD. Использовать
тестовые альфа– и бета– версии рискованно — из–за этого у кодера
XviD закрепилась репутация «глючного», то есть работающего с ошибками
и сбоями.
XviD поддерживает самые современные достижения в области кодирования
видео: двунаправленные кадры (B–VOPs), интеллектуальный алгоритм
выбора варианта кодирования изображения (тут он называется Trellis
quantization), кодирование чересстрочного видео (Interlaced encoding)
и психовизуальные улучшения (Adaptive quantization). А вот механизма контроля за шириной потока данных (rate
control) кодер XviD пока лишён — не смотря на наличие соответствующих
органов управления в окне настройки кодера; эти нововведения ожидаются
в версии 1.1 (сейчас находится в стадии активной разработки).
XviD позволяет изменять некоторые настройки, которые невозможно
поменять в кодере DivX, как то: матрица квантования (Quantization
type matrix), структура подгруппы кадров (B–VOPs), точность (и,
соответственно, скорость) алгоритма поиска движения в кадре (Motion
search precision), задавать допустимый диапазон коэффициентов
квантования (Quantizer restrictions) — это позволяет более тонко
настроить процесс кодирования видео. Плюс XviD поддерживает некоторые
возможности, которые отсутствуют в кодере DivX: соотношение сторон
изображения (Aspect ratio, DivX поддерживает только квадратные
пиксели), кодирование чёрно–белого изображения (Greyscale encoding),
специальный мультипликационный режим (Cartoon Mode). Компенсация
движения (GMC, Global Motion Compensation) и четвертьпиксельная
точность (Quarter pixel motion, Qpel motion) в исполнении XviD
не совместимы с DivX, хотя и соответствуют стандарту MPEG–4 —
из–за этого такое видео некорректно воспроизводят старые
версии декодера DivX и большинство аппаратных декодеров.
Применять эти две возможности не рекомендуется.
XviD 1.0 Release
Важным этапом для XviD стала полная MPEG–4 совместимость, что
позволяет воспроизводить видеозаписи сжатые XviD при помощи
декодера DivX или при помощи аппаратных проигрывателей. В мае
2004 года была выпущена стабильная версия XviD 1.0:
за полгода тщательного тестирования в ней не было обнаружено ошибок,
которые бы влияли на качество сжатого видео.
Дополнительная информация
Из подробных документов, которые бы описывали
все настройки кодека XviD, можно упомянуть The Unofficial
XviD FAQ и руководство XviD
Options Explained от Koepi (последнее, правда, несколько
устарело). Также на сайте Doom9 постоянно действует форум
XviD, в котором участвуют и разработчики кодера, и
специалисты, и просто любители. Вы можете найти там ответ на любой
свой вопрос, или же спросить прямо у разработчиков кодека.
Различные методы сжатия видео
Современные кодеры имеют несколько режимов сжатия видео, каждый
имеет свои преимущества и недостатки, свою область применения.
В этом разделе описаны режимы кодирования видео MPEG–4 кодеров.
Однопроходное сжатие
Однопроходное сжатие нужно использовать тогда, когда исходный
видеоматериал доступен только однажды (ТВ трансляция) или труднодоступен
(видеоряд получается в результате сложных вычислений, например
в результате обработки многими фильтрами — вряд ли кому–то
захочется повторять громоздкие вычисления дважды, как того требует
двухпроходный режим).
Исторически первым появился режим сжатия с постоянным потоком
данных (CBR, Constant bitrate): каждая группа кадров занимает
одинаковый размер. Как было сказано в разделе «Поток данных (bitrate)»,
режим с постоянным потоком данных в силу низкого качества изображения
нужно использовать только в тех случаях, где использовать
переменный поток данных невозможно: при цифровом вещании (network
broadcasting). Для включения этого режима в кодере DivX нужно
отключить профили (Select Profile Wizard — Disable profiles),
выбрать 1–pass и ввести нужное значение ширины потока данных в поля
Encoding bitrate и Max bitrate (в кбит/сек). Кодер XviD не
поддерживает этот режим.
Следующий режим — с переменным потоком данных (VBR, Variable
bitrate). Во время сжатия кодер будет стараться экономить биты
на простых сценах и расходовать «накопленное» на сложных сценах,
при этом кодер будет стремиться обеспечить среднюю ширину потока
данных на заданном уровне. Однако в силу того, что кодер может
принимать решения лишь на основе уже закодированных кадров (прошлого)
и не знает, что ждёт его в будущем, стратегия расходования
битов не будет оптимальной. Невозможно правильно рассчитать расход
битов, не зная, как долго продлится простая или сложная для сжатия
сцена. Используйте этот режим, если вам нужно при однопроходном
режиме контролировать размер сжатого видео. Для включения этого
режима в кодере DivX нужно выбрать 1–pass и ввести нужное значение
средней ширины потока данных в поле Encoding bitrate (в кбит/сек).
Для включения этого режима в кодере XviD нужно выбрать Encoding
type: Single pass, если нужно — нажать кнопку Target quantizer,
в графе Target bitrate задать нужное значение средней ширины потока
данных (в кбит/сек). Для расчёта средней ширины потока данных
вы также можете использовать встроенный калькулятор: кнопка Bitrate
Calculator (Calc для XviD).
Режим с постоянным качеством (QB, Quality based,
Constant quantizer). Во время сжатия кодер будет использовать для
каждого кадра одинаковый коэффициент квантования (если задано целое
число; если в качестве среднего коэффициента задать
дробное число, то кодер будет использовать целые коэффициенты квантования
(ближайшие к заданному дробному числу) таким образом, чтобы в среднем
по всему видеоряду коэффициент квантования был равен заданному числу
Коэффициент квантования определяет величину потерь при сохранении
изображения: чем коэффициент больше, тем больше потери; с другой
стороны чем больше коэффициент квантования — тем меньше размер сжатого
изображения. Диапазон допустимых значений коэффициента квантования
— от 1 (максимальное качество, максимальный размер) до 31
(минимальное качество, минимальный размер). Характер потерь при
больших коэффициентах квантования проще продемонстрировать на примере:
Коэффициент квантования: 2
Коэффициент квантования: 5
Коэффициент квантования: 8
Этот режим имеет существенный недостаток: заранее невозможно
предсказать размер файла со сжатым видео. С другой стороны, алгоритм
такого сжатия достаточно прост: из всех режимов MPEG–4 кодеров
этот — самый быстрый. Такой режим сжатия удобно применять при
захвате видео или как промежуточный формат сжатия. Для включения
этого режима в кодере DivX нужно отключить профили (Select Profile
Wizard — Disable profiles), выбрать 1–pass quality–based и ввести
нужное значение среднего коэффициента квантования в поле Quantizer.
Для включения этого режима в кодере XviD нужно выбрать Encoding
type: Single pass, если нужно — нажать кнопку Target bitrate,
в графе Target quantizer задать нужное значение среднего коэффициента
квантования.
В Официальном
руководстве по DivX 5.2 описана интересная возможность:
можно использовать режим сжатия с постоянным качеством вместо
первого прохода двухпроходного сжатия. Для этого в настройках
кодера DivX нужно выбрать режим 1–pass quality based и включить
запись файла с анализом видеоряда (write log file) — именно он
создаётся при первом проходе двухпроходного сжатия. При этом рекомендуется
использовать небольшие коэффициенты квантования. Размер полученного
файла будет на порядок меньше того же видео, сжатого без потерь.
При втором проходе сжатия нужно использовать полученную запись
в формате DivX и полученный файл с анализом видеоряда (log file).
Кодер XviD также способен на такой фокус: нужно выбрать режим
Twopass — 1st pass, в дополнительных настройках (more) включить
Full quality first pass и выключить Discard first pass. Вы можете
выбрать имя файла, в который будет записана информация об анализе
видеоряда при помощи кнопки «…».
Примечание. Может показаться, что в таком варианте
будут допущены потери качества изображения: в качестве промежуточного
формата используется сжатие с потерями MPEG–4. Однако это не так:
при сжатии в DivX с максимальным качеством (минимально
возможный коэффициент квантования 1) будут выполнено только
лишь квантование изображения (разделение изображения на квадратные
блоки). Все остальные блоки кодера DivX, которые уменьшают размер
видео и ухудшают качество изображения (применение кривой сжатия
и увеличение коэффициента квантования и т.д.) в этом
режиме не работают. При выполнении второго прохода сжатия,
алгоритм MPEG–4 в первую очередь разбьёт изображение на блоки,
выполнит квантование. Но именно в таком виде оно и записано в
сжатом файле! (Происходящее несколько упрощено, но в целом воответствует
действительности.) Устройство трёх различных способов обработки
видео схематически приведено ниже:
Такой метод позволяет существенно уменьшить время обработки
видео и снизить требования к необходимому дисковому пространству.
Применение такого метода не приводит к потере качества изображения.
Двухпроходное сжатие
Двухпроходный режим, как ясно из названия, состоит из двух проходов.
При первом проходе кодер анализирует информацию о сложности сжатия
(сжимаемость, compressability) видеоряда и записывает
её в специального вида файл (log file). На втором
проходе кодер сжимает видеозапись, используя полученную при первом
проходе информацию для перераспределения битов между различными
сценами и кадрами. После первого прохода создаётся только файл
с анализом видеоряда — и никакого видео. Однако, для того чтобы
обойти ограничение системы Video for Windows, программа по работе
с видео вынуждена создавать видео файл: он остаётся пустым и не содержит
какой–либо видеозаписи. Готовая видеозапись получается только
после второго прохода.
Очень важно, чтобы при обоих проходах кодер работал с абсолютно
одинаковым видеорядом: двухпроходный алгоритм основан на таком
требовании. Таким образом все настройки по обработке видеоряда
должны быть абсолютно одинаковыми для первого и второго
проходов: точно те же эффекты, фильтры с точно теми же настройками,
одинаковые части видео должны быть вырезаны. В некоторых случаях
получить второй раз точно такой же видеоряд невозможно: например
при записи с ТВ приёмника или при захвате аналогового видео (вам
не удастся синхронизировать процесс захвата с точностью до кадра)
— в таком случае нужно использовать однопроходный режим. В случае,
если необходимый видеоряд получить очень сложно (например вы хотите
сжать полученную в результате обработки видеозапись, процесс обработки
которой занимает несколько суток), вы можете вместо первого прохода
использовать однопроходный режим с постоянным качеством и с записью
анализа видеоряда (см. предыдущий раздел) — тогда
второй проход нужно будет выполнить используя не исходный, а полученный
на первом проходе файл.
Двухпроходный режим — самый эффективный для создания высококачественных
архивных видеозаписей. С одной стороны, он позволяет контролировать
размер сжатого видео, что удобно при записи на архивные носители
(CD или DVD). Для расчёта целевого битрейта, исходя из ёмкости
носителя, длины фильма и наличия звуковой дорожки (или нескольких
дорожек), удобно использовать утилиты–калькуляторы (bitrate calculators).
С другой стороны, этот режим обеспечивает максимально возможное
качество изображения для заданной ширины потока данных: благодаря
предварительному анализу видеоряда кодер может распределять биты
между разными сценами и кадрами эффективнее, чем в случае однопроходного
алгоритма. Для включения этого режима в кодере DivX нужно выбрать
Multipass, 1st pass для первого прохода или Multipass, nth pass
для второго прохода, и ввести необходимое значение средней ширины
потока данных в поле Encoding bitrate (в кбит/сек) или рассчитать
необходимое значение при помощи калькулятора (кнопка Bitrate Calculator).
Вы можете выбрать имя файла для анализа видеоряда, нажав кнопку
Select. Для включения первого прохода этого режима в кодере XviD
для нужно выбрать режим Twopass — 1st pass, в дополнительных
настройках (more) выключить Full quality first pass и включить
Discard first pass. Вы можете выбрать имя файла, в который будет
записана информация об анализе видеоряда при помощи кнопки «…».
Для включения второго прохода этого режима в кодере XviD для нужно
выбрать режим Twopass — 2nd pass, в поле Target bitrate ввести
необходимое значение средней ширины потока данных (в кбит/сек)
или рассчитать необходимое значение при помощи калькулятора (кнопка
Calc). Вы можете выбрать файл с анализом видеоряда при помощи
кнопки «…» в окне дополнительных настроек (кнопка more).
Многопроходное сжатие
DivX начиная с версии 5.03 предоставляет возможность выполнять
второй проход несколько раз подряд, это называется N–ным проходом
(Nth pass). При выполнении N–ного прохода информация о распределении
битов между кадрами модифицируется и записывается в файл
с информацией об анализе видеоряда (если в настройках кодера
не отключён режим Update log file). Таким образом, каждый следующий
N–ный проход сжатия более эффективно распределяет биты между кадрами
видеоряда, что ведёт к более высокому качеству сжатого видео при
том же размере. В Официальном
руководстве по DivX 5.2 достаточно дипломатично
сказано «обычно оптимальное качество на 98—99% достигается
за 3 прохода или менее». Вряд ли имеет смысл делать больше
трёх проходов сжатия, да и третий проход скорее всего существенно
поможет лишь при малых потоках данных (скажем, менее 700 кбит/сек)
— то есть когда небольшое перераспределение битов между кадрами
может существенно повлиять на качество изображения.
Формат контейнера видеозаписи
Видеозапись состоит из видеоряда, звуковой дорожки (или нескольких),
субтитров (возможно, нескольких), текстовых комментариев к ней
и т. д. Файл, в который сохраняется видеозапись, имеет специальный
формат. Помимо собственно видеоряда и звуковой дорожки он должен
содержать некоторую служебную информацию: какой формат применён
для сжатия видео и звука, так называемый индекс (index, блок данных,
который содержит адреса расположения конкретных участков записи
— он используется во время перемотки), текстовые описатели
(тэги, tags — название записи, автор, информация об авторских
правах и прочее). Формат такого файла называют контейнером
(container). Процесс объединения набора файлов видеозаписи
в один называется mux (сокращение от «multiplex», не путайте
с mix — микширование), процесс выделения компонентов записи
в отдельный файл — demux (demultiplex). Ниже я буду использовать
русские термины внедрение (сведение) и извлечение.
AVI
Традиционный контейнер для видеозаписей — это AVI (Audio
and Video Interleaved). Любая версия Windows содержит специальный модуль (splitter или demultiplexer),
который обеспечивает чтение файлов этого формата. Контейнер AVI
имеет целый ряд ограничений: невозможно использовать звуковую
дорожку в формате OGG Vorbis, не все программы поддерживают
отображение внедрённых в AVI субтитров. Некоторые аппаратные проигрыватели
не поддерживает переменный поток данных у звуковых дорожек (VBR,
variable bitrate).
Поскольку контейнер AVI — стандартный контейнер для видеозаписей
в системе Windows, его поддерживают все программы, которые
работают с видео. Расширенные возможности по работе с AVI,
как то внедрение субтитров, множества звуковых дорожек, использование
VBR звука, поддерживает VirtualDubMod
и AVIMux_GUI
(последний даже поддерживает формат сжатия звука AAC).
Предпочтительно использовать для видеозаписей именно этот контейнер,
в силу его универсальности и совместимости.
Ogg (OGM)
Серьёзный конкурент AVI — Ogg или OGM (Ogg Media Format). В рамках
проекта Ogg разработан формат файла–контейнера и ряд форматов
сжатия звука: Vorbis, FLAC и другие. Изначально этот контейнер
планировалось использовать только для звуковой информации, но
оказалось, что в него можно внедрить и видео данные. Для воспроизведения
таких видеозаписей Tobias Waldvogel
разработал DirectShow splitter для контейнера Ogg — с этого и
началось его повсеместное распространение. Чтобы отличать видео
файлы от звуковых, видео файлы начали называть OGM (хотя формально
они используют тот же контейнер Ogg, что и звуковые файлы). Этот
контейнер поддерживает субтитры, VBR звук и, конечно, звуковую
дорожку в формате Ogg Vorbis. «Накладные расходы» контейнера
OGM (блок index и прочая служебная информация) занимают больше
места, чем в AVI.
Возможность интегрировать субтитры внутрь файла с видеозаписью
была впервые реализована именно в программах для работы с контейнером
OGM, что послужило причиной широкого распространения этого контейнера
для видеозаписей. Сегодня множество записей (иногда даже с mp3
звуковой дорожкой) упаковываются в OGM. Однако, контейнер Ogg
разрабатывался как контейнер для потокового вещания через интернет
(streaming), потому он не вполне подходит для хранения записей:
например, иногда не работает перемотка записи назад.
Для работы с этим форматом сжатия звука и контейнером необходимы:
DirectShow декодер Ogg, OGM
splitter, OGM
mux утилита (VirtualDubMod
также поддерживает этот контейнер). Учтите, что декодер и splitter
нужены также и для воспроизведения OGM файлов.
Матрёшка
Ещё одна альтернатива — контейнер
Матрёшка (по–английски его называют Matroska). Это
проект с открытыми исходными кодами. Он содержит несколько уникальных
возможностей, например субтитры в Матрёшке всегда хранятся в универсальной
кодировке Юникод, что позволяет избежать проблем с кодировкой
текста субтитров. Этот формат разрабатывался специально для хранения
аудио и видеозаписей. Он основан на стандарте XML и обеспечивает
двустороннюю совместимость: ваша запись может быть воспроизведена
любым проигрывателем при помощи любого декодера (splitter’а) этого
формата. «Накладные расходы» контейнера Матрёшка (блок index и
прочая служебная информация) заметно
меньше, чем в AVI. Если вы согласны использовать
для своих записей нестандартный контейнер (не AVI), то Матрёшка
— однозначно лучше Ogg.
Для работы с этим форматом также нужен комплект
из Matroska splitter и утилиты для Matroska mux — они
же нужны и для воспроизведения таких файлов. VirtualDubMod
и AVIMux_GUI
также поддерживают этот контейнер. За подробностями рекомендую
обратиться к русскому переводу Matroska
FAQ.
Windows Media, RealMedia, QuickTime,
MP4 и другие
Microsoft продвигает контейнер для видеозаписей собственной разработки
— Windows Media. В этом контейнере могут использоваться только
форматы сжатия Windows Media разных версий: WMA (Audio), WMV и
MS MPEG–4 (Video). Работать с этим контейнером может Microsoft
Windows Movie Maker. Сохранять видео в этот контейнер также может
iuVCR. Формат этого контейнера закрытый, потому VirtualDub и многие
другие программы не в состоянии его читать. Также пока не существует
аппаратных проигрывателей, способных воспроизводить видеозаписи
в WMV — на момент написания статьи только появилась информация
о планах выпуска таких устройств. По описанным выше причинам формат
этот не очень популярен.
В определённых приложениях распространены контейнеры MPEG для
MPEG–1 и –2 потоков (они используются для записи Video CD,
SVCD и DVD, последние стали промышленным стандартом для записи
домашнего видео). Контейнер RealMedia используется для хранения
записей в формате RealVideo и RealAudio, потому он также мало
распространён (как и Windows Media — это закрытый формат). Контейнер
Apple Quicktime используется в первую очередь на компьютерной
платформе Apple. Контейнер не плох и универсален, но поддержка
его на платформе Windows очень ограничена, формат — закрытый,
потому — не популярный.
В стандарте MPEG–4 также есть описание контейнера — MP4.
Его сейчас редко используют, но судя по всему завтра, с выходом
стабильных MPEG–4 AVC (H.264) видео кодеров, именно этот
контейнер станет новым стандартом. Уже сегодня некоторые программы
— например 3ivX
и Nero Digital
— обеспечивают поддержку этого контейнера. Основным форматом сжатия
звука для этого контейнера является MPEG–4 AAC.
DivX Networks, разработчик совместимого с MPEG–4 формата
сжатия DivX, обещают в середине 2005 года выпустить
новую версию: DivX Q, которая будет включать в себя не только
сжатие видео, но и формат для сжатия звука и формат контейнера
(подробнее см. интервью).
Совместимость с аппаратными
проигрывателями
Форматы дисков, совместимые с аппаратными проигрывателями Video CD
или DVD — это набор соглашений о размере кадра видео, потоке
данных, используемых форматах сжатия для видео и звука, ограничение
на размер файла, способ именования файлов и расположения их по каталогам,
и так далее. На компьютере вполне возможно создать диски, которые
удовлетворяют спецификациям Video CD (MPEG–1, 352x288, 1150 Кбит/с
CBR), Super Video CD (SVCD, MPEG–2, 480x576, 2500 Кбит/с
VBR) или DVD (MPEG–2, 720x576, 6—8 Мбит/с VBR). Процесс подготовки
и обработки видеозаписи для совместимости с аппаратными проигрывателями
называется authoring (транскрипция: авторинг). Существует
целый рад программ для авторинга DVD, которые позволяют подготовить
записи, совместимые с аппаратными DVD–проигрывателями. В интернете
вы можете найти множество информации по этому вопросу, например
на сайте Doom9 (на английском)
или на сайте М. Афанасенкова
(на русском). Подготовка записей в форматах VCD/SVCD описана
в статье Как
и из чего делать VCD/SVCD.
Аппаратные проигрыватели MPEG–4 более демократичны: они будут
воспроизводить любой AVI файл, для которого они способны декодировать
видео и звук. Набор ограничений у аппаратных MPEG–4 проигрывателей
разнится от модели к модели, потому следует обратиться за подробностями
к документации, веб сайту производителя проигрывателя и чипа
декодера, или же к какому–нибудь тематическому форуму в интернете
(например, форуму сайта Doom9).
Технологический процесс
Первое, что нам необходимо сделать — это получить копию видеозаписи
в цифровом виде на жёстком диске компьютера. Операция записи видео
сигнала в цифровом виде носит название «захват видео» (video
capture). Аналоговый видео сигнал предварительно нужно привести
к цифровому виду — оцифровать. Процесс захвата и оцифровки видео
происходит одновременно, потому часто эти термины используются
как синонимы.
Оцифровка и захват аналогового
видео
Прежде, чем я продолжу рассказ о программах оцифровки видео,
я упомяну о том, как реализуется захват видео в операционной системе
Windows. Ещё в начале 1990–х годов операционная система Windows
была оснащена подсистемой для работы с видео: Video for Windows
(сокращённо VfW или V4W). VfW существует и в самых современных
версиях Windows, успешно работает и используется по сей день целым
рядом программ.
В конце 1990–х годов Microsoft разработала новую, более
гибкую подсистему работы с видео, которая получила название DirectShow
(с 7–й версии она входит в состав DirectX). Подавляющее
большинство новых программ использует именно эту подсистему (интерфейс)
для работы с видео.
Для нас важным является то, что в драйверах карты оцифровки видео
может быть реализован только захват посредством DirectShow — некоторые
современные карты имеют только такие драйверы. Это делает невозможным использование программ оцифровки,
которые используют интерфейс VfW для захвата видео: подсистема
Windows, отвечающая за использование DirectShow видео через WfV
интерфейс (т. н. wrapper), ограничивает размер кадра 384x288
пикселями. Например, популярная серия карт оцифровки на базе чипа
Conexant bt878 поддерживает оцифровку только через DirectShow
(справедливости ради отмечу, что существует вариант драйверов,
в которых реализована возможность захвата полного кадра через
VfW: от Eduardo José Tagle.)
Следует понимать, что задача обеих подсистем не ограничивается
только захватом видео. Каждая из подсистем создана для поддержки
полного спектра задач по работе с видеозаписями: захват, запись,
воспроизведение, копирование, редактирование. Используемый интерфейс
нас будет интересовать в контексте именно захвата видео — есть
ли поддержка со стороны драйвера карты захвата, в состоянии ли
использовать этот интерфейс для захвата видео какая–либо программа?
В то самое время, эта же программа может использовать другой интерфейс
для других задач, например: запись видео в файл.
Проблемы при захвате видео
Поскольку оцифровка и захват видео происходят со скоростью воспроизведения
исходной видеозаписи, важно чтобы компьютер успевал вовремя обрабатывать
полученные данные и записывать их. Возможные причины, почему компьютер
может не успевать: низкая скорость записи на жёсткий диск, невысокая
мощность процессора при использовании программной компрессии (выбранный
алгоритм сжатия не успевает сжать кадр за 40 мс),
ресурсы компьютера «отвлекаются» для выполнения дополнительных
задач при захвате (напр. переключение файла, в который происходит
захват), системных задач (напр. работа с файлом подкачки)
или каких–либо программ пользователя. Вам нужно предварительно
перед захватом подготовить жёсткий диск к захвату видео (см. Подготовка
жёсткого диска — дефрагментация), проверить достаточна
ли мощность процессора для сжатия видео в выбранный вами формат
при выбранных настройках (проведите тестовый захват фрагмента
видеозаписи в несколько минут). Во время захвата видео желательно
воздержаться от работы с другими программами, которые активно
используют необходимые при захвате ресурсы компьютера (процессор,
дисковая подсистема).
Если компьютер не успевает обрабатывать поступающий поток кадров,
то часть кадров пропускается. Оцифровка видео и звука производится
разными устройствами, потому пропуск кадров видео вызовет потерю
синхронизации со звуковым сопровождением. 25 пропущенных
кадров приведут к отставанию видеоряда относительно звукового
сопровождения на 1 секунду, потому не рекомендуется сохранять
записи с более чем 5—10 пропущенными кадрами: лучше провести
захват заново. При помощи правильно настроенной системы можно
захватывать многочасовые видеозаписи без единого пропущенного
кадра.
Ещё одна часто встречающаяся проблема, связанная с
пропущенными кадрами и синхронизацией видео и звука — выпадение
кадров на видеокассете. Со временем плёнка стареет и изнашивается,
некоторые синхроимпульсы, которые отмечают начало нового кадра,
могут считываться нестабильно или не читаться вовсе. Карта оцифровки
в таком месте пропустит кадр, в оцифрованной записи появится
небольшая рассинхронизация звука и видео. Если в записи много
таких срывов синхронизации, то её оцифровка становится большой
проблемой. Ситуация усугубляется тем, что обычно оцифровка звукового
сопровождения производится звуковой картой — устройством, работа
которого никак не синхронизирована с оцифровкой видео.
Чтобы решить проблему синхронизации оцифровки звука, некоторые
современные карты захвата видео (например, чип Philips SAA7134)
получили функцию оцифровки звукового сопровождение: оцифрованный
звук передаётся программе захвата по шине PCI (соответственно,
программа захвата также должна поддерживать эту возможность).
Для компенсации пропуска кадров существует специальный
механизм: т. н. пропущенные кадры (dropped frames, D–frames)
— если программа захвата по какой–либо причине не может сохранить
правильно оцифрованный кадр, она может записать пропущенный кадр;
при его воспроизведении будет просто показан предыдущий кадр.
В DirectX 9b алгоритм добавления пропущенных кадров был существенно
доработан: программы захвата, использующие интерфейс DirectShow,
могут пользоваться как системным алгоритмом, так и собственным
(напр. iuVCR и Virtual VCR содержат альтернативные алгоритмы).
Программы захвата, использующие интерфейс VfW, должны реализовывать
собственные алгоритмы обеспечения синхронизации. Однако, наличие
механизма обработки пропущенных кадров ещё не означает обеспечение
синхронизации: нужна поддержка этого межанизма со стороны всех
участников процесса оцифровки: программы захвата (или системы
DirectShow), драйвера карты захвата (и звуковой карты — если она
участвует в процессе оцифровки), аппаратуры карты захвата
и аппаратуры видеомагнитофона (видеокамеры). В случае слабого
синхроимпульса карта захвата видео никак не может узнать наверняка:
был ли пропущен кадр, если да — то сколько кадров было пропущено.
В силу несовершенства механизма определения пропущенных кадров,
в оцифрованную запись добавляется слишком много или слишком
мало D–кадров. Использование более качественной видео аппатаруры
позволяет качественнее воспроизводить ветхие записи — без пропуска
кадров. Идеальный вариант — это видеомагнитофон с функцией TBC
(time base correction): в этом случае аппаратура магнитофона следит
за пропуском кадров и генерирует синхроимпульсы на месте пропущенных,
на выходе с такого магнитофона получается видеозапись с постоянной
частотой кадров. Более подробно про синхронизацию аудио и видео
при оцифровке аналогового видео вы можете прочесть в форуме iXBT
в дискуссиях Рассинхронизация
звука и видео, теория или практика и Синхронизация
Audio & Video. “Жуткий Метод”™, а также в
статье Синхронизация
звука и видео при захвате с аналогового источника.
Универсального и простого решения проблемы для формата AVI, к сожалению,
не существует.
Формат контейнера AVI подразумевает постоянную частоту кадров
по всей видеозаписи. Небольшое несовпадение реальной частоты кадров
со средней частотой на сколько–нибудь больших отрезках времени
приведёт к потере синхронизации: несовпадение уже в 200 мс
легко заметно на глаз. Иногда возникает необходимость оцифровать
запись, в которой частота кадров постоянно меняется, например
старая видео кассета. В результате захвата такой записи в AVI–файл
вы обязательно получите рассинхронизацию: звуковое сопровождение
будет то отставать от видео, то уходить вперёд —
это следствие несовпадения среднего значения частоты кадров с
действительной частотой кадров на каком–либо участке ленты.
Идеальным вариантом для захвата таких записей является использование
видеомагнитофона с функцией TBC (time base correction). Другой
возможный вариант захвата подобных записей: использовать при захвате
формат контейнера MPEG–1/2 или Матрёшка: они допускают непостоянную
частоту кадров в видеозаписи (конечно, потом такие записи
невозможно будет сохранить в контейнер AVI без появления
рассинхронизации).
Разрешение видео при
оцифровке
Очень важно при оцифровке чересстрочного видео использовать
полное разрешение по вертикали: 576 строк для PAL,
480 строк для NTSC. Для захвата записей невысокого качества
также можно использовать половинное разрешение по вертикали:
288 и 240 строк соответственно. Использование любого промежуточного
разрешения по вертикали приведёт к нарушению правила
«одно поле в чётных строках, другое — в нечётных», полученную
запись невозможно будет качественно отобразить или обработать
каким–либо алгоритмом deiterlace.
Аналоговый видеосигнал не содержит дискретных элементов
по горизонтали — столбцов, можно лишь оценить максимальное
возможное количество элементов в строке (точек, пикселей) исходя
из ширины полосы пропускания. Потому разрешение по горизонтали
у оцифрованной видеозаписи — это разрешение, «с которым был
оцифрована непрерывная аналоговая строка». В принципе, это разрешение
можно использовать любым. Традиционно используются такие разрешения,
при которых пиксель получается квадратным: 768x576 и 640x480;
также часто можно встретить разрешение 720x576 (что примерно соответствует
теоретически возможной чёткости ТВ передачи). Используя меньшее
разрешение по вертикали, можно существенно уменьшить размер захваченного
видео (см. также Соотношение сторон видео при
оцифровке). С другой стороны, платы захвата видео всегда
оцифровывают видео в одном, базовом разрешении, а потом размер
оцифрованной записи изменяется «на лету»: качество алгоритма
уменьшения размера существенно разнится от чипа к чипу. Так, при использовании
чипов Conexant bt8x8 и Rage Theatre настоятельно не
рекомендуется использовать горизонтальное разрешениее меньше 480 пикселей;
чипы Conexant cx2388x и Philips SAA713x уменьшают размер
намного качественнее: можно использовать горизонтальные разрешения
вплоть до 384 пикселей. Также многие фильтры по работе с
видео рассчитывают на то, что пиксел видео квадратный: обработка
других записей связана с некоторыми трудностями.
В силу описанных причин, рекомендуется использовать
максимально допустимое платой захвата разрешение по горизонтали
(лучше такое, которое будет использовано в онончательном варианте
оцифрованной записи — например 720x576, если вы готовите видео DVD).
Соотношение сторон видео
Когда говорят о соотношении сторон (aspect ratio) применительно
к цифровому видео, речь идёт о двух величинах. Первая: соотношение
сторон кадра (IAR, image aspect ratio или DAR, display aspect
ratio), связывает геометрическую ширину и геометрическую высоту
кадра. Подавляющее большинство видео устройств использует стандартное
соотношение сторон 3:4, т. н. полноэкранный формат
— телевизоры, мониторы компьютеров, видеокамеры и т. п.
Некоторые устройства используют другой стандартный формат: широкоэкранный,
16:9.
Вторая величина: соотношение сторон пикселя (PAR, pixel
aspect ratio), определяет геометрическую форму пикселя, наименьшего
элемента изображения. Компьютерщики привыкли к тому, что пиксель
всегда квадратный: при соотношении сторон монитора 3:4, разрешение
по горизонтали и вертикали также соотносятся как 3:4 (кроме разрешения 1280x1024, вместо которого иногда используют
1280x960). Однако это не всегда так: например, на видео
DVD в стандарте PAL изображение записано с разрешением 704x576,
хотя кадр имеет соотношение сторон 3:4 (если бы пиксели на видео DVD
были квадратными, то при 576 строках нужно было бы 768 пикселей
по горизонтали). Более того, широкоформатное видео записывается
на видео DVD в таком же разрешении, однако кадр имеет
пропорции 16:9 (при 576 строках и квадратных пикселях получилось
бы 1 024 пикселя по горизонтали). Таким образом, чтобы
получить нужное соотношение сторон кадра при заданном разрешении,
нужно знать соотношение сторон пикселя:
Используя это соотношение несложно получить такую таблицу:
Фрагменты растров с различными PAR
(IAR = 1:1 во всех случаях) |
|
PAR = 1,000
квадратные пиксели |
|
PAR = 1,094
PAL DVD, полноэкранное видео: 704x576, 3:4
PAL VCD: 352x288, 3:4 |
|
PAR = 1,459
PAL DVD, широкоэкранное видео: 704x576, 16:9 |
|
PAR = 1,641
PAL SVCD: 480x576, 3:4 |
|
PAR = 2,000
при захвате кадра 384x576, 3:4 |
Примечание: описание, приведённое выше, несколько
упрощено; в таблице приведены точные значения PAR. Прочесть подробнее
о вычислении PAR вы сможете, напр. в Руководстве
по захвату аналогового видео на сайте Doom9.
Обе эти величины удобно использовать при вычислении
размера кадра и его разрешения в пикселях: так, при обрезании
краёв изображения IAR будет изменён, но PAR сохранится. При пропорциональном
изменении разрешения по горизонтали и вертикали сохраняются и
IAR, и PAR. Другие преобразования изображения могут быть выполнены
при помощи формулы, которая приведена выше (напр. изменение PAR
при сохранении IAR).
Человек «видит глазом» только IAR, увидеть разницу
между двумя картинками 4:3 384x576 (PAR = 2,00) и 768x576
(PAR = 1,00) практически невозможно (некоторое уменьшение
чёткости может быть незаметно в виду невысокой чёткости исходного
видео) — а места на диске первый вариант будет занимать практически
вдвое меньше. К сожалению, аппаратные проигрыватели поддерживают
только небольшой набор PAR, IAR и разрешений (см. табл. выше),
потому для достижения необходимого разрешения при заданном PAR
часто возникает необходимость в добавлении чёрных полос сверху
и снизу изображения. Для видео на компьютерах можно использовать
любые значения PAR, IAR и разрешения; однако подавляющее большинство
проигрывателей игноритуют информацию о PAR из заголовка файла
и воспроизводят видео так, как будто его пиксели — квадратные.
По этой причине при подготовке видеозаписей для просмотре на компьютере
рекомендуется приводить запись к PAR = 1,00.
Диапазон яркости оцифрованного
видео
Стандартами цифрового видео (напр. ITU-R BT 601)
обусловлены два диапазона возможных значений яркости пикселей
(luminance levels): полный (компьютерный, PC scale) — 0…255;
и телевизионный (TV scale) — 16…235. То есть считается, что
компьютерная техника способна воспроизводить больший диапазон
яркости, чем телевизоры. Проигрыватели видео DVD, цифровые
видеокамеры и прочая бытовая аппаратура используют диапазон TV scale
— потому при создании видеозаписей, которые будут просматриваться
на телевизоре, лучше привести запись к такому же диапазону. Некоторые
компьютерные платы захвата также используют TV scale, другие
же — полный PC scale. Для преобразования диапазона яркости
удобно использовать фильтр Levels. Также помните, что настройки
яркости и контрастности при захвате влияют на используемый
диапазон яркости оцифрованного видео.
Для комфортного просмотра на компьютере видеозаписей
в TV scale, удобно настроить свойства отображения видео
в настройках видеокарты: см. статью Воспроизведение
видео на компьютере, раздел Настройка
изображения.
Оцифровка и захват звукового сопровождения
При записи несжатого звука формата 48 кГц/16 бит/стерео
поток данных составляет всего 187 Кбайт/сек (0,67 Гбайт/час),
а для моно звука — вдвое меньше. Такой потом данных несравнимо
меньше потока данных видео, потому для записи звука настоятельно
рекомендуется использовать формат без сжатия: PCM. Использование
сжатия звука «на лету» является одной из самых распространённых
причин появления рассинхронизации видео и звука в полученной записи.
Звук в формате PCM также удобно использовать при монтаже
видео: во–первых «кадры» звуковой записи имеют длительность намного
меньше кадра видео, что позволяет точно разрезать и склеивать
звук при разрезании и склеивании видео; во–вторых «кадры» звуковой
информации не зависят один от другого — если отрезать начало
звука, то его продолжение не изменится. Применяя какое–либо сжатие
звука мы лишаемся обоих преимуществ: например, в формате mp3 длина
«кадра» равна 26 мс, а звук каждого последующего «кадра»
зависит от предыдущего «кадра». (Применительно к формату звука PCM
вместо термина «кадр» используется термин «отсчёт» или «сэмпл»,
для mp3 используют термин «блок»; здесь термин «кадр» использован
только ради аналогии с видео.)
Программы для захвата аналогового
видео
Каждая карта оцифровки видео комплектуется не только драйверами,
но и набором программного обеспечения. Эти программы позволяют
использовать различные возможности карты оцифровки — в том числе
захват видео. Часто эти программы достаточно убоги как с точки
зрения интерфейса или наличия дополнительных возможностей, так
и с функциональной точки зрения (например, AverTV, которым комплектуется
мой Aver–203, позволяет захватывать видео с максимальным разрешением
лишь 720x576 и сжимает видео «на лету» лишь в форматы MPEG–1
или MPEG–2). Конкуренция на рынке карт оцифровки видео в последнее
время стала настолько жёсткой, что производители этих устройств
взялись в последнее время за голову и снабдили свою аппаратуру
программами, которые по функциональности вполне могут конкурировать
со специальными программами для захвата видео.
iuVCR
Самая популярная и распространённая программа для захвата видео
— это iuVCR.
Программа доступна для скачивания как с английским, так и
с русским интерфейсом. iuVCR использует DirectShow интерфейс
для захвата видео. В этой программе реализовано, пожалуй, наибольшее
количество сервисных возможностей, содержит ряд
фильтров для обработки видео «на лету» во время захвата,
поддерживает захват оцифрованного звука по PCI шине и захват
в файлы Матрёшка. Программа обеспечивает полный спектр
функций по оцифровке и захвату аналогового видео, а также способна
захватывать цифровое видео. Автор программы — Иван Усков — написал
свой вариант драйверов для карт захвата на чипе Conexant bt848/878,
который обеспечивает ещё больше возможностей, чем стандартные
драйверы от производителей соответствующего оборудования. Автор
iuVCR отлично разбирается в тонкостях оцифровки и захвата видео,
его программа содержит ряд уникальных возможностей (например,
альтернативный способ подсчёта кадров, который помогает качественно
записать видео сигнал со слабыми синхронизирующими импульсами).
Программа распространяется свободно только для тестового использования
в течении 30 дней. Об этом вам напоминает окошко, которое
появляется при запуске и закрытии программы. Если вы хотите использовать
программу в дальнейшем — вам необходимо зарегистрировать
свою копию программы, стоимость регистрации: 300 рублей.
Я предпочитаю использовать именно эту программу для захвата как
аналогового, так и цифрового видео. Правда, в некоторых системах
она не работает: мне так и не удалось заставить её работать на
компьютере с ATI Radeon 8500 VIVO. В таких случаях я использую
VirtualDubMod.
FlyTV
Также очень популярно семейство программ FlyTV, написанные Сергеем
Андыком. Основная программа — TheFlyDS
— предназначена не только для захвата видео, а и для просмотра
ТВ передач при помощи ТВ приёмника на карте захвата.
Программа содержит массу сервисных возможностей: множество языков
интерфейса (в том числе и русский), изменяемый внешний вид программы
(skins), воспроизведение радио каналов — при помощи радио приёмника,
deinterlace «на лету» во время просмотра или захвата,
поддерживает захват оцифрованного звука по PCI шине,
телетекст, вещание по локальной сети, скачивание программы
ТВ передач через интернет. Стоимость
программы FlyDS для граждан exUSSR составляет 250 руб,
вы можете бесплатно испробовать программу в течении 30 дней.
В области захвата видео функциональность программы явно уступает
iuVCR, потому если вас интересует не столько комфортный просмотр
ТВ программ на компьютере, сколько захват, то FlyDS — не ваш выбор.
Тот же автор создал пару маленьких бесплатных программ, которые
созданы специально для захвата видео: FlyCap и FlyDS,
которые используют VfW и DirectShow интерфейс для захвата соответственно.
Со своей основной задачей они достойно справляются, а вот дополнительные
возможности у них очень бедны.
Virtual VCR
использует DirectShow интерфейс для захвата видео, также позволяет
использовать установленные в системе DirectShow фильтры для обработки
видео «на лету» во время захвата, содержит собственный
алгоритм детектирования пропущенных кадров и уникальная возможность:
запись расширенной статистики о процессе захвата. Программа
распространяется бесптално, последняя версия—2.6.9.
VirtualDub
Самая популярная и распространённая программа для редактирования
и несложного монтажа видео — VirtualDub — имеет также возможности
по захвату оцифрованного видео. VirtualDub использует для захвата
интерфейс VfW. Функциональность VirtualDub в области захвата
видео существенно беднее iuVCR и интерфейс намного менее удобен
— но в целом обеспечивает достаточно возможностей. В частности,
есть поддержка записи сегментированного видео — то есть запись
производится не в один большой файл, а набор файлов фиксированного
размера (эта функция может использоваться чтобы обойти ограничение
на размер файла в файловой системе FAT32).
Подробнее эта программа описана ниже, в разделе «Обработка видео».
Известная в узких кругах программа AVI_IO,
работающая через интерфейс VfW, содержит полный комплект сервисных
возможностей: захват сегментированного видео, захват по расписанию
и т. д. Но главный конёк этой программы — оригинальный
и очень эффективный алгоритм детектирования пропущенных кадров.
Разрабатывается программа компанией NCT AG, последняя версия
— С 03.24, стоимость
программы: $25. К сожалению, разработка программы
прекращена: если под управлением Windows 9x/NT, для которых
она разрабатывалась, программа работает достаточно хорошо; то
под управлением современных ОС Windows 2000/XP программа работает
крайне не стабильно.
Захват цифрового видео
Как я уже упомянул выше, iuVCR поддерживает захват цифрового
видео через интерфейс IEEE 1394 (FireWire). Также захват
DV видео поддерживают многие современные видео редакторы:
от простенького Windows
Movie Maker (который входит в состав Windows XP
и может быть бесплатно скачан с сайта Microsoft)
до монстров типа Adobe Premiere или Ulead Media Studio.
Если вы работаете только с захватом цифрового видео, то вам, возможно,
не нужна вся функциональность iuVCR: выберите другую программу
по душе, например специализированный ScenalyzerLive
(содержит ряд специфических для DV функций: сканирование
записи, разрезание записи по сценам во время захвата и т. п.).
Чтобы уменьшить потери качества, при захвате и монтаже записи
используют специальные форматы сжатия: они сохраняют высокое качество
даже при повторном применении, обеспечивают простой доступ к любому
кадру видеозаписи, но используют очень много памяти.
Для хранения видеозаписей применяют другие способы сжатия видео.
Такие форматы сжатия используют специальные способы кодирования
информации: вместо сохранения каждого кадра сохраняется только
информация об изменившихся частях кадра (см. Типы кадров). Это затрудняет
доступ к произвольному кадру в видеозаписи, но позволяет достигнуть
существенно большего сжатия информации. Также такие способы сжатия
сохраняют меньше информации о деталях видеозаписи — что практически
незаметно при однократном применении сжатия, но ведёт к появлению
очень заметных артефактов при многократном применении такого способа
сжатия.
Таким образом, при монтаже используются способы сжатия, которые
лучше сохраняют качество видеозаписи — но занимают очень большой
объём памяти. Для хранения видеозаписей используются другие способы
сжатия, которые обеспечивают неплохое качество записи и требуют
существенно меньше памяти.
Сжатие видео
Рассмотрим разные кодеки — программы, которые позволяют кодировать
и декодировать видео, используя какой–либо формат сжатия. Учтите,
что «большие» графические редакторы содержат в своём комплекте
ряд встроенных кодеков. В этом разделе будут описаны кодеки со стандартными
интерфейсами, которые можно использовать в самых разных программах
для работы с видео (захват, монтаж, редактирование). При захвате
видео потоки данных достаточно велики, потому я буду приводить
примерные значения в Мбайтах/сек и дублировать их в Гбайтах/час.
Первая величина удобна для сравнения с пропускной способностью
жёсткого диска. Вторая удобна для определения необходимого места
на диске. Как легко подсчитать, эти величины пропорциональны с
коэффициентом 3,5.
Кратность
разрешения кадра
В виду того, что в цифвровом видео специальным
образом кодируются группы из двух или четырёх пикселей (см. Кодирование цвета),
размер кадра видеозаписей должен всегда быть чётным, т. е.
делиться на 2 (а в случае кодирования 4:1:1 — горизонтальный
размер должен делиться на 4). Некоторые методы сжатия видео
— например, HuffYUV — требуют, чтобы размер кадра был кратен четырём:
в противном случае запись получится испорченной. Семейство алгоритмов
MPEG–1, –2, –4 ASP при сжатии изображения разделяют его на квадратные
блоки 8x8 пикселей — при использовании этих алгоритмов крайне
желательно, чтобы размер кадра был кратен восьми. Алгоритмы обнаружения
движения в кадре, которые используются в MPEG–4 ASP,
разбивают кадр на макроблоки размером 16x16 пикселей,
потому при сжатии любым кодером на основе алгоритмов MPEG–4 ASP
рекомендуется использовать размер кадра, кратный 16.
Промежуточное сжатие видео
Основные требования к промежуточному сжатию видео это: малое
влияние на качество изображения даже при многократном повторном
применении (в идеале — сжатие без потерь) и обеспечение простого
и быстрого доступа к любому кадру (в идеале — каждый кадр сжимается
независимо от других). Выполнение этих требований — залог высокого
качества изображения и удобной работы при монтаже и редактировании
видео.
Несжатое видео
При захвате видео с размером кадра 768 на 576
пикселей с платы оцифровки видео поступает поток данных примерно
в 22 Мбайт/сек (76 Гбайт/час) — и, соответственно
21 Мбайт/сек (73 Гбайта/час) при размере кадра 720 на 576.
При захвате несжатого видео практически нет нагрузки на процессор
компьютера, зато велика нагрузка на жёсткий диск. А главное —
видео в таком виде занимает неоправданно много места. На практике
в любительских условиях никто не работает с несжатым видео. Приведённые
выше цифры вы можете использовать как предел сверху — как для
необходимой скорости жёсткого диска, так и для необходимого для
захвата места. Также, если ваша программа захвата вдруг показывает,
что поток данных равен таким большим значениям, это означает наличие
какой–то проблемы с видео кодером: реально у вас захватывается
несжатое видео. В таком случае остановите захват и повторите настройку
сжатия видео (возможно выбранный вами кодер видео не поддерживается
программой захвата).
HuffYUV
Этот кодер идеально соответствует требованиям, которые перечислены
в разделе «Промежуточное сжатие видео». Он сжимает каждый кадр
отдельно при помощи одного из самых эффективных методов сжатия
данных без потерь: методом Хаффмана (его также использует архиватор
RAR). Хоть это нетипично для сжатия видео, но этот кодер обеспечивает
сжатие данных без потерь. Правда, эффективность такого сжатия
не очень велика: типичные потоки данных для HuffYUV — 10—13 Мбайт/сек
(35—45 Гбайт/час). Учтите, что если часть кадра постоянно
занимает однородный фон, то потребуется меньший поток данных:
это касается записей широкоэкранных кинофильмов (с чёрными
полосами сверху и снизу изображения). Кодек достаточно требователен
к ресурсам компьютера: для захвата видео с размером кадра 768x576
нужен процессор не меньше 700 МГц. Автор — Ben Rudiak–Gould,
последняя
авторская версия — 2.1.1.
Также в интернете доступна модифицированная
версия от Klaus Post — 2.2.0. Мне не удалось заставить
её работать: она создаёт файлы неправдоподобно малого размера
(почти втрое меньше, чем версия 2.1.1), декодеры HuffYUV версий 2.1.1
и 2.2.0 зависают при попытке воспроизвести такой файл, декодер
ffDShow показывает видеозапись, в которой большая часть
кадра заполнена цветным мусором. (В конференции RU.MPEG сообщали
о том, что эта версия кодера нормально работает при некоторых
условиях: вы можете попробовать, будет ли она работать у вас.)
MJPEG
Идея этого метода кодирования достаточно проста: каждый кадр
кодируется независимо от остальных, кадры сжимаются алгоритмом
с потерями типа JPEG (который так широко используется для сжатия
фотографий). Существует несколько реализаций алгоритма, в том
числе и аппаратные: так, карта захвата Pinnacle Studio DC10+ выдаёт
поток в формате MJPEG. Из программных реализаций наиболее распространены
кодеки от Morgan
Multimedia и Pegasus
Imaging Corp. Кодек от Morgan специалисты не жалуют:
и качество изображения у него похуже, и совместимость (не в состоянии
декодировать некоторые MJPEG файлы). Кодек от Pegasus (PICVideo
MJPEG) наоборот — очень популярен. Практически у него есть одна
настройка: уровень качества (от 1 до 20). При захвате видео с
целью получения максимального качества как правило используется
уровень 19, поток данных при этом получается 5—7 Мбайт/сек
(17—25 Гбайт/час). При этом видео с размером кадра 768x576
можно захватывать на процессоре 450 МГц.
Использовать самый большой уровень качества нет смысла: поток
данных получается 12—17 Мбайт/сек (40—60 Гбайт/час)
— это больше, чем HuffYUV. При этом MJPEG сжимает с потерями,
а HuffYUV — без потерь. Да и требования к процессору в таком
режиме получаются побольше, чем у HuffYUV.
Вы можете использовать и меньшие значения уровня качества — при
этом и поток данных, и загрузка процессора будут меньше. Но уже
при уровне 18 артефакты сжатия становятся заметны на глаз:
случайный шум в ТВ программах иногда вырождается в регулярные
узоры (муар). При уровне 17 муар становятся постоянными.
Уровень качества сжатия,
кодер PICVideo MJPEG |
Типичный поток данных,
Мбайт/сек (Гбайт/час) |
20 |
12—17 (40—60) |
19 |
5—7 (17—25) |
18 |
3—6 (11—16,5) |
17 |
2,5—4 (9—13) |
16 |
2—3,5 (8—11) |
15 |
1,8—2,8 (6,5—10) |
Кстати, VirtualDub содержит встроенный декодер формата MJPEG.
Специалисты, правда, настоятельно рекомендуют не использовать
его, а установить в систему кодек от Morgan или Pegasus.
Pegasus недавно выпустили новую версию своего кодека: PICVideo
MJPEG 3. Среди прочих новшеств этот кодек содержит пост–процессинг
при декодировании видео: по аналогии с MPEG–4 декодерами. Это
позволит использовать более высокие степени сжатия видео при сохранении
приблизительно такого же визуального качества изображения.
AlparySoft Lossless Video Codec
В последнее время приобретает популярность разработка
российских программистов из AlparySoft
— их Lossless
Video Codec позволяет сжимать видеозаписи «на лету»
как в режиме «без потерь» (аналог HuffYUV), так и «визуально
без потерь» (аналог MJPEG) — в последнем случае сжатие существенно
эффективнее. В режиме «без потерь» кодек обеспечивает более
эффективное сжатие, чем популярный HuffYUV: см. сравнение
степени сжатия различных беспотерьных кодеков — правда,
вычислительных ресурсов он требует намного больше.
Также кодек содержит ряд необычных и удобных функуций,
например специальный режим сжатия черессточного видео и преобразование
видеозаписи в формат YV12: последнее очень удобно при обработке
видеозаписей непосредственно перед финальным сжатием. Дело в том,
что подавляющее большинство кодеров поколения MPEG–4 прежде чем
закодировать видео, преобразуют его в формат YV12. Сохраняя
обработанное видео в формате YV12, мы экономим на размере
промежуточной видеозаписи, не добавляя никаких дополнительных
потерь качества видео. Учтите, что преобразование в формат
YV12 нужно использовать только единожды: непосредственно перед
финальным сжатием видео — в противном случае качество вашей записи
несколько снизится.
Программа распространяется бесплатно, хотя и требует
выполнения процедуры бесплатной
регистрации через интернет (неудобно то, что коды
регистрации привязываются к конкретному компьютеру). Последняя
версия — 2.0 альфа.
MPEG–1, MPEG–2
Мне не известны качественные MPEG–1 или MPEG–2 кодеры со стандартным
DirectShow или VfW интерфейсом, которые бы можно было установить
в систему и использовать из всех программ по работе с видео. Потому
ниже пойдёт речь про MPEG кодеры, которые встроены в программное
обеспечение карты захвата — как правило они позволяют сохранять
видео в формате MPEG–1 и MPEG–2. Также более дорогие карты захвата
имеют встроенные MPEG–кодеры, они способны проводить сжатие видео
«на лету» аппаратно, передавая системе для записи уже готовый
MPEG поток.
MPEG–1 предусматривает потоки данных до 1,5 Мбит/сек
для видео (лишь 188 Кбайт/сек) при разрешении до 384x288
— потому его не разумно применять для захвата видео в виду
исключительно низкого качества. На практике, правда, многие программы
захвата игнорируют эти ограничения и способны создавать MPEG–1
потоки с большими размером кадра и шириной потока данных:
AverTV может создать MPEG–1 видео с потоком вплоть до 20 Мбит/сек
. Полученный файл, конечно, не соответствует стандартам — однако
VirtualDub вполне в состоянии его прочитать.
Стандарты MPEG–1 и MPEG–2 формально имеет ограничение
в 40 Мбит/сек, однако конкретные программные реализации MPEG–1/2
кодеров как правило ограничены ещё меньшими потоками. AverTV из
комплекта поставки карты Aver 203 ограничен 20 Мбит/сек
(2,5 Мбайт/сек, 9 Гбайт/час), ATI Multimedia
Center имеет ограничение в 15 Мбит/сек (2 Мбайта/сек,
7 Гбайт/час). Учтите, что VirtualDub не в состоянии читать
файлы MPEG–2. VirtualDubMod имеет дополнительную надстройку, которая
позволяет открывать ему файлы с MPEG–2 видео.
Во время захвата видео кодеры MPEG–1 и MPEG–2 кодируют видео
в режиме с постоянным потоком данных (CBR) и с постоянным видом
группы кадров (GOP). Как было сказано в разделе «Поток данных
(bitrate)» — это не оптимальный режим для метода сжатия с потерями.
Группу кадров лучше сделать достаточно короткой (3—5 кадров),
двунаправленные кадры не использовать вовсе (см. также Группы кадров). Вы можете даже
использовать только ключевые кадры — кодер будет работать в режиме,
подобном MJPEG. Однако, специалисты указывают на то, что иногда
кодеры даже при больших потоках данных допускают артефакты, особенно
это заметно для цветовой составляющей (см. статью Виктора
Томилова Видеокарты
от ATI с видевходом: Лучшие возможности для оцифровки видеозаписей).
MPEG–4
Использовать MPEG–4 кодеры при захвате видео практически бессмысленно:
DivX 5.1.1 в режиме 1–pass quality based (fastest, quality: 1,
max keyframe interval: 1) создаёт поток такой же ширины,
как и PICVideo MJPEG с качеством 19, при этом потребляет
втрое больше мощности процессора. Возможно, в каких–то компромиссных
вариантах — с низким качеством, небольшим размером кадра — DivX
и можно использовать. Но в любом случае, он потребляет уйму вычислительных
ресурсов. Если вы собираетесь сжимать в DivX видео с размером
кадра 768x576 «на лету» — запаситесь процессором как минимум
в 2 ГГц. Очевидно, что с XviD ситуация аналогичная.
DV
Цифровые камеры используют свой формат сжатия видеозаписей —
DV (Digital Video). Технически он схож с MJPEG, но не совместим
с ним. Формат DV содержит дополнительные возможности, как то:
наложение титров (удобно для видеокамер: подпись к записи записывается
отдельно изображения, а не поверх него), специальный
способ синхронизации аудио и видео информации. Поток данных DV
имеет постоянную ширину: 3,6 Мбайт/сек (12,5 Гбайт/час).
Существует несколько программных кодеков формата DV, более
того: DirectX 6 и новее стандартно содержат DV кодек
— правда он поддерживает только DirectShow интерфейс (соответственно
VirtualDub не в состоянии его использовать). Тем не менее специалисты
рекомендуют использовать кодек от MainConcept:
он обеспечивает корректную цветопередачу, более высокое качество
изображения, а также менее ресурсоёмок. На сайте доступна демонстрационная
версия, полная версия стоит $49. Декодер от Cannopus
поддерживает только декодирование. Также в интернете можно найти
кодек от Panasonic: судя по всему он какое–то время назад был
доступен на японском сайте компании, потом его убрали — но добрые
люди успели его скопировать.
Распространено заблуждение, что высокого качества при
захвате видео можно добиться, используя формат DV — ведь
цифровые камеры делают именно так, и качество оцифровки и захвата
у них очень высокое! Но дело в том, что качество захвата цифровых
видеокамер связано с существенно более качественной аппаратной
частью, а не с используемым форматом сжатия видео. Формат DV
не стоит использовать также и потому, что в этом формате
создаётся поток с постоянной шириной (CBR): куда как эффективнее
использовать MJPEG с переменной шириной потока (VBR). Единственное
разумное применение програмного DV кодера — это сжатие видео
перед записью его на цифровую DV видеокассету.
Источник
|