태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.


2008. 11. 25. 17:44

NVIDIA CUDA의 인코딩 성능

일본어는 아주 초보적인 단어 정보 밖에 모르는지라 장문의 기사는 번역하기가 너무 힘드네요. ㅡ,.ㅡ;;; 일본어 번역기로 돌린 후 천천히 읽어 보면서 말을 다듬는데 뭔소린지 전혀 모르는 단어들도 있어서 어려움이 많습니다. 비록 부족하지만 내용 이해에는 어려움이 없을 것이라 생각합니다. ^^

CUDA의 인코딩 성능은 예전부터 관심이 많은 부분이었는데 최근 정식 출시된 바다붐 인코더를 통해 그 성능을 비교해 보는 기사가 나왔습니다. 몇 일전에 번역해서 올렸던 SpursEngine 기사와 연결되는 기사인데 개인적으로 관심이 많은 내용이다 보니 재밌게 읽었습니다. 나중에 ATI의 Avivo Encoder가 나오면 더 재밌어지겠습니다.

확실한 비교우위를 보여 주는 성능에는 감탄이 나오지만 테스트한 비디오 카드가 GTX 280 한 종류라서 아쉽습니다. 9600GT나 9800GT 정도만 함께 테스트해 줬어도 비디오 카드의 업그레이드에 관심이 있는 사람들에게는 더 좋은 가이드가 됐을텐데 말입니다. 이왕이면 전력 소모도 비교했으면 더욱 좋았을 것이구요. 하지만 이만큼 자세하게 비교한 자료도 드물기 때문에 좋은 참고자료가 될 듯 합니다.

바다붐 인코더의 기능상 제약이 마음에 좀 걸리고 화질에 있어서도 의심의 눈초리로 보는 분들이 많이 때문에 아직까진 실용적이라고 보기 힘든 상황입니다만 성능 하나만큼은 정말 좋군요. 이왕이면 남아 도는 CPU 자원을 동시에 이용해서 인코딩 시간을 더 줄일 수 있다면 더욱 좋겠다고 생각이 듭니다. 하지만 이 기사에서도 지적했듯이 소프트웨어 처리한 결과와 하드웨어 처리한 결과물에 차이가 난다면 쉽지 않은 문제일 겁니다.

그리고 늘 얘기하지만 바다붐 보다는 RapiHD라는 프리미어 플러그인이 기다려집니다. 4850을 쓰는 관계로 저야 해당 사항이 없긴 합니다만 그로 이해 ATI에 강한 자극을 주길 바라는 마음이니까요. 비록 하드웨어는 ATI가 더 맘에 들어 선택했지만 소프트웨어적인 측면에선 여전히 NVIDIA의 행보에 박수를 쳐주고 싶습니다. 비싼 비디오 카드 사서 게임할 때 외에는 그 성능을 썩히고 있다는 생각을 하면 참 아깝다는 생각이 드니 말입니다.



CPU 이외의 하드웨어를 활용한 동영상 트랜스코드를 시험해 본다
【NVIDIA CUDA편】




 지난 번에 이어,CPU 이외의 하드웨어를 이용한 트랜스코드 테스트를 시험해 본다.이 번에 이용한 것은,NVIDIA의 GPU 컴퓨팅 플랫폼인 「CUDA」를 활용한 어플리케이션이다.소비자용의 GPU 컴퓨팅의 활용으로서도 전부터 주목받고 있던 장르이지만 ,이제서야 대응 소프트가 연달아 정식 릴리즈되고 있다.이들을 여기에서 시험해 보고 싶다.테스트 환경이나 소스 파일등은 전번과 동일하다(표1,2)

【표 1】테스트에 이용한 소스 파일

DV-AVI Canon IXY DV M로 촬영
720×480 도트
26,986 프레임
DV 오디오
MPEG-2 SD 상기 DV-AVI를 Ulead DVD MovieWriter 5로 변환
720×480 도트/7,200kbps VBR
26,986 프레임
LPCM 오디오
AVCHD Canon iVIS HF100로 촬영
1,440×1,080 도트/12,000kbps VBR
10,618 프레임
DolbyDigital 오디오

【표 2】테스트 환경

CPU Intel Core 2 Extreme QX9770
Intel Core 2 Quad QX9450 상당히
머더 보드 ASUSTeK P5Q Pro(Intel P45+ICH10R)
메모리 DDR2-800 1GB×2(5-5-5-18)
비디오 카드 GeForce GTX 280
그래픽 드라이버 GeForce Release 178.24
HDD Seagete Barracuda 7200.11(ST3500320AS)
OS Windows Vista Ultimate Service Pack 1

●Elemental Technologies「Badaboom Media Converter」

【화면 1】Elemental Technologies의 H.264 트랜스코더 소프트「Badaboom Media Converter」

 먼저 소개한 것은,CUDA 대응의 인코드 소프트로서 전부터 화제에 올라 갔던 Elemental Technologies의 H.264 트랜스코더 소프트「Badaboom Media Converter」이다(화면 1).이전부터 체험판은 제공되고 있었는데 10월 하순에 정식판의 일반 판매가 개시됐다.

 예정보다 상당히 지연됐지만 당초의 발표에 비해 스펙이 몇 개 변경됐다.가장 큰 차이는 제품 라인업이 1개가 된 것인데 일반판(29.99 달러)과 Pro판(99.99 달러)의 구분이 없어지고 하나의 버전만 있다.

 가격은 29.99 달러로 되어 있지만 당초 예정되어 있던 일반판보다도 대폭적으로 기능이 강화되었고 AVCHD나 HDV의 입력에 대응.또,출력은 1,280×720 도트까지 가능해졌는데 이 것도 일반판의 720×576 도트까지라고 한 제한이 완화되고 있다.단, Pro 판으로 예정되어 있던 1,920×1,080 도트 출력은 서포트되지 않는다.종합하면 당초 예정되어 있던 Pro 판을 베이스로 출력 해상도를 720p에 제한한 것이 29.99 달러로 발매됐다고 할 수 있다.

 구입은 NVIDIA의 사이트를 통해 결재하는 형태가 된다. 결재 후 다운로드 링크가 나타난다.그 링크에 나오는 파일은 등록이 끝난 구입자 전용 바이너리이기 때문에 설치하여 바로 이용 가능하다.

 제품판은 초기의 β판과 비교한다면 사용자 인터페이스가 변경되고 있지만 8월말에 릴리즈된β판으로부터는 변화가 없다.iPod 등 동영상를 재생할 디바이스를 선택하면 그 디바이스로 이용 가능한 동영상를 작성할 수 있다.[ADVANCED]버튼을 누르면 자세한 조정도 가능해지지만 이것도 대상 디바이스가 서포트한 범위내 밖에 변경할 수 없게 되어 있다(화면 2).

 단, 이 출력 디바이스의 설정은 XML 파일로 보관되고 있으며 그 파일의 내용을 변경하여 디폴트로 준비된 디바이스 이외의 설정도 가능해진다.이 내용은 같은 회사 Web 사이트의 FAQ 에(로) 게재되고 있으니 흥미가 있는 분은 참조하여 주십시오.

 이 밖에 소스 파일의 종횡비에 맞춰 출력하는 경우,지정한 해상도에 따라 레터박스 처리하는 것이 일반적이지만 ,본 제품의 경우는 검은 막대 부분을 자동적으로 컷트한 형태로 출력되는 것도 특징이다(화면 3).

【화면 2】ADVANCED 모드를 이용하여 비트 레이트 등의 자세한 지정이 가능.이 경우도 오른 쪽 창에서 선택한 디바이스로 이용 가능한 범위에서의 조정이 된다 【화면 3】소스 파일의 종횡비에 따라 출력한 경우,지정한 해상도의 범위내에서 검은 막대를 트리밍 하여 출력된다

 그렇다면 실제로 트랜스코드의 테스트를 해보고 싶다.Badaboom Media Converter는 H.264 출력만 할수 있기 때문에 테스트도 자연히 한정된다.비교 대상이 된 CPU를 이용한 트랜스코드에는 TMPGEnc 4.0 XPress를 사용하고 있다(H.264 트랜스코드 엔진은 MainConcept제).일부의 테스트 패턴은 ,Badaboom Media Converter와 TMPGEnc 4.0 XPress에서 동일한 설정을 사용할 수 없었기 때문에 2개의 어플리케이션을 나누어 소개한다.

■Badaboom Media Converter의 출력 설정
·MPEG-2 SD→H.264 SD(426×320 도트/2,500Kbps VBR,AAC 오디오)
·MPEG-2 SD→H.264 HD(960×720 도트/18,140Kbps VBR,AAC 오디오)
·AVCHD→H.264 SD(480×270 도트/2,500Kbps VBR,AAC 오디오)
·AVCHD→H.264 HD(1,280×720 도트/18,140Kbps VBR,AAC 오디오)

■TMPGEnc 4.0 XPress의 출력 설정
·MPEG-2 SD→H.264 SD(428×320 도트/2,500K/2,800Kbps VBR,AAC 오디오)
·MPEG-2 SD→H.264 HD(960×720 도트/18,140K/19,000Kbps VBR,AAC 오디오)
·AVCHD→H.264 SD(480×270 도트/2,500K/2,800Kbps VBR,AAC 오디오)
·AVCHD→H.264 HD(1,280×720 도트/18,140K/19,000bps VBR,AAC 오디오)

 Badaboom Media Converter로 지정한 비트 레이트는 평균치가 되지만 TMPGEnc 4.0 Xpress로는 최대치를 입력할 필요가 있기 때문에 몇 개의 패턴을 시험해 보고 파일 사이즈가 비슷한 최대 비트 레이트를 지정했다.18,140Kbps라고 지정한 값은 Badaboom Media Converter로 지정 가능한 비트 레이트가 제한되고 있기 때문이며 MPEG-2 SD→H.264 SD의 해상도가 두 소프트에서 다른 것은 지정 가능한 출력 해상도가 제한되기 때문이다.

 결과는 처리 속도와 CPU 사용률을 표 3,4에, 출력 영상의 캡춰를 화면 4∼11에 표시했다.속도면이나 CPU 사용률의 차이에서는 GeForce GTX 280을 사용한 Badaboom Media Converter가 극히 뛰어나다는 것이 밝혀진다.CPU와는 절대적인 성능차를 과시하고 있다.

 또,CPU의 능력이 뒤떨어지는 환경에서도 성능이 잘 떨어지지 않는 메리트도 보인다.CPU 사용률이 적은 AVCHD→H.264 SD에서 그 것을 알 수 있다.GeForce GTX 280을 사용한 경우는 CPU에 따라 속도가 거의 차이 나지 않았던 것에 비해 CPU를 사용한 경우는 Core 2 Extreme QX9770과 Core 2 Quad Q9450의 성능차가 나타난다.

 화질에 관해서는,두 소프트에서 결과가 다르지만 SD해상도의 소스에 관해서는 TMPGEnc 4.0 XPress 쪽이 소스 파일으로 지정되었던 픽셀 종횡비에 준하여 처리하기 때문인 것 같다.HD해상도의 소스에 관해서는 Badaboom Media Converter 쪽은 마음대로 트리밍을 한 것 같은 모양이 되는데 이것은 Badaboom Media Converter의 특징으로 보인다.

 색조는 양쪽 모두 전혀 차이가 없다.단, Badaboom Media Converter에 의한 출력 결과와 비교하면 TMPGEnc 4.0 XPress의 쪽이 약간 샤프한 편임을 알 수 있다.

【표 3】GPU와 CPU의 트랜스코드 처리 속도 비교(Core 2 Extreme QX9770 환경)

  사용 하드웨어 1초당의
처리 프레임 수
CPU 사용률
MPEG-2 SD

H.264 SD
GeForce GTX 280
(Badaboom Media Converter)
198.43
Core 2 Extreme QX9770
(TMPGEnc 4.0 XPress)
94.03
MPEG-2 SD

H.264 HD
GeForce GTX 280
(Badaboom Media Converter)
66.80
Core 2 Extreme QX9770
(TMPGEnc 4.0 XPress)
23.71
AVCHD

H.264 SD
GeForce GTX 280
(Badaboom Media Converter)
61.38
Core 2 Extreme QX9770
(TMPGEnc 4.0 XPress)
49.39
AVCHD

H.264 HD
GeForce GTX 280
(Badaboom Media Converter)
49.85
Core 2 Extreme QX9770
(TMPGEnc 4.0 XPress))
15.90


【표 4】GPU와 CPU의 트랜스코드 처리 속도 비교(Core 2 Quad Q9450 환경)

  사용 하드웨어 1초당의
처리 프레임 수
CPU 사용률
MPEG-2 SD

H.264 SD
GeForce GTX 280
(Badaboom Media Converter)
194.14
Core 2 Quad Q9450
(TMPGEnc 4.0 XPress)
81.53
MPEG-2 SD

H.264 HD
GeForce GTX 280
(Badaboom Media Converter)
64.71
Core 2 Quad Q9450
(TMPGEnc 4.0 XPress)
20.21
AVCHD

H.264 SD
GeForce GTX 280
(Badaboom Media Converter)
61.38
Core 2 Quad Q9450
(TMPGEnc 4.0 XPress)
43.16
AVCHD

H.264 HD
GeForce GTX 280
(Badaboom Media Converter)
49.39
Core 2 Quad Q9450
(TMPGEnc 4.0 XPress))
13.36


【화면 4】MPEG-2 SD→H.264 SD,GeForce GTX 280/Badaboom Media Converter 사용 【화면 5】MPEG-2 SD→H.264 SD,Core 2 Extreme QX9770/TMPGEnc 4.0 XPress 사용
【화면 6】MPEG-2 SD→H.264 HD,GeForce GTX 280/Badaboom Media Converter 사용 【화면 7】MPEG-2 SD→H.264 HD,Core 2 Extreme QX9770/TMPGEnc 4.0 XPress 사용
【화면 8】AVCHD→H.264 SD,GeForce GTX 280/Badaboom Media Converter 사용 【화면 9】AVCHD→H.264 SD,Core 2 Extreme QX9770/TMPGEnc 4.0 XPress 사용
【화면 10】AVCHD→H.264 HD,GeForce GTX 280/Badaboom Media Converter 사용 【화면 11】AVCHD→H.264 HD,Core 2 Extreme QX9770/TMPGEnc 4.0 XPress 사용

●페가시스「TMPGEnc 4.0 XPress」

 전번의 SpursEngine,ViXS XCode3000과 Badaboom Media Converter는 트랜스코드의 주요 부분을 CPU 이외의 하드웨어로 처리한 것이었지만 여기에서 소개한 2개의 어플리케이션은 영상에 대한 필터나 음향 효과 처리를 하드웨어 액셀러레이션하는 것이다.먼저 살펴볼 것은,페가시스의 「TMPGEnc 4.0 XPress」다.

 TMPGEnc 4.0 XPress도 8월에 필터 처리의 CUDA 대응이 표명되고 정식판이 기다려져 왔다.지난 달 30일에 릴리즈된「Ver.4.6.2.266」이 첫 정식판이 되고 11월 5일에는 몇 개의 수정이 행해진「Ver.4.6.3.267」이 릴리즈되었다.여기에서는 물론 후자를 사용하고 있다.

 정식판에서 지원되는 GPU는 GeForce 8 이후의 제품이 되지만 G80 코어(GeForce 8800 GTX/GTS 320/640MB 판이 해당)는 제외되고 있다.이것은 필자의 예상이지만 G80 코어에는 1개 앞의 세대가 된 PureVideo1이 채용되고 있는 것이 이유가 아닌지라고 상상하고 있다.

 환경 설정에서 CUDA 관련의 설정을 유효하게 하면 GPU 쪽에서 처리가 행해지게 된다(화면 12,13).이것은 디폴트로는 체크가 빠져 있기 때문에 GPU를 사용하는 경우에는 반드시 설정해야 한다.

【화면 12】TMPGEnc 4.0 XPress CUDA 대응판의 환경 설정 화면.「NVIDIA CUDA 2.0의 설정」이라고 한 항목이 추가되고 사용할 GPU의 선택도 행할 수 있다 【화면 13】그와 관련하여,디코더를 유효하게 하는 경우에는 이와 같은 경고가 표시된다

 그리고,CUDA를 유효하게 한 후에는 TMPGEnc 4.0 XPress를 재시작하여 최적화를 행할 필요가 있다(화면 14,15).경우에 따라서는 GPU로 행한 것보다도 CPU로 행한 쪽이 고속이 된 경우가 있다.사전에 최적화를 함으로써 CUDA를 유효하게 한 경우에 성능 저하가 일어나지 않도록 하고 있는 것이다.이 최적화 처리는 이 번의 2개의 환경에서는 ,모두 1분 정도가 걸렸다.

 동영상 트랜스코드를 실행중에 CUDA가 활용되고 있는 경우는 그 작업에 CPU/GPU가 어느 정도의 비율로 관계되고 있는지를 표시하게 되어 있다(화면 16).이 표시는 ,GPU가 사용되고 있지 않는 경우에는 표시되지 않는다.

【화면 14】CUDA2.0 유효 후 어플리케이션을 재시작하면 최적화 작업이 행해진다. 처음으로 유효하게 한 경우는 다음번 시동시에 반드시 최적화가 행해지지만 일부러 실행시키는 것도 가능하다.CPU나 비디오 카드를 교환한 경우에는 반드시 재 실행해야 할 것이다 【화면 15】최적화 작업은 진행 정도가 표시된다.경고 화면에는 「몇 분의 시간이 ……」라고 있지만 이 번의 환경에서는 1분 모자람으로 완료했다 【화면 16】CUDA가 활용되고 있는 경우는 트랜스코드 안의 「상황」란에 CPU와 GPU의 사용 밸런스가 표시된다.실시간 처리로 갱신되지만 극단적으로 숫자가 변하지는 않고,동일 트랜스코드를 처리하는 동안에는 비슷한 밸런스로 계속됐다

 그러면,테스트 결과의 소개로 옮겨가 보자.여기에서 사용한 어플리케이션은 TMPGEnc 4.0 XPress만으로 ,화면 12의 3개의 체크를 넣었던 상태와 전부 제외한 상태에서의 비교를 행한다.테스트 패턴은 필터를 일체 적용하지 않는 상태와 ,「영상 노이즈 제거」,「윤곽 강조」,「색조 수정」의 3개의 필터를 적용한 상태 각각으로 아래와 같은 트랜스코드를 실행한다.그와 관련하여 MPEG-2 HD는 프로그래시브에의 출력이 되기 때문에 IP 변환이 행해질 뿐 아니라 해상도 변환도 있기 때문에 필터를 배제한다고 해도 일정한 화상 처리가 행해진다.단지 여기에서는 편의상 상기 3개의 화상 처리를 가한 것을 “필터 있음”,그렇지 않는 것을 “필터 없다”로 하고 있다.

·DV-AVI→MPEG-2 SD(720×480 도트/7,200kbps CBR,DolbyDigital 오디오)
·MPEG-2 SD→MPEG-2 HD(1,920×1,080 도트/25,000kbps CBR,LPCM 오디오)
·AVCHD→MPEG-2 SD(720×480 도트/7,200kbps CBR,DolbyDigital 오디오)
·AVCHD→MPEG-2 HD(1,920×1,080 도트/25,000kbps CBR,LPCM 오디오)

 결과는 처리 속도와 CPU 사용률을 표 5,6,출력 영상의 캡춰를 화면 17∼32에 표시하고 있다.CPU 사용률의 란에는 ,TMPGEnc 4.0 XPress에서 CUDA가 사용되고 있는 때의 CPU/GPU의 밸런스 표시도 병기했다.

 처리 속도에 관해서는 필터를 적용하지 않는 경우, 역시 다소 CPU의 쪽이 고속인 편이다.단지 페가시스의 뉴스 릴리즈에서 언급했던 것처럼 반의 속도밖에 안되는 극단적인 저하가 없는 것으로 보아 최적화 기능이 그 나름대로 유효하게 동작하고 있으며 이 것이 필요하다는 것을 알 수 있다.

 한편,필터를 적용한 경우에 관해서 보면,여기도 HD해상도가 적용되지 않는다면 GPU에 의한 필터 처리의 메리트는 보이지 않는다.단지 AVCHD로부터의 인코드는 SD/HD 모두 좋은 결과이고 그 위력을 느낄 수 있다.또,필터 적용을 하여 MPEG-2 SD로부터 MPEG-2 HD에 출력한 경우 Core 2 Extreme QX9770 환경이면 CPU의 쪽이 빠르지만 Core 2 Quad 9450 환경이라면 CUDA를 유효하게 한 쪽이 빠르다.이를 볼 때 CPU의 부족함을 다소만이라도 보충할 수 있다고 말할 수 있는 결과이다.

 CPU 사용률에 관해서는,트랜스코드 처리 자체를 CPU로 행하기 때문에 극적으로 내려가는 것은 없다.그렇지만 전반적으로 CUDA를 유효하게 한 쪽이 CPU 사용률이 낮은 경향에 있다.필터를 적용하지 않는 경우에도 CUDA 유효시의 쪽이 CPU 사용률이 낮은 경향에 있지만 이것은 아마 디코드 처리를 GPU 쪽에서 하고 있는 것의 영향이 크다고 생각된다.

 걱정이 되는 것은 화질이다.필터 적용이 없는 경우는 CUDA의 유효/무효에 관계되지 않고 동일한 영상이 출력되고 있다.그러나,필터를 적용한 경우는 분명히 색감이 다른다.특히 SD해상도를 소스에 한 영상을 보면 그 차이를 알기 쉽다.CUDA를 유효하게 한 쪽은 약간 선명함이 증가하며 창백함이 강해지고 있다.

  물론 같은 패러미터를 지정한 상태에서의 결과이다.이 것은 어느 쪽의 결과가 아름답다고 말하는 문제가 아니라 결과가 다르다는 것이 문제인 것이다.필터를 적용하는 사용자라고 한다면 당연히 출력 결과의 품질에 관심을 갖고 있는 사람일 것이다. 특히 TMPGEnc 4.0 XPress를 예전부터 사용하고 있는 사용자에 있어서는 지금까지의 결과와는 다른데 대해 난감하지는 않을까? 동일 어플리케이션인 이상 같은 출력 결과를 얻을 수 있는 것이 당연하다고 생각한다.

【표 5】TMPGEnc 4.0 XPress에 있어서 GPU와 CPU의 처리 속도 비교(Core 2 Extreme QX9770 환경)

필터 없음
  사용 하드웨어 1초당의
처리 프레임 수
CPU 사용률
DV-AVI

MPEG-2 SD
GeForce GTX 280
(CUDA 유효)
123.79
Core 2 Extreme QX9770
(CUDA 무효)
123.79
MPEG-2 SD

MPEG-2 HD
GeForce GTX 280
(CUDA 유효)
31.27
Core 2 Extreme QX9770
(CUDA 무효)
33.15
AVCHD

MPEG-2 SD
GeForce GTX 280
(CUDA 유효)
38.61
Core 2 Extreme QX9770
(CUDA 무효)
39.04
AVCHD

MPEG-2 HD
GeForce GTX 280
(CUDA 유효)
27.72
Core 2 Extreme QX9770
(CUDA 무효)
28.16
필터 있음
  사용 하드웨어 1초당의
처리 프레임 수
CPU 사용률
DV-AVI

MPEG-2 SD
GeForce GTX 280
(CUDA 유효)
35.65
Core 2 Extreme QX9770
(CUDA 무효)
44.31
MPEG-2 SD

MPEG-2 HD
GeForce GTX 280
(CUDA 유효)
21.47
Core 2 Extreme QX9770
(CUDA 무효)
21.83
AVCHD

MPEG-2 SD
GeForce GTX 280
(CUDA 유효)
11.28
Core 2 Extreme QX9770
(CUDA 무효)
6.17
AVCHD

MPEG-2 HD
GeForce GTX 280
(CUDA 유효)
14.65
Core 2 Extreme QX9770
(CUDA 무효)
8.59


【표 6】TMPGEnc 4.0 XPress에 있어서 GPU와 CPU의 처리 속도 비교(Core 2 Extreme QX9770 환경)

필터 없음
  사용 하드웨어 1초당의
처리 프레임 수
CPU 사용률
DV-AVI

MPEG-2 SD
GeForce GTX 280
(CUDA 유효)
109.70
Core 2 Quad Q9450
(CUDA 무효)
111.98
MPEG-2 SD

MPEG-2 HD
GeForce GTX 280
(CUDA 유효)
26.99
Core 2 Quad Q9450
(CUDA 무효)
30.53
AVCHD

MPEG-2 SD
GeForce GTX 280
(CUDA 유효)
34.25
Core 2 Quad Q9450
(CUDA 무효)
34.14
AVCHD

MPEG-2 HD
GeForce GTX 280
(CUDA 유효)
24.24
Core 2 Quad Q9450
(CUDA 무효)
24.52
필터 있음
  사용 하드웨어 1초당의
처리 프레임 수
CPU 사용률
DV-AVI

MPEG-2 SD
GeForce GTX 280
(CUDA 유효)
33.48
Core 2 Quad Q9450
(CUDA 무효)
37.22
MPEG-2 SD

MPEG-2 HD
GeForce GTX 280
(CUDA 유효)
20.41
Core 2 Quad Q9450
(CUDA 무효)
18.96
AVCHD

MPEG-2 SD
GeForce GTX 280
(CUDA 유효)
10.98
Core 2 Quad Q9450
(CUDA 무효)
5.30
AVCHD

MPEG-2 HD
GeForce GTX 280
(CUDA 유효)
13.99
Core 2 Quad Q9450
(CUDA 무효)
7.27


【화면 17】DV-AVI→MPEG-2 SD,CUDA 유효,필터 없음 【화면 18】DV-AVI→MPEG-2 SD,CUDA 무효,필터 없음
【화면 19】MPEG-2 SD→MPEG-2 HD,CUDA 유효,필터 없음 【화면 20】MPEG-2 SD→MPEG-2 HD,CUDA 무효,필터 없음
【화면 21】AVCHD→MPEG-2 SD,CUDA 유효,필터 없음 【화면 22】AVCHD→MPEG-2 SD,CUDA 무효,필터 없음
【화면 23】AVCHD→MPEG-2 HD,CUDA 유효,필터 없음 【화면 24】AVCHD→MPEG-2 HD,CUDA 무효,필터 없음
【화면 25】DV-AVI→MPEG-2 SD,CUDA 유효,필터 있음 【화면 26】DV-AVI→MPEG-2 SD,CUDA 무효,필터 있음
【화면 27】AVCHD→MPEG-2 SD,CUDA 유효,필터 있음 【화면 28】AVCHD→MPEG-2 SD,CUDA 무효,필터 있음
【화면 29】AVCHD→MPEG-2 SD,CUDA 유효,필터 있음 【화면 30】AVCHD→MPEG-2 SD,CUDA 무효,필터 있음
【화면 31】AVCHD→MPEG-2 HD,CUDA 유효,필터 있음 【화면 32】AVCHD→MPEG-2 HD,CUDA 무효,필터 있음

●사이버 링크「PowerDirector 7」

 계속해서 사이버 링크의 「PowerDirector 7」를 보자.동영상 편집 소프트인 이 제품은 11월 7일에 일부 음향 효과 처리를 CUDA로 실행 가능하게 한다는 최신 정보를 릴리즈했다.여담이지만 이 PowerDirector 7은 NVIDIA의 CUDA 대응을 표명함과 동시에 AMD의 Radeon HD 시리즈로 트랜스코드 처리를 한 데모도 과거에 공개하고 있어서 어느 쪽을 우선하는 것인가 흥미가 있던 것이지만 결과는 CUDA 대응이 먼저 됐다.한편 AMD로부터는 다시 PowerDirector 7의 ATI Stream 대응이 표명되고 있고 여기는 트랜스코드를 ATI Stream로 처리시킨다고 말한 점에서 기대가 된다.

  우선 이 번은 음향 효과 처리의 CUDA 대응이다.「Build 2227c」가 대응판으로써 이미 다운로드가 가능하다.

 이 패치를 적용하면 환경 설정의 란에 CUDA 액셀러레이션을 사용할지에 대한 설정항목이 표시되고(화면 33),음향 효과의 화면에서는 CUDA로 처리 가능한 음향 효과의 아이콘에 NVIDIA 로고가 표시된다(화면 34,35).그와 관련하여 이 NVIDIA 로고는 CUDA액셀러레이션을 무효에 하고 있어도 표시되지만,이러한 스펙은 기호가 나뉘어질 것 같다.CUDA 액셀러레이션이 가능한 음향 효과는 다음 10 종류이다.

·색의 치환
·칼라 에지
·칼라 페인트
·펜 잉크
·만화경
·추상화
·광선
·불꽃
·가우스상이 바림하고(?)
·방사상이 바림하고(?)

【화면 33 CUDA 대응 패치를 적용하면 환경 설정에 CUDA 액셀러레이션을 유효하게 하는 설정항목이 준비된다 【화면 34 CUDA 액셀러레이션이 이용 가능한 음향 효과에는 NVIDIA 로고가 표시된다 【화면 35 화면 34로 표시하지 못한 음향 효과의 추가 리스트

 그렇다면 테스트 결과를 보자.이용할 수 있는 음향 효과의 질을 생각한다면 지난 번과 이 번의 테스트들과 극단적으로 다른 것이 되기 때문에 여기에서는 SD해상도의 출력으로 좁히고 테스트를 행했다.「펜 잉크」→「광선」→「방사상이 바림하고」의 순으로 음향 효과를 적용하고 CUDA 유효/무효시의 하기 패턴을 비교한다.

·DV-AVI→MPEG-2 SD(720×480 도트,8,000Kbps VBR,DolbyDigital 오디오)
·MPEG-2 SD→H.264 SD(720×480 도트,6,000Kbps VBR,DolbyDigital 오디오)
·AVCHD→MPEG-2 SD(720×480 도트,8,000Kbps VBR,DolbyDigital 오디오)
·AVCHD→H.264 SD(720×480 도트,6,000Kbps VBR,DolbyDigital 오디오)

 또한 PowerDirector7에는 Smart Video Rendering Technology3라고 하는 렌더링 고속화 기술이 실장되어 있고 AVCHD 소스를 이용한 경우에 이 것을 이용 가능하기 때문에 유효하게 하여 트랜스코드를 행하고 있다.그 때문에 AVCHD 소스를 이용한 경우의 쪽이 고속의 결과를 보여주고 있다.

 결과는 처리 속도와 CPU 사용률을 표 7,8에,출력 영상의 캡춰를 화면 36∼43에 표시했다.여기서는 일정하게 CUDA 유효의 쪽이 고속으로 처리되고 있을을 알 수 있다.

 또,Core 2 Extreme QX9770을 사용하면 15∼40%,Core 2 Quad Q9450 사용시는 40∼55% 정도 고속화되는 것처럼 CPU의 그레이드가 내려가도 CUDA 유효시의 쪽이 성능의 저하가 적은 경향도 명확하게 나와 있다.특히 HD해상도의 소스를 이용한 때의 결과에서 알기 쉽다.CUDA 무효시는 Core 2 Extreme QX9770과 Core 2 Quad Q9450의 차이가 8∼9fps인 것에 비해 CUDA 유효시는 3fps가 낮아질 뿐이다.

  또한 큰 메리트로 되어 있는 것이 CPU 사용률의 저조이다.PowerDirector 7은 확실하게 멀티스레드화 되어 있고 음향 효과를 적용하여 트랜스코드 처리를 행하면 CPU를 거의 100% 사용하는 것을 알 수 있다.그러나 음향 효과 처리를 CUDA에 맡기면 그 CPU 사용률은 반 이하로 억제된다.그런데도 처리는 고속이니까,보다 효과가 두드러진다.

 화질의 측면에서는 음향 효과를 적용하고 있는 탓으로 동영상 형식마다의 특징이 강하게 나올 뿐,CUDA 유효 시,무효시로의 출력 결과에 차이는 없다.

【표 7】PowerDirector 7의 음향 효과 처리에 있어서 GPU와 CPU의 처리 속도 비교(Core 2 Extreme QX9770 환경)

  사용 하드웨어 1초당의
처리 프레임 수
CPU 사용률
DV-AVI

MPEG-2 SD
GeForce GTX 280
(CUDA 유효)
14.45
Core 2 Extreme QX9770
(CUDA 무효)
10.89
MPEG-2 SD

H.264 SD
GeForce GTX 280
(CUDA 유효)
13.95
Core 2 Extreme QX9770
(CUDA 무효)
9.97
AVCHD

MPEG-2 SD
GeForce GTX 280
(CUDA 유효)
36.22
Core 2 Extreme QX9770
(CUDA 무효)
30.98
AVCHD

H.264 SD
GeForce GTX 280
(CUDA 유효)
35.05
Core 2 Extreme QX9770
(CUDA 무효)
28.89


【표 8】PowerDirector 7의 음향 효과 처리에 있어서 GPU와 CPU의 처리 속도 비교(Core 2 Quad Q9450 환경)

  사용 하드웨어 1초당의
처리 프레임 수
CPU 사용률
DV-AVI

MPEG-2 SD
GeForce GTX 280
(CUDA 유효)
13.29
Core 2 Quad Q9450
(CUDA 무효)
9.24
MPEG-2 SD

H.264 SD
GeForce GTX 280
(CUDA 유효)
12.88
Core 2 Quad Q9450
(CUDA 무효)
8.48
AVCHD

MPEG-2 SD
GeForce GTX 280
(CUDA 유효)
33.48
Core 2 Quad Q9450
(CUDA 무효)
22.16
AVCHD

H.264 SD
GeForce GTX 280
(CUDA 유효)
32.20
Core 2 Quad Q9450
(CUDA 무효)
20.69


【화면 36】DV-AVI→MPEG-2 SD,CUDA 유효 【화면 37】DV-AVI→MPEG-2 SD,CUDA 무효
【화면 38】MPEG-2 SD→H.264 SD,CUDA 유효 【화면 39】MPEG-2 SD→H.264 SD,CUDA 무효
【화면 40】_AVCHD→MPEG-2 SD,CUDA 유효 【화면 41】AVCHD→MPEG-2 SD,CUDA 무효
【화면 42】AVCHD→H.264 SD,CUDA 유효 【화면 43】AVCHD→H.264 SD,CUDA 무효

●겸용 하드웨어로 고속의 트랜스코드가 가능하다

 지금까지 NVIDIA의 CUDA를 활용한 트랜스코드 소프트를 테스트해 봤다.여기에서는 트랜스코드 자체를 GPU로 처리할 수 있는 어플리케이션으로 한정되고 있지만 그 성능은 꽤 높다.이 후에 최대 성능을 더욱 끌어낸다고 예상해 보면 GPU에 관련된 기대는 크다.

 또,필터에만 적용하는 어플리케이션이라도,특히 HD해상도를 이용한 경우에는 큰 효과가 인정된다.예를 들면 HD 캠으로 촬영한 영상을 편집하고 DVD나 Blu-ray로 출력한다던지 하는 가정에서의 동영상 활용에 있어 좋은 영향을 가져오는 것이 아닐까.

 전용 하드웨어와 비교한다면 CPU 사용률이 조금 높게 나오는 경향은 있다.그러나 비용 측면에서는 GPU의 경우 화면 출력이라는 PC에 있어 빠뜨릴 수 없는 작업을 겸용한 하드웨어라는 점에서 전용 하드웨어보다도 투자에 대한 저항은 작다고 생각된다.PC의 업그레이드 대상으로서 3D 성능 이외의 측면에서 GPU가 클로즈업될 날도 멀지 않았다.

 그와 관련하여,이 번에는 NVIDIA의 CUDA를 활용한 어플리케이션을 거론했지만 AMD의 움직임도 활발해지고 있다.11월 13일자의 뉴스 릴리즈에 따르면 AMD의 GPU 컴퓨팅 기술인 ATI Stream을 12월 릴리즈 예정의 드라이버에 추가다고 표명했으며 동일하게 12월에는 이 ATI Stream을 활용한 트랜스코드 소프트「ATI Avivo Video Converter」을 “무상으로 ”제공한다고 발표하고 있다.소프트웨어 벤더와의 파트너 쉽도 강화하고 있는 것 같고,AMD제 GPU의 GPU 컴퓨팅 이용도 구체화되는 것 같다.

출처: Impress Watch

'컴퓨터 / IT' 카테고리의 다른 글

무선 공유기의 유선랜 속도  (7) 2008.12.05
APC Back-UPS ES  (12) 2008.12.03
NVIDIA CUDA의 인코딩 성능  (0) 2008.11.25
버팔로 공유기 WHR-G300N 유선랜 사용기  (8) 2008.11.24
SpursEngine과 ViXS XCode의 인코딩 성능  (0) 2008.11.21
AMD 로드맵  (0) 2008.11.14
Trackback 0 Comment 0