OSDN Git Service

Get previews from H.264 content even if it's missing IDR frames (e.g., NZ TV & some...
[handbrake-jp/handbrake-jp-git.git] / libhb / stream.c
index 71e9cb8..7d1236d 100755 (executable)
@@ -9,10 +9,9 @@
 #include <errno.h>
 
 #include "hb.h"
+#include "hbffmpeg.h"
 #include "lang.h"
 #include "a52dec/a52.h"
-#include "libavcodec/avcodec.h"
-#include "libavformat/avformat.h"
 #include "mp4v2/mp4v2.h"
 
 #define min(a, b) a < b ? a : b
@@ -103,10 +102,8 @@ struct hb_stream_s
     int     last_error_count;   /* # errors at last error message */
     int     packetsize;         /* Transport Stream packet size */
 
-    int8_t  need_keyframe;      // non-zero if want to start at a keyframe
-    int8_t  ts_no_RAP;          // non-zero if there are no random access points
-
-    int8_t  ts_found_pcr;       // non-zero if we've found at least one input pcr
+    uint8_t need_keyframe;      // non-zero if want to start at a keyframe
+    uint8_t ts_found_pcr;       // non-zero if we've found at least one input pcr
     int     ts_pcr_out;         // sequence number of most recent output pcr
     int     ts_pcr_in;          // sequence number of most recent input pcr
     int64_t ts_pcr;             // most recent input pcr
@@ -131,6 +128,11 @@ struct hb_stream_s
      */
     uint8_t ts_number_video_pids;
     uint8_t ts_number_audio_pids;
+    uint8_t ts_flags;           // stream characteristics:
+#define         TS_HAS_PCR  (1 << 0)    // at least one PCR seen
+#define         TS_HAS_RAP  (1 << 1)    // Random Access Point bit seen
+#define         TS_HAS_RSEI (1 << 2)    // "Restart point" SEI seen
+    uint8_t ts_IDRs;            // # IDRs found during duration scan
 
     int16_t ts_video_pids[kMaxNumberVideoPIDS];
     int16_t ts_audio_pids[kMaxNumberAudioPIDS];
@@ -301,14 +303,13 @@ static int check_ps_sync(const uint8_t *buf)
            (buf[2] == 0x01) && (buf[3] == 0xba);
 }
 
-static int check_ps_sys(const uint8_t *buf)
+static int check_ps_sc(const uint8_t *buf)
 {
     // a legal MPEG program stream must start with a Pack followed by a
-    // SYS. If we've already verified the pack, this skips over it and checks
-    // for the sys header.
+    // some other start code. If we've already verified the pack, this skip
+    // it and checks for a start code prefix.
     int pos = 14 + ( buf[13] & 0x7 );   // skip over the PACK
-    return (buf[pos+0] == 0x00) && (buf[pos+1] == 0x00) &&
-           (buf[pos+2] == 0x01) && (buf[pos+3] == 0xbb);
+    return (buf[pos+0] == 0x00) && (buf[pos+1] == 0x00) && (buf[pos+2] == 0x01);
 }
 
 static int check_ts_sync(const uint8_t *buf)
@@ -348,8 +349,9 @@ static int hb_stream_check_for_ts(const uint8_t *buf)
 
 static int hb_stream_check_for_ps(const uint8_t *buf)
 {
-    // program streams should start with a PACK then a SYS header.
-    return check_ps_sync(buf) && check_ps_sys(buf);
+    // program streams should start with a PACK then some other mpeg start
+    // code (usually a SYS but that might be missing if we only have a clip).
+    return check_ps_sync(buf) && check_ps_sc(buf);
 }
 
 static int hb_stream_check_for_dvd_ps(const uint8_t *buf)
@@ -518,13 +520,6 @@ hb_stream_t * hb_stream_open( char *path, hb_title_t *title )
                                d->ts_buf[i]->size = 0;
             }
             hb_stream_seek( d, 0. );
-
-            if ( d->packetsize == 188 )
-            {
-                // Assume that an over-the-air transport stream can lose PCR
-                // packets and try to filter out the timing inconsistencies.
-                title->flaky_clock = 1;
-            }
         }
         return d;
     }
@@ -712,6 +707,17 @@ hb_title_t * hb_stream_title_scan(hb_stream_t *stream)
         aTitle->video_codec = st2codec[stream->ts_stream_type[0]].codec;
         aTitle->video_codec_param = st2codec[stream->ts_stream_type[0]].codec_param;
         aTitle->demuxer = HB_MPEG2_TS_DEMUXER;
+
+        if ( ( stream->ts_flags & TS_HAS_PCR ) == 0 )
+        {
+            hb_log( "transport stream missing PCRs - using video DTS instead" );
+        }
+
+        if ( stream->ts_IDRs < 1 )
+        {
+            hb_log( "transport stream doesn't seem to have video IDR frames" );
+            aTitle->flags |= HBTF_NO_IDR;
+        }
        }
     else
     {
@@ -780,42 +786,87 @@ static void skip_to_next_pack( hb_stream_t *src_stream )
     }
 }
 
-/*
- * scan the next MB of 'stream' to try to find a random access point
- */
-static void hb_ts_stream_find_RAP( hb_stream_t *stream )
+static int isIframe( hb_stream_t *stream, const uint8_t *buf, int adapt_len )
 {
-    off_t starting_point = ftello(stream->file_handle);
-    int npack = 300000; // max packets to read
+    // For mpeg2: look for a gop start or i-frame picture start
+    // for h.264: look for idr nal type or a slice header for an i-frame
+    // for vc1:   look for a Sequence header
+    int i;
+    uint32_t strid = 0;
 
-    while (--npack >= 0)
+
+    if ( stream->ts_stream_type[0] <= 2 )
     {
-        off_t cur = ftello(stream->file_handle);
-        const uint8_t *buf = next_packet( stream );
-        if ( buf == NULL )
-        {
-            break;
-        }
-        switch (buf[3] & 0x30)
+        // This section of the code handles MPEG-1 and MPEG-2 video streams
+        for (i = 13 + adapt_len; i < 188; i++)
         {
-            case 0x00: // illegal
-                continue;
-
-            case 0x20: // fill packet
-            case 0x30: // adaptation
-                if ( buf[5] & 0x40 )
+            strid = (strid << 8) | buf[i];
+            if ( ( strid >> 8 ) == 1 )
+            {
+                // we found a start code
+                uint8_t id = strid;
+                switch ( id )
                 {
-                    // found a random access point
-                    fseeko( stream->file_handle, cur, SEEK_SET );
-                    return;
+                    case 0xB8: // group_start_code (GOP header)
+                    case 0xB3: // sequence_header code
+                        return 1;
+
+                    case 0x00: // picture_start_code
+                        // picture_header, let's see if it's an I-frame
+                        if (i<185)
+                        {
+                            // check if picture_coding_type == 1
+                            if ((buf[i+2] & (0x7 << 3)) == (1 << 3))
+                            {
+                                // found an I-frame picture
+                                return 1;
+                            }
+                        }
+                        break;
                 }
-                continue;
+            }
         }
+        // didn't find an I-frame
+        return 0;
+    }
+    if ( stream->ts_stream_type[0] == 0x1b )
+    {
+        // we have an h.264 stream 
+        for (i = 13 + adapt_len; i < 188; i++)
+        {
+            strid = (strid << 8) | buf[i];
+            if ( ( strid >> 8 ) == 1 )
+            {
+                // we found a start code - remove the ref_idc from the nal type
+                uint8_t nal_type = strid & 0x1f;
+                if ( nal_type == 0x05 )
+                    // h.264 IDR picture start
+                    return 1;
+            }
+        }
+        // didn't find an I-frame
+        return 0;
+    }
+    if ( stream->ts_stream_type[0] == 0xea )
+    {
+        // we have an vc1 stream 
+        for (i = 13 + adapt_len; i < 188; i++)
+        {
+            strid = (strid << 8) | buf[i];
+            if ( strid == 0x10f )
+            {
+                // the ffmpeg vc1 decoder requires a seq hdr code in the first
+                // frame.
+                return 1;
+            }
+        }
+        // didn't find an I-frame
+        return 0;
     }
 
-    /* didn't find it */
-    fseeko( stream->file_handle, starting_point, SEEK_SET );
-    stream->ts_no_RAP = 1;
+    // we don't understand the stream type so just say "yes" otherwise
+    // we'll discard all the video.
+    return 1;
 }
 
 /*
@@ -835,12 +886,28 @@ static const uint8_t *hb_ts_stream_getPEStype(hb_stream_t *stream, uint32_t pid)
             return 0;
         }
 
+        // while we're reading the stream, check if it has valid PCRs
+        // and/or random access points.
+        uint32_t pack_pid = ( (buf[1] & 0x1f) << 8 ) | buf[2];
+        if ( pack_pid == stream->pmt_info.PCR_PID )
+        {
+            if ( ( buf[5] & 0x10 ) &&
+                 ( ( ( buf[3] & 0x30 ) == 0x20 ) ||
+                   ( ( buf[3] & 0x30 ) == 0x30 && buf[4] > 6 ) ) )
+            {
+                stream->ts_flags |= TS_HAS_PCR;
+            }
+        }
+        if ( buf[5] & 0x40 )
+        {
+            stream->ts_flags |= TS_HAS_RAP;
+        }
+
         /*
          * The PES header is only in TS packets with 'start' set so we check
          * that first then check for the right PID.
          */
-        if ((buf[1] & 0x40) == 0 || (buf[1] & 0x1f) != (pid >> 8) ||
-            buf[2] != (pid & 0xff))
+        if ((buf[1] & 0x40) == 0 || pack_pid != pid )
         {
             // not a start packet or not the pid we want
             continue;
@@ -942,7 +1009,7 @@ struct pts_pos {
     uint64_t pts;   /* PTS from video stream */
 };
 
-#define NDURSAMPLES 16
+#define NDURSAMPLES 128
 
 // get one (position, timestamp) sampple from a transport or program
 // stream.
@@ -971,6 +1038,14 @@ static struct pts_pos hb_sample_pts(hb_stream_t *stream, uint64_t fpos)
                  ( ( (uint64_t)buf[11] >> 1 ) << 15 ) |
                  ( (uint64_t)buf[12] << 7 ) |
                  ( (uint64_t)buf[13] >> 1 );
+
+        if ( isIframe( stream, buf, -4 ) )
+        {
+            if (  stream->ts_IDRs < 255 )
+            {
+                ++stream->ts_IDRs;
+            }
+        }
     }
     else
     {
@@ -999,7 +1074,7 @@ static int dur_compare( const void *a, const void *b )
 static double compute_stream_rate( struct pts_pos *pp, int n )
 {
     int i, j;
-    double rates[NDURSAMPLES * NDURSAMPLES / 2];
+    double rates[NDURSAMPLES * NDURSAMPLES / 8];
     double *rp = rates;
 
     // the following nested loops compute the rates between all pairs.
@@ -1014,11 +1089,13 @@ static double compute_stream_rate( struct pts_pos *pp, int n )
         // could easily fall in the inter-piece part of the data which
         // would give a bogus estimate. The 'ns' index creates an
         // asymmetry that favors locality.
-        int ns = i + ( n >> 1 );
+        int ns = i + ( n >> 3 );
         if ( ns > n )
             ns = n;
         for ( j = i+1; j < ns; ++j )
         {
+            if ( (uint64_t)(pp[j].pts - pp[i].pts) > 90000LL*3600*6 )
+                break;
             if ( pp[j].pts != pp[i].pts && pp[j].pos > pp[i].pos )
             {
                 *rp = ((double)( pp[j].pts - pp[i].pts )) /
@@ -1227,12 +1304,11 @@ int hb_stream_seek( hb_stream_t * stream, float f )
         hb_ts_stream_reset(stream);
         if ( f > 0 )
         {
-            if ( !stream->ts_no_RAP )
+            if ( stream->ts_IDRs )
             {
-                // we're not at the beginning - try to find a random access point
-                hb_ts_stream_find_RAP( stream );
+                // the stream has IDRs so look for one.
+                stream->need_keyframe = 1;
             }
-            stream->need_keyframe = 1;
         }
         else
         {
@@ -2086,108 +2162,6 @@ static void generate_output_data(hb_stream_t *stream, int curstream)
     stream->ts_buf[curstream]->size = 0;
 }
 
-static int isIframe( hb_stream_t *stream, const uint8_t *buf, int adapt_len )
-{
-    // For mpeg2: look for a gop start or i-frame picture start
-    // for h.264: look for idr nal type or a slice header for an i-frame
-    // for vc1:   ???
-    int i;
-    uint32_t strid = 0;
-
-
-    if ( stream->ts_stream_type[0] <= 2 )
-    {
-        // This section of the code handles MPEG-1 and MPEG-2 video streams
-        for (i = 13 + adapt_len; i < 188; i++)
-        {
-            strid = (strid << 8) | buf[i];
-            if ( ( strid >> 8 ) == 1 )
-            {
-                // we found a start code
-                uint8_t id = strid;
-                switch ( id )
-                {
-                    case 0xB8: // group_start_code (GOP header)
-                    case 0xB3: // sequence_header code
-                        return 1;
-
-                    case 0x00: // picture_start_code
-                        // picture_header, let's see if it's an I-frame
-                        if (i<185)
-                        {
-                            // check if picture_coding_type == 1
-                            if ((buf[i+2] & (0x7 << 3)) == (1 << 3))
-                            {
-                                // found an I-frame picture
-                                return 1;
-                            }
-                        }
-                        break;
-                }
-            }
-        }
-        // didn't find an I-frame
-        return 0;
-    }
-    if ( stream->ts_stream_type[0] == 0x1b )
-    {
-        // we have an h.264 stream 
-        for (i = 13 + adapt_len; i < 188; i++)
-        {
-            strid = (strid << 8) | buf[i];
-            if ( ( strid >> 8 ) == 1 )
-            {
-                // we found a start code - remove the ref_idc from the nal type
-                uint8_t nal_type = strid & 0x1f;
-                if ( nal_type == 0x05 )
-                    // h.264 IDR picture start
-                    return 1;
-
-                if ( stream->packetsize == 192 )
-                {
-                    // m2ts files have idr frames so keep looking for one
-                    continue;
-                }
-
-                // h.264 in ts files (ATSC or DVB video) often seem to be
-                // missing IDR frames so look for at least an I
-                if ( nal_type == 0x01 )
-                {
-                    // h.264 slice: has to be start MB 0 & type I (2, 4, 7 or 9)
-                    uint8_t id = buf[i+1];
-                    if ( ( id >> 4 ) == 0x0b || ( id >> 2 ) == 0x25 ||
-                         id == 0x88 || id == 0x8a )
-                    {
-                        return 1;
-                    }
-                }
-            }
-        }
-        // didn't find an I-frame
-        return 0;
-    }
-    if ( stream->ts_stream_type[0] == 0xea )
-    {
-        // we have an vc1 stream 
-        for (i = 13 + adapt_len; i < 188; i++)
-        {
-            strid = (strid << 8) | buf[i];
-            if ( strid == 0x10f )
-            {
-                // the ffmpeg vc1 decoder requires a seq hdr code in the first
-                // frame.
-                return 1;
-            }
-        }
-        // didn't find an I-frame
-        return 0;
-    }
-
-    // we don't understand the stream type so just say "yes" otherwise
-    // we'll discard all the video.
-    return 1;
-}
-
 static void hb_ts_stream_append_pkt(hb_stream_t *stream, int idx, const uint8_t *buf, int len)
 {
     if (stream->ts_pos[idx] + len > stream->ts_buf[idx]->alloc)
@@ -2285,11 +2259,16 @@ static int hb_ts_stream_decode( hb_stream_t *stream, hb_buffer_t *obuf )
             }
         }
 
-        // If we don't have a pcr yet, the right thing to do here would
-        // be a 'continue' so we don't process anything until we have a
-        // clock reference. Unfortunately the HD Home Run appears to null
-        // out the pcr field of some streams so we keep going & substitute
-        // the video stream dts for the pcr when there's no pcr.
+        // If we don't have a PCR yet but the stream has PCRs just loop
+        // so we don't process anything until we have a clock reference.
+        // Unfortunately the HD Home Run appears to null out the PCR so if
+        // we didn't detect a PCR during scan keep going and we'll use
+        // the video stream DTS for the PCR.
+
+        if ( !stream->ts_found_pcr && ( stream->ts_flags & TS_HAS_PCR ) )
+        {
+            continue;
+        }
 
                // Get continuity
         // Continuity only increments for adaption values of 0x3 or 0x01
@@ -2331,10 +2310,14 @@ static int hb_ts_stream_decode( hb_stream_t *stream, hb_buffer_t *obuf )
             {
                 // we're looking for the first video frame because we're
                 // doing random access during 'scan'
-                if (curstream != 0 || !isIframe( stream, buf, adapt_len ) )
+                if ( curstream != 0 || !isIframe( stream, buf, adapt_len ) )
                 {
                     // not the video stream or didn't find an I frame
-                    continue;
+                    // but we'll only wait 255 video frames for an I frame.
+                    if ( curstream != 0 || ++stream->need_keyframe )
+                    {
+                        continue;
+                    }
                 }
                 stream->need_keyframe = 0;
             }
@@ -2465,7 +2448,7 @@ static void ffmpeg_add_codec( hb_stream_t *stream, int stream_index )
     context->error_recognition = 1;
     context->error_concealment = FF_EC_GUESS_MVS|FF_EC_DEBLOCK;
     AVCodec *codec = avcodec_find_decoder( context->codec_id );
-    avcodec_open( context, codec );
+    hb_avcodec_open( context, codec );
 }
 
 // The ffmpeg stream reader / parser shares a lot of state with the 
@@ -2766,6 +2749,52 @@ static int64_t av_to_hb_pts( int64_t pts, double conv_factor )
     return (int64_t)( (double)pts * conv_factor );
 }
 
+static int ffmpeg_is_keyframe( hb_stream_t *stream )
+{
+    uint8_t *pkt;
+
+    switch ( stream->ffmpeg_ic->streams[stream->ffmpeg_video_id]->codec->codec_id )
+    {
+        case CODEC_ID_VC1:
+            // XXX the VC1 codec doesn't mark key frames so to get previews
+            // we do it ourselves here. The decoder gets messed up if it
+            // doesn't get a SEQ header first so we consider that to be a key frame.
+            pkt = stream->ffmpeg_pkt->data;
+            if ( pkt[0] && pkt[1] && pkt[2] == 1 && pkt[3] == 0x0f )
+                return 1;
+
+            return 0;
+
+        case CODEC_ID_WMV3:
+            // XXX the ffmpeg WMV3 codec doesn't mark key frames.
+            // Only M$ could make I-frame detection this complicated: there
+            // are two to four bits of unused junk ahead of the frame type
+            // so we have to look at the sequence header to find out how much
+            // to skip. Then there are three different ways of coding the type
+            // depending on whether it's main or advanced profile then whether
+            // there are bframes or not so we have to look at the sequence
+            // header to get that.
+            pkt = stream->ffmpeg_pkt->data;
+            uint8_t *seqhdr = stream->ffmpeg_ic->streams[stream->ffmpeg_video_id]->codec->extradata;
+            int pshift = 2;
+            if ( ( seqhdr[3] & 0x02 ) == 0 )
+                // no FINTERPFLAG
+                ++pshift;
+            if ( ( seqhdr[3] & 0x80 ) == 0 )
+                // no RANGEREDUCTION
+                ++pshift;
+            if ( seqhdr[3] & 0x70 )
+                // stream has b-frames
+                return ( ( pkt[0] >> pshift ) & 0x3 ) == 0x01;
+
+            return ( ( pkt[0] >> pshift ) & 0x2 ) == 0;
+
+        default:
+            break;
+    }
+    return ( stream->ffmpeg_pkt->flags & PKT_FLAG_KEY );
+}
+
 static int ffmpeg_read( hb_stream_t *stream, hb_buffer_t *buf )
 {
     int err;
@@ -2812,15 +2841,13 @@ static int ffmpeg_read( hb_stream_t *stream, hb_buffer_t *buf )
     buf->id = stream->ffmpeg_pkt->stream_index;
     if ( buf->id == stream->ffmpeg_video_id )
     {
-        if ( stream->need_keyframe &&
-             stream->ffmpeg_ic->streams[stream->ffmpeg_video_id]->codec->codec_id == 
-               CODEC_ID_VC1 )
+        if ( stream->need_keyframe )
         {
-            // XXX the VC1 codec doesn't seek to key frames so to get previews
-            // we do it ourselves here. The decoder gets messed up if it
-            // doesn't get a SEQ header first so we consider that to be a key frame.
-            uint8_t *pkt = stream->ffmpeg_pkt->data;
-            if ( pkt[0] || pkt[1] || pkt[2] != 1 || pkt[3] != 0x0f )
+            // we've just done a seek (generally for scan or live preview) and
+            // want to start at a keyframe. Some ffmpeg codecs seek to a key
+            // frame but most don't. So we spin until we either get a keyframe
+            // or we've looked through 50 video frames without finding one.
+            if ( ! ffmpeg_is_keyframe( stream ) && ++stream->need_keyframe < 50 )
             {
                 av_free_packet( stream->ffmpeg_pkt );
                 goto again;
@@ -2901,15 +2928,19 @@ static int ffmpeg_read( hb_stream_t *stream, hb_buffer_t *buf )
 static int ffmpeg_seek( hb_stream_t *stream, float frac )
 {
     AVFormatContext *ic = stream->ffmpeg_ic;
-    int64_t pos = (double)ic->duration * (double)frac;
-    if ( pos )
+    if ( frac > 0. )
     {
+        int64_t pos = (double)ic->duration * (double)frac;
+        if ( ic->start_time != AV_NOPTS_VALUE )
+        {
+            pos += ic->start_time;
+        }
         av_seek_frame( ic, -1, pos, 0 );
         stream->need_keyframe = 1;
     }
     else
     {
-        av_seek_frame( ic, -1, pos, AVSEEK_FLAG_BACKWARD );
+        av_seek_frame( ic, -1, 0LL, AVSEEK_FLAG_BACKWARD );
     }
     return 1;
 }