Video İndeksleme Nedir?
Video indeksleme, video‘nun içeriğini ifade eden etiketleme işlemidir. Elde edilen etiketlerle video’daki anlamlı veriler sınıflandırılabilmektedir. Böylece bir kelime, ses veya görüntü ile ilgili video’nun araştırılıp bulunması kolaylık kazanmaktadır. Elimizdeki birçok video’nun özetlenmesi de video indekslenmesi ile gerçekleştirilmektedir.

Video indeksleme, günümüzde tam anlamıyla gerçekleştirilemese de daha verimli sonuçlar elde edilebilmesi için çeşitli yöntemler geliştirilmektedir. Ayrıca video indekslemenin gelişimi, görüntü ve ses algoritmalarının gelişimiyle doğru orantılıdır.Dünyada her yıl kağıt, film, optik ve manyetik ortamlarda saklanmak üzere yaklaşık olarak 1.5 milyar GB bilgi üretilmektedir. Bilginin video’lar ile kaydının tutulması ise ilerleyen teknolojiyle beraber gün geçtikçe yaygınlaşmakta ve bu yaygınlaşma istenilen bilgiye ulaşmayı, arama uzayını genişlettiğinden dolayı zora sokmaktadır. Bu noktada ihtiyaçları karşılamak için video indeksleme (etiketleme) ve özetleme sistemleri uzman sistemler olarak geliştirilmişlerdir. Siyasi bir lider hakkında televizyonda geçen haberleri toplayacak olan bir gazeteci düşünelim. Bu gazeteci, televizyon kanallarının haber bültenleri arşivlerinde uzun vakitler geçirerek istediği video’ları veya video’ların parçalarını seçerek çok zaman kaybedecektir. Oysa bu işi otomatik olarak video indeksleme sistemlerinin yapması ciddi manada işi kolaylaştırıp zaman kazancı sağlayacaktır.Günümüzde video indeksleme sistemleri tam anlamıyla istenileni sağlayamasa da, ses ve görüntü algoritmalarının gelişmesiyle doğru orantılı olarak gelişmektedir. Video’da yer alan nesne, ses, şekil, renk ve hareketlerin algılanmasında hareketli nesne takibi (moving object tracking), desen tanıma (pattern recognition), yüz tanıma (face recognition), şekil tanıma (shape recognition) gibi görüntü işleme algoritmalarının yanında konuşma tanıma (speech recognition), konuşmacı tanıma (speaker recognition) gibi ses üzerine kurulu algoritmalar kullanılmaktadır. Ayrıca etiketleme anlamlı video parçalarının yazıya dönüştürülmesi olduğu için konuşmalarda da konuşmanın metine çevrilmesi (speech to text conversion) işlemine ihtiyaç duyulmaktadır.Video Yapısı?
Video indeksleme mantığını anlayabilmek için öncelikle video yapısını bilmek gerekir. Video’nun temel yapıtaşı frame(çerçeve)’lerdir. Frame’ler iki boyutlu resimlerdir. Görsel olarak benzer frame’ler shot(fotoğraf, kare)’ları oluşturur. Benzer shot’lar birleşerek sahneleri oluşturur. Sahneler de birleşerek video’yu oluşturmaktadır[1].Video Sorgulama
Etiketlere ayırmaya çalıştığımız video’nun başlangıç ve bitiş noktalarının belirlenmesinde, belirli bir özellik şartı sağlayan kısımlarının sorgulanmasında durumu sisteme anlatmakta zorluk yaşamaktayız. Bazı sorgulamalar şu şekilde olabilir:• Özellik kombinasyonlarıyla: Yukarı doğru hareket ve %30 mavi• Renk bileşenleriyle: %80 kırmızı, %10 yeşil, %10 mavi• Nesne etkileşimli: Gün batımını seyreden bir kız• Özel bir nesne adıyla: Bill Clinton, Taç Mahal• Nesne ve olay: Bayram, patlamaVideo Özetleme
Video’ların işlenmesi zor ve kapladıkları yerlerin büyük olmasından dolayı saklanması arşivlerde özetlenerek yapılır. Video özetleme en basit anlamıyla video’daki olayları anlatan bir metin, video’yu ifade eden genel bir resim veya key-frame(shot içerisinde yer alan frame dizisizinden seçilen anahtar çerçeve)’lerden oluşan frame’ler dizisidir. Alttaki şekildeki iki örnekte de shot’ların içindeki olaylar tek bir resimde ifade edilmiştir. Ancak bu yöntem büyük video’lar için anlamlı olmayacaktır. Çünkü büyük video’larda shot’lardan çok sahneler önem kazanmakta ve video birbirinden bağımsız sahneler içerdiğinden dolayı tek resime başarılı bir şekilde indirgenemeyecektir.

Video Özetleme
Video Özetleme

Video İndekslemede Kullanılan Özellikler
Video’lar içlerinde bulunan frame’lerin özelliklerine göre indekslenirler. Bu frame’lerin veya eğer key-frame’ler dikkate alınıyorsa key-frame’lerin özellikleri şunlardır:• Renk bilgileri- Renk uzayı- Renk bileşenleri- Baskın renk• Doku bilgileri• Şekil bilgileri• Kamera/nesne hareket bilgileri• Ses bilgileri• Yazı bilgileriSistemde yapılacak olan sorguya göre hangi özelliklerin dikkate alıncağı belirlenir.Key-Frame Analizi
Key-frame shot içindeki frame dizisinde o diziyi en iyi temsil eden frame olarak belirlenir. Çerçeve dizisinin anahtar çerçevesidir. Ardışık frame’ler arasındaki uzanlık belirli bir eşik değerini aşıyorsa bu frame’ler de başlangıç veya bitiş frame’leridir. Bu ölçüm için iki metot vardır. Birincisi renk histogramlarına bakılarak belirgin fark aranır. Diğer metot ise korelasyondur. Bu metotta frame’ler önce bloklara bölünür. i. frame’in j. bloğu ile i+1. frame’in j. bloğu arasındaki korelasyon hesaplanır. Tüm bloklar için bu işlem yapılır ve ortalama değeri bulunur. Eğer ortalaması belirli bir eşik değerinden küçükse (bu az ilişkiyi/farklılığı gösterir) burada bir shot sınırı vardır denir. [1, 5]

Histogram Yöntemi ile Shot Sınırı Belirleme
Histogram Yöntemi ile Shot Sınırı Belirleme

Şekilde üç frame’in gri seviyede renk histogramları verilmiştir. Üçüncü frame’deki farklılık kolay bir şekilde görülmektedir.Uygulamalar
Video’nun Metine Çevrilmesi:
• Öncelikle video içerisinde yer alan kişiler tespit edilmeye çalışılmaktadır. Bunu yüz için geometrik özelliklerle ve vücut bölgesi için renk dağılımı özellikleriyle yapmaktadır.• Haraket bilgilerinin tutulduğu veri tabanı sayesinde bir karar ağacı oluşturularak kişinin yaptığı hareketler bulunmaya çalışılmaktadır.Shot Gruplama:
Karşılıklı diyalog halinde geçen konuşmalarda örnek olarak birinci kişi için video indekslemesi yapılıyorsa birinci kişinin bulunduğu karelerin(shot) bir gruba, ikinci kişinin bulunduğu karelerin bir gruba alınması ile yapılır. Birbirine yakın olan karaler aynı grup içine alınmaktadır.Shot’lar arasında benzerlik olup olmadığı yine bir eşik değeriyle karşılaştırılmaktadır.Haber Bülteni Analizi:
Shot’ların sınıflandırılması ve haber sınıflarının belirlenmesi amaçlanmıştır. Her sınıf için bir frame seçilmiştir.Bir test frame’ini bir kategoriye yerleştireceğimizi düşünürsek, öncelikle frame’in renk özelliğine bakarız. Hava durumlarının ve ekonomi haberlerinin renk durumunun yoğun olduğunu varsayarsak bu frame’in hava durumu mu yoksa ekonomi haberi mi olduğunu renk histogramı ile kolayca anlarız. Eğer ikisinin de olmadığı çıkarsa ayırt edici başka özellikler ararız. Şunlar örnek olarak verilebilir:• Shot’ta yer alan sesin türü (konuşma, sessizlik, müzik, gürültü, konuşma ve gürültü, konuşma ve müzik)• Shot’taki hareketin yoğunluğu (az, orta, çok)• Shot’ın süresi (kısa, orta, uzun)• Shot’ın key-frame’indeki yüz sayısı• Kamera yakınlığı (çok yakın, orta, uzak, bilinmiyor)• Ekrandaki satır sayısı• Yazının ekranın ortasında olup olmadığıBu özellikler kullanılarak bir karar ağacı oluşturulur, haber sınırları bulunmuş olur ve shot sınıflarında hatalar varsa düzeltilir[1, 6, 7].Sonuç olarak, büyüyen görsel bilginin verimli kullanılabilirliği açısından video indeksleme ve özetleme sistemleri büyük öneme sahiptir ve gün geçtikçe de dünyadaki artan bilgiyle paralel olarak önemini artırmaktadır. Ancak video indeksleme sistemleri şu an için uygulanabilir olmasa da üzerinde araştırılmakta ve ilerlenmektedir.Video indeksleme sistemlerinin gelişimleri için ses ve görüntü üzerine yapılan algoritmalarında çok gelişmiş olması gerekmektedir. Bunun dışında görüntü ve ses gürültüsü, kamera hareketi, ışık durumu, konum belirleme gibi faktörler de sistemin çalışmasını olumsuz etkileyecek faktörlerdir.[1] Bilgisayarla Görme Araştırma Raporu: Video İndeksleme[2] Video İndeksleme[3] Content-Based Video Indexing[4] Shot Detection[5] Hareket Tabanlı Video Özetleme[6] Probabilistic Space-Time Video Modelingvia Piecewise GMM
[7] Content-Based Video Indexing TechniquesBelirtilen kaynaklardan yararlanılarak hazırlamış olduğum sunuma ait makaleden alıntıdır ve burası (bildirgec) için uyarlanmıştır.