LSTM Nedir? (Long Short-Term Memory)
Öncelikle LSTM hakkında bilgi vermek istiyorum. LSTM, değerleri rastgele aralıklarla hatırlayan bir RNN mimarisidir. Öğrenilen ilerleme kaydedildiğinde saklanan değerler değiştirilmez. Nöronlar arası ileri ve geri bağlantılara izin verir. LSTM, zaman serilerini sınıflandırmak, işlemek ve öngörmek için oldukça uygundur. LSTM, duygu analizi, metin üretme ve zaman serileri gibi birçok konuda kullanılır
LSTM uzun vadeli bağımlılıkları öğrenebilen özel bir RNN türüdür. Çok çeşitli problemlerde çok iyi çalıştıkları için günümüzde çok yaygın şekilde kullanılıyor. Boşluk uzunluğuna göreceli duyarsızlık, alternatif RNN’ler, gizli Markov modelleri ve sayısız uygulamadaki diğer dizi öğrenme yöntemlerine kıyasla LSTM’ye bir avantaj sağlamaktadır.
LSTM, uzun vadeli bağımlılık sorununun önüne geçmek için açıkça tasarlanmıştır. Uzun süreler boyunca bilgileri hatırlamak regular davranışlarıdır, öğrenmek için kullanılan bir şey değil.
Tüm LSTM’ler tekrar eden sinir ağı modüllerinin zinciri biçimindedir. Standart RNN’lerde, bu tekrarlanan modül, tek bir tanh katmanı gibi çok basit bir yapıya sahip olacaktır. Ayrıca LSTM’ler, geleneksel RNN’leri eğitirken karşılaşılabilecek patlayan ve yok olan gradyan problemleriyle başa çıkmak için geliştirilmiştir
LSTM birimleri, genellikle birkaç birim içeren “bloklar” içinde uygulanmaktadır. Bu tasarım, derin sinir ağlarında tipiktir ve paralel donanımlarla yapılan uygulamaları kolaylaştırır.
LSTM blokları, bilgi akışını kontrol eden üç veya dört “kapı” içerir. Bu kapılar, 0 ile 1 arasındaki bir değeri hesaplamak için lojistik fonksiyonu kullanarak gerçekleştirir. Çoğaltma, bilginin belleğe girip çıkmak için kısmen izin vermek veya reddetmek için bu değerle uygulanır. Sıradan bir LSTM ünitesi, bir hücre, bir giriş kapısı, bir çıkış kapısı ve bir unut kapısından oluşur. Hücre, değişken uzunlukta zaman aralıklarındaki değerleri hatırlar ve bu üç kapı, hücreye giren ve çıkan bilgi akışını düzenler.
Bir LSTM ağı, diğer ağ üniteleri yerine veya buna ek olarak LSTM üniteleri içerir. LSTM birimi, uzun veya kısa zaman periyotlarını hatırlar. Bunun sebebi, tekrarlanan modüllerde hiçbir etkinleştirme işlevini kullanmamasıdır. Dolayısıyla, depolanan değer yinelemeli olarak değiştirilmez. Yalnızca anlık veriyi (resim gibi) değil, veri dizilerini (konuşma veya video gibi) de işleyebilir. Örneğin, LSTM bölümlenmemiş, bağlı el yazısı tanıma , konuşma tanıma ve ağ trafiğinde anomali veya IDS’lerde (saldırı tespit sistemleri) tespiti gibi görevler için geçerlidir.