Research Article
BibTex RIS Cite

TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması

Year 2018, Volume: 11 Issue: 3, 235 - 244, 31.07.2018
https://doi.org/10.17671/gazibtd.402468

Abstract

Yakın anlamlı kavramların bulunması, kavramın
bir derlemdeki semantik anlamını yakalamamızı ve kavramın hangi bağlamda
kullanıldığını elde etmemizi sağlar. Kelime Uzayı Modeli; anlamsal olarak
benzer kelimeleri, vektör uzayında bir birine yakın dağılımla gösteren bir
modeldir. Her bir kelimenin bir vektörle temsil edildiği bu modelde oluşan
kelime vektörleri kelime yerleştirme (Word Embeddings) olarak adlandırılır. Kelime
vektörleri metin analizi gerçekleştiren özellikle yapay
sinir ağlarını temel
alan Doğal Dil İşleme (DDİ) sistemlerinde girdi olarak kullanılır. Bu çalışmada,
veri seti olarak TBMM Genel Kurul görüşme tutanakları kullanılmış, Word2vec modeli ve GloVe modeli ile kelime
vektörleri çıkarılmıştır. Elde
edilen kelime vektörleri kullanılarak TBMM Genel Kurul tutanaklarında geçen
herhangi bir kavrama en yakın anlamlı kavramlar bulunmuştur. Literatürdeki
benzer çalışmalarda iki farklı kelime yerleştirme modellerinin bir kavramı
tamamen farklı bağlamda değerlendirdiği duruma rastlanılmamıştır. Bu çalışma
sonucunda, Word2vec ve GloVe modellerinin çıktılarının bir kavramın farklı
bağlamlarda kullanımını bulmak için değerlendirilebileceği görülmüştür. Çalışmada
derleme özgü analojilerin her iki modelde de bulunabildiği görülmüştür. Bu
çalışmadan elde edilen sonuçlar TBMM Genel Kurul tutanaklarınd
a arama yaparken benzer kavramların
anahtar kelime olarak önerilmesi için kullanılacaktır.

References

  • Z. Harris, “Word Distributional structure”, 23(10),146–162, 1954.
  • Thomas K. Landauer , Susan T. Dumais, “A solution to Plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge”, Psychological Review, 104(2),211–240, 1997.
  • X. Hu, Z. Cai, P. Wiemer-Hastings, A. Graesser, D. McNamara, Strengths, limitations, and extensions of LSA. Handbook of Latent Semantic Analysis, 401–426,2007.
  • R. Collobert , J. Weston, “A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning”, Proceedings of the 25th International Conference on Machine Learning, Helsinki, Finlandiya,20(1),160–167, 2008.
  • T Mikolov, K Chen, G Corrado, J Dean, “Efficient estimation of word representations in vector space”, arXiv:1301.3781,2013.
  • J. Penington, R. Socher, C.D. Manning, “GloVe:Global Vectors for Word Representation”, Emprical Methods in Natural Language Processing (EMNLP),1532-1543,2008.
  • E. Altszyler, M. Sigman, S. Ribeiro , D. F. Slezak. “Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database”, arXiv: 1610.01520,2016.
  • L.O,Goldberg, Y,Dagan, Improving distributional similarity with lessons learned from Word embeddings, Transactions of the Association for Computational Linguistics, v. 3, 211-225, mayıs 2015.
  • M. Naili, A. H. Chaibi, H. H. B. Ghezala, “Comparative study of word embedding methods in topic segmentation”, Procedia Computer Science, Volume 112, 340-349, 2017.
  • M. Faruqui, J. Dodge, S. K. Jauhar, C. Dyer, E. Hovy, N. A. Smith,”Retrofitting word vectors to semantic lexicons”, In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics,Colorado,ABD, Human Language Technologies, 1606– 1615, 2015.
  • G. A. Miller,“Wordnet: a lexical database for english”, Communications of the ACM, 39-41, 1995.
  • C. F. Baker, C. J. Fillmore, J. B. Lowe. 1998. “The Berkeley FrameNet Project”, Proceedings of the 17th International Conference on Computational Linguistics , Volume 1, Montreal, Quebec, Kanada,86-90,1998.
  • J. Ganitkevitch, B. Van Durme, , C. Burch,”PPDB: The paraphrase database”, Proceedings of NAACL,758-764,Haziran,2013.
  • T. Mikolov,I. Sutskever, K. Chen, G. Corrado, J. Dean,”Distributed Representations of Words and Phrases and their Compositionality”, Proceedings of the 26th International Conference on Neural Information Processing Systems,Volume 2,Nevada,ABD,3111-3119,, 2013.
  • X. Rong. “Word2vec Parameter Learning Explained”, arXiv:1411.2738 ,2014.
  • T. Mikolov, W. Yih, G. Zweig,”Linguistic Regularities in Continuous Space Word Representations”, HLT-NAACL, 746-751,2013.
Year 2018, Volume: 11 Issue: 3, 235 - 244, 31.07.2018
https://doi.org/10.17671/gazibtd.402468

Abstract

References

  • Z. Harris, “Word Distributional structure”, 23(10),146–162, 1954.
  • Thomas K. Landauer , Susan T. Dumais, “A solution to Plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge”, Psychological Review, 104(2),211–240, 1997.
  • X. Hu, Z. Cai, P. Wiemer-Hastings, A. Graesser, D. McNamara, Strengths, limitations, and extensions of LSA. Handbook of Latent Semantic Analysis, 401–426,2007.
  • R. Collobert , J. Weston, “A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning”, Proceedings of the 25th International Conference on Machine Learning, Helsinki, Finlandiya,20(1),160–167, 2008.
  • T Mikolov, K Chen, G Corrado, J Dean, “Efficient estimation of word representations in vector space”, arXiv:1301.3781,2013.
  • J. Penington, R. Socher, C.D. Manning, “GloVe:Global Vectors for Word Representation”, Emprical Methods in Natural Language Processing (EMNLP),1532-1543,2008.
  • E. Altszyler, M. Sigman, S. Ribeiro , D. F. Slezak. “Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database”, arXiv: 1610.01520,2016.
  • L.O,Goldberg, Y,Dagan, Improving distributional similarity with lessons learned from Word embeddings, Transactions of the Association for Computational Linguistics, v. 3, 211-225, mayıs 2015.
  • M. Naili, A. H. Chaibi, H. H. B. Ghezala, “Comparative study of word embedding methods in topic segmentation”, Procedia Computer Science, Volume 112, 340-349, 2017.
  • M. Faruqui, J. Dodge, S. K. Jauhar, C. Dyer, E. Hovy, N. A. Smith,”Retrofitting word vectors to semantic lexicons”, In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics,Colorado,ABD, Human Language Technologies, 1606– 1615, 2015.
  • G. A. Miller,“Wordnet: a lexical database for english”, Communications of the ACM, 39-41, 1995.
  • C. F. Baker, C. J. Fillmore, J. B. Lowe. 1998. “The Berkeley FrameNet Project”, Proceedings of the 17th International Conference on Computational Linguistics , Volume 1, Montreal, Quebec, Kanada,86-90,1998.
  • J. Ganitkevitch, B. Van Durme, , C. Burch,”PPDB: The paraphrase database”, Proceedings of NAACL,758-764,Haziran,2013.
  • T. Mikolov,I. Sutskever, K. Chen, G. Corrado, J. Dean,”Distributed Representations of Words and Phrases and their Compositionality”, Proceedings of the 26th International Conference on Neural Information Processing Systems,Volume 2,Nevada,ABD,3111-3119,, 2013.
  • X. Rong. “Word2vec Parameter Learning Explained”, arXiv:1411.2738 ,2014.
  • T. Mikolov, W. Yih, G. Zweig,”Linguistic Regularities in Continuous Space Word Representations”, HLT-NAACL, 746-751,2013.
There are 16 citations in total.

Details

Primary Language Turkish
Subjects Computer Software
Journal Section Articles
Authors

Hüseyin Polat 0000-0003-4128-2625

Mesut Körpe This is me

Publication Date July 31, 2018
Submission Date March 6, 2018
Published in Issue Year 2018 Volume: 11 Issue: 3

Cite

APA Polat, H., & Körpe, M. (2018). TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması. Bilişim Teknolojileri Dergisi, 11(3), 235-244. https://doi.org/10.17671/gazibtd.402468

Cited By









Duties of educators and administrators in adapting immigrant students to school
International Journal of Educational Administration and Policy Studies
Kabatas Mustafa
https://doi.org/10.5897/IJEAPS2021.0692