Cara Menggunakan BERT untuk Menghasilkan Deskripsi Meta dalam Skala Besar
Berikut ini cara menggunakan kode peringkasan teks otomatis yang memanfaatkan BERT untuk menghasilkan deskripsi meta untuk mengisi halaman yang tidak memilikinya.
Dalam beberapa bulan terakhir, Google telah mengumumkan dua sistem yang sedang dalam proses produksi di pencarian Google dan juga bersifat open source. Siapapun dapat melihat cara kerjanya.
Anda bisa menebak salah satunya karena pengumumannya baru-baru ini: BERT.
Yang kedua adalah pengurai robots.txt mereka.
Google membuka sumber terbuka bagian dari Google Penelusuran bukanlah sesuatu yang Anda anggap mungkin bahkan setahun yang lalu.
Seperti yang diharapkan, tidak ada kekurangan panduan utama untuk mengoptimalkan situs Anda untuk BERT. Anda tidak bisa.
BERT membantu Google untuk lebih memahami maksud dari beberapa kueri dan tidak ada hubungannya dengan konten halaman sesuai dengan pengumuman mereka.
Jika Anda telah membaca artikel pembelajaran mendalam saya, Anda seharusnya tidak hanya memiliki pemahaman praktis tentang cara kerja BERT tetapi juga cara menggunakannya untuk tujuan SEO – khususnya, untuk mengotomatiskan klasifikasi maksud.
Mari kita kembangkan hal ini dan membahas kasus penggunaan lain: peringkasan teks yang canggih.
Kita dapat menggunakan peringkasan teks otomatis untuk menghasilkan deskripsi meta yang dapat kita isi pada halaman yang tidak memilikinya.
Untuk mengilustrasikan teknik yang hebat ini, saya akan mengunduh dan meringkas artikel terakhir saya secara otomatis dan seperti biasa, saya akan membagikan potongan kode Python yang dapat Anda ikuti dan sesuaikan dengan situs Anda atau klien Anda.
Inilah rencana tindakan kita:
Mendiskusikan peringkasan teks otomatis.
Pelajari cara menemukan kode state-of-the-art (SOTA) yang dapat kita gunakan untuk meringkas.
Unduh kode peringkasan teks dan siapkan lingkungannya.
Unduh artikel terakhir saya dan kikis hanya konten utama pada halaman tersebut.
Gunakan peringkasan teks abstrak untuk menghasilkan ringkasan teks.
Pelajari konsep di balik PreSumm.
Diskusikan beberapa keterbatasannya.
Terakhir, saya akan membagikan sumber daya untuk mempelajari lebih lanjut dan proyek-proyek komunitas.
Peringkasan Teks untuk Menghasilkan Meta Deskripsi
Ketika kita memiliki halaman yang kaya akan konten, kita dapat memanfaatkan peringkasan teks otomatis untuk menghasilkan deskripsi meta dalam skala besar.
Ada dua pendekatan utama untuk peringkasan teks menurut keluarannya:
Ekstraktif: Kami membagi teks menjadi beberapa kalimat dan memberi peringkat berdasarkan seberapa efektif kalimat-kalimat tersebut sebagai ringkasan untuk keseluruhan artikel. Ringkasan akan selalu berisi kalimat yang ditemukan dalam teks.
Abstrak: Kami menghasilkan kalimat-kalimat baru yang berpotensi menangkap esensi teks.
Memajukan Bisnis Anda Dengan Pemasaran Konten
Tingkatkan visibilitas online Anda, jangkau pelanggan baru, dan dorong penjualan dengan perangkat pemasaran konten lengkap ini.
Coba Gratis
Dalam praktiknya, sebaiknya Anda mencoba kedua pendekatan tersebut dan memilih salah satu yang memberikan hasil terbaik untuk situs Anda.
Cara Menemukan Kode Canggih untuk Peringkasan Teks
Tempat favorit saya untuk menemukan kode dan makalah mutakhir adalah Papers with Code.
Jika Anda menelusuri bagian State-of-the-Art, Anda dapat menemukan penelitian dengan kinerja terbaik untuk banyak kategori.
Jika kita mempersempit pencarian kita ke Peringkasan Teks, kita dapat menemukan makalah ini: Peringkasan Teks dengan Penyandi Terlatih, yang memanfaatkan BERT.
Dari sana, kita dapat dengan mudah menemukan tautan ke makalah penelitian, dan yang paling penting adalah kode yang mengimplementasikan penelitian tersebut.
Sebaiknya kita juga sering-sering mengecek peringkat global untuk berjaga-jaga jika ada makalah yang lebih unggul.
Unduh PreSum & Siapkan Lingkungan
Buat buku catatan di Google Colab untuk mengikuti langkah selanjutnya.
Kode asli yang terdapat di repositori peneliti tidak memudahkan penggunaan kode untuk membuat ringkasan.
Anda dapat merasakan kesusahannya hanya dengan membaca edisi Github ini.
Kita akan menggunakan versi repo bercabang dan beberapa langkah yang disederhanakan yang saya adaptasi dari buku catatan ini.
Pertama-tama, mari kita mengkloning repositori.
!git clone https://github.com/mingchen62/PreSumm.git
Kemudian instal dependensi.
!pip install torch==1.1.0 pytorch_transformers tensorboardX multiprocess pyrouge
Selanjutnya, kita perlu mengunduh model-model yang sudah dilatih.
%cd /content/PreSumm/models
CNN/DM Ekstraktif bertext_cnndm_transformer.pt
!gdown https://drive.google.com/uc?id=1kKWoV0QCbeIuFt85beQgJ4v0lujaXobJ&export=download
CNN/DM Abstraktif model_langkah_148000.pt
!gdown https://drive.google.com/uc?id=1-IKVCtc4Q-BdZpjXc4s70_fRsWnjtYLr&export=download
XSUM (Ringkasan Satu Kalimat) model_step_30000.pt
!gdown https://drive.google.com/uc?id=1H50fClyTkNprWJNh10HWdGEdDdQIkzsI&export=download
view rawdownload_presum_dependencies.sh dihosting dengan oleh GitHub
Kemudian, kita perlu membuka kompresi dan memindahkannya ke direktori yang terorganisir.
!unzip /content/PreSumm/models/bertext_cnndm_transformer.zip
!unzip /content/PreSumm/models/bertsumextabs_cnndm_final_model.zip
!unzip /content/PreSumm/models/bertsumextabs_xsum_final_model.zip
!mkdir /content/PreSumm/models/CNN_DailyMail_Extractive
!mkdir /content/PreSumm/models/CNN_DailyMail_Abstractive
!mkdir /con