否認リスト生成のワンライナー化
一ヶ月後、再びGoogle Search Consoleのリンク元サイト一覧を確認すると、中身が少し変わっていました。
どの程度の違いがあるのか、先月と同じ作業をして今月版の否認リストを作るに当たり、エクスポートしたリンク元サイト一覧( servercan.net-Top linking sites-2024-01-16.csv )と、先月使ったセーフリスト( domains_safe.txt )を元に、否認ツールへアップロード可能な否認リストを今回はワンライナーで生成します。
作業フローはざっと次の通り。
|
1 2 3 4 5 6 7 8 9 10 11 12 13 |
servercan.net-Top linking sites-2024-01-16.csv 【リンク元サイト一覧CSV】 ↓ ↓ $ awk -F',' '{print $1}' servercan.net-Top\ linking\ sites-2024-01-16.csv > domains.txt ↓ domains.txt 【リンク元サイト一覧】 ↓ ↓ $ (cat domains.txt domains_safe.txt | sort -u; cat domains_safe.txt) | sort | uniq -u > domains_deny.txt ↓ domains_deny.txt 【セーフリストに存在するサイトを除いた否認サイト一覧】 ↓ ↓ $ sed "s/^/domain:/g" ./domains_deny.txt > denies.txt ↓ denies.txt 【アップロード可能な否認リスト】 |
2番目のセーフリストに存在するサイトをリンク元サイト一覧から取り除く手法には、数学の差集合に相当するようで、こちらの記事を参考にさせて頂きました(鳴謝!!)。
これら3つの処理をワンライナーにして、一発生成するおまじないはこちら。
|
1 2 |
$ ((awk -F',' '{print $1}' servercan.net-Top\ linking\ sites-2024-01-16.csv; cat domains_safe.txt) | \ sort -u; cat domains_safe.txt) | sort | uniq -u | sed "s/^/domain:/g" > denies.txt |
否認ツールで現在適用中の否認リストをダウンロードし( servercan-net-blog_DisavowLinks.txt )、両者をソートの後、 diff コマンドで比べてみたところ、エントリ数の差以上の相違点があり、新たに増えたスパムサイトもありました。
|
1 2 3 4 5 6 |
$ wc -l servercan-net-blog_DisavowLinks.txt 737 servercan-net-blog_20240117T090716Z_DisavowLinks.txt $ wc -l denies.txt 521 denies.txt $ diff -dy --suppress-common-lines servercan-net-blog_DisavowLinks.txt denies.txt > diff.txt |
既存と今回の否認リストの一意な和集合マージ
そこで、既存の否認リスト( servercan-net-blog_DisavowLinks.txt )と、上述で生成した今月の否認リスト( denies.txt )から、一意な和集合としての否認リストを作り、否認ツールへ適用させようと思います。
サブフォルダ tmp/ に格納した両否認リストを cat で単純に連結、それを sort -u でソート且つ重複排除する要領のワンライナーは次の通りです。
|
1 2 3 4 5 6 7 8 |
tmp/ - servercan-net-blog_DisavowLinks.txt - denies.txt $ cat tmp/* | sort -u > denies_merged.txt $ wc -l denies_merged.txt 783 denies_merged.txt |
否認リストの差し替えアップロード
Google Search Consoleのリンクの否認ページを開き、右下の 置き換える をクリック、先ほど生成した否認リスト( denies_merged.txt )をアップロードして、作業完了です。
作業後記
ちなみに、Bingにも以前は似たようなスパム被リンクの否認ツールがありましたが、AI活用による自動化へ移行したことから、既に当該ページは無くなったそうです。
肝心のスパム被リンクの否認による効果はと言うと、初回否認から1ヶ月経過して日当たりPVが上向いてきたようにも見えますが、間に年末年始を挟んでいるのでもう少し見守りたいと思います。


