@Blog{zip358.com}
日常日誌からプログラムやYOUTUBER紹介、旅日記まで日々更新中です。
機械学習でオススメ記事を作ってみる。
2023.10.24
おはようございます、機械学習でオススメ記事を作ってみる。仕組みはこんな感じです😄。
- 記事から同じ傾向の記事を取得する。
- 記事のMeCabを使用して分割。分離したものを機械学習に投入。
- 出来上がったモデルから似ている傾向の記事を抽出。
- 新規記事を投稿した場合、再学習させモデルに追加。
上記の流れをCHATGPTに投げ込んでコードを生成してもらい、そのコードを再修正してAPI化したものを仕事終わりに週末作ろうと思っています。出来ればそれを元に自分だけしか使えないプラグインにしてWordPressに取り組むつもりでいます。
これでどれぐらいの精度がでるのかは、やってみないと分かりませんが試す価値はあるかなって思っています。あと、作りたいのはクリックしたものを機械学習させて何か出来たら良いなって思っています、また、記事学習モデルから、チャット形式でこんな記事はどうですかってオススメする物を作りたいですね。
明日へ続く。
著者名 @taoka_toshiaki
※この記事は著者が40代前半に書いたものです.
Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki
タグ
API化, ChatGPT, Mecab, WordPress, コード, チャット形式, プラグイン, モデル, 仕事終わり, 価値, 傾向, 元, 分割, 投入, 抽出, 機械, 機械学習, 精度, 記事学習モデル, 週末,
WPの記事を検索し一括カテゴリ変更する方法。
2020.05.25
WPの記事を検索し一括カテゴリ変更する方法は下記になります。ワードプレスのwp-load.phpを読み込み、下記のようなソースコードのファイルをcommandで実行すると、カテゴリが任意のカテゴリに変更されます。
重要点はwp_set_post_categoriesの引数です。arrayの配列の数値ですが、この数値をカテゴリIDのナンバーに変更することによってカテゴリが更新されます。
企業でご使用する場合はカテゴリ更新部分を一度、コメントアウトしCSVか何かでうまく記事が抽出できているか確認した後に、更新するようにお願い致します、当然ながら不具合等の苦情は受け付けません。自己責任でご使用くださいな。
尚、この下記のコードの意味がわからないという方は下記のURLからそれぞれのワードプレスようのメソッドが何を意味しているか調べてくださいね。
https://elearn.jp/wpman/
<?php
require_once(__DIR__ . '/../wp-load.php');
if ($argv[0]) {
$args = array(
'post_type ' => 'post',
'posts_per_page' =>-1,
's' => '映画'
);
$posts = get_posts($args);
foreach ($posts as $val) {
$href = get_permalink($val->ID);
$title = get_the_title($val->ID);
$cnt++;
echo $cnt.":".$title."\n".$href."\n";
wp_set_post_categories($val->ID,array(1,2,3));
}
}
著者名 @taoka_toshiaki
※この記事は著者が40代前半に書いたものです.
Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki
タグ
-Command, 39, array, categories, CSV, DIR, ID, lt, once, php, POST, require, set, url, wp, wp-load, アウト, お願い, カテゴリ, コード, こと, コメント, ご使用, ソース, それぞれ, ナンバー, ファイル, プレス, メソッド, ワード, 一度, 一括, 下記, 不具合, 任意, 企業, 何, 何か, 使用, 場合, 変更, 実行, 引数, 当然, 後, 意味, 抽出, 数値, 方, 方法, 更新, 検索, 確認, 自己, 苦情, 記事, 責任, 部分, 配列, 重要点,
Yahoo!ニュースをPythonで取得するできました(´・ω・`)v
2020.05.01
早朝、YOUTUBEライブ配信で行ったものはタイトルとリンクが若干異なるところがあったので、修正したソースコードを貼っときます。Python言語少しずつ 少しずつ理解できてきた。
書き方が慣れればPHPより書くのは楽かな。$の記号がPHPの変数を書く場合、絶対必要になるけどPythonは書かなくて良いからね。
import requests
from bs4 import BeautifulSoup
r = requests.get("https://news.yahoo.co.jp/")
soup = BeautifulSoup(r.content, "html.parser")
#ニュース一覧のテキストのみ抽出
f = open("link.csv",mode = "a")
for t,a in zip(soup.find_all("div", "newsFeed_item_title"),soup.find_all("a", "newsFeed_item_link")):
f.write(t.text + "," + a.get('href') + "\n")
f.close()
著者名 @taoka_toshiaki
※この記事は著者が40代前半に書いたものです.
Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki
タグ
4, BeautifulSoup, bs, co, content, CSV, find, For, from, GET, html, https, import, in, jp, link, mode, News, open, parser, php, Python, quot, requests, soup, v, Yahoo, youtube, zip, コード, ソース, タイトル, テキスト, ところ, ニュース, もの, ライブ, リンク, 一覧, 修正, 取得, 場合, 変数, 必要, 抽出, 早朝, 書き方, 理解, 若干, 言語, 記号, 配信,
Gさんのリアルタイム検索トレンドを抽出するPHPライブラリ
2020.04.15
Composerをインストールしていること前提条件として書いていきます。まずはライブラリーを入れます。
こんな感じに
composer require x-fran/g-trends
そして次にこんな感じのPHPコードを書きます、これだけでGさん(グーグルさん)のリアルタイム検索トレンドが表示することが可能となります。ちなみにJSONで返す処理として書いています。ライブラリーがしっかりしているので、あとはメソッドを呼び出すだけで簡単に検索のリアルタイムのトレンドが表示できてしまう。
ライブラリーコードは下記から参照できます。
https://github.com/x-fran/g-trends
<?php
include_once "../../vendor/autoload.php";
use XFran\GTrends\GTrends;
$options = [
'hl' => 'ja-JP',
'tz' => -540,
'geo' => 'JP',
];
if((int)$_POST["p"]==1234){
$gt = new GTrends($options);
$ret = $gt->getRealTimeSearchTrends();
if(is_array($ret["storySummaries"]["trendingStories"])){
$jsn = json_encode($ret["storySummaries"]["trendingStories"]);
print $jsn;
}
}
尚、ajaxで表示している部分は割愛します。
https://zip358.com/tool/demo14/ demo14を検証ください。
著者名 @taoka_toshiaki
※この記事は著者が40代前半に書いたものです.
Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki
タグ
autoload, com, Composer, g-trends, github, GTrends, https, include, json, lt, once, options, php, quot, require, use, vendor, x-fran, XFran, あと, インストール, グーグル, コード, こと, これだけ, トレンド, メソッド, ライブラリ, ライブラリー, リアルタイム, 下記, 処理, 前提, 参照, 可能, 感じ, 抽出, 条件, 検索, 簡単, 表示,
土佐電時刻表検索サービス復刻版を作りました?
2020.03.06
土佐電時刻表検索サービス復刻版を作りました。公表もせずにローカルでしか試していなかったものですが、この度、時刻表をクロールしてサイトからデータを抽出して、そのデータを元に土佐電時刻表の検索サービスを作りました。
パチパチ?
このサイト、本日稼働させたばかりですので不具合とかもあります、そういう所はご連絡頂けると有り難いなと思っています。アクセス数が上がれば収益化は考えています。昨日から寝ずに作ったわけです…。是非、検索するかこちらのURLでダイレクトアクセスして頂ければ有り難いなと…。
尚、今日作ったばかりのホヤホヤサイトなので検索にはヒットしないと思います。SEO対策はしていません。高知県の人に密かに使って頂けると嬉しい限りです^^;。
ちなみに昔、ツイートに土佐電の時刻表をつぶやくBOTを作っていましたが鳴かず飛ばずで結局辞めてしまいました。
著者名 @taoka_toshiaki
※この記事は著者が40代前半に書いたものです.
Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki
タグ
BOT, SEO, url, アクセス, クロール, こちら, ご連絡, サービス, サイト, ダイレクト, ツイート, データ, ヒット, ホヤホヤ, もの, ローカル, わけ, 不具合, 人, 今日, 元, 公表, 収益, 土佐, 対策, 度, 復刻, 所, 抽出, 昔, 昨日, 時刻表, 本日, 検索, 稼働, 限り, 電, 高知県,
カネコアヤノとHump Back(ハンプバック)が良い感じ。
2020.02.01
カネコアヤノさんが良い感じでロックですね。サバサバしている感じが伝わってきます、いい感じです。男性ミュージシャンより女性ミュージシャンの方のほうが、なんか良い感じの人が多い気がします。カネコアヤノさん『アーケード』是非視聴してみてはどうでしょうか、視聴して自分は iTunesを ポチりました。仕事していないのに…。
Hump Back(ハンプバック)の『拝啓、少年よ』も良い歌詞だなと思えます、応援歌ですね、どちらも良い声と歌詞を紡ぎ出しています。昔より音楽業界も発掘が大変な感じがします。ライブ会場や路上ライブではない方法で音楽を世に出している人達もいるわけです。そういう人を抽出する方法ってやっぱ人工知能とかも使って探しているのだろうか。
歌がうまいだけでは売れないのが日本の事情?そんな事を聞いたことがありますが、そろそろ世の中、世代交代が始まると思っているので音楽業界に限らずですが変化に早い対応が進んでいくと思います。
著者名 @taoka_toshiaki
※この記事は著者が40代前半に書いたものです.
Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki
タグ
back, Hump, iTunes, アーケード, アヤノ, カネコ, こと, どちら, バック, ハンプ, ぽち, ミュージシャン, ライブ, りま, ロック, 世, 世代, 中, 事, 事情, 交代, 人, 人工, 仕事, 会場, 声, 変, 大変, 女性, 少年, 応援歌, 感じ, 抽出, 方, 方法, 日本, 昔, 業界, 歌, 歌詞, 気, 男性, 発掘, 知能, 自分, 視聴, 路上, 音楽,
Twitterの画像を抽出、非API
2018.11.07
Twitterの画像を抽出、非API
Goutteライブラリを使用してTwitterのメディアを抽出するだけで
APIを使用せずに17枚の画像が抽出することが可能。
これを改良してスクロールさせながらってのは出来ないのではないかな
特にVPSじゃないレンタルサーバーなどでは不可能じゃないのかと思います。
require_once './vendor/autoload.php';
use Goutte\Client;
$client = new Client();
$crawler = $client->request('GET','https://twitter.com/xxxx/media');
$img = $crawler->filter(".AdaptiveMedia-photoContainer.js-adaptive-photo img")->each(function ($node){
return $node->attr('src');
});
著者名 @taoka_toshiaki
※この記事は著者が30代前半に書いたものです.
Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki
タグ
'src', 17, AdaptiveMedia-photoContainer, API, APITwitter, attr, autoload, Client, com, crawler, each, filter, function, GET, Goutte, gt, img, js-adaptive-photo, media', new, node, once, php, request, require, return, Twitter, use, vendor, VPS, xxxx, こと, これ, サーバー, スクロール, ない, メディア, ライブラリ, レンタル, 不可能, 使用, 出来, 可能, 思い, 抽出, 改良, 枚, 特に, 画像, 非,
非公式土佐電つぶやきBOTが完成したが速攻ロックされた件。
2017.07.31
非公式土佐電つぶやきBOTが完成したが速攻ロックされた件だけど
正直な所、少し予想はしていました。
世の中、よく思わない人々がいることは確かなことです。
今回の非公式土佐電つぶやきBOTの制作経緯ですけど・・・
作ろうと構想をねってから5年ほど月日が流れていたモノなんですね。
何故、ここまで時間がかかったかというと土佐電交通の時刻表が簡単に
プログラムで抽出することが不可能なんです。
なので・・・。
当初は人力でデータを入れ込もうと考えていました。
これが一番、長引く原因になったわけです、データを登録しようと
何度も頑張ってみたのですが、情報量が多いので途中で挫折すること何度か。
結局これでは埒が明かないので、
他の方法を考えた結果、WEBストライピングするという事です。
要はサイトのデータ抽出することで解決したのですが、
公式ページはあんな感じなので、よくある電車検索サイトから
データ抽出してきました。
路面電車の時刻表を検索できるサイトを
探すのに手間がかかりましたが、抽出事態は、一日ぐらいで
コーディングする事で何とかなりました。
ちなみにある大手の検索できるサイトからデータを抽出しています。
今回、作って思ったことは
公式ページがPDFじゃなく電車の時刻表が検索でき時刻表が表示されるサイトを作ったら
良いのにと思いました。バスアプリは作っているのに・・・。
https://twitter.com/tosaden_net
{非公式}土佐電時刻表検索を始めました。
https://tosaden.net/
著者名 @taoka_toshiaki
※この記事は著者が30代前半に書いたものです.
Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki
タグ
5, BOT, web, ここ, こと, これ, サイト, ストライピング, データ, プログラム, ページ, もの, ロック, わけ, 不可能, 世, 中, 予想, 事, 交通, 人々, 人力, 今回, 他, 件, 何度, 何度か, 何故, 公式, 制作, 原因, 土佐, 埒, 完成, 少し, 当初, 情報, 感じ, 所, 抽出, 挫折, 方法, 時刻表, 時間, 月日, 検索, 構想, 正直, 登録, 簡単, 経緯, 結果, 要, 解決, 途中, 速攻, 電, 電車,
面接や筆記試験よりも統計を用いるべし!
2015.11.06
面接や筆記試験よりも統計を用いるべし!と思います。
何故かわからないけど占いって結構あたっているです、特に内面よりも人からどう思われているか
などは社会を生きていくためには大事なのかもしれないです。
性格判断で良いことばかり書いている性格判断や姓名判断はあまり意味のない気がします。
また、この頃はデータを蓄積が進んでいるので、結構あたっている節が多くなって気がします。
ふと思ったのですが、ビックデータを占いに使えば・・・もっと占いの精度が
上がるような気がします。購買意欲や行動パターンから性格や思考は読み取れるはずです。
その結果からより良い分析結果が得られるはずです。
日本でもIBMと提携してビックデータの研究が進んでいます。
また、人工知能WatsonのAPIは海外のデータなら抽出可能になっているようですし
グーグルの検索APIなどもうまく使えば何かちがう事が出来そうな気がします。
こういうビックデータをうまく使えば安価なあらたなサービスが提供できるような
気がします。特に占いとかは不景気のときは儲かる商売らしいです。
いまは都心は景気回復気味ですが、地方はまだまだなので
当たる占いサイトなら確実に広告で飯が食えそうな気がします。
誰か作ってくれないかな・・・・。
いちばんネックになるのはビックデータをどう解析するかだと思います。
それが出来れば!!
ちなみに知らず知らずのうちにビックデータの恩恵を
受けたりしているですよ。例えばポイントカードなど、年齢や性別など
個人情報以外のデータを蓄積する代わりにポイントを付いたり
します。そのデータから企業はどの商品が売れるのかなどが
把握することが可能になります。そんな感じで
もう世の中にビックデータは浸透していますし、人工知能も
浸透しています。
著者名 @taoka_toshiaki
※この記事は著者が30代前半に書いたものです.
Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki
タグ
グーグル, ネック, ビックデータ, ポイントカード, 人工知能, 人工知能Watson, 内面, 占い, 姓名判断, 性格判断, 恩恵, 抽出, 景気回復気味, 検索API, 筆記試験, 統計, 行動パターン, 購買意欲, 都心, 面接,
プロキシで表示する奴の作成途中。配布するのは今だけ?
2015.09.19
プロキシで表示する奴の作成途中。配布するのは今だけ?
あとはプロキシのリストをサイトから抽出して自分が
繰り返し表示したいサイトURLを入力すれば自動的に
表示することが可能なものをつくるか、CSVで読み込んで
無限表示を行うかという奴をつくります・・・・
ますが、配布するかどうかは未定です。
これを作ってどういうことに役に立つか。
ブログランキングサイトのランキングを嵩上げするとか
YOUTUBEの再生回数を増やすとかそういうのに
悪用できるのです。
自分もこれを作るのにかなり調べまくりました。
ヒントを言うとSystem.Runtime.InteropServicesをインポートしてwininet.dllを
使ってプロキシ経由で表示させています。賢い人は違うなと・・・。
ここらへん、VBとかじゃなくC関係とかが強い人なら可能かもしれません。
あと、wininet.dllのソース載せときます、おそらくこれが無いと煮詰まらない、かなり
ヒントになるものです。https://zip358.com/tool/wininet.txt
トイウコトデ、今から寝ます。連休一日目から・・・不規則な生活リズムです。
https://zip358.com/tool/looper.zip
※尚、セキュリティソフトを入れている場合、通信の許可を可にしてあげないと
動作しません。
※繋がらないプロキシを使うと表示されないです。とくに回線が遅い場合、表示されないことが多いです(´Д`)。
あくまでも試作版なので。
著者名 @taoka_toshiaki
※この記事は著者が30代前半に書いたものです.
Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki
タグ
CSV, dll, InteropServices, Runtime, System, url, VB, wininet, youtube, あと, インポート, かなり, ここら, こと, これ, サイト, ソース, ヒント, プロキシ, ブログ, もの, ランキング, リスト, 人, 今, 作成, 入力, 再生, 可能, 回数, 奴, 嵩上げ, 役, 悪用, 抽出, 未定, 無限, 経由, 自分, 表示, 途中, 配布, 関係,