Proofreading(校正)というリクルートが開発したAPIを使って。

2021.04.27

Logging

Proofreading(校正)というリクルートが開発したAPIを使って、今まで投稿した記事に誤字がないかを判別してもらった。因みに1000文字を超える文章は対象にならないのでワードプレスで取得した記事を900文字程度で切って判断してもらうことにしています。誤字があった場合、1を最大値として値が渡されるので、その平均値を取ればその文章の誤字率が判定できる。今回は平均値を取らず、最大値を判断材料として文章をスコア化しました。一応、判断した値をCSVで出力するプログラムをちょこちょこと制作したので参考にして頂ければ幸いです。正直なところ、ProofreadingのAPIが制度が良いのか疑わしいものがあるがAPIを取り扱うのが始めてという人は勉強になると思います?。

AI・機械学習と創る未来 – A3RT

ソースコードはこちらになります。

<?php
require "../../wp-load.php";
global $wpdb;

$proofreading = function($text=""){
	$url = "https://api.a3rt.recruit-tech.co.jp/proofreading/v2/typo";

	$params = [
		'apikey' => '取得したAPIKEY',
		'sentence'=>"$text",
		'sensitivity'=>"high"
	];
	$curl = curl_init($url);
	curl_setopt($curl, CURLOPT_POST, TRUE);
	curl_setopt($curl, CURLOPT_POSTFIELDS, $params);
	curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
	curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
	$response = curl_exec($curl);
	curl_close($curl);
	$obj = (object)json_decode($response);
	$score = 100;
	if($obj->alerts){
		$max = 0;
		foreach($obj->alerts as $key=>$val){
			$max = $max<$val->score?$val->score:$max;
		}
		$score = 100 - ($max * 100);
	}
	return $score;
};

if($argv[0]){
	file_put_contents("blogscore.csv","");
	$query = "SELECT * FROM $wpdb->posts WHERE post_status = 'publish' and post_type = 'post'";
	$results = $wpdb->get_results( $wpdb->prepare($query));
	foreach($results as $row) {
	   $id = $row->ID;
	   $title = $row->post_title;
	   $score = $proofreading(mb_strimwidth(preg_replace("/[\r|\n]/","",strip_tags($row->post_content)),0,900,"…"));
	   $str = "'$id'".",'".$title."',"."'$score'";
	   print $str.PHP_EOL;
	   file_put_contents("blogscore.csv",mb_convert_encoding($str."\n","SJIS","UTF-8"),FILE_APPEND);
	}
}

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

, 1000, 900, API, CSV, lt, php, Proofreading, quot, require, wp-load, コード, こちら, こと, スコア, ソース, ところ, プレス, プログラム, もの, リクルート, ワード, , 今回, , 出力, 判別, 判定, 判断, 制作, 制度, 勉強, 参考, 取得, 場合, 対象, 平均, 投稿, 文章, 最大, 材料, 校正, 正直, 記事, 誤字, 開発,

データとして4年、実質、15年ぐらいブログ書いてて思ったこと。

2018.05.19

Logging


このブログを始めて8年ぐらい経過しています。
4年間のデータは消失してしまったので、4年間のデータしか残っておりません。
8年前といえば、30歳ぐらいだった自分がもうすぐ40代へ
頭の中身は変わらず、40代になろうとしています(駄目だなこりゃw)。
ブログは負の遺産みたいなのだけど、負の遺産も含め自分の今があるので
一生続けるつもりでいますが、過去の記事を読み返すと誤字や文法が変だったりと
呆れるぐらいのブログです、、、。
ここ数ヶ月、週一更新でしたがコレから
記事の本数を若干増やすつもりでいます。PV数はまぁ150?200ぐらいです。
訪問者数はその半分より少し上の値です。
このブログ、皆様のお陰様で毎月のサーバ代金は支払えるようになりました。
有難う御座います。
ちなみにブログは24歳の頃から始めています。
始めは絵日記ブログを毎日書いていました、その当時は
ブログをしているひとの割合も少なかったので今以上のアクセス数がありました。
アニメ会社からの訪問者などもあったりして、ほくそ笑む事もありましたが
ある年の正月にアクセス数が急上昇してコレはやばいなという事で
閉鎖し次はWEBでグチグチ書いたブログを開設したところ、
案の定、会社バレしてしまいコレまた閉鎖。
もうその時からバレたらどうなるのかが、分かったので再度ブログを開設。
ある意味開き直りで今に至っていますが、どちらかと言えば辛口な記事が多いため
リアルではひとが離れていく一方です・・・が、
ネットでは逆に反比例しています。
リアルが本当の所、充実したいのですが
イマノトコロ、非充実です。
リアルを充実したければブログやSNSはしない方が良いですね。
個人がブログやSNSで発信する世の中ですが、リアルで得することはないです。

著者名  @taoka_toshiaki

※この記事は著者が30代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

B01H6DIHTO, SNS, アクセス数, イケハヤ書房, イマノトコロ, お陰様, グチグチ, サーバ代金, データ, ひと, 一生続けるつもり, 意味開き直り, 若干増やすつもり, 訪問者, 誤字, , 週一, 遺産,

グーグル日本語入力、便利だけど誤字が多い。

2015.06.02

Logging


グーグル日本語入力、便利だけど誤字が多い。見返しをしないと誤字のまま記事の投稿ということになります。よく自分がやるパターンです・・・・。話し変わりまして、昨日から新しい職場で働くことになりました。いままで四年間ぐらいの仕事とは、全然分野が違って結構、一日目は疲労感どっぷりでした。ここ四年間は運用業務とかおこなっていたので仕事ペースがぜんぜん違うなという印象です。昔、プログラマーとして働いていた頃の勘をはやく取り戻したいです。
ちなみに今、スランプ中です。
 

著者名  @taoka_toshiaki

※この記事は著者が30代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

グーグル日本語入力, スランプ中, パターン, プログラマー, 一日目, 仕事ペース, 分野, , 印象, 四年間, 投稿, 新しい職場, , 疲労感, 見返し, 記事, 誤字, 運用業務,