Photo by Victor Dunn on Pexels.com

AIで記事を学習して新たな記事を生み出すにはお金が必要だと思っていたがそうでも.

2025.06.22

Logging

おはようございます.AIで記事を学習して新たな記事を生み出すにはお金が必要だと思っていたがそうでもなくローカルPCでそこら辺に落ちているLlamaモデルを持ってきてチューニングすれば何とかなるじゃねぇという思いに至った.

実はあなたの手元にあるPCと、そこら中に「落ちている」オープンソースのAIモデル、特にLlama 3があれば、十分記事が生成できるんです。


ローカルAI記事生成は、もはや夢物語じゃない

「AIで記事生成」と聞くと、SFのような世界や、大企業だけが使える特権のように感じるかもしれません。しかし、今は違います。オープンソースの強力な言語モデル、特にMetaが公開したLlama 3の登場は、この常識を大きく覆しました。

Llama 3は、その性能の高さにもかかわらず、誰でも無料で利用できるという点が最大の魅力です。さらに、80億パラメータの8Bモデルであれば、最新のゲーミングPCとまではいかなくとも、ある程度の性能を持つPCであれば十分に動作します。これにより、高額なクラウドサービスを利用せずとも、自分のPCでAI記事生成の環境を構築することが現実的になりました。


なぜLlama 3があなたのPCと相性抜群なのか?

Llama 3がローカルPCでの記事生成に適している理由はいくつかあります。

  • 完全無料のオープンソース: 利用に費用がかからないため、予算を気にせずAIを試したり、本格的に導入したりできます。
  • 選べるモデルサイズ: Llama 3には様々なサイズのモデルがあり、PCのスペックに合わせて選べます。特に8Bモデルは、個人利用に最適なバランスを持っています。
  • 活発な開発者コミュニティ: 世界中の開発者がLlama 3を使った新しいツールや効率的なチューニング方法を日々共有しています。困ったときには助けを借りられる心強い味方です。
  • 「量子化」でさらに軽量に: モデルのサイズを大幅に小さくする「量子化」という技術を使えば、より少ないメモリでLlama 3を動かせるようになります。これにより、より多くのPCで利用の道が開けます。

あなたのPCを「記事生成マシン」に変える秘訣

もちろん、いきなりプロのライター並みの記事をAIに書かせるのは難しいかもしれません。しかし、ちょっとした工夫で「何とかなる」レベルの記事生成は十分に可能です。

  1. 少量のデータでファインチューニング: 大量の記事データは不要です。あなたが書きたい記事のテーマやスタイルに合った、質の良い記事を数十〜数百程度集めてLlama 3を学習(ファインチューニング)させれば、その分野に特化した記事生成能力が格段に向上します。
  2. プロンプト(指示文)の工夫: AIへの「指示の出し方」は非常に重要です。具体的で明確なプロンプトを与えることで、チューニングが完璧でなくても、驚くほど質の高い記事が生成できます。これはまるで、優秀なアシスタントに的確な指示を出すようなものです。
  3. 効率的な学習方法の活用: 「LoRA(Low-Rank Adaptation)」のような効率的なファインチューニング手法を使えば、少ないGPUメモリでも短時間でモデルを特定のタスクに最適化できます。

あなたの創造性が、今、AIで加速する

かつては一部の専門家や企業にしか手の届かなかったAIによる記事生成が、今やあなたのPCで実現できる時代になりました。これはまさにAI技術の「民主化」です。

とまぁそういう訳なので何とかしてみますが、ファインチューニングにどれぐらい時間がかかるのかが未知数だったりする.

ファインチューニングPythonコード

以下のPythonコードは、Llama 3モデルをロードし、提供されたテキスト記事でファインチューニング(LoRA使用)を実行し、結果を保存します。 上記の入力値は、このコードに自動的に反映されます。 このコードをPythonファイル(例: `finetune_llama.py`)として保存し、実行してください。

import os
import torch
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, TrainingArguments, Trainer
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training, TaskType

# GPUの利用可能性を確認
print("GPUが利用可能か確認中...")
if not torch.cuda.is_available():
    print("GPUが見つかりません。Fine-tuningにはGPUが強く推奨されます。")
    # GPUがない場合は、ここでスクリプトを終了するか、CPUモードで続行するか選択できます。
    # exit("GPUがないため終了します。")
else:
    print(f"GPUが利用可能です: {torch.cuda.get_device_name(0)}")

# --- 1. モデルとトークナイザーのロード ---
# Llama 3モデルのパスを指定します。Hugging Faceのモデル名(例: "meta-llama/Llama-3-8B")
# またはローカルにダウンロードしたモデルのパスを指定してください。
MODEL_NAME = "meta-llama/Llama-3-8B" # ユーザーが入力したパスがここに挿入されます

print(f"モデルとトークナイザーをロード中: {MODEL_NAME}")

# 4bit量子化設定 (GPUメモリの節約に役立ちます)
# bnb_4bit_compute_dtypeは、Ampere以降のNVIDIA GPUに推奨されるbfloat16を使用しています。
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4", # NF4 (NormalFloat4) 量子化タイプ
    bnb_4bit_compute_dtype=torch.bfloat16 
)

# トークナイザーをロード
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
# Llama 3はデフォルトでbos_tokenを付与しないことがあるため、明示的に追加。
# また、padding_side='right'はLlamaモデルに推奨される設定です。
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

# モデルをロードし、量子化設定を適用し、自動的にGPUにマッピングします。
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=bnb_config,
    device_map="auto", # 利用可能なデバイス(GPU)に自動的にモデルを分散
    trust_remote_code=True # リモートコードの実行を許可
)
print("モデルロード完了。")

# k-bit学習用にモデルを準備 (PEFTライブラリのため)
# gradient_checkpointingを有効にすることで、メモリ使用量をさらに削減できます。
model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)
print("k-bit学習用にモデルを準備しました。")

# --- 2. データセットの準備 ---
# あなたのテキスト記事ファイルが格納されているディレクトリを指定します。
# 例: 'your_article_data/' の中に 'article1.txt', 'article2.txt', ... と置かれている場合
DATA_DIR = "./your_article_data/" # ユーザーが入力したパスがここに挿入されます

print(f"データセットをロード中: {DATA_DIR}")

# 'text'形式でデータセットをロードします。指定されたディレクトリ内のすべての.txtファイルを読み込みます。
# 各ファイルが1つのエントリとして扱われます。
try:
    dataset = load_dataset('text', data_files={'train': os.path.join(DATA_DIR, '*.txt')})
    print(f"データセットのサンプル数: {len(dataset['train'])}")
except Exception as e:
    print(f"データセットのロード中にエラーが発生しました。ディレクトリとファイル形式を確認してください: {e}")
    exit("データセットロード失敗。")

# データセットをトークン化する関数
# 長い記事をモデルの最大入力長に分割します。
def tokenize_function(examples):
    # Llama 3の最大入力長は通常8192ですが、お使いのGPUのVRAMに合わせて調整してください。
    # ここでは一般的な値として2048を設定しています。
    max_length = 2048 
    # truncate=Trueで最大長を超えるテキストを切り捨てます。
    return tokenizer(examples["text"], truncation=True, max_length=max_length)

# データセットをトークン化します。
# num_procはCPUコア数に応じて並列処理を行い、処理を高速化します。
tokenized_dataset = dataset.map(
    tokenize_function,
    batched=True,
    num_proc=os.cpu_count(),
    remove_columns=["text"] # 元のテキスト列は学習に不要になるため削除します。
)
print("データセットのトークン化が完了しました。")

# --- 3. PEFT (LoRA) の設定 ---
# LoRA (Low-Rank Adaptation) は、元のモデルの重みをフリーズし、
# 小さなアダプター層を追加して学習させることで、効率的にファインチューニングを行います。
# これにより、GPUメモリの使用量を抑えつつ、高い性能を実現できます。
lora_config = LoraConfig(
    r=16, # LoRAのランク。値を大きくすると表現力が増すが、メモリ消費も増える。
    lora_alpha=32, # LoRAのスケーリング係数。rの2倍程度が推奨されることが多いです。
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], # LoRAを適用する層。Llamaモデルで一般的な層。
    bias="none", # バイアスを学習しない設定。
    lora_dropout=0.05, # ドロップアウト率。過学習を防ぐために設定します。
    task_type=TaskType.CAUSAL_LM, # タスクタイプを因果言語モデルに設定。
)

# モデルにLoRAアダプターを追加します。
model = get_peft_model(model, lora_config)
print("モデルにLoRAアダプターを適用しました。")
model.print_trainable_parameters() # 学習可能なパラメータ数を確認します。

# --- 4. 学習の実行 ---
# 学習済みモデルを保存するディレクトリ
OUTPUT_DIR = "./llama3_finetuned_model/" # ユーザーが入力したパスがここに挿入されます

# 学習の設定
training_args = TrainingArguments(
    output_dir=OUTPUT_DIR,
    num_train_epochs=3, # エポック数。データセットのサイズと希望する精度に応じて調整してください。
    per_device_train_batch_size=1, # GPUあたりのバッチサイズ。VRAMが少ない場合は1に設定。
    gradient_accumulation_steps=4, # 勾配を蓄積するステップ数。実質的なバッチサイズは per_device_train_batch_size * gradient_accumulation_steps になります。
    optim="paged_adamw_8bit", # 8bit AdamWオプティマイザを使用し、メモリ効率を向上させます。
    save_steps=500, # 500ステップごとにモデルを保存します。
    logging_steps=100, # 100ステップごとにログを出力します。
    learning_rate=2e-4, # 学習率。
    fp16=True, # 混合精度学習を有効化 (GPUが対応している場合)。VRAM削減と高速化に寄与します。
    max_steps=-1, # num_train_epochsに基づいて学習します。
    group_by_length=True, # 同じ長さのシーケンスをグループ化し、パディングを削減します。
    lr_scheduler_type="cosine", # 学習率スケジューラーのタイプ。
    warmup_ratio=0.03, # ウォームアップ比率。
    report_to="none", # レポート先を指定しない (wandbなどを使用しない場合)。
)

# トレーナーの初期化
# data_collatorは、モデルの入力形式に合わせてデータを整形します。
trainer = Trainer(
    model=model,
    train_dataset=tokenized_dataset["train"],
    args=training_args,
    data_collator=lambda data: {
        'input_ids': torch.stack([f['input_ids'] for f in data]),
        'attention_mask': torch.stack([f['attention_mask'] for f in data]),
        'labels': torch.stack([f['input_ids'] for f in data]), # 因果言語モデルでは、入力自体がラベルとなります。
    },
)

# 学習の開始
print("Fine-tuningを開始します...")
trainer.train()
print("Fine-tuningが完了しました。")

# --- 5. 学習済みモデルの保存 ---
# LoRAアダプターのみを保存します。これにより、ファイルサイズが小さく、効率的に管理できます。
trainer.save_model(OUTPUT_DIR)
print(f"学習済みLoRAアダプターが '{OUTPUT_DIR}' に保存されました。")

# 保存したアダプターを使って推論を行う方法の例 (コメントアウトされています):
# このコードは、ファインチューニング後にモデルをロードして推論を行うための参考例です。
# from peft import PeftModel
#
# # 元のモデルをロード (学習時と同じ量子化設定を使用します)
# base_model = AutoModelForCausalLM.from_pretrained(
#     MODEL_NAME,
#     quantization_config=bnb_config,
#     device_map="auto",
#     trust_remote_code=True
# )
#
# # 保存したLoRAアダプターを元のモデルに結合します。
# peft_model = PeftModel.from_pretrained(base_model, OUTPUT_DIR)
#
# # 推論モードに設定します。
# peft_model.eval()
#
# # テキスト生成の例
# prompt = "ローカルPCでのLlama 3ファインチューニングの利点とは"
# inputs = tokenizer(prompt, return_tensors="pt").to("cuda") # 入力をGPUに移動
#
# with torch.no_grad(): # 勾配計算を無効化し、メモリ使用量を削減
#     outputs = peft_model.generate(
#         **inputs,
#         max_new_tokens=200, # 生成する新しいトークンの最大数
#         do_sample=True, # サンプリングによる生成を有効化
#         top_p=0.9, # Nucleusサンプリングの閾値
#         temperature=0.7, # 生成の多様性を制御する温度
#         eos_token_id=tokenizer.eos_token_id # 終了トークンID
#     )
# print("\n--- 生成されたテキスト ---")
# print(tokenizer.decode(outputs[0], skip_special_tokens=True))

明日へ続く

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

```, ;;), )。, アウト, アシスタント, アダプター, あたり, アップ, あなた, いくつ, ウォーム, エポック, エラー, エントリ, オープン, オプティマイザ, お金, クラウドサービス, グループ, クン, ゲーミング, コード, コア, ここ, こと, コミュニティ, コメント, これ, サイズ, サンプリング, サンプル, シーケンス, スクリプト, スケーリング, スケジューラー, スタイル, ステップ, スペック, すべて, ソース, そこら, タイプ, ダウンロード, タスク, ため, チューニング, ツール, データ, データセット, テーマ, ディレクトリ, テキスト, デバイス, デフォルト, トー, トークナイザー, とき, どれ, トレーナー, ドロップ, バイアス, パス, バッチ, パディング, パラメータ, バランス, ファイル, ファイルサイズ, ファインチューニング, ファインチューニングコード, フリーズ, プロ, プロンプト, マシン, マッピング, メモリ, モード, モデル, もの, ユーザー, よう, ライター, ライブラリ, ラベル, ランク, リモート, レベル, レポート, ローカル, ロード, ログ, 一般, 一部, 上記, 不要, 世界, 世界中, 並み, 並列, 予算, 付与, 以下, 以降, 企業, 使い, 使用, 係数, 保存, 個人, 優秀, 入力, 公開, 共有, 具体, 処理, 出力, 分割, 分散, 分野, 初期, 利点, 利用, 制御, 削減, 削除, 創造, 加速, 助け, 効率, 動作, 勾配, 十分, 参考, 反映, 可能, 向上, 味方, 因果, 場合, 多様, 夢物語, 大幅, 大量, 失敗, 学習, 完了, 完全, 完璧, 実現, 実行, 実質, 寄与, 対応, 専門, 導入, 少量, 工夫, 希望, 常識, 強力, 形式, 必要, 思い, 性能, 手元, 手法, 技術, 抜群, 指定, 指示, 挿入, 推奨, 推論, 提供, 整形, 新た, 方法, 日々, 明日, 明確, 明示, 時代, 時間, 最大, 最新, 最適, 有効, 未知数, 本格, 格段, 格納, 構築, 様々, 比率, 民主, 活用, 活発, 消費, 混合, 済み, 温度, 準備, 無効, 無料, 特定, 特権, 現実, 理由, 環境, 生成, 発生, 登場, 的確, 相性, 短時間, 確認, 秘訣, 移動, 程度, 管理, 節約, 精度, 終了, 結合, 結果, 続行, 能力, 自体, 自分, 自動的, 蓄積, 表現, 言語, 計算, 記事, 設定, 許可, 調整, 費用, 軽量, 追加, 通常, 適用, 選択, 重み, 重要, 量子, 開始, 開発, 関数, 閾値, 非常, 高速, 高額, 魅力,

基本情報技術者試験を今月の末に受けてくる事にしました.

2025.04.02

Logging

おはようございます.基本情報技術者試験を今月の末に受けてくる事にしました.当初は2月に受ける予定だったけど、延長、延長して4月まで先延ばしにしてようやく勉強しようとなったので1ヶ月間、少し勉強しようと思っています.

ITパスポートも情報セキュリティも何一つ勉強して無くて受かったのだけども、流石に基本情報技術者試験は勉強しないと受からないと思っています.

勉強をせずに受かる人もいることも知っていますが、それほど情報のことに詳しくはないし情報なのに経営ことなんかの問いや経理の問いなども出てきたりして昔は結構幅広く勉強しないと受からない試験だった.

その時の蓄積もあったのでITパスポートも情報セキュリティも受かったわけだけども基本情報技術者試験はいつもニアなんだ.勉強量から言えばニアになるのが当たり前なのかも知れないけど、受かりたいよねって思いはいつも落ちてから思います.

https://www.fe-siken.com/fekakomon.php

基本情報技術者試験が受かった後は英検の試験でも受けてみようと思っています.

トイウワケデ、4月1日から基本情報技術者試験の勉強をはじめました.

明日へ続く

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

ヶ月間, トイウワケデ, ニア, パスポート, 先延ばし, 勉強, 勉強量, 基本情報技術者試験, 延長, 当初, 情報セキュリティ, , , 月日, , 経営こと, 経理, 英検, 蓄積, 試験,

昔、何故9時投稿だったのか?なぜ、いま6時投稿なのか?

2024.10.18

Logging

おはようございます.いつも6時に投稿されているブログは何故6時なのか?分かる人は少ないと思います.因みに昔は9時投稿でした.では何故、9時投稿だったのかは仕事が大きく関係しています、むかし自分が勤務していた会社は9時からの勤務でしたので9時に投稿していたのです.理由は同僚や上司に記事を読まれたくないからそれだけの理由です.勤務中に記事を読む人はいないだろうという事で9時に投稿していました.

このブログ、もう10年ぐらい蓄積があるので結構検索にもヒットします.じゃいまの会社は6時投稿なのか、その会社を辞めたときに9を反転させて6時という事で6時にしました.また余談ですが19という数字は好きです、いっきゅう(19:一休や1級)とかちょっと賢いイメージもありますからね.男女関係なく賢い人は好きです.

6という数字は逆のイメージを持つ人も多いかもです、自分の場合は初心忘れずべからずという意味を持っています.あんま天狗になるなよ的な.

因みに今、働いている会社にはSNSやブログなどの活動をしていることは一応知っています(質問されたので).本名で活動しているので見つかりやすいです.

そのような事から、いまの6時投稿になっています.あとこのブログやWEB開発したサービスで微々たるものですが稼いでいます.ある程度の決済を相殺していますので今後も辞めることはないと思います.

明日へ続く.

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

SNS, WEB開発, あんま天狗, イメージ, むかし自分, 一休, 上司, 余談, 勤務中, 同僚, 意味, 数字, , 本名, 決済, 男女関係, 程度, 蓄積, 賢いイメージ, 賢い人,

Photo by Pixabay on Pexels.com

映画、渇水をネットフリックスで観ました.

2024.10.17

Logging

おはようございます.映画、渇水をネットフリックスで観ました.この映画、ちょっと落ちが微妙だけど現実的な着地地点かなって思います.実際、こういう環境下で生活している人々がいる、そういう環境下でいるひとの処遇を変えるって難しいことだと思います.

普通に生活していたら、そんな環境下でいるひとの事を知り得ることがないと.そういう意味ではこの映画を観ることで少し世界が広がるのではないかな.

映画『渇水』60秒本予告【6月2日(金)公開】

映画っていろいろな側面があるものの、大体の映画は人々に希望をもたらす物だと思います、それはこの映画のように世界が少し変わる作用を持っている気がするのです.何かを変えようとするとき、自分としては最大限のことをしても変わるのはほんの少しです.でも、それが大事なことだとも思います.

まとめ.
世の中を大きく変えるのは難しいけど、少しの変化の蓄積が大きな変化をもたらす可能性を秘めていると思えるようなそんな思いになる映画でした.

明日へ続く.

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

ネットフリックス, ひと, まとめ.世, 人々, 作用, 側面, 処遇, 変化, 実際, 少し, 少し世界, 希望, 意味, 映画, 最大限, 渇水, , 環境下, 着地地点, 蓄積,

AとBをテストするABテスト #abtest

2022.11.19

Logging

おはようございます、土曜日の朝🌅。今日は高知県は雨らしいですね。

ABテストとは何かは割愛させてもらってABテストの話を書いていきます。自分はこのABテストを結構します。特にブログやYOUTUBEはABテストを行っています、プレビュー数、再生数はどうすれば伸びるのか、試すにはABテストは最適です。

【10分で分かる】ABテストについて統計学的観点も交えて詳しく解説!

そういうテストを繰り返して小技を蓄積していくと伸びるものが創れるようになるし、勘どころが分かるようになります。これは伸びる伸びないなどがよくわかります。

これをテストするにはある程度、訪問者や閲覧者がいないと出来ないです。初期のブログはなかなか訪問者数もいないのでテストが出来ないですが、YOUTUBE等は投稿すればチャンネル登録者数がいなくてもYOUTUBEのアルゴリズムで、ある程度表示してくれます。

YOUTUBEのアルゴリズムは関連性の高い動画だと認識させれば、再生回数は伸びますしアイキャッチなども結構大事です、それはブログもそうなんですけどブログの場合は記事の内容が大事になります。

滞在時間と離脱してから次の行動も恐らくですがGアルゴリズムもページの善し悪しに盛込んでいると自分は考えています。もし自分なら、そういうアルゴリズムにしますから・・・。

まとめ、ABテストはSEOというよりは、人に寄り添って考える事が大事なのかなって思います🙇。

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

ab, abtest, com, D-leDiVDiqU, https, watch, www, youtube, アルゴ, アルゴリズム, これ, チャンネル, テスト, プレビュー, ブログ, もの, リス, 今日, 何か, 再生, 初期, 割愛, 勘どころ, 土曜日, 小技, 投稿, 最適, , 登録者, , 自分, 蓄積, 表示, 訪問者, , 閲覧者, , 高知県,

Photo by Rodolfo Clix on Pexels.com

ヘンテコな学習ヘンテコな呟き😌。説明不足はいつものこと🤔

2022.09.13

Logging

おはようございます、夜中のほうが学習効率高いです🌃。

昨日、一つ出来そうなことを連続的につぶやいたので、それを皆さんが理解できる内容に文章としてまとめたいと思います。まず昨日の晩に下記のつぶやきをしました。これを追って何をしたいのかや何が理解できたのか、分かった方はこれから書くことを読まなくても良い人です。

まず、次のアイディアが生まれました、アクセス解析を自前してサイトの訪問者の動向を事細かに蓄積する事は出来ないだろうか、もし出来たらどのような事が出来るだろうか🤔?考えた結果、ECサイトなら購入する確率、ページ推移の予測などが出来ること、ページ単位だとどの場所にどんなデザインを置けばクリック率が上がるのかなどそういう事が、アクセス解析のデータから割り出す事が出来るのではないかと。

次にページを可視化するには、どうすれば良いのだろうかという疑問。調べていくうちに隣接行列で可視化(数値化)出来ることがわかった。これからどうすれば予測出来るのだろうかと考えた結果。ページの可視化は隣接行列で表わすことが出来るが、今の自分ではココから予測データを導き出せないなと思い、隣接行列は可視化するために使おうと考えを改める。

では、どうすれば予測できるかを考察した。まず機械学習の予測にはどのような種類があるのか、どのようなデータを与えれば適切な予測を導き出すことが出来るのかを調査。最終的にランダムフォレストという手法で予測するのが今の自分でも出来そうな方法ではないかと判断に至った😌。

尚、機械学習で注意しないといけないのは過学習【過剰適合 / オーバーフィッティング】により上手く予測出来なることがあることを注意しないといけない。

そして思ったことは、自分でも出来そうだなって事🤐。もう機械学習は参考書を買わなくてもYOUTUBEやネットで調べれば、なんちゃって機械学習予測は出来るようになっているということ。後はどんなデータを機械に与えるか、そしてどれぐらい学習させるのか。そういう事が大事になってくる事を理解したのだった。

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

EC, アイディア, アクセス, いつも, うち, クリック, こと, これ, サイト, それ, データ, デザイン, ページ, ヘンテコ, 一つ, 下記, 予測, , , , 内容, 効率, 動向, 単位, 可視, 場所, 夜中, 学習, 推移, 数値, 文章, , 昨日, , , 理解, 疑問, 皆さん, 確率, 結果, 自前, 蓄積, 行列, 解析, 訪問者, 説明, 購入, 隣接,

わらわらわら(www)をのけました。キャッシュこワい🙄

2022.08.23

Logging

こんにちは、今日は朝少しサーバーをイジって朝食後、外出しておりました。

まだ、不安定ですがwwwを除けてzip358.comに戻しました。除けた理由は気まぐれです、DNSのキャッシュが意地悪していて切り替えに時間を費やしてしまいましたが、一応無事に変更した形になります。

これが仕事だったら嫌だなって感じます、数ヶ月使用しているとキャッシュがDNSサーバーに蓄積されているので、その切替は各サーバー頼み。特に大企業じゃない限りDNSサーバーのキャッシュを削除してくれないでしょうね。

WEBサイトやWEBアプリを扱っている企業の担当者にとってサイト移行は胃が痛む仕事かと思います。お客様には見えないと言われたり上司からは早く見えるようにしてとか言われたりする場合もありますからね。因みに自分は徐々に移行する方法でサイト移行を済ませます。まずはDBを移行し、その後、ファイルなどを移行しホストを変えてみて上手く動作しているか確認後、IPアドレスを変更するという形です。

尚、メールサーバは大体、以前のサーバーを使用して頂けるならそうして貰います。

零細企業の場合、インフラからバックエンド、フロント全てに関わることもあるので良い経験になります。良い経験ですが大変です、言うがやすし行うは難しです。

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

358, com, db, DNS, web, www, zip, アプリ, いし, お客様, キャッシュ, これ, サーバー, サイト, ファイル, ホスト, , ワラ, 上司, 不安定, 今日, 仕事, 企業, 使用, 削除, 動作, 場合, 変更, 外出, 少し, , , 意地悪, 担当者, , 方法, 時間, , 朝食, 気まぐれ, 無事, 理由, 確認, 移行, , 自分, 蓄積, 限り,

待つということ。

2022.04.05

Logging

おはよう御座います。朝早いですねって言われるかも知れませんが、これは予約投稿なので今は寝ています、たぶん?😌。

okadada DJ set / Lost Decade 9 20161216

何も言わずに待つということは、結果、自分の場合は理になっている事が多い気がする。言わずに待つということは出来ない人もいるかと思います。出来ることに関しては助言したくなる事もあると思いますが、言わずに待つということが大事になるじゃないかなって思います。

特に仕事で前職ではこうしていましたから、こうしたらどうかなどと提案はしない方が良いと思っています。何故なら今まで会社にはそれぞれ社風もあり独自のルールもあり、蓄積(経験)の中からルールが生み出されてきたわけなので、そのルールを変えるというのは非常にリスクが高いと思っています。

なので、自分で経験しそれが適切な提案なのか思案して、そして時を待つことをオススメします。

何処かのタイミングで自分に発言がまわってきた時にいうべき事なのだと思っています。すべての事柄が時を待つというのは違いますが、時を待つというのは大事なコトなのかなって、この頃、改めて思ったので記事として残しときます。

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

おすすめ, こと, これ, すべて, それ, それぞれ, タイミング, リスク, ルール, わけ, , 予約, , 事柄, , , 仕事, 会社, , 何処か, 前職, 助言, 場合, 大事, 思案, 投稿, 提案, , , , , 発言, 社風, 経験, 結果, 自分, 蓄積, , 適切,

昔と今はかなり違っているけど自分にとってはあまり変わらない。

2022.02.27

Logging

おはよう御座います🐔。
今日は暖か陽気になるそうですね。

ここ数年でネットの中にはかなり情報が溜まってきていると印象を抱いている方も多いと思いますが、実際、全ての情報をGさんやYさんなどで検索することは出来ないらしいです。理由は昔と今とは違うから、新しい情報にアクセス出来るようなシステムになっています。特に医療、IT技術などは昔はそうだったけど、今は変わったという事例が多くあるのでネットが始まったときに書いたようなものにはアクセスすることが難しくなっています。

唯一、お店サイトなどは昔ながらのサイトでも上位に表示されたり検索にヒットしないという事はあまりないです。このように分野によって情報の蓄積や上書き度合いは変わります。

レトロなサイトデザインまとめたサイトなどがあるかは知りませんが、あれば一部のコアなファンから支持を得そうですね。ただ、そんなレトロなデザインを見つけるのはかなり大変かなと思います。そんな感じでネットは広大です、過去の情報やサイトに辿り着くことが出来ることは年々難しくなってきています。もう一つ言えることは、昔と今では情報の蓄積量はかなりの差があります。

そのため、正確な情報に辿り着くのも難しくなってきています。真実かどうかを見抜くのは実際に体験するなどの他に、基礎を身につけることがこれから先、大事になってくると思います。基礎を身につけるとその概念(基礎)を元に正確な情報かどうかがある程度、自分の頭で思考でき判断することが出来るからです。なので、基礎を身につける事が大事になってきます。

トイウコトデ、昔と今はかなり違っているけどあまり変わらないでした。
追伸:基礎のアップデートも大事ですよね😌。

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

IT, アクセス, お店, かなり, コア, ここ, こと, サイト, システム, デザイン, とき, ネット, ヒット, ファン, もの, レトロ, 一部, 上位, 上書き, , , 事例, , 今日, 全て, 分野, 医療, 印象, 唯一, 大変, 実際, 度合い, 情報, 感じ, 技術, 支持, , , , 検索, 理由, 自分, 蓄積, 表示, 陽気,

何気にインターネットって凄い検索機能ってすごい発明。

2021.07.29

Logging

先日、停電になって思ったことは電気の大切さとインターネットの偉大さを感じました。自分の場合、頭に蓄積している情報量はあまりないのでネットがないと忽ち非力な人間になってしまいます。このインターネットとインターネットを検索する技術はアインシュタインの相対性理論と同様に人類史上に残る発明であり発見だと思います。今ではほとんどの人がネットで知識を得ることが出来るようになっています。

Year in Search 2020 検索で振り返る

英語圏の人々は特にその恩恵を受けていると思いますし、今そうではなくても数年後にはその恩恵は必ず受けれる環境になると思います。

パソコンやスマホ端末があれば世界中の情報にアクセスすることが可能な社会って凄くないでしょうか?
今回の災い(コロナ)により世界はなんだか一つになりつつあるように感じます、これから先は国という在り方が徐々に変わっていくように思います、その役割をはたしている一つがインターネットであることは間違いないように感じます。

また将来的には今までは国の常識だったものが世界共通の価値観や常識に変わりつつあると感じますし、その時インターネットはとても重要な役割になりそうです。

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

7, BbBKGs, com, https, I-m, watch, www, youtube, アインシュタイン, アクセス, インターネット, こと, これ, コロナ, スマホ, ネット, パソコン, ほとんど, 一つ, 世界, , 人々, 人間, 人類, , 今回, 何気, 停電, , 先日, 可能, 史上, 同様, , 在り方, 場合, 大切, 恩恵, 情報, 技術, , 検索, 機能, 災い, 理論, 環境, 発明, 発見, 相対性, 知識, 社会, 端末, 自分, 英語圏, 蓄積, 電気, 非力, ,

サーバー引っ越して突貫工事。

2020.09.29

Logging

昨日、サーバー引っ越しして突貫工事を行っていました。ことの成り行きを説明するとサーバー移行しようとしてミスってしまった…。画像データのバックアップを取るのを忘れて、サーバーを消しちゃって『あぁ』ってへたってました。数時間、もうこのサイトを消そうかなとか思ったのですが今まで蓄積した、どうしようもないデータ量を無駄にするのは惜しいと思い、数時間後にテキストデータだけさくらレンタルサーバーに移行しました。

今までは別のVPSで動かしていたのですが、なんだかもったいなという気持ちが芽生えてきて元のさくらレンタルサーバーに移行しました。じぶんは結構、サーバーの移行を行います。これは計画的な移行というのはほぼ無くほぼ衝動的なサーバー移行が多いです。なので何の前触れもなくサイトが数時間見えなくなったり、見えづらい状態になったりということが数年間に何回かあります。

本当はもっと良いサーバーを借りたいものですが、収益とサーバー代がとんとんな状態なので、いまは良いサーバーを借りていません。

因みに自分がオススメするレンタルサーバーはXサーバーがしているwpxやかごやサーバーです。wpxは初心者でも簡単にワードプレスが構築できてそれでいて表示も高速です。かごやサーバーは高速化処理などは自分で試行錯誤しなければならないのですが、サービスのなかに回線速度を上げることが出来るオプションがあるので、そちらを使用すると大体のワードプレスは爆速化します。

まぁそんなですが自分はさくらレンタルサーバーでゴニョゴニョするのが好きかな。結構、ゴニョゴニョ細工出来ますよね。

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

VPS, いま, こと, これ, , サーバー, サイト, さくら, じぶん, データ, テキスト, とんとん, バックアップ, ミス, レンタル, , 何回か, , , 前触れ, 収益, 工事, 引っ越し, , 昨日, 本当, 気持ち, 無駄, 状態, 画像, 移行, 突貫, 蓄積, 説明,

未知なること。

2020.09.20

Logging

未知なることには不安がつきまといます。どうすれば良いのかと不安がつきまといます。がんばるぞ?と態度には出ているけど、表情は大丈夫、おいら本当に大丈夫かなという表情を汲み取った一コマ漫画です。

態度とは裏腹に顔に表情が出るひとは損ですね。じぶんもそんな感じです、自身があるものに関しては全然OKと言えるのですが、あまり自身が無いものに関しては不安がつきまといます。

話が飛びますがアカウントを整理しました?、ブログ名を変更しました。原点回帰という奴です。ネットとリアルの境界線を引いた感じです。若干、過去の蓄積があるので微妙に特定できますが、一応自分の中では境界線を引きました。ここ数年、実名でネット活動してきて、やはりネットで活動するには実名は実名としての活動が良いかな。例えばお得意先のひとが見てもむっと思わない振る舞いが良いかなと思います。やはり混合してしまうとやっぱ疲れます。

ぴっしっと分けたほうが良い。もしくはネットではビジネスとしてしか使わないとか、切り分けるほうが実生活も上手くいきますよ。何書いても反感を買う場合があります、例えば相手がじぶんのことを嫌っていたりすると、何しても気に食わないのですね。なのでピッしっと境界線を昨日から今日にかけて構築しました。

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

OK, アカウント, おいら, お得意先, ここ, こと, じぶん, ネット, ビジネス, ひと, ひとは, ブログ, もの, リアル, 一コマ, 不安, , 原点, 回帰, 境界線, 変更, , 実名, 微妙, 感じ, 態度, , , 整理, 未知, 本当, 活動, 混合, 漫画, 特定, 自分, 自身, 若干, 蓄積, 表情, 裏腹, , 過去, ,

ブログで飯が食えない。だがしかし!

2020.07.17

Logging

ブログで飯が食えないですよね。だがしかし!小銭が増えていっています。でもブログ記事はもう4年ぐらいの蓄積データがあるのに、あまりアクセス数がないのが自分としては驚きです。毎日、福沢諭吉さんが1枚ほど入れば良いのになぁと思っています。昨日、このブログをちょっとテコ入れをしたのですが、その結果が吉であること祈りたいです。

ブログぐらいしか、取り柄がありません。プログラムできますがそれをどう活かせば収益を得れるのかがわからないのです。たぶん宝の持ち腐れみたいなものかなと思っています。因みにこのイラストは敢えてダサく作りました。

ブログの攻略が年々難しくなってきているように思えてなりません。Gさんのサイト分析するアルゴリズムは年々、精巧に作られてきていることが分かります。もうブラックハットやホワイトハットとか言っている場合ではない。むしろそんな領域は人工知能の前では通じないのではないかと思えてなりません。

いまSNSからの流動性が高いサイトがおそらく検索上位表示なっている気がします。なので気になった記事があればシェア拡散してください。

あぁお腹空いたーー!

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

, 4, SNS, アクセス, アルゴリズム, いま, イラスト, こと, サイト, それ, データ, テコ入れ, ハット, ブラック, ブログ, プログラム, ホワイト, もの, 人工, 分析, , 収益, 取り柄, , 場合, 宝の持ち腐れ, 小銭, 年々, 攻略, 昨日, 毎日, 流動性, 知能, 福沢諭吉, 精巧, 結果, 自分, 蓄積, 記事, 領域, ,

wordpressの純正機能を使う。取り扱い注意!

2020.05.17

Logging

ワードプレスには更新情報サービスという機能があります。その機能を使うと若干ですがSEO対策になります。こんな事ですが塵も積もれば山となるということわざがあるように、日々の蓄積が大切になります。

http://blog.goo.ne.jp/XMLRPC
http://blogsearch.google.co.jp/ping/RPC2
http://blogsearch.google.com/ping/RPC2
http://ping.bloggers.jp/rpc/
http://ping.blogmura.jp/rpc/
http://ping.exblog.jp/xmlrpc
http://ping.fc2.com/
http://api.my.yahoo.com/RPC2

上記のような感じで更新情報を通知する内容を設定しています。たぶん大体のブロガーさんはこのような設定をワードプレスに設定しています、なので当たり前の作業になるかと思います。アクセス数を増やすとかいう本やサイトにもこのような記載をしている記事なども見かけます。それぐらいのレベルかと思います。

ブラックハット的な技意外は全て行っていたほうが良いと思います。なおを昔も今も変わらないですが、リンクを張ってもらえるのが一番、SEO対策に効果があると言われています。あと今でも人での目視巡回もあるらしいので、結局中身のあるコンテンツを作らないと意味はないらしいですけどね。

【WordPress(ワードプレス)の使い方講座】アフィリエイトサイトの作り方の基礎基本

今でもゼロディみたいに検索アルゴリズムの脆弱性をついてアクセス数を増やすことは可能なんだと思います。因みにいまはサイトの表示内容と表示速度が結構、検索の優位性を生むらしいです、唯これは今だけの話になりそうです。今後、10年ぐらいで消えてしまう話になりそうです。5G通信が普及し、10G通信が当たり前の世界になった時、殆どのサイトは瞬時に表示されることになるからです。最終的に評価の基準になるのはオリジナリティのある記事内容と滞在時間だと思います。

記事を認知してもらうにはリンクやSNSで発信することが大切になると思います。

※なお、記事を何回も更新するとスパム扱いになる場合がありますのでご注意くださいね(*´?`*)

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

https, SEO, WordPress, www, YOUT, アクセス, ことわざ, コンテンツ, サービス, サイト, それぐらい, ハット, ブラック, プレス, ブロガー, リンク, レベル, ワード, 上記, 中身, , , , 作業, 全て, 内容, 効果, , 大体, 大切, 対策, , 巡回, 当たり前, 情報, 意味, 意外, 感じ, , 日々, , 更新, , 機能, 注意, 目視, 純正, 若干, 蓄積, 記事, 記載, 設定, 通知,