Python | スネークケース変換 | 文字列操作

はじめに

Python では、スネークケース（snake case）という命名規則があり、単語はアンダースコアで区切られます。この命名スタイルは、Python の変数、関数、その他の識別子に一般的に使用されます。例えば、calculate_total_price と user_authentication はスネークケースの形式です。

時には、キャメルケース（camelCase）、パスカルケース（PascalCase）、あるいは空白やハイフンを含む文字列など、異なる形式の文字列を扱うことがあります。このような場合、コードの一貫性を保つために、これらの文字列をスネークケースに変換する必要があります。

この実験（Lab）では、様々な形式の文字列をスネークケースに変換する Python 関数を書く方法を学びます。

問題の理解

スネークケースへの変換関数を書く前に、達成すべきことを理解しましょう。

任意の形式の文字列をスネークケースに変換する必要があります。
スネークケースとは、単語間にアンダースコアがあり、すべて小文字の形式です。
異なる入力形式を扱う必要があります。
- キャメルケース（camelCase）（例：camelCase → camel_case）
- 空白を含む文字列（例：some text → some_text）
- 混合形式（ハイフン、アンダースコア、大文字小文字の混合など）の文字列

スネークケース関数用の新しい Python ファイルを作成しましょう。WebIDE でプロジェクトディレクトリに移動し、snake_case.py という名前の新しいファイルを作成します。

## This function will convert a string to snake case
def snake(s):
    ## We'll implement this function step by step
    pass  ## Placeholder for now

## Test with a simple example
if __name__ == "__main__":
    test_string = "helloWorld"
    result = snake(test_string)
    print(f"Original: {test_string}")
    print(f"Snake case: {result}")

このファイルを保存します。次のステップで、関数の実装を始めます。

現時点では、ファイルが正しく設定されていることを確認するために、プレースホルダー関数を実行しましょう。ターミナルを開き、次のコマンドを実行します。

python3 ~/project/snake_case.py

python-prompt

次のような出力が表示されるはずです。

Original: helloWorld
Snake case: None

結果が None となっているのは、現在の関数がデフォルトの Python の None 値を返しているだけだからです。次のステップで、実際の変換ロジックを追加します。

正規表現を使ったパターンマッチング

文字列をスネークケースに変換するために、正規表現（regular expressions, regex）を使って単語の境界を特定します。Python の re モジュールは、このタスクに利用できる強力なパターンマッチング機能を提供しています。

キャメルケースの文字列を扱うように関数を更新しましょう。

まず、小文字の後に大文字が続くパターン（「camelCase」のような）を特定する必要があります。
次に、それらの間に空白を挿入します。
最後に、すべてを小文字に変換し、空白をアンダースコアに置き換えます。

この改良版の関数で snake_case.py ファイルを更新します。

import re

def snake(s):
    ## Replace pattern of a lowercase letter followed by uppercase with lowercase, space, uppercase
    s1 = re.sub('([a-z])([A-Z])', r'\1 \2', s)

    ## Replace spaces with underscores and convert to lowercase
    return s1.lower().replace(' ', '_')

## Test with a simple example
if __name__ == "__main__":
    test_string = "helloWorld"
    result = snake(test_string)
    print(f"Original: {test_string}")
    print(f"Snake case: {result}")

この関数が行っていることを分解してみましょう。

re.sub('([a-z])([A-Z])', r'\1 \2', s) は、小文字 ([a-z]) の後に大文字 ([A-Z]) が続くパターンを探します。そして、このパターンを同じ文字に置き換えるが、キャプチャされたグループを参照する \1 と \2 を使ってそれらの間に空白を追加します。
その後、lower() ですべてを小文字に変換し、空白をアンダースコアに置き換えます。

キャメルケースに対して機能するかどうかを確認するために、スクリプトを再度実行しましょう。

python3 ~/project/snake_case.py

出力は次のようになるはずです。

Original: helloWorld
Snake case: hello_world

素晴らしい！私たちの関数はキャメルケースの文字列を扱えるようになりました。次のステップでは、より複雑なケースを扱うように関数を強化します。

より複雑なパターンの扱い

現在の関数はキャメルケースに対しては機能しますが、以下のような追加のパターンを扱うように強化する必要があります。

パスカルケース（PascalCase）（例：HelloWorld）
ハイフンを含む文字列（例：hello-world）
すでにアンダースコアを含む文字列（例：hello_world）

これらのケースを扱うように関数を更新しましょう。

import re

def snake(s):
    ## Replace hyphens with spaces
    s = s.replace('-', ' ')

    ## Handle PascalCase pattern (sequences of uppercase letters)
    s = re.sub('([A-Z]+)', r' \1', s)

    ## Handle camelCase pattern (lowercase followed by uppercase)
    s = re.sub('([a-z])([A-Z])', r'\1 \2', s)

    ## Split by spaces, join with underscores, and convert to lowercase
    return '_'.join(s.split()).lower()

## Test with multiple examples
if __name__ == "__main__":
    test_strings = [
        "helloWorld",
        "HelloWorld",
        "hello-world",
        "hello_world",
        "some text"
    ]

    for test in test_strings:
        result = snake(test)
        print(f"Original: {test}")
        print(f"Snake case: {result}")
        print("-" * 20)

行った改良点は以下の通りです。

まず、ハイフンをすべて空白に置き換えます。
新しい正規表現 re.sub('([A-Z]+)', r' \1', s) は、連続する大文字の前に空白を追加します。これはパスカルケースの処理に役立ちます。
キャメルケースを扱う正規表現はそのままにしています。
最後に、文字列を空白で分割し、アンダースコアで結合し、小文字に変換します。これにより、残りの空白を処理し、出力を一貫性のあるものにします。

様々な入力形式でテストするために、スクリプトを実行しましょう。

python3 ~/project/snake_case.py

次のような出力が表示されるはずです。

Original: helloWorld
Snake case: hello_world
--------------------
Original: HelloWorld
Snake case: hello_world
--------------------
Original: hello-world
Snake case: hello_world
--------------------
Original: hello_world
Snake case: hello_world
--------------------
Original: some text
Snake case: some_text
--------------------

私たちの関数は現在、より堅牢になり、様々な入力形式を扱うことができるようになりました。次のステップでは、最終的な改良を行い、完全なテストセットに対してテストを行います。

最終実装とテスト

ここで、必要なすべてのケースを扱う実装を完成させ、すべてのテストケースに合格することを確認しましょう。

snake_case.py ファイルを最終実装で更新します。

import re

def snake(s):
    ## Replace hyphens with spaces
    s = s.replace('-', ' ')

    ## Handle PascalCase pattern
    s = re.sub('([A-Z][a-z]+)', r' \1', s)

    ## Handle sequences of uppercase letters
    s = re.sub('([A-Z]+)', r' \1', s)

    ## Split by whitespace and join with underscores
    return '_'.join(s.split()).lower()

## Test with a complex example
if __name__ == "__main__":
    test_string = "some-mixed_string With spaces_underscores-and-hyphens"
    result = snake(test_string)
    print(f"Original: {test_string}")
    print(f"Snake case: {result}")

この最終実装では以下のことを行います。

ハイフンを空白に置き換えます。
re.sub('([A-Z][a-z]+)', r' \1', s) を使って、「Word」のようなパターンの前に空白を追加します。
re.sub('([A-Z]+)', r' \1', s) を使って、連続する大文字の前に空白を追加します。
空白で分割し、アンダースコアで結合し、小文字に変換します。

ここで、セットアップステップで作成したテストセットに対して関数を実行しましょう。

python3 ~/project/test_snake.py

実装が正しければ、次のように表示されるはずです。

All tests passed! Your snake case function works correctly.

おめでとうございます！様々な入力形式を扱うことができる堅牢なスネークケース変換関数を成功させました。

元の問題の例を使って関数をテストすることで、関数が仕様を正確に守っていることを確認しましょう。

## Add this to the end of your snake_case.py file:
if __name__ == "__main__":
    examples = [
        'camelCase',
        'some text',
        'some-mixed_string With spaces_underscores-and-hyphens',
        'AllThe-small Things'
    ]

    for ex in examples:
        result = snake(ex)
        print(f"Original: {ex}")
        print(f"Snake case: {result}")
        print("-" * 20)

更新したスクリプトを実行します。

python3 ~/project/snake_case.py

すべての例が正しくスネークケースに変換されていることが確認できるはずです。

Original: some-mixed_string With spaces_underscores-and-hyphens
Snake case: some_mixed_string_with_spaces_underscores_and_hyphens
Original: camelCase
Snake case: camel_case
--------------------
Original: some text
Snake case: some_text
--------------------
Original: some-mixed_string With spaces_underscores-and-hyphens
Snake case: some_mixed_string_with_spaces_underscores_and_hyphens
--------------------
Original: AllThe-small Things
Snake case: all_the_small_things
--------------------

まとめ

この実験（Lab）では、様々な形式の文字列をスネークケースに変換する Python 関数の作成方法を学びました。以下に達成したことをまとめます。

正規表現を使用してパターンマッチングと文字列変換を行う方法を学びました。
さまざまな入力形式を扱うことができる関数を実装しました。
- キャメルケース（例：camelCase → camel_case）
- パスカルケース（例：HelloWorld → hello_world）
- 空白を含む文字列（例：some text → some_text）
- ハイフンを含む文字列（例：hello-world → hello_world）
- さまざまな区切り文字と大文字小文字の使い方が混在した形式

使用した主要な技術は以下の通りです。

re.sub() を使用したキャプチャグループ付きの正規表現
replace()、lower()、split()、join() などの文字列メソッド
異なる命名規則のパターン認識

これらのスキルは、データクリーニング、テキスト入力の処理、一貫したコーディング標準の維持に役立ちます。異なるケース形式間での変換能力は、異なる命名規則を使用する API やライブラリを扱う際に特に有用です。

Python でのスネークケース変換

はじめに

問題の理解

正規表現を使ったパターンマッチング

より複雑なパターンの扱い

最終実装とテスト

まとめ